推断统计 | 学习笔记

news2024/11/28 14:53:49

一.概率与概率分布

概率论:为解决不确定性问题提供方法

1.随机事件及其概率

基本概念

试验:在相同条件下,对事物或现象所进行的观察。特点是可以在相同的条件下重复进行;每次试验的可能结果不止一个,但试验的所有可能结果在试验之前是确切知道的;在试验结束之前,不能确定该次试验的确切结果

事件:随机试验的每一个可能结果

随机事件:每次试验可能出现也可能不出现的事件

基本事件:实验中每一个可能出现的结果(最简单的事件)

必然事件:每次试验一定出现的事件

不可能事件:每次试验一定不出现的事件

样本空间:一项实验中,可以罗列出实验的所有可能结果(基本事件)的集合

样本点:样本空间中每一个特定的实验结果,是样本空间的组成元素

事件的概率

定义:可能性大小

2.离散型随机变量及其分布

随机变量:一次试验结果的数值性描述。特点是变量的取值是随机的;变量出现某个数值的概率是确定的。根据取值情况的不同分为离散型随机变量和连续型随机变量

分布函数:设X是一随机变量,x是任意实数,则称函数F(x)=P{X<=x}为X的分布函数

离散型随机变量:随机变量X取有限个值或所有取值都可以逐个列举出来X1,X2...以确定的概率取这些不同的值

离散型随机变量的概率分布:列出离散型随机变量X的所有可能取值和随机变量取这些值的概率,然后用表格表示出来

两点分布(0 - 1 分布)

均匀分布

一个离散型随机变量取各个值的概率相同

列出随机变量取值及其取值的概率

二项分布

n重伯努利试验满足下列条件:

一次实验只有两种结果,即成功和失败,这里的成功是指感兴趣的某种特征

一次实验成功的概率是p,失败的概率是q=1-p,而且概率p对每次实验都是相同的

实验是相互独立的

实验可以重复进行n次

在n次试验中,成功的次数对应一个离散型随机变量

泊松分布

所考察的事件在任意两个长度相等的区间里发生一次的机会均等

所考察的事件在任何一个区间里发生与否和在其它区间里发生与否没有相互影响,即是独立的 

泊松分布另一个重要用途是作为二项概率分布的近似。对一个n重伯努利实验,p代表每次伯努利实验成功的概率,当实验次数n相对很大,成功概率p相对很小,而乘积np大小适中时,泊松分布的一般表达式与二项分布的一般表达式近似相等

3.连续型随机变量及其分布

连续型随机变量:随机变量X取无限个值,所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点

连续型随机变量的概率分布:连续型随机变量可以取某一区间或整个实数轴上的任意一个值,它取任何一个特定值的概率都等于0,不能列出每一个值及其相应的概率,通常研究它取某一区间值的概率

正态分布

描述连续型随机变量的最重要的分布

可用于近似离散型随机变量的分布(例:二项分布)

经典统计推断的基础

正态分布是概率论中最重要的一种分布,大量的自然现象,经济现象和社会现象,看似毫无规则,但它们总体上都服从或近似服从正态分布

通常若影响某一随机现象的因素很多,且其中又没有哪种因素的影响起决定性作用,则该随机现象就服从或近似服从正态分布(中心极限定理),这是统计推断中通常可以假定总体服从正态分布的原因

标准正态分布 

二.统计量及其抽样分布

1.统计量

用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数

是样本的一个函数,统计推断的基础

常用统计量

2.由正态分布导出的几个重要分布

抽样分布:样本统计量的概率分布,是一种理论分布。在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布;样本统计量是随机变量;结果来自容量相同的所有可能样本;提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据

 

3.样本均值的分布与中心极限定理

4.抽样分布 

样本比例:指样本中具有某种特征的单位所占的比例

样本比例的抽样分布:所有样本比例的可能取值形成的概率分布

三.参数估计

1.参数估计的一般问题

估计量:用于估计总体参数的随机变量

估计值:估计参数时计算出来的统计量的具体值

点估计:用一个特定样本对总体未知参数所作的估计,仅是所有可能估计值中的一个点。目的是根据样本数据求出非常接近于总体参数的估计值。局限性是无法给出估计值接近总体参数程度的信息,由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值

区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到,根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。基本步骤是确定待估参数和置信水平(置信度),置信水平由1-α给出,α称为显著性水平,置信度越高,置信区间越大 → 确定估计量,并找出估计量的抽样分布 → 利用股计量的抽样分布,给出置信区间

置信区间:由样本统计量所构造的总体参数的估计区间

置信水平:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例

评价估计量的标准:无偏性(估计量的数学期望等于被估计的总体参数),有效性(对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效),一致性(随着样本容量增大,估计量越来越接近被估计的总体参数)

2.一个总体参数的区间估计

3.两个总体参数的区间估计

4.样本量的确定

基本原则:在满足所需的置信度和允许误差条件(置信区间的d值)下,确定所需的最低样本容量

四.假设检验

概念:先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程

类型:有参数检验和非参数检验

特点:逻辑上运用反证法,统计上依据小概率原理

基本思想:小概率事件原理(小概率事件在一次试验中基本上不会发生)

统计推断方法:带有某种概率性质的反证法(先提出检验假设,再用适当的统计方法,利用小概率原理,确定假设是否成立。即为了检验一个假设H0是否正确,首先假设该假设H0正确,然后根据样本对假设H0做出接受或拒绝的决策。如果样本观察值导致了小概率事件发生,就应该拒绝假设H0,否则不拒绝假设H0)

1.步骤

①提出原假设H0和备择假设H1

②从所研究的总体中抽出一个随机样本

③确定适当的检验统计量,并利用样本数据算出其具体数值

④规定显著性水平α,并计算出其临界值,指定拒绝域

⑤计算检验统计量的值

⑥利用P值做出统计决策

2.一个总体参数的检验

3.总体均值的检验 

4.总体比例的检验

5.总体方差的检验 

 6.两个总体参数的检验 

7.两个总体均值之差的检验(独立大样本) 

 

8.两个总体比例之差的检验 

9.两个总体方差比的检验 

10. 两类错误(决策风险)

第一类错误:弃真错误,原假设为真时拒绝原假设,第一类错误概率为α,被称为显著性水平

第二类错误:取伪错误,原假设为假时接受原假设,第二类错误概率为β

两类错误的控制

 一般来说,对于一个给定的样本,如果犯第一类错误的代价比犯第二类错误的代价相对较高,则将犯第一类错误的概率定得低些较为合理

一般来说,发生哪一类错误的后果更为严重,就应该首要控制哪类错误发生的概率。但由犯第一类错误的概率是可以由研究者控制的,因此在假设检验中,人们往往先控制第一类错误的发生概率

11.P-value

如果原假设为真,所得到的样本结果会像实际观测结果那么极端或者更极端的概率

P值告诉我们:如果原假设是正确的话,我们得到目前这个样本数据的可能性有多大,如果这可能新很小,就应该拒绝原假设

被称为观察到的(或实测的)显著性水平

决策规则:若P值<α,拒绝H0

12.参数估计和假设检验的区别和联系

①区别

参数估计是以样本信息估计总体参数的可能范围,假设检验是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立

区间估计求得的是求以样本估计值为中心的双侧置信区间,假设检验既有双侧检验,又有单侧检验

区间估计立足于大概率,通常以较大的可信度(1-a)去估计总体参数的置信区间。假设检验立足于小概率,通常是给定很小的显著性水平a去检验总体参数的先验假设是否正确

②联系

都是根据样本信息推断总体参数

都以抽样分布为理论依据,建立在概率论基础之上的推断,推断结果都有风险

对同一问题的参数进行推断,使用同一样本,同一统计量,同一分布,两者可相互转换

13.单双侧检验的区别

单侧检验可以分为左单侧检验(下限检验)和右单侧检验(上限检验),它们都只有一个拒绝区域

双侧检验的目的是观察在规定的显著性水平下所抽取的样本估计量是否显著高于或低于假设的总体参数

备择假设具有特定的方向性,并含有“<”或“>”的假设检验,称为单侧检验或单尾检验

备择假设没有特定的方向性,并含有符号“≠”的假设检验,称为双侧检验或双尾检验

在单侧检验中,由于研究者感兴趣的方向不同,又可以分为左侧检验和右侧检验

14.显著性水平的局限性

显著性水平α是在实验之前确定的,这也就意味着我们事先确定了拒绝域

不论检验统计量的值是大还是小,只要它的值落入拒绝域就拒绝原假设,否则不拒绝原假设

这种固定的显著性水平α对检验结果的可靠性起一种度量作用。但不足的是,α是犯第一类错误的上限控制值,它只能提供检验结论可靠性的一个大致范围,而对于一个特定的假设检验问题,却无法给出观测数据与原假设之间不一致程度的精确度量,也就是说,仅从显著性水平比较,若选择的α值相同,所有的检验结果的可靠性都一样

15.P值较小时为什么要拒绝原假设?

P值是指在原假设为真的条件下,检验统计量的观察值大于或等于其计算值的概率

P值是反映实际观测到的数据与原假设H0之间不一致程度的一个概率值。P值越小,说明实际观测到的数据与H0之间不一致的程度就越大,检验的结果也就越显著

16.显著性水平与P值的区别

α的含义是当原假设正确时却被拒绝的概率或风险,即假设检验中放弃真错误的概率,是有人们根据检验的要求确定的,通常α = 0.05 或 0.01。而P值是原假设为真时所得到的样本观察结果或更极端结果出现的概率,它通过计算得到的,P值的大小取决于三个因素:样本数据与原假设之间的差异,样本量,被假设数据的总体分布

α只能提供检验结论的可靠性的一个大致范围,而对于一个特定的假设检验为题,却无法给出观测数据与原假设之间不一致程度的精确度量。即仅从显著性水平来比较,如果选择的α值相同,所有检查结果的可靠性都一样。而P值可以测量出样本观察数据与原假设中假设的值的偏离程度

五.分类数据分析

1.分类数据与卡方统计量

分类数据的观测值以类别的形式出现,具体观测数值反映出的是相应类别出现的次数

分类数据的统计分析

①适合度检验:目的是检验所观察到的次数或频数分配是否与理论上的或者所期望的分布一致

②独立性检验:目的是通过一个样本得到的两个类别变量的观测值,来检验这两个类别变量之间是否具有相互关联

③同质性检验:目的是检验在不同总体之间,对同一个变量的反应或次数分配是否具有显著差异

④改变的方向性检验:目的是检验同一个总体在某一政策或事件的影响下,次数分配是否发生显著变化

卡方检验基本原理

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小

如果卡方值越大,二者偏差程度就越大,若两个值完全相等时,卡方值为0,表明理论值完全符合

用于变量间拟合优度检验和独立性检验

卡方统计量

 

检验步骤 

2.拟合优度检验

又称为适合度检验,目的是检验所观察到的次数或频数分配是否与理论上的或者所期望的分布一致

特点:检验的内容仅涉及一个变量,是一种单因子检验

拟合优度检验是检验期望频数和观察频数是否有显著性差异

3.列联分析:独立性检验

相关性分析方法

定性变量之间的相关性分析:列联表检验,相应分析

定性与定量之间的相关性分析:方差分析,多重比较

定量变量之间的相关性分析:相关系数,回归分析

相关性分析研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度

相关分析是一种简单易行的测量定量数据之间的关系情况的分析方法,可以分析包括变量间的关系情况以及关系强弱程度等

列联表

独立性检验

4.列联表中的相关度量

相关系数常见有三类

pearson相关系数:定量数据,数据满足正态性时

spearman等级相关系数:定量数据,数据不满足正态性时

kendall相关系数:定量数据一致性判断

列联表中的相关测量

列联相关系数

5.V相关系数 

六.方差分析

1.方差分析

在生产经营管理过程中,我们常常会遇到需要对两个或两个以上总体均值是否存在显著差别进行检验的问题,从而判断某一种因素对我们研究的对象是否产生了显著的影响。方差分析是解决这类问题的一种很好的统计分析方法

方差分析是指检验多个总体均值是否相等的统计方法,所采用的方法就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。它研究的是多个总体均值是否相等的统计方法,但本质是研究分类型自变量对数值型因变量的影响

相关术语

因素/因子:所要检验的对象

水平/处理:因子的不同表现

观察值:在每个因素水平下得到的样本数据

总体:因素的每一个水平可以看作是一个总体

样本数据:被投诉次数可以看作是从这些总体中抽取的样本数据

基本思想和原理

通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小

方差分析将一组样本数据所发生的总变差,依可能引发变差的来源分解成若干个部分,即将总变差的每一部分归因于某种原因,而这些原因分为若干种因素的影响和随机误差的影响。通过测度这些不同原因所导致的变差是否存在差异,来判断总体均值之间是否存在显著差异

两类误差

①随机误差:在因素的同一水平(同一个总体)下,样本的各观察值之间的差异

②系统误差:在因素的不同水平(不同总体)下,各观察值之间的差异

误差平方和

数据的误差用平方和表示

组内平方和:因素的同一水平下数据误差的平方和,只包含随机误差

组间平方和:因素的不同水平之间数据误差的平方和,包括随机误差和系统误差

均方

平方和除以相应的自由度

若原假设成立,组间均方和组内均方的数值就应该很接近,它们的比值就会接近1

若原假设不成立,组间均方会大于组内均方,它们之间的比值就会大于1

当这个比值大到某种程度时,就可以说不同水平之间存在显著差异,即自变量对因变量有影响

内容

单因素方差分析,双因素方差分析

基本假定

每个总体都应该服从正态分布:对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本

各个总体的方差必须相同:各组观察数据是从具有相同方差的总体中抽取的

观察值是独立的

问题的一般提法

方差分析的一般步骤

①建立方差分析的数学模型

②检查方差分析的前提条件是否成立

③建立检验的原假设和备择假设

④根据样本值计算检验统计量F

⑤做出方差分析表

⑥根据F检验结果做出决策

2.单因素方差分析

分析步骤

①提出假设

②构造检验统计量

需要计算:水平的均值,全部观察值的总均值,误差平方和,均方

③统计决策

关系强度的测量

方差分析中的多重比较

通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异

可采用Fisher提出的最小显著差异方法,简写为LSD

LSD方法是对检验两个总体均值是否相等的t检验方法的总体方差估计加以修正(用MSE来代替)而得到的

多重比较的步骤

3.双因素方差分析

双因素方差分析及其类型

方差分析中涉及两个分类型自变量

基本假定:每个总体都服从正态分布,对于因素的每一个水平,其观察值是来自正态分布总体的简单随机样本;各个总体的方差必须相同,对于各组观察数据,是从具有相同方差的总体中抽取的;观察值是独立的

无交互作用的双因素方差分析:如果两个因素对试验结果的影响是相互独立的,分别判断行因素和列因素对试验数据的影响

有交互作用的双因素方差分析:如果除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生一种新的影响

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/85491.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

l2a股接口的委托队列有什么作用?

l2a股接口的委托队列是Level 2行情特有的功能&#xff0c;如下图&#xff0c;在传统交易页面中&#xff0c;可以看到个股封板涨停有35994手&#xff0c;但是不能具体看到各笔委托单的数量&#xff0c;不利于我们甄别究竟是主力在强势封板还是散户在跟风。 而在Level 2行情中可以…

高性能、强稳定的工业级服务器冗余方案是怎样的?

前言 服务器是工业数据采集与上位机进行通信的枢纽&#xff0c;一旦遭到攻击或者出现连接不稳定的情况&#xff0c;导致断开连接&#xff0c;工厂就会出现非计划性的停机停产。这种情况带来的损失是难以估量的。因此&#xff0c;为了保障自动化生产的稳定可控&#xff0c;服务…

关于Detectron库预训练模型的权重转换

关于Detectron库预训练模型的权重转换 最近在调试代码的过程中涉及到detectron库的使用&#xff0c;在模型训练前&#xff0c;主干网络的部分需要加载预训练模型&#xff0c;但是原始的预训练模型在detron库中的代码是不能直接使用的&#xff0c;需要通过转换工具对模型的键值…

Sentinel服务熔断降级

除了流量控制以外&#xff0c;对调用链路中不稳定的资源进行熔断降级也是保障高可用的重要措施之一。一个服务常常会调用别的模块&#xff0c;可能是另外的一个远程服务、数据库&#xff0c;或者第三方 API 等。例如&#xff0c;支付的时候&#xff0c;可能需要远程调用银联提供…

Redis Lua脚本 Debug

Redis 编程接口之Lua脚本 Redis 使用Lua脚本和Redis Functions扩展其功能。Redis提供编程接口&#xff0c;允许开发者在服务器执行自定义的脚本&#xff0c;对于不同的版本&#xff0c;实现的方式略有不同 Redis 7 及以上版本 使用Redis Functions 管理、运行脚本Redis 6.2及…

【20天快速掌握Python】day02-数据类型转换及运算符

1、数据类型转换 函数说明int(x [,base ])将x转换为一个整数float(x)将x转换为一个浮点数str(x)将对象 x 转换为字符串bool(x)将对象x转换成为布尔值转换成为整数 print(int("123")) # 123 将字符串转换成为整数 print(int(123.78)) # 123 将浮点数转换成为整数 …

腾讯云存储产品全线升级,满足更多高性能存储场景

数字经济时代&#xff0c;诞生了海量数据资源&#xff0c;促使数据存储技术也在不断推陈出新。12月1日&#xff0c;在2022腾讯全球数字生态大会存储专场上&#xff0c;腾讯云发布了多款云存储产品能力上新&#xff0c;并对分布式存储、高性能存储、日志大数据、云原生数据湖等产…

CMSIS hal库 标准库 pack(芯片支持包)

ARM Cortex™ 微控制器软件接口标准(CMSIS&#xff1a;Cortex Microcontroller Software Interface Standard) 是 Cortex-M 处理器系列的与供应商无关的硬件抽象层 CMSIS英文全称Common Microcontroller Software Interface Standard&#xff0c;☞通用微控制器软件接口标准&a…

OAuth2.0介绍

1. OAuth2.0介绍 OAuth&#xff08;开放授权&#xff09;是一个开放标准&#xff0c;允许用户授权第三方应用访问他们存储在另外的服务提供者上的信息&#xff0c;而不需要将用户名和密码提供给第三方应用或分享他们数据的所有内容。OAuth2.0是OAuth协议的延续版本&#xff0…

【蓝桥杯选拔赛真题51】Scratch赛车训练 少儿编程scratch图形化编程 蓝桥杯选拔赛真题讲解

目录 scratch赛车训练 一、题目要求 编程实现 二、案例分析 1、角色分析

python解决 某文库禁用文段批量下载 并保存到文档

嗨害大家好鸭&#xff01; 我是小熊猫鸭~ 大家是不是在写毕业论文的时候 需要参考某一段的内容 要用到复制粘贴&#xff0c;但是吧&#xff0c;某文库就需要付费&#xff0c; 就老难受了… 我们今天就来解决这个"老难受" 源码、资料点击此处 环境使用&#xff1…

项目实战案例丨教辅机构信息化平台跟着这个做

一. 基本简介 最近正值计算机专业的小伙伴忙着整理毕业设计&#xff0c;有不少童靴问辉哥&#xff0c;有没有合适的项目作为毕业设计项目。恰好辉哥这里就有一个适合作为毕设的项目&#xff0c;那么辉哥就写一篇文章&#xff0c;聊聊这个项目&#xff0c;希望可以对有需要的你…

照片怎么制作动态照片?这篇文章教会你如何制作

大家不知道有没有在网上刷到过一些本来是静态的照片&#xff0c;可照片里的局部却能够动起来的动态图片&#xff0c;我看完后觉得这种特效很神奇&#xff0c;既有趣又不会有违和感。那你想知道动态照片怎么制作吗&#xff1f;今天我就来给大家介绍一下制作动态图片的具体方法&a…

基于JWT用户认证分析

在前后端分离开发时为什么需要用户认证呢&#xff1f;原因是由于HTTP协定是不储存状态的(stateless)&#xff0c;这意味着当我们透过帐号密码验证一个使用者时&#xff0c;当下一个request请求时它就把刚刚的资料忘了。 于是我们的程序就不知道谁是谁&#xff0c;就要再验证一…

Spring Security 认证授权(一)

1.基本概念1.1.什么是认证 进入移动互联网时代&#xff0c;大家每天都在刷手机&#xff0c;常用的软件有微信、支付宝、头条等&#xff0c;下边拿微信来举例子说明认证相关的基本概念&#xff0c;在初次使用微信前需要注册成为微信用户&#xff0c;然后输入账号和密码即可登录微…

大二毕设.1-学生信息管理系统

目录 技术选型: 功能概括: 可扩展性良好&#xff0c;添加其余操作无非是多加点信息&#xff0c;重复编码改数据罢 版本: 基本演示 功能实现讲解 登录校验 可调整每页条数的分页显示与增删查改 不会造成偷窃的部分web代码 技术选型: 前端: Vue Element UI后端: Spring…

喜报|众享链网荣获第二届中国可信区块链安全攻防大赛优秀案例奖

近日&#xff0c;第二届中国可信区块链安全攻防大赛决赛在成都成功举办并圆满落幕。经过预赛初审、预赛复审的层层选拔&#xff0c;众享链网脱颖而出&#xff0c;成功进入赛道三“原创自主区块链平台优秀应用案例评选比赛”总决赛环节&#xff0c;荣获优秀案例奖&#xff0c;入…

[附源码]计算机毕业设计的桌游信息管理系统Springboot程序

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; Springboot mybatis MavenVue等等组成&#xff0c;B/S模式…

弗洛伊德算法(Floyd)的实现与可视化其最短路径

弗洛伊德算法Floyd是针对多源路径找出最短的路径&#xff0c;其中数据结构会使用到前面介绍过的邻接矩阵&#xff0c;有兴趣的可以先查阅&#xff1a;图数据结构之邻接矩阵Adjacency Matrix(Python版) 先了解这个邻接矩阵然后再回看本文章也可以。 区别在于这里我们介绍的是带…

浅撸一下spring源码---大致内容实现

手写spring-模拟spring 1&#xff0c;普及一个小知识 UserService.class Component public class UserService{public void test(){ System.out.println("test") }}Test.classpublic class Test{public static void main(String[] args){AnnotationConfigApplicati…