一.概率与概率分布
概率论:为解决不确定性问题提供方法
1.随机事件及其概率
基本概念
试验:在相同条件下,对事物或现象所进行的观察。特点是可以在相同的条件下重复进行;每次试验的可能结果不止一个,但试验的所有可能结果在试验之前是确切知道的;在试验结束之前,不能确定该次试验的确切结果
事件:随机试验的每一个可能结果
随机事件:每次试验可能出现也可能不出现的事件
基本事件:实验中每一个可能出现的结果(最简单的事件)
必然事件:每次试验一定出现的事件
不可能事件:每次试验一定不出现的事件
样本空间:一项实验中,可以罗列出实验的所有可能结果(基本事件)的集合
样本点:样本空间中每一个特定的实验结果,是样本空间的组成元素
事件的概率
定义:可能性大小
2.离散型随机变量及其分布
随机变量:一次试验结果的数值性描述。特点是变量的取值是随机的;变量出现某个数值的概率是确定的。根据取值情况的不同分为离散型随机变量和连续型随机变量
分布函数:设X是一随机变量,x是任意实数,则称函数F(x)=P{X<=x}为X的分布函数
离散型随机变量:随机变量X取有限个值或所有取值都可以逐个列举出来X1,X2...以确定的概率取这些不同的值
离散型随机变量的概率分布:列出离散型随机变量X的所有可能取值和随机变量取这些值的概率,然后用表格表示出来
两点分布(0 - 1 分布)
均匀分布
一个离散型随机变量取各个值的概率相同
列出随机变量取值及其取值的概率
二项分布
n重伯努利试验满足下列条件:
一次实验只有两种结果,即成功和失败,这里的成功是指感兴趣的某种特征
一次实验成功的概率是p,失败的概率是q=1-p,而且概率p对每次实验都是相同的
实验是相互独立的
实验可以重复进行n次
在n次试验中,成功的次数对应一个离散型随机变量
泊松分布
所考察的事件在任意两个长度相等的区间里发生一次的机会均等
所考察的事件在任何一个区间里发生与否和在其它区间里发生与否没有相互影响,即是独立的
泊松分布另一个重要用途是作为二项概率分布的近似。对一个n重伯努利实验,p代表每次伯努利实验成功的概率,当实验次数n相对很大,成功概率p相对很小,而乘积np大小适中时,泊松分布的一般表达式与二项分布的一般表达式近似相等
3.连续型随机变量及其分布
连续型随机变量:随机变量X取无限个值,所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点
连续型随机变量的概率分布:连续型随机变量可以取某一区间或整个实数轴上的任意一个值,它取任何一个特定值的概率都等于0,不能列出每一个值及其相应的概率,通常研究它取某一区间值的概率
正态分布
描述连续型随机变量的最重要的分布
可用于近似离散型随机变量的分布(例:二项分布)
经典统计推断的基础
正态分布是概率论中最重要的一种分布,大量的自然现象,经济现象和社会现象,看似毫无规则,但它们总体上都服从或近似服从正态分布
通常若影响某一随机现象的因素很多,且其中又没有哪种因素的影响起决定性作用,则该随机现象就服从或近似服从正态分布(中心极限定理),这是统计推断中通常可以假定总体服从正态分布的原因
标准正态分布
二.统计量及其抽样分布
1.统计量
用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数
是样本的一个函数,统计推断的基础
常用统计量
2.由正态分布导出的几个重要分布
抽样分布:样本统计量的概率分布,是一种理论分布。在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布;样本统计量是随机变量;结果来自容量相同的所有可能样本;提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据
3.样本均值的分布与中心极限定理
4.抽样分布
样本比例:指样本中具有某种特征的单位所占的比例
样本比例的抽样分布:所有样本比例的可能取值形成的概率分布
三.参数估计
1.参数估计的一般问题
估计量:用于估计总体参数的随机变量
估计值:估计参数时计算出来的统计量的具体值
点估计:用一个特定样本对总体未知参数所作的估计,仅是所有可能估计值中的一个点。目的是根据样本数据求出非常接近于总体参数的估计值。局限性是无法给出估计值接近总体参数程度的信息,由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值
区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到,根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。基本步骤是确定待估参数和置信水平(置信度),置信水平由1-α给出,α称为显著性水平,置信度越高,置信区间越大 → 确定估计量,并找出估计量的抽样分布 → 利用股计量的抽样分布,给出置信区间
置信区间:由样本统计量所构造的总体参数的估计区间
置信水平:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例
评价估计量的标准:无偏性(估计量的数学期望等于被估计的总体参数),有效性(对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效),一致性(随着样本容量增大,估计量越来越接近被估计的总体参数)
2.一个总体参数的区间估计
3.两个总体参数的区间估计
4.样本量的确定
基本原则:在满足所需的置信度和允许误差条件(置信区间的d值)下,确定所需的最低样本容量
四.假设检验
概念:先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程
类型:有参数检验和非参数检验
特点:逻辑上运用反证法,统计上依据小概率原理
基本思想:小概率事件原理(小概率事件在一次试验中基本上不会发生)
统计推断方法:带有某种概率性质的反证法(先提出检验假设,再用适当的统计方法,利用小概率原理,确定假设是否成立。即为了检验一个假设H0是否正确,首先假设该假设H0正确,然后根据样本对假设H0做出接受或拒绝的决策。如果样本观察值导致了小概率事件发生,就应该拒绝假设H0,否则不拒绝假设H0)
1.步骤
①提出原假设H0和备择假设H1
②从所研究的总体中抽出一个随机样本
③确定适当的检验统计量,并利用样本数据算出其具体数值
④规定显著性水平α,并计算出其临界值,指定拒绝域
⑤计算检验统计量的值
⑥利用P值做出统计决策
2.一个总体参数的检验
3.总体均值的检验
4.总体比例的检验
5.总体方差的检验
6.两个总体参数的检验
7.两个总体均值之差的检验(独立大样本)
8.两个总体比例之差的检验
9.两个总体方差比的检验
10. 两类错误(决策风险)
第一类错误:弃真错误,原假设为真时拒绝原假设,第一类错误概率为α,被称为显著性水平
第二类错误:取伪错误,原假设为假时接受原假设,第二类错误概率为β
两类错误的控制
一般来说,对于一个给定的样本,如果犯第一类错误的代价比犯第二类错误的代价相对较高,则将犯第一类错误的概率定得低些较为合理
一般来说,发生哪一类错误的后果更为严重,就应该首要控制哪类错误发生的概率。但由犯第一类错误的概率是可以由研究者控制的,因此在假设检验中,人们往往先控制第一类错误的发生概率
11.P-value
如果原假设为真,所得到的样本结果会像实际观测结果那么极端或者更极端的概率
P值告诉我们:如果原假设是正确的话,我们得到目前这个样本数据的可能性有多大,如果这可能新很小,就应该拒绝原假设
被称为观察到的(或实测的)显著性水平
决策规则:若P值<α,拒绝H0
12.参数估计和假设检验的区别和联系
①区别
参数估计是以样本信息估计总体参数的可能范围,假设检验是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立
区间估计求得的是求以样本估计值为中心的双侧置信区间,假设检验既有双侧检验,又有单侧检验
区间估计立足于大概率,通常以较大的可信度(1-a)去估计总体参数的置信区间。假设检验立足于小概率,通常是给定很小的显著性水平a去检验总体参数的先验假设是否正确
②联系
都是根据样本信息推断总体参数
都以抽样分布为理论依据,建立在概率论基础之上的推断,推断结果都有风险
对同一问题的参数进行推断,使用同一样本,同一统计量,同一分布,两者可相互转换
13.单双侧检验的区别
单侧检验可以分为左单侧检验(下限检验)和右单侧检验(上限检验),它们都只有一个拒绝区域
双侧检验的目的是观察在规定的显著性水平下所抽取的样本估计量是否显著高于或低于假设的总体参数
备择假设具有特定的方向性,并含有“<”或“>”的假设检验,称为单侧检验或单尾检验
备择假设没有特定的方向性,并含有符号“≠”的假设检验,称为双侧检验或双尾检验
在单侧检验中,由于研究者感兴趣的方向不同,又可以分为左侧检验和右侧检验
14.显著性水平的局限性
显著性水平α是在实验之前确定的,这也就意味着我们事先确定了拒绝域
不论检验统计量的值是大还是小,只要它的值落入拒绝域就拒绝原假设,否则不拒绝原假设
这种固定的显著性水平α对检验结果的可靠性起一种度量作用。但不足的是,α是犯第一类错误的上限控制值,它只能提供检验结论可靠性的一个大致范围,而对于一个特定的假设检验问题,却无法给出观测数据与原假设之间不一致程度的精确度量,也就是说,仅从显著性水平比较,若选择的α值相同,所有的检验结果的可靠性都一样
15.P值较小时为什么要拒绝原假设?
P值是指在原假设为真的条件下,检验统计量的观察值大于或等于其计算值的概率
P值是反映实际观测到的数据与原假设H0之间不一致程度的一个概率值。P值越小,说明实际观测到的数据与H0之间不一致的程度就越大,检验的结果也就越显著
16.显著性水平与P值的区别
α的含义是当原假设正确时却被拒绝的概率或风险,即假设检验中放弃真错误的概率,是有人们根据检验的要求确定的,通常α = 0.05 或 0.01。而P值是原假设为真时所得到的样本观察结果或更极端结果出现的概率,它通过计算得到的,P值的大小取决于三个因素:样本数据与原假设之间的差异,样本量,被假设数据的总体分布
α只能提供检验结论的可靠性的一个大致范围,而对于一个特定的假设检验为题,却无法给出观测数据与原假设之间不一致程度的精确度量。即仅从显著性水平来比较,如果选择的α值相同,所有检查结果的可靠性都一样。而P值可以测量出样本观察数据与原假设中假设的值的偏离程度
五.分类数据分析
1.分类数据与卡方统计量
分类数据的观测值以类别的形式出现,具体观测数值反映出的是相应类别出现的次数
分类数据的统计分析
①适合度检验:目的是检验所观察到的次数或频数分配是否与理论上的或者所期望的分布一致
②独立性检验:目的是通过一个样本得到的两个类别变量的观测值,来检验这两个类别变量之间是否具有相互关联
③同质性检验:目的是检验在不同总体之间,对同一个变量的反应或次数分配是否具有显著差异
④改变的方向性检验:目的是检验同一个总体在某一政策或事件的影响下,次数分配是否发生显著变化
卡方检验基本原理
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小
如果卡方值越大,二者偏差程度就越大,若两个值完全相等时,卡方值为0,表明理论值完全符合
用于变量间拟合优度检验和独立性检验
卡方统计量
检验步骤
2.拟合优度检验
又称为适合度检验,目的是检验所观察到的次数或频数分配是否与理论上的或者所期望的分布一致
特点:检验的内容仅涉及一个变量,是一种单因子检验
拟合优度检验是检验期望频数和观察频数是否有显著性差异
3.列联分析:独立性检验
相关性分析方法
定性变量之间的相关性分析:列联表检验,相应分析
定性与定量之间的相关性分析:方差分析,多重比较
定量变量之间的相关性分析:相关系数,回归分析
相关性分析研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度
相关分析是一种简单易行的测量定量数据之间的关系情况的分析方法,可以分析包括变量间的关系情况以及关系强弱程度等
列联表
独立性检验
4.列联表中的相关度量
相关系数常见有三类
pearson相关系数:定量数据,数据满足正态性时
spearman等级相关系数:定量数据,数据不满足正态性时
kendall相关系数:定量数据一致性判断
列联表中的相关测量
列联相关系数
5.V相关系数
六.方差分析
1.方差分析
在生产经营管理过程中,我们常常会遇到需要对两个或两个以上总体均值是否存在显著差别进行检验的问题,从而判断某一种因素对我们研究的对象是否产生了显著的影响。方差分析是解决这类问题的一种很好的统计分析方法
方差分析是指检验多个总体均值是否相等的统计方法,所采用的方法就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。它研究的是多个总体均值是否相等的统计方法,但本质是研究分类型自变量对数值型因变量的影响
相关术语
因素/因子:所要检验的对象
水平/处理:因子的不同表现
观察值:在每个因素水平下得到的样本数据
总体:因素的每一个水平可以看作是一个总体
样本数据:被投诉次数可以看作是从这些总体中抽取的样本数据
基本思想和原理
通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小
方差分析将一组样本数据所发生的总变差,依可能引发变差的来源分解成若干个部分,即将总变差的每一部分归因于某种原因,而这些原因分为若干种因素的影响和随机误差的影响。通过测度这些不同原因所导致的变差是否存在差异,来判断总体均值之间是否存在显著差异
两类误差
①随机误差:在因素的同一水平(同一个总体)下,样本的各观察值之间的差异
②系统误差:在因素的不同水平(不同总体)下,各观察值之间的差异
误差平方和
数据的误差用平方和表示
组内平方和:因素的同一水平下数据误差的平方和,只包含随机误差
组间平方和:因素的不同水平之间数据误差的平方和,包括随机误差和系统误差
均方
平方和除以相应的自由度
若原假设成立,组间均方和组内均方的数值就应该很接近,它们的比值就会接近1
若原假设不成立,组间均方会大于组内均方,它们之间的比值就会大于1
当这个比值大到某种程度时,就可以说不同水平之间存在显著差异,即自变量对因变量有影响
内容
单因素方差分析,双因素方差分析
基本假定
每个总体都应该服从正态分布:对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本
各个总体的方差必须相同:各组观察数据是从具有相同方差的总体中抽取的
观察值是独立的
问题的一般提法
方差分析的一般步骤
①建立方差分析的数学模型
②检查方差分析的前提条件是否成立
③建立检验的原假设和备择假设
④根据样本值计算检验统计量F
⑤做出方差分析表
⑥根据F检验结果做出决策
2.单因素方差分析
分析步骤
①提出假设
②构造检验统计量
需要计算:水平的均值,全部观察值的总均值,误差平方和,均方
③统计决策
关系强度的测量
方差分析中的多重比较
通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异
可采用Fisher提出的最小显著差异方法,简写为LSD
LSD方法是对检验两个总体均值是否相等的t检验方法的总体方差估计加以修正(用MSE来代替)而得到的
多重比较的步骤
3.双因素方差分析
双因素方差分析及其类型
方差分析中涉及两个分类型自变量
基本假定:每个总体都服从正态分布,对于因素的每一个水平,其观察值是来自正态分布总体的简单随机样本;各个总体的方差必须相同,对于各组观察数据,是从具有相同方差的总体中抽取的;观察值是独立的
无交互作用的双因素方差分析:如果两个因素对试验结果的影响是相互独立的,分别判断行因素和列因素对试验数据的影响
有交互作用的双因素方差分析:如果除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生一种新的影响