1.1数据的种类
我们都知道,一般数据可以分为两类,即定量数据(数值型数据)和定性数据(非数值型数据),定性数据很好理解,例如人的性别,姓名这些都是定性数据。
定量数据可以分为以下几种:
1.1.1定类数据
表现为类别,但不区分顺序,是由定类尺度计量形成的。一般可以从非数值型数据中编码转换而来,数值本身没有意义,只是为了区分类别做出的数值型标识,比如1表示男性,0表示女性。定类数据无法比较大小,运算符也无意义。
1.1.2定序数据
表现为类别,但有顺序,是由定序尺度计量形成的。运算符也没有意义,例如比赛中的排名,不能说第一名到第二名之前的差距与第二名到第三名之间的差距相等。
1.1.3定距数据
表现为数值,可进行加、减运算,是由定距尺度计量形成的。定距数据的特征是没有绝对的零点,例如温度,不能说10摄氏度的一倍是20摄氏度。因此乘、除法对于定距数据来说也是没有意义的。
1.1.4定比数据
表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。定比数据存在绝对的零点。例如价格,100元的2倍就是200元。
1.2 T检验(T-test)
目的:T检验(T-test)主要是为了比较数据样本之间是否具有显著性的差异。T检验主要通过样本均值的差异进行检验,即两个平均数的差异的比较
T检验适用于:一般用于定量数据的检测(定类数据采用卡方检验)主要用于样本含量较小(例如n<30)
理解过程: 统计学上以“总体间没差别”计算显著性水平H0,拒绝原假设H0的最小显著性水平称为检验的p值,来检验假设的结果。
例如,假设一个班上男女生的成绩不存在差异,显著性水平为0.05,可理解为只有5%的概率会出现“男女生差异显著”的情况,计算出的检验p值若小于0.05,则可以拒绝原假设。反之不能拒绝原假设。
T检验的前提条件:①数据服从正态分布、②方差未知
T检验的三种方式:
独立样本的T检验
检验两组样本的均值是否相等!主要用于定量数据和定类数据的差异关系研究,例如有一个班的学生数据,如果学生的成绩服从正太分布,想要研究身高和成绩的关系,就需要用到该方法,如果不服从正态分布,可采用MannWhitney检验。
Note: 两个独立样本的T检验,通常需要先进行F检验(方差齐次检验),检验两个独立样本的方差是否相同,若两总体方差相等,则直接用t检验,若不等,可采用t’检验(校正T检验)或变量变换或秩和检验等方法。即进行两独立样本的T检验时,需首先验证两样本的方差是否相同。
单一样本的T检验
用于比较一组数据与一个特定数值之间的差异情况,即检验这组数据的均值与已知的总体均值是否相等。
主要用于检验某单一的定量数据差异,例如一个班的成绩是否显著大于70分。同样需要满足正态分布的假设,若不满足可采用单样本Wilcoxon检验。
配对T检验,
用于检验有一定对应关系的两组样本的均值差是否等于某一个值,两组样本数量需要相等。
常见的使用场景有:
①同一对象处理前后的对比(同一组人员采用同一种减肥方法前后的效果对比);
②同一对象采用两种方法检验的结果的对比(同一组人员分别服用两种减肥药后的效果对比);
③配对的两个对象分别接受两种处理后的结果对比(两组人员,按照体重进行配对,服用不同的减肥药,对比服药后的两组人员的体重)。
不满足正态分布的话,可采用Wilcoxon检验。
T检验怎么用:
首先要明确检验的目的,是单样本T检验、配对样本T检验还是独立样本T检验。进行正态性检验(方法:正态图、正态性检验、P-P图/Q-Q图等),独立样本还需要进行方差齐性检验,选择合适的检验方法进行检验
1.3 F检验(F-test)
目的:是判断两个样本的总体方差是否相等,计算双总体样本检验的前提条件。
别名:做联合假设检验(英语:joint hypotheses test)、方差比率检验、方差齐性检验。
理解过程:从两个研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用t'检验或变量变换或秩和检验等方法。
公式:
主要用于:F检验主要用于方差齐性检验、方差分析、线性回归方程整体的显著性检验。
1.4 卡方检验(chi-square test)
别名:χ2检验
概念:卡方检验(慎与跟卡方分布概念混淆)是种用途很广的计数资料的假设检验方法
目的:用来验证两个总体间某个比率之间是否存在显著性差异。通常针对的数据主要为定类数据
解释:卡方检验属于非参数假设检验,适用于布尔型或二项分布数据。基于两个概率间的比较,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。
根本思想:在于比较理论频数和实际频数的吻合程度或者拟合优度问题。
计算公式如下:
其中,A为实际值,T为理论值。
X2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:
1. 实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)
2. 差异程度与理论值的相对大小
卡方检验有什么用:
卡方检验对一列数据进行统计检验,分析单个类别变量实际观测的比例与期望的比例是否一致。
交叉表卡方研究两组类别变量的关系:如性别与看不看直播是否有关系。
配对卡方研究实验过程中,用不同方法检测同一批人,看两个方法的效果是否有显著差异。
卡方检验怎么用:
确定卡方检验的类型
选用合适的方法进行卡方检验
卡方检验注意事项:
需要随机样本数据
理论频数不能太小
卡方检验的结果非常受数据量级的影响
1.5 Kruskal-Wallis(K-W)(简称克氏)检验
在实际生产中,经常比较多组独立数据均值(或者分布)之间的差异性,然而实际数据很难符合正态性,基本都是偏态性,这时很难用参数检验进行分析。作为对样本分布没有太大要求的Kruskal-Wallis (简称克氏)检验,它是一个将两个独立样本Wilcoxon(Mann-Whitney)推广到3个或者更多组的检验。
1.6 Kolmogorov-Smirnov(K-S)分布检验
Kolmogorov-Smirnov(K-S)分布检验是一种非常重要的非参数检验方法。它是一种统计检验方法 ,它通过比较两样本的频率分布,或者一个样本的频率分布与特定理论分布(如正态分布、泊松分布等)之间的差异大小来推论两个分布是否来自同一个分布。
二、相关案例:
2.1 T检验
T检验要求样本满足两个条件:
1、样本服从正态分布。
2、各样本之间是独立的。
2.1.1单样本T检验:
推论差异发生的概率,从而比较两个平均数的差异是否显著。通俗的说就是用样本均数和已知总体均数进行比较,来观察此组样本与总体的差异性。
例子:验证矿泉水瓶容量是否为550ml?
现在有16个矿泉水瓶样本,分别为558、551、542、557、552、547、551、549、548、551、553、557、548、550、546、552
步骤一:计算样本均值
=(558+551+...+552)/8=550.75
步骤二:计算样本标准差
即((558-550.75)^2+(542-550.75)^2+..)/16=4.25
步骤三:计算统计量
其中,μ为整体均值550,n为样本数16,所以结果为(550.75-550)/(4.25/4)=0.706
步骤四:查表得到理论统计量0.821,与实际统计量0.706对比大小。实际统计量小于理论统计量,说明矿泉水瓶是合格的。从计算公式也能看出来,如果所有样本容量都是550,那么统计量就是0,故统计量越小越好。查表时涉及到置信度和自由度,置信度常见的就是90%、95%、99%这三个,自由度通俗的说就是抽样样本数-1,即15。
2.1.2独立样本T检验:
检验两组非相关样本数据的差异性。
例子:验证两个不同生产间生产的矿泉水瓶容量的差异。再来一组16个矿泉水瓶样本,分别为555、553...
计算公式如下:
t为统计量,
代表两组数据的均值,
n1、n2代表样本数,
S12、S22代表两组数组的方差。
从计算公式能看出来,t越小则两组数据差异性越小。具体多小就根据置信度和自由度查表对比理论统计量的大小得出两组数据差异性是否显著。
2.1.3 配对样本T检验:
检验一组样本数据在不同条件或不同时间下的差异性。它是单样本T检验的扩展版。
例子:验证同一个生产间上一月与下一月生产的矿泉水瓶容量的差异。
假设有一个生产间
7月生产的4个矿泉水瓶容量为551、553、549、547。
8月生产的4个矿泉水瓶容量为552、553、548、547。
步骤一、计算两组样本数据差值d,即551-552,553-553,549-548,547-547
步骤二、计算差值d的平均值 即(-1+0+1+0)/4=0
步骤三、计算差值d的标准差
步骤四、计算统计量t,计算公式为
其中μ为理论总体差值均值0(同一生产间生产的两组产品应该是一样大的),n为样本数4。同样的,t也是越小越说明差异性不显著,具体多小就根据置信度和自由度查表对比理论统计量的大小得出两组数据差异性是否显著。对比单样本T检验,可以看出它们的计算过程是很相似的。
2.2 F检验:
判断两组数据是否存在显著差异。
步骤一:分别计算两组样本数据的均值
步骤二:分别计算两组样本数据的标准方差的平方
步骤三:计算两组样本数据标准方差的平方比
把平方大的作为分子,小的作为分母。得到F值后根据两组数据的自由度和置信度查表对比,同样的,F值也是越小越说明差异性不显著。
2.3卡方检验:
统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
例子:一枚硬币投50次,根据观察结果判断硬币是否均横,即正反面出现概率是否一样。
正 | 反 | |
实际次数 | 28 | 22 |
理论次数 | 25 | 25 |
卡方值计算公式:
即(28-25)^2/25+(22-25)^2/25=0.72,再根据自由度和置信度查表对比,此处自由度跟T检验不一样,它是(表格行数-1)*(表格列数-1)=(2-1)*(2-1)=1。同样的,卡方值也是越小越说明差异性不显著。
F检验和T检验都是定量检验,F检验比T检验计算更简单,卡方检验是定类检验。
统计学中的t检验 、f检验、卡方检验、K-S检验、K-W检验及相关案例 - 知乎