统计学中的t检验、f检验、卡方检验

1.1数据的种类

我们都知道，一般数据可以分为两类，即定量数据（数值型数据）和定性数据（非数值型数据），定性数据很好理解，例如人的性别，姓名这些都是定性数据。

定量数据可以分为以下几种：

1.1.1定类数据
表现为类别，但不区分顺序，是由定类尺度计量形成的。一般可以从非数值型数据中编码转换而来，数值本身没有意义，只是为了区分类别做出的数值型标识，比如1表示男性，0表示女性。定类数据无法比较大小，运算符也无意义。

1.1.2定序数据
表现为类别，但有顺序，是由定序尺度计量形成的。运算符也没有意义，例如比赛中的排名，不能说第一名到第二名之前的差距与第二名到第三名之间的差距相等。

1.1.3定距数据
表现为数值，可进行加、减运算，是由定距尺度计量形成的。定距数据的特征是没有绝对的零点，例如温度，不能说10摄氏度的一倍是20摄氏度。因此乘、除法对于定距数据来说也是没有意义的。

1.1.4定比数据
表现为数值，可进行加、减、乘、除运算，是由定比尺度计量形成的。定比数据存在绝对的零点。例如价格，100元的2倍就是200元。

1.2 T检验（T-test）

目的：T检验（T-test）主要是为了比较数据样本之间是否具有显著性的差异。T检验主要通过样本均值的差异进行检验，即两个平均数的差异的比较

T检验适用于：一般用于定量数据的检测（定类数据采用卡方检验）主要用于样本含量较小（例如n<30）

理解过程： 统计学上以“总体间没差别”计算显著性水平H0，拒绝原假设H0的最小显著性水平称为检验的p值，来检验假设的结果。

例如，假设一个班上男女生的成绩不存在差异，显著性水平为0.05，可理解为只有5%的概率会出现“男女生差异显著”的情况，计算出的检验p值若小于0.05，则可以拒绝原假设。反之不能拒绝原假设。

T检验的前提条件：①数据服从正态分布、②方差未知

T检验的三种方式：

独立样本的T检验
检验两组样本的均值是否相等！主要用于定量数据和定类数据的差异关系研究，例如有一个班的学生数据，如果学生的成绩服从正太分布，想要研究身高和成绩的关系，就需要用到该方法，如果不服从正态分布，可采用MannWhitney检验。

Note: 两个独立样本的T检验，通常需要先进行F检验（方差齐次检验），检验两个独立样本的方差是否相同，若两总体方差相等，则直接用t检验，若不等，可采用t’检验（校正T检验）或变量变换或秩和检验等方法。即进行两独立样本的T检验时，需首先验证两样本的方差是否相同。

单一样本的T检验
用于比较一组数据与一个特定数值之间的差异情况，即检验这组数据的均值与已知的总体均值是否相等。

主要用于检验某单一的定量数据差异，例如一个班的成绩是否显著大于70分。同样需要满足正态分布的假设，若不满足可采用单样本Wilcoxon检验。

配对T检验，

用于检验有一定对应关系的两组样本的均值差是否等于某一个值，两组样本数量需要相等。

常见的使用场景有：

①同一对象处理前后的对比（同一组人员采用同一种减肥方法前后的效果对比）；

②同一对象采用两种方法检验的结果的对比（同一组人员分别服用两种减肥药后的效果对比）；

③配对的两个对象分别接受两种处理后的结果对比（两组人员，按照体重进行配对，服用不同的减肥药，对比服药后的两组人员的体重）。

不满足正态分布的话，可采用Wilcoxon检验。

T检验怎么用：

首先要明确检验的目的，是单样本T检验、配对样本T检验还是独立样本T检验。进行正态性检验（方法：正态图、正态性检验、P-P图/Q-Q图等），独立样本还需要进行方差齐性检验，选择合适的检验方法进行检验

1.3 F检验（F-test）

目的:是判断两个样本的总体方差是否相等，计算双总体样本检验的前提条件。

别名：做联合假设检验（英语：joint hypotheses test）、方差比率检验、方差齐性检验。

理解过程：从两个研究总体中随机抽取样本，要对这两个样本进行比较的时候，首先要判断两总体方差是否相同，即方差齐性。若两总体方差相等，则直接用t检验，若不等，可采用t'检验或变量变换或秩和检验等方法。

公式：

主要用于：F检验主要用于方差齐性检验、方差分析、线性回归方程整体的显著性检验。

1.4 卡方检验（chi-square test）

别名：χ2检验

概念：卡方检验(慎与跟卡方分布概念混淆)是种用途很广的计数资料的假设检验方法

目的：用来验证两个总体间某个比率之间是否存在显著性差异。通常针对的数据主要为定类数据

解释：卡方检验属于非参数假设检验，适用于布尔型或二项分布数据。基于两个概率间的比较，主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。

根本思想：在于比较理论频数和实际频数的吻合程度或者拟合优度问题。

计算公式如下：

其中，A为实际值，T为理论值。

X2用于衡量实际值与理论值的差异程度（也就是卡方检验的核心思想），包含了以下两个信息：
1. 实际值与理论值偏差的绝对大小（由于平方的存在，差异是被放大的）
2. 差异程度与理论值的相对大小

卡方检验有什么用：

卡方检验对一列数据进行统计检验，分析单个类别变量实际观测的比例与期望的比例是否一致。

交叉表卡方研究两组类别变量的关系：如性别与看不看直播是否有关系。

配对卡方研究实验过程中，用不同方法检测同一批人，看两个方法的效果是否有显著差异。

卡方检验怎么用：

确定卡方检验的类型

选用合适的方法进行卡方检验

卡方检验注意事项：

需要随机样本数据

理论频数不能太小

卡方检验的结果非常受数据量级的影响

1.5 Kruskal-Wallis（K-W）(简称克氏)检验

在实际生产中,经常比较多组独立数据均值(或者分布)之间的差异性，然而实际数据很难符合正态性，基本都是偏态性，这时很难用参数检验进行分析。作为对样本分布没有太大要求的Kruskal-Wallis (简称克氏)检验，它是一个将两个独立样本Wilcoxon(Mann-Whitney)推广到3个或者更多组的检验。

1.6 Kolmogorov-Smirnov(K-S)分布检验

Kolmogorov-Smirnov(K-S)分布检验是一种非常重要的非参数检验方法。它是一种统计检验方法 ,它通过比较两样本的频率分布，或者一个样本的频率分布与特定理论分布(如正态分布、泊松分布等)之间的差异大小来推论两个分布是否来自同一个分布。

二、相关案例：

2.1 T检验

T检验要求样本满足两个条件：

1、样本服从正态分布。

2、各样本之间是独立的。

2.1.1单样本T检验：

推论差异发生的概率，从而比较两个平均数的差异是否显著。通俗的说就是用样本均数和已知总体均数进行比较，来观察此组样本与总体的差异性。

例子：验证矿泉水瓶容量是否为550ml？

现在有16个矿泉水瓶样本，分别为558、551、542、557、552、547、551、549、548、551、553、557、548、550、546、552

步骤一：计算样本均值

=(558+551+...+552)/8=550.75

步骤二：计算样本标准差

即（（558-550.75)^2+(542-550.75)^2+..)/16=4.25

步骤三：计算统计量

其中，μ为整体均值550，n为样本数16，所以结果为(550.75-550)/(4.25/4)=0.706

步骤四：查表得到理论统计量0.821，与实际统计量0.706对比大小。实际统计量小于理论统计量，说明矿泉水瓶是合格的。从计算公式也能看出来，如果所有样本容量都是550，那么统计量就是0，故统计量越小越好。查表时涉及到置信度和自由度，置信度常见的就是90%、95%、99%这三个，自由度通俗的说就是抽样样本数-1，即15。