1.什么是卡方检验
卡方检验是一种用途很广的假设检验方法,属于非参数检验的范畴。
主要是比较两个或两个以上样本率以及两个分类变量的关联性分析。
根本思想是在于比较理论频次与实际频次的吻合程度或拟合优度问题。
分子代表了实际值与期望值的偏差,而分母则是标准化过程。因此卡方的值越小,表示观测值与期望值(理论值) 越接近,说明两个变量之间越符合卡方分布。而卡方分布的前提是变量之间相互独立,因此卡方值越小,越表示两个变量之间独立。
我们以经典的四格表为例,看看卡方检验的基本流程
1.建立假设检验,原假设一般都是变量之间相互独立。
2.计算期望频次。
3.代入卡方统计公式计算卡方值。
4.计算自由度。
5.查表,比较卡方值或者P值或者α \alphaα值。
————————————————
通过上表可以看出来,自由度为1,显著性水平为0.05,当卡方值<3.84的时候,可以接受原假设,即变量之间没有相关性。卡方值越小,不相关的概率越大。现在卡方值远大于3.84,说明两者不相关的概率很小,即抽烟与肺癌有关。
5.P-value
P值,也就是常见到的 P-value。P 值是一种概率,指的是在 H0 假设为真的前提下,样本结果出现的概率。如果 P-value 很小,则说明在原假设为真的前提下,样本结果出现的概率很小,甚至很极端,这就反过来说明了原假设很大概率是错误的。通常,会设置一个显著性水平(significance level)α \alphaα与 P-value 进行比较。如果P − v a l u e < α P-value < \alphaP−value<α ,则说明在显著性水平 α \alphaα 下拒绝原假设。
————————————————
举例说明:
研究职业与咖啡口味的关系时,如果关心的是职业与咖啡是否有关系,则应进行独立性检验。随机抽取一个人群样本后,将职业和咖啡口味分为不同的组,形成列联表进行检验。
研究是不同职业组对不同咖啡口味的要求是否一致,则应进行一致性检验。在不同职业组中进行抽样。把每一个职业组作为一个类别,检验在不同咖啡口味上的分布是否一致。
卡方检验 (Chi-square test / Chi-square goodness-of-fit test)_dqhl1990的博客-CSDN博客