- 列联表:用于展示两个或多个分类变量之间频数关系的表格。——常用于描述性分析
- 卡方检验:通过实际频数和期望频数(零假设为真情况下的频数),反映了观察频数与期望频数之间的差异程度,来评估两个变量是否独立,即是否有关联。——常用于假设检验
步骤
1、建立列联表、零假设
首先建立零假设,假设两个分类变量没有关联,是独立的。
零假设(H0):两个变量相互独立
备择假设(H1):两个变量之间存在关联
2、计算期望频数
期望频数:在零假设(两个变量独立)为真的情况下预期频数。
计算公式=(行总数×列总数)/总样本量
3、计算卡方统计量
- 卡方概率值(P值):在零假设为真的情况下,观察到当前统计量值或更极端情况的概率。
- P值越小,表明观察到的数据与零假设之间的不一致性越大,因此提供了更强的证据来拒绝零假设。
- 在卡方检验中,如果P值小于或等于事先设定的显著性水平(例如0.05),则通常拒绝零假设,认为两个变量之间存在关联。
- 公式:CHISQ.TEST(实际频数范围,期望频数范围)
- 卡方统计量:量化了观察频数与期望频数间的差异。
- 卡方统计量的值越大,表明观察频数与期望频数之间的差异越大,从而提供了更多的证据来拒绝零假设。
- 公式:SUM((实际频数范围-期望频数范围)^2/期望频数范围),按ctrl+shift+enter组合键完成
4、确认显著性水平、自由度,计算临界值
- 显著性水平:(通常用α表示)是你愿意犯第一类错误(错误地拒绝零假设)的概率。常见的显著性水平有0.05、0.01等。
- 自由度=(行分类数−1)×(列分类数−1)
- 临界值:excel中可以用CHISQ.INV 函数(返回具有给定概率的左尾x2 分布的区间点)查找。
- 计算临界值:CHISQ.INV(显著性水平,自由度)
5、比较卡方统计量跟临界值,确认检验结果
当卡方统计量>临界值时,拒绝两种属性不相关的假设。
当卡方统计量<=临界值时,接受两种属性不相关的假设。
公式:IF(B15>B19, “拒绝两种属性不相关的假设”, “接受两种属性不相关的假设”)