参考资料:生物统计学
卡方检验(chi-square test)又称检验,是英国数理统计学家Karl Pearson推导出来的,该方法是处理分类变量或离散型数据的一类重要方法。分类变量或离散型数据时生物学和医学领域常见的数据类型。
1、卡方检验的基本原理
卡方检验主要是分析分类资料的观测数(O)与根据某种理论分布或者之前已经建立的公认频数分布所期望的理论数(E)之间的差异显著性;也可以进一步推广用于比较两个或多个观测数的分布,比较这些差异是否是由抽样误差造成的。
与参数检验一样,卡方检验也需要构建统计量来度量观测数与理论数的差异。利用观测数与理论数差值的平方和无疑能够体现这种差异,但它没有考虑理论数不同时对结果的影响。未消除理论数不同的影响,对每一项差值平方均以其理论数为标准进行标准化处理,然后求和,得到检验统计量。该统计量近似服从卡方分布:
零假设为:
备择假设为:
计算出卡方统计量并与相应自由度及显著水平的卡方临界值进行比较,确定接受还是否定零假设,并作出观测数和理论数是否具有差异显著的推断。
2、卡方检验注意事项
(1)次数资料的卡方检验是基于近似卡方分布建立的,要求样本是随机抽取获得的,系统抽样的数据不能进行卡方检验。
(2)卡方检验是对次数资料的检验,对连续性数据进行检验时,需将其进行分组计数后才能进行。
(3)卡方检验要求样本容量大于40,否则需要Fisher精确概率法进行检验。
(4)卡方检验一般要求理论数不小于5。当理论数小于5时,其数量不能超过数据总数的20%,否则对数据进行归并处理。
(5)当自由度df=1时,卡方值需要进行连续性的矫正:
(6)当频率或者构成比的总体分布已知时,宜用参数检验方法进行检验,总体分布未知时,用卡方检验。
(7)卡方检验容易犯第Ⅱ类错误,在接受原假设时,应注意其检验效能。
卡方检验有两种类型:独立性检验和适合性检验。独立性检验用于分析两个或多个因素之间是否有关联。适合性检验用于分析观测数分布是否符合某种理论分布。