Wilcoxon符号秩检验
Wilcoxon符号秩检验(Wilcoxon Signed-Rank Test) 是一种非参数统计方法,用于检验两组相关样本(配对样本)之间的差异是否显著。它通常用来代替配对样本t检验,特别是在数据不符合正态分布或者样本量较小的情况下。与配对样本t检验不同,Wilcoxon符号秩检验不依赖于数据的正态性假设,而是基于数据的秩次(rank)进行计算。
Wilcoxon符号秩检验的背景和适用情况
-
非参数检验:Wilcoxon符号秩检验属于非参数检验方法,这意味着它不要求数据必须服从特定的分布(如正态分布)。因此,当样本数据无法满足正态性假设时,Wilcoxon检验提供了一个稳健的替代方案。
-
应用场景:它通常用于检验相同个体或单位在两种条件下的测量值是否存在显著差异。常见的应用场景包括:
- 治疗前后数据的比较(如药物治疗前后血压的变化)。
- 相同受试者在不同时间点或不同条件下的测量结果。
-
替代配对样本t检验:当数据的分布不符合正态性时,或者样本量非常小,配对样本t检验可能不适用。这时,Wilcoxon符号秩检验作为一种无分布假设的检验方法更为适用。
代码
代码解析:
wilcox.test(purchase ~ 编组, data = data1, alternative = "two.sided")
参数解释:
purchase ~ 编组
:这是一个 公式(formula),用于指定要比较的变量和分组变量。purchase
是因变量(依赖变量),表示购买数据(可能是购买的金额、次数或其他相关数据)。编组
是分组变量(自变量),表示不同的组或类别(例如,可能是“组1”和“组2”)。
data = data1
:指定使用的数据框data1
,其中包含了purchase
和编组
两列数据。alternative = "two.sided"
:指定检验的类型为 双尾检验,即检验两个组的中位数是否存在显著差异,方向不确定(与单尾检验的假设相对)。
检验类型:
- Wilcoxon秩和检验(又叫做 Mann-Whitney U 检验)用于比较两组独立样本的分布差异。它不要求数据服从正态分布,适用于数据不满足正态性假设的情况。
alternative = "two.sided"
表示这是一个 双尾检验,目的是判断两个组的中位数是否存在显著差异。检验的原假设是:“两个组的中位数相等”,备择假设是:“两个组的中位数不相等”。
输出解释:
Wilcoxon rank sum test with continuity correction
data: purchase by 编组
W = 10228, p-value = 0.0001133
alternative hypothesis: true location shift is not equal to 0
1. 检验类型:
Wilcoxon rank sum test with continuity correction
:表示使用了 Wilcoxon秩和检验,并且应用了 连续性修正(continuity correction)。在某些情况下,Wilcoxon检验会对结果进行修正以提高准确性,特别是样本量较小或者数据呈现离散分布时。
2. W 统计量:
W = 10228
:这是 Wilcoxon秩和检验的统计量,即根据数据的秩次计算得出的统计量。该值用于评估两个组是否有显著差异。W值越大或越小,意味着两组差异越明显。
3. p值:
p-value = 0.0001133
:这是检验的 p值。它表示在零假设(两个组的中位数相等)的前提下,观察到或更极端的结果出现的概率。- p值小于显著性水平(如 0.05) 时,拒绝零假设,表示两组之间存在显著差异。
- 在这个例子中,
p-value = 0.0001133
,远小于 0.05,因此我们可以拒绝零假设,认为两个组的中位数存在显著差异。
4. 备择假设:
alternative hypothesis: true location shift is not equal to 0
:表示 备择假设 是“两个组的中位数存在显著差异”,也就是“两个组的 位置变化 不等于 0”。- 由于
alternative = "two.sided"
,备择假设是“两个组的中位数不相等”。 - 如果 p值小于显著性水平(如 0.05),我们会拒绝零假设,接受备择假设。
- 由于
总结
- 检验目的:使用 Wilcoxon秩和检验,检验
purchase
变量在不同分组(由编组
变量划分的组)之间是否存在显著差异。 - 结果解读:
W = 10228
是秩和检验的统计量。p-value = 0.0001133
显示出非常显著的差异(p值远小于0.05),因此我们可以拒绝零假设,即认为两个组的中位数存在显著差异。
- 结论:根据该检验结果,我们得出结论,
purchase
变量在不同编组
下有显著差异。
与经典的t检验的区别:
- t检验(通常用于正态分布数据)假设数据来自正态分布,而 Wilcoxon秩和检验 是一种非参数方法,不要求数据服从正态分布,因此适用于数据分布未知或不满足正态性假设的情况。