机器学习系列—深入探索弗里德曼检验：非参数统计分析的利器

news2025/4/27 16:59:48

🌟🌟 欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。

🚀 探索专栏：学步_技术的首页 —— 持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。

🔍 技术导航：

人工智能：深入探讨人工智能领域核心技术。
自动驾驶：分享自动驾驶领域核心技术和实战经验。
环境配置：分享Linux环境下相关技术领域环境配置所遇到的问题解决经验。
图像生成：分享图像生成领域核心技术和实战经验。
虚拟现实技术：分享虚拟现实技术领域核心技术和实战经验。

🌈 非常期待在这个数字世界里与您相遇，一起学习、探讨、成长。不要忘了订阅本专栏，让我们的技术之旅不再孤单！

💖💖💖 ✨✨ 欢迎关注和订阅，一起开启技术探索之旅！ ✨✨

文章目录

1. 背景介绍
2. 弗里德曼检验原理
3. 使用场景
4. 样例数据及代码
5. 总结

1. 背景介绍

在数据分析领域，我们经常遇到需要比较多个相关样本均值的场景。当数据不符合正态分布或方差齐性时，传统的方差分析（ANOVA）就不再适用。这时，非参数统计方法就显得尤为重要，其中弗里德曼检验（Friedman test）就是一种用于多个相关样本比较的非参数检验方法。
在这里插入图片描述

2. 弗里德曼检验原理

弗里德曼检验的基本思想是将原始数据转换为排名（rank），然后利用这些排名来评估不同组之间的差异是否具有统计学意义。这种方法不依赖于数据的具体分布，因此对数据的分布形态要求不严格。

在传统的参数统计方法中，如ANOVA，数据的正态分布假设是一个关键前提。然而，在现实世界中，数据往往不遵循完美的正态分布，这时候就需要非参数方法来避免对数据分布的强假设。弗里德曼检验通过将原始数据转换为排名，有效地去除了数据分布形态的影响，使得检验结果更加可靠。

数据排名：首先对每个组内的观测值进行排名。如果多个观测值相同，则分配平均排名。例如，如果两个最大的观测值相等，它们将共享排名第一的位置。
计算排名和：接着计算每个组的排名总和。这一步骤体现了各组在整体中的相对表现。
构建检验统计量：利用各组的排名和，构建弗里德曼检验的统计量，该统计量反映了组间差异的程度。
确定显著性水平：通过比较检验统计量与理论分布（通常是卡方分布）的临界值，确定是否存在统计学上的显著差异。
多重比较：如果检验结果表明存在显著差异，可以进一步使用事后多重比较方法来识别哪些具体组别之间存在差异。

这张图描述的是弗里德曼检验（Friedman test）的基本原理和计算步骤。以下是涉及的原理和公式的详细解释：

弗里德曼检验用于比较多个方法或模型在多个数据集或实验条件下的平均性能是否存在显著差异。它是一种基于排名的非参数统计方法。

零假设（Null Hypothesis, ( H_0 )）:假设用于比较的多个方法或模型的性能相当，即它们之间没有显著差异。
假设条件：
- 有 ( N ) 个数据集。
- 有 ( K ) 个模型。
- 这些模型在 ( N ) 个数据集上的测试结果形成一个 ( [N, K] ) 维的结果矩阵。
计算步骤：
- Step 1: 计算序值矩阵及Rank值
  - 对于每份数据集，根据模型的性能（如准确率）进行升序排序，并为每个模型分配一个序数值（rank）。性能最高的模型获得最高的序数值。
  - 如果有模型性能相同，它们的序数值取平均，但要保持序数值的总和不变。
- Step 2: 计算统计量
  - 计算每个模型的Rank值，记第 ( i ) 个模型在第 ( j ) 个数据集上的序值为 ( rank_{i,j} )。
  - 计算每个模型的Rank总和 ( R_i )，然后使用以下公式计算弗里德曼统计量 ( T^2 )：
    $T^2 = \frac{12}{N \times K \times (k + 1)} \sum_{i=1}^{k} \left(\frac{R_i}{N} - \frac{k+1}{2}\right)^2$ ,
    其中，( R_i ) 是模型 ( i ) 的Rank总和，( N ) 是数据集数量，( K ) 是模型数量。
- 改进统计量 ( T_F )：为了更正 ( T^2 ) 统计量的偏差，可以使用以下改进公式：
  $T_F = \frac{(N - 1)T^2}{N(k - 1) - T^2}$ .
显著性检验：
- 计算出的 ( T^2 ) 或 ( T_F ) 统计量与卡方分布进行比较，以确定是否存在统计学上的显著差异。如果统计量超过了卡方分布的临界值，则拒绝零假设，认为至少有两个模型的性能存在显著差异。
结果解释：
- 如果 ( p ) 值小于显著性水平（如 0.05），则认为模型间存在显著差异。
- 如果 ( p ) 值大于或等于显著性水平，则没有足够证据拒绝零假设，即认为模型间没有显著差异。

3. 使用场景

弗里德曼检验适用于以下场景：

数据不满足正态分布。
样本量较小且数据分布不明确。
存在重复测量或相关样本。

4. 样例数据及代码

假设我们进行了一个关于不同教学方法对学生学习效果的研究，收集了以下数据：

学生	传统教学	互动式教学	在线教学
A	70	80	75
B	60	70	65
C	75	85	80

我们可以使用Python的scipy库来执行弗里德曼检验：

import scipy.stats as stats

# 样例数据
data = [
    [70, 80, 75],  # 学生A的数据
    [60, 70, 65],  # 学生B的数据
    [75, 85, 80]   # 学生C的数据
]

# 执行弗里德曼检验
chi2, p_value = stats.friedmanchisquare(*data)

print(f"Chi-squared: {chi2}, P-value: {p_value}")

统计结果分析：如果得到的p值小于常用的显著性水平（例如0.05），则我们拒绝原假设，认为至少有两个组之间存在显著差异。反之，如果p值较大，则没有足够的证据拒绝原假设，即认为各组间差异不显著。

5. 总结

弗里德曼检验作为一种强大的非参数统计工具，为我们提供了一种在不满足传统参数检验条件下分析数据的方法。它简单、易于实现，并且可以提供关于数据分布和组间差异的宝贵信息。在实际应用中，我们应该根据数据的特性和研究目的选择合适的统计方法。

🌟 在这篇博文的旅程中，感谢您的陪伴与阅读。如果内容对您有所启发或帮助，请不要吝啬您的点赞 👍🏻，这是对我最大的鼓励和支持。

📚 本人虽致力于提供准确且深入的技术分享，但学识有限，难免会有疏漏之处。如有不足或错误，恳请各位业界同仁在评论区留下宝贵意见，您的批评指正是我不断进步的动力！😄😄😄

💖💖💖 如果您发现这篇博文对您的研究或工作有所裨益，请不吝点赞、收藏，或分享给更多需要的朋友，让知识的力量传播得更远。

🔥🔥🔥 “Stay Hungry, Stay Foolish” —— 求知的道路永无止境，让我们保持渴望与初心，面对挑战，勇往直前。无论前路多么漫长，只要我们坚持不懈，终将抵达目的地。🌙🌙🌙

👋🏻 在此，我也邀请您加入我的技术交流社区，共同探讨、学习和成长。让我们携手并进，共创辉煌！