机器学习系列—深入探索弗里德曼检验:非参数统计分析的利器

news2024/9/23 1:35:58

🌟🌟 欢迎来到我的技术小筑,一个专为技术探索者打造的交流空间。在这里,我们不仅分享代码的智慧,还探讨技术的深度与广度。无论您是资深开发者还是技术新手,这里都有一片属于您的天空。让我们在知识的海洋中一起航行,共同成长,探索技术的无限可能。

🚀 探索专栏:学步_技术的首页 —— 持续学习,不断进步,让学习成为我们共同的习惯,让总结成为我们前进的动力。

🔍 技术导航:

  • 人工智能:深入探讨人工智能领域核心技术。
  • 自动驾驶:分享自动驾驶领域核心技术和实战经验。
  • 环境配置:分享Linux环境下相关技术领域环境配置所遇到的问题解决经验。
  • 图像生成:分享图像生成领域核心技术和实战经验。
  • 虚拟现实技术:分享虚拟现实技术领域核心技术和实战经验。

🌈 非常期待在这个数字世界里与您相遇,一起学习、探讨、成长。不要忘了订阅本专栏,让我们的技术之旅不再孤单!

💖💖💖 ✨✨ 欢迎关注和订阅,一起开启技术探索之旅! ✨✨

文章目录

  • 1. 背景介绍
  • 2. 弗里德曼检验原理
  • 3. 使用场景
  • 4. 样例数据及代码
  • 5. 总结

1. 背景介绍

在数据分析领域,我们经常遇到需要比较多个相关样本均值的场景。当数据不符合正态分布或方差齐性时,传统的方差分析(ANOVA)就不再适用。这时,非参数统计方法就显得尤为重要,其中弗里德曼检验(Friedman test)就是一种用于多个相关样本比较的非参数检验方法。
在这里插入图片描述

2. 弗里德曼检验原理

弗里德曼检验的基本思想是将原始数据转换为排名(rank),然后利用这些排名来评估不同组之间的差异是否具有统计学意义。这种方法不依赖于数据的具体分布,因此对数据的分布形态要求不严格。

在传统的参数统计方法中,如ANOVA,数据的正态分布假设是一个关键前提。然而,在现实世界中,数据往往不遵循完美的正态分布,这时候就需要非参数方法来避免对数据分布的强假设。弗里德曼检验通过将原始数据转换为排名,有效地去除了数据分布形态的影响,使得检验结果更加可靠。

  • 数据排名:首先对每个组内的观测值进行排名。如果多个观测值相同,则分配平均排名。例如,如果两个最大的观测值相等,它们将共享排名第一的位置。

  • 计算排名和:接着计算每个组的排名总和。这一步骤体现了各组在整体中的相对表现。

  • 构建检验统计量:利用各组的排名和,构建弗里德曼检验的统计量,该统计量反映了组间差异的程度。

  • 确定显著性水平:通过比较检验统计量与理论分布(通常是卡方分布)的临界值,确定是否存在统计学上的显著差异。

  • 多重比较:如果检验结果表明存在显著差异,可以进一步使用事后多重比较方法来识别哪些具体组别之间存在差异。

这张图描述的是弗里德曼检验(Friedman test)的基本原理和计算步骤。以下是涉及的原理和公式的详细解释:

弗里德曼检验用于比较多个方法或模型在多个数据集或实验条件下的平均性能是否存在显著差异。它是一种基于排名的非参数统计方法。

  • 零假设(Null Hypothesis, ( H_0 )):假设用于比较的多个方法或模型的性能相当,即它们之间没有显著差异。
  • 假设条件:
    • 有 ( N ) 个数据集。
    • 有 ( K ) 个模型。
    • 这些模型在 ( N ) 个数据集上的测试结果形成一个 ( [N, K] ) 维的结果矩阵。
  • 计算步骤:
    • Step 1: 计算序值矩阵及Rank值
      • 对于每份数据集,根据模型的性能(如准确率)进行升序排序,并为每个模型分配一个序数值(rank)。性能最高的模型获得最高的序数值。
      • 如果有模型性能相同,它们的序数值取平均,但要保持序数值的总和不变。
    • Step 2: 计算统计量
      • 计算每个模型的Rank值,记第 ( i ) 个模型在第 ( j ) 个数据集上的序值为 ( rank_{i,j} )。
      • 计算每个模型的Rank总和 ( R_i ),然后使用以下公式计算弗里德曼统计量 ( T^2 ):
        T 2 = 12 N × K × ( k + 1 ) ∑ i = 1 k ( R i N − k + 1 2 ) 2 T^2 = \frac{12}{N \times K \times (k + 1)} \sum_{i=1}^{k} \left(\frac{R_i}{N} - \frac{k+1}{2}\right)^2 T2=N×K×(k+1)12i=1k(NRi2k+1)2,
        其中,( R_i ) 是模型 ( i ) 的Rank总和,( N ) 是数据集数量,( K ) 是模型数量。
    • 改进统计量 ( T_F ):为了更正 ( T^2 ) 统计量的偏差,可以使用以下改进公式:
      T F = ( N − 1 ) T 2 N ( k − 1 ) − T 2 T_F = \frac{(N - 1)T^2}{N(k - 1) - T^2} TF=N(k1)T2(N1)T2.
  • 显著性检验:
    • 计算出的 ( T^2 ) 或 ( T_F ) 统计量与卡方分布进行比较,以确定是否存在统计学上的显著差异。如果统计量超过了卡方分布的临界值,则拒绝零假设,认为至少有两个模型的性能存在显著差异。
  • 结果解释:
    • 如果 ( p ) 值小于显著性水平(如 0.05),则认为模型间存在显著差异。
    • 如果 ( p ) 值大于或等于显著性水平,则没有足够证据拒绝零假设,即认为模型间没有显著差异。

3. 使用场景

弗里德曼检验适用于以下场景:

  • 数据不满足正态分布。
  • 样本量较小且数据分布不明确。
  • 存在重复测量或相关样本。

4. 样例数据及代码

假设我们进行了一个关于不同教学方法对学生学习效果的研究,收集了以下数据:

学生传统教学互动式教学在线教学
A708075
B607065
C758580

我们可以使用Python的scipy库来执行弗里德曼检验:

import scipy.stats as stats

# 样例数据
data = [
    [70, 80, 75],  # 学生A的数据
    [60, 70, 65],  # 学生B的数据
    [75, 85, 80]   # 学生C的数据
]

# 执行弗里德曼检验
chi2, p_value = stats.friedmanchisquare(*data)

print(f"Chi-squared: {chi2}, P-value: {p_value}")

统计结果分析:如果得到的p值小于常用的显著性水平(例如0.05),则我们拒绝原假设,认为至少有两个组之间存在显著差异。反之,如果p值较大,则没有足够的证据拒绝原假设,即认为各组间差异不显著。

5. 总结

弗里德曼检验作为一种强大的非参数统计工具,为我们提供了一种在不满足传统参数检验条件下分析数据的方法。它简单、易于实现,并且可以提供关于数据分布和组间差异的宝贵信息。在实际应用中,我们应该根据数据的特性和研究目的选择合适的统计方法。

🌟 在这篇博文的旅程中,感谢您的陪伴与阅读。如果内容对您有所启发或帮助,请不要吝啬您的点赞 👍🏻,这是对我最大的鼓励和支持。

📚 本人虽致力于提供准确且深入的技术分享,但学识有限,难免会有疏漏之处。如有不足或错误,恳请各位业界同仁在评论区留下宝贵意见,您的批评指正是我不断进步的动力!😄😄😄

💖💖💖 如果您发现这篇博文对您的研究或工作有所裨益,请不吝点赞、收藏,或分享给更多需要的朋友,让知识的力量传播得更远。

🔥🔥🔥 “Stay Hungry, Stay Foolish” —— 求知的道路永无止境,让我们保持渴望与初心,面对挑战,勇往直前。无论前路多么漫长,只要我们坚持不懈,终将抵达目的地。🌙🌙🌙

👋🏻 在此,我也邀请您加入我的技术交流社区,共同探讨、学习和成长。让我们携手并进,共创辉煌!
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2046998.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

滴滴开源新项目Unify:聚焦Flutter与原生通信难题,助力跨端应用落地

引言 在移动开发领域,移动跨端技术因其提效收益,逐渐成为业界趋势之一。Flutter 作为近年来热门的跨端技术,以高性能、自渲染、泛跨端著称,得到广泛应用。在滴滴国际化业务中,我们大量应用 Flutter。目前已在滴滴国际化…

Sentinel集成Apollo持久化配置的技术方案

作者本人,简放视野 https://github.com/bert82503 背景 Sentinel 介绍 Sentinel 是流量治理组件,主要以流量为切入点,从流量路由、流量控制、流量整形、熔断降级、系统自适应过载保护、热点流量防护等多个维度来帮助开发者保障微服务的稳定性…

拥有一个公网固定IP,既然如此简单、HTTP 虚拟专线:为您开启专属网络访问新时代

#HTTP 虚拟专线# 网络的便捷性和稳定性对于个人和企业来说至关重要。我们自豪地为您介绍一款具有创新性的产品 ——HTTP 虚拟专线,它将为您的网络体验带来前所未有的改变。 每位 VHTTP 用户都将分配一个专属的固定公网 IP 地址,这意味着您不再需要担心 I…

【视频监控】通过TCP协议搭建客户端和服务端使用OpenCV实现Linux开发板摄像头图像实时回传本地

一. 前言 本文主要实现了远程开发板摄像头画面实时传输回本地电脑进而达到视频监控功能。主要分为开发板客户端和电脑服务端的两部分代码讲解。 本文使用的是米尔的Remi Pi开发板,摄像头是米尔配套的MY-CAM003M,开发板Python环境为3.8,电脑…

Java的jdk配置成功,但是输入java -version等,命令行没有任何反应

问题 Java下载后,手动配置环境变量,并且配置好,但是在命令行中无论输入java的什么都没有反应 解决方案 将手动配置的环境变量放到最前面 重新尝试 java -version命令

C++模板的特化

目录 一、模板特化概念 二、函数模板特化 三、类模板特化 1.全特化 2.偏特化 3.总结 4.类模板特化实例应用 一、模板特化概念 函数模板和类模板都有特化: 通常情况下使用模板可以实现一些与类型无关的代码,但一些特殊类型可能会出错,…

报错:Can‘t find Python executable “python“, you can set the PYTHON env variable

将项目导入vscode,执行npm install命令后,报错了,报错的信息是node-sass安装失败,同时提示需要python环境的错误信息,这是因为安装node-sass失败了,而node-sass依赖于Python环境。 1.报错:Cant find Python…

基于Hadoop的微博社交媒体用户大数据分析【海量数据】

文章目录 有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主项目介绍数据集展示Hadoop脚本文件可视化展示每文一语 有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主 项目介绍 本项目基于hadoop的社交媒体用户进行大数据…

把照片制作成精美的仿真电子相册

​在这个数字化时代,我们拍摄的照片越来越多,但往往缺乏一个合适的方式来展示和保存这些珍贵的回忆。今天,我将向大家介绍如何将你的照片制作成一个精美的仿真电子相册,让你的回忆更加生动和持久。 第一步:选择合适的照…

FreeRTOS 3

一,信号量 有时候任务之间传递的只是一个标致,让进程之间同步,会对一个共享资源的互斥性访问,这时候就可以用信号量和互斥量。 1,二值信号量 2,计数信号量 3,互斥量 3.1,差别 4&…

Orangepi 5 Pro(香橙派5pro)部署yolov5

前言 香橙派内置了6T算力的NPU,想着可以跑一下yolov5,看看香橙派的速度如何。 在开始部署之前,需要具备一定的linux技能——vim、linux常见指令、conda等等。如果没有这些技能的话,做下去会有一定的难度,可以先看几遍了…

19.实现一个算法实现删除链表中倒数第 n 个结点

19. Remove Nth Node From End of List 题目 Given the head of a linked list, remove the nth node from the end of the list and return its head. Follow up: Could you do this in one pass? Example 1: Input: head = [1,2,3,4,5], n = 2 Output: [1,2,3,5]Example…

蚂蚁AL1 15.6T 创新科技的新典范

● 哈希率:算力达到15.6T(相当于15600G),即每秒能够进行15.6万亿次哈希计算,在同类产品中算力较为出色,能提高WA掘效率。 ● 功耗:功耗为3510W,虽然数值看似不低,但结合其…

PythonStudio 控件使用常用方式(二十七)TActionList

PythonStudio是一个极强的开发Python的IDE工具,官网地址是:https://glsite.com/ ,在官网可以下载最新版的PythonStudio,同时,在使用PythonStudio时,它也能及时为用户升到最新版本。它使用的是Delphi的控件&…

Python爬虫技术与K-means算法的计算机类招聘信息获取与数据分析

有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主 目录 摘要.... 1 Abstract 2 1 引言.... 3 1.1 研究背景... 3 1.2 国内外研究现状... 4 1.3 研究目的... 5 1.4 研究意义... 7 2 关键技术理论介绍... 7 2.1 Python爬虫... 7 2.1 K-means…

消灭星星游戏程序设计【连载十一】——在线程中解决音效卡顿问题

消灭星星游戏程序设计【连载十一】——在线程中解决音效卡顿问题 大家每次都可以在页面中下载本节内容的实现代码,一步一步从简单开始,逐步完成游戏的各种功能,如果大家有任何问题也欢迎留言交流。 游戏整体效果展示: 1、本节要达…

宠物空气净化器哪款好?希喂、有哈宠物空气净化器测评

回想起几年前那个午后,我意外的在路边捡到了两只小猫咪,心中莫名有一份责任感出现,所以没有丝毫犹豫我就决定将它们带回家。捡回家以后,家里确实多了几分温馨,逐渐成为我的精神支柱。小猫的到来,让家的每一…

Mybatis工具类的封装

为什么要进行Mybatis工具类的封装? 每次我们执行数据库操作都需要做以下操作: //读取配置文件InputStream inputStream Resources.getResourceAsStream("mybatis-config.xml");//通过配置文件创建SqlSessionFactorySqlSessionFactory sqlSess…

模板[C++]

目录 1.🚀泛型编程🚀 2.🚀函数模板🚀 2.1 ✈️函数模板概念✈️ 2.2 ✈️函数模板格式✈️ 2.3✈️函数模板的原理✈️ 2.4 ✈️函数模板的实例化✈️ 2.5 ✈️模板参数的匹配原则✈️ 3.🚀类模板&#x1f680…

Ubuntu20.4 系统安装后无wifi图标

0. 问题排查 1.检查 BIOS 设置: 有时候,无线网卡可能在 BIOS 中被禁用。重启电脑,进入 BIOS 设置,确保无线网卡选项是启用的。 2.检查硬件开关: 检查您的笔记本电脑是否有物理开关或键盘快捷键来启用或禁用无线网卡。 3.在软件更新中切换…