统计学中的t检验 、f检验、卡方检验

news2024/11/17 22:31:28

1.1数据的种类

我们都知道,一般数据可以分为两类,即定量数据(数值型数据)和定性数据(非数值型数据),定性数据很好理解,例如人的性别,姓名这些都是定性数据。

定量数据可以分为以下几种:

1.1.1定类数据
表现为类别,但不区分顺序,是由定类尺度计量形成的。一般可以从非数值型数据中编码转换而来,数值本身没有意义,只是为了区分类别做出的数值型标识,比如1表示男性,0表示女性。定类数据无法比较大小,运算符也无意义。

1.1.2定序数据
表现为类别,但有顺序,是由定序尺度计量形成的。运算符也没有意义,例如比赛中的排名,不能说第一名到第二名之前的差距与第二名到第三名之间的差距相等。

1.1.3定距数据
表现为数值,可进行加、减运算,是由定距尺度计量形成的。定距数据的特征是没有绝对的零点,例如温度,不能说10摄氏度的一倍是20摄氏度。因此乘、除法对于定距数据来说也是没有意义的。

1.1.4定比数据
表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。定比数据存在绝对的零点。例如价格,100元的2倍就是200元。

1.2 T检验(T-test)

目的:T检验(T-test)主要是为了比较数据样本之间是否具有显著性的差异。T检验主要通过样本均值的差异进行检验,即两个平均数的差异的比较

T检验适用于:一般用于定量数据的检测(定类数据采用卡方检验)主要用于样本含量较小(例如n<30)

理解过程: 统计学上以“总体间没差别”计算显著性水平H0,拒绝原假设H0的最小显著性水平称为检验的p值,来检验假设的结果。

例如,假设一个班上男女生的成绩不存在差异,显著性水平为0.05,可理解为只有5%的概率会出现“男女生差异显著”的情况,计算出的检验p值若小于0.05,则可以拒绝原假设。反之不能拒绝原假设。

T检验的前提条件:①数据服从正态分布、②方差未知

T检验的三种方式:

独立样本的T检验
检验两组样本的均值是否相等!主要用于定量数据和定类数据的差异关系研究,例如有一个班的学生数据,如果学生的成绩服从正太分布,想要研究身高和成绩的关系,就需要用到该方法,如果不服从正态分布,可采用MannWhitney检验

Note: 两个独立样本的T检验,通常需要先进行F检验(方差齐次检验),检验两个独立样本的方差是否相同,若两总体方差相等,则直接用t检验,若不等,可采用t’检验(校正T检验)或变量变换或秩和检验等方法。即进行两独立样本的T检验时,需首先验证两样本的方差是否相同

单一样本的T检验
用于比较一组数据与一个特定数值之间的差异情况,即检验这组数据的均值与已知的总体均值是否相等

主要用于检验某单一的定量数据差异,例如一个班的成绩是否显著大于70分。同样需要满足正态分布的假设,若不满足可采用单样本Wilcoxon检验

配对T检验

用于检验有一定对应关系的两组样本的均值差是否等于某一个值,两组样本数量需要相等。

常见的使用场景有:

①同一对象处理前后的对比(同一组人员采用同一种减肥方法前后的效果对比);

②同一对象采用两种方法检验的结果的对比(同一组人员分别服用两种减肥药后的效果对比);

③配对的两个对象分别接受两种处理后的结果对比(两组人员,按照体重进行配对,服用不同的减肥药,对比服药后的两组人员的体重)。

不满足正态分布的话,可采用Wilcoxon检验

T检验怎么用:

首先要明确检验的目的,是单样本T检验、配对样本T检验还是独立样本T检验。进行正态性检验(方法:正态图、正态性检验、P-P图/Q-Q图等),独立样本还需要进行方差齐性检验,选择合适的检验方法进行检验

1.3 F检验(F-test)

目的:是判断两个样本的总体方差是否相等,计算双总体样本检验的前提条件。

别名:做联合假设检验(英语:joint hypotheses test)、方差比率检验、方差齐性检验。

理解过程:从两个研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用t'检验或变量变换或秩和检验等方法。

公式

主要用于:F检验主要用于方差齐性检验、方差分析、线性回归方程整体的显著性检验。

1.4 卡方检验(chi-square test)

别名:χ2检验

概念:卡方检验(慎与跟卡方分布概念混淆)是种用途很广的计数资料的假设检验方法

目的:用来验证两个总体间某个比率之间是否存在显著性差异。通常针对的数据主要为定类数据

解释:卡方检验属于非参数假设检验,适用于布尔型或二项分布数据。基于两个概率间的比较,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。

根本思想:在于比较理论频数和实际频数的吻合程度或者拟合优度问题。

计算公式如下:

其中,A为实际值,T为理论值。

X2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:
1. 实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)
2. 差异程度与理论值的相对大小

卡方检验有什么用:

卡方检验对一列数据进行统计检验,分析单个类别变量实际观测的比例与期望的比例是否一致。

交叉表卡方研究两组类别变量的关系:如性别与看不看直播是否有关系。

配对卡方研究实验过程中,用不同方法检测同一批人,看两个方法的效果是否有显著差异。

卡方检验怎么用:

确定卡方检验的类型

选用合适的方法进行卡方检验

卡方检验注意事项:

需要随机样本数据

理论频数不能太小

卡方检验的结果非常受数据量级的影响

1.5 Kruskal-Wallis(K-W)(简称克氏)检验

在实际生产中,经常比较多组独立数据均值(或者分布)之间的差异性,然而实际数据很难符合正态性,基本都是偏态性,这时很难用参数检验进行分析。作为对样本分布没有太大要求的Kruskal-Wallis (简称克氏)检验,它是一个将两个独立样本Wilcoxon(Mann-Whitney)推广到3个或者更多组的检验。

1.6 Kolmogorov-Smirnov(K-S)分布检验

Kolmogorov-Smirnov(K-S)分布检验是一种非常重要的非参数检验方法。它是一种统计检验方法 ,它通过比较两样本的频率分布,或者一个样本的频率分布与特定理论分布(如正态分布、泊松分布等)之间的差异大小来推论两个分布是否来自同一个分布。

二、相关案例:

2.1 T检验

T检验要求样本满足两个条件:

1、样本服从正态分布。

2、各样本之间是独立的。

2.1.1单样本T检验:

推论差异发生的概率,从而比较两个平均数的差异是否显著。通俗的说就是用样本均数和已知总体均数进行比较,来观察此组样本与总体的差异性。

例子:验证矿泉水瓶容量是否为550ml?

现在有16个矿泉水瓶样本,分别为558、551、542、557、552、547、551、549、548、551、553、557、548、550、546、552

步骤一:计算样本均值

=(558+551+...+552)/8=550.75

步骤二:计算样本标准差

即((558-550.75)^2+(542-550.75)^2+..)/16=4.25

步骤三:计算统计量

其中,μ为整体均值550,n为样本数16,所以结果为(550.75-550)/(4.25/4)=0.706

步骤四:查表得到理论统计量0.821,与实际统计量0.706对比大小。实际统计量小于理论统计量,说明矿泉水瓶是合格的。从计算公式也能看出来,如果所有样本容量都是550,那么统计量就是0,故统计量越小越好。查表时涉及到置信度和自由度,置信度常见的就是90%、95%、99%这三个,自由度通俗的说就是抽样样本数-1,即15。

2.1.2独立样本T检验:

检验两组非相关样本数据的差异性。

例子:验证两个不同生产间生产的矿泉水瓶容量的差异。再来一组16个矿泉水瓶样本,分别为555、553...

计算公式如下:

t为统计量,

代表两组数据的均值,

n1、n2代表样本数,

S12、S22代表两组数组的方差。

从计算公式能看出来,t越小则两组数据差异性越小。具体多小就根据置信度和自由度查表对比理论统计量的大小得出两组数据差异性是否显著。

2.1.3 配对样本T检验:

检验一组样本数据在不同条件或不同时间下的差异性。它是单样本T检验的扩展版。

例子:验证同一个生产间上一月与下一月生产的矿泉水瓶容量的差异。

假设有一个生产间

7月生产的4个矿泉水瓶容量为551、553、549、547。

8月生产的4个矿泉水瓶容量为552、553、548、547。

步骤一、计算两组样本数据差值d,即551-552,553-553,549-548,547-547

步骤二、计算差值d的平均值 即(-1+0+1+0)/4=0

步骤三、计算差值d的标准差

步骤四、计算统计量t,计算公式为

其中μ为理论总体差值均值0(同一生产间生产的两组产品应该是一样大的),n为样本数4。同样的,t也是越小越说明差异性不显著,具体多小就根据置信度和自由度查表对比理论统计量的大小得出两组数据差异性是否显著。对比单样本T检验,可以看出它们的计算过程是很相似的。

2.2 F检验:

判断两组数据是否存在显著差异。

步骤一:分别计算两组样本数据的均值

步骤二:分别计算两组样本数据的标准方差的平方

步骤三:计算两组样本数据标准方差的平方比

把平方大的作为分子,小的作为分母。得到F值后根据两组数据的自由度和置信度查表对比,同样的,F值也是越小越说明差异性不显著。

2.3卡方检验

统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

例子:一枚硬币投50次,根据观察结果判断硬币是否均横,即正反面出现概率是否一样。

实际次数2822
理论次数2525

卡方值计算公式:

即(28-25)^2/25+(22-25)^2/25=0.72,再根据自由度和置信度查表对比,此处自由度跟T检验不一样,它是(表格行数-1)*(表格列数-1)=(2-1)*(2-1)=1。同样的,卡方值也是越小越说明差异性不显著。

F检验和T检验都是定量检验,F检验比T检验计算更简单,卡方检验是定类检验。

统计学中的t检验 、f检验、卡方检验、K-S检验、K-W检验及相关案例 - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/570307.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CSS3煎制荷包蛋动画特效,优质男士表白必备

你有多久没吃过早餐了&#xff1f;你是否每天忙碌到很晚&#xff0c;结果导致早上起来也很晚&#xff0c;匆匆忙忙来不及吃早餐&#xff0c;更别说自己做了。一直到现在&#xff0c;你有多久没有吃到过母亲做的早饭了&#xff1f;我们在外奔波&#xff0c;希望家人安康&#xf…

【C语言】几种方法解决问题:C6031返回值被忽略:“scanf” (保姆级图文)

目录 错因分析1. 使用_s结尾的安全函数版本&#xff08;推荐&#xff09;2. 在本项目中关闭警告&#xff08;作用一个项目&#xff09;3. 在本文件中关闭警告&#xff08;作用一个文件&#xff09;总结 欢迎关注 『C语言』 系列&#xff0c;持续更新中 欢迎关注 『C语言』 系列…

分布式协调服务--zookeeper

目录 一、概述 1、zookeeper有两种运行状态 zookeeper架构的角色&#xff1a; 2、Paxos算法&#xff1a;消息传递的一致性算法 3、ZAB协议 Zab 协议实现的作用 Zab协议核心 Zab协议内容 消息广播 崩溃恢复 实现原理 协议实现 一、概述 zookeeper官网 zookeeper官…

Trace32使用Data.Test和Data.TestList命令测试内存类型以及完整性

我们在debug的时候&#xff0c;可以使用Trace32自带的一些命令快速地检测目标系统的内存的类型和完整性&#xff08;是否可读或可写&#xff09;&#xff0c;以便快速排除内存缺陷带来的干扰。 目录 Data.Test&#xff1a; 内存完整性测试 Memory integrity test Data.TestL…

Android进阶 View事件体系(二):从源码解析View的事件分发

Android进阶 View事件体系&#xff08;二&#xff09;&#xff1a;从源码解析View的事件分发 内容概要 本篇文章为总结View事件体系的第二篇文章&#xff0c;前一篇文章的在这里&#xff1a;Android进阶 View事件体系&#xff08;一&#xff09;&#xff1a;概要介绍和实现Vie…

chatgpt赋能python:Python动态增加成员变量简介

Python动态增加成员变量简介 Python是著名的解释型编程语言&#xff0c;在众多开源项目中得到了广泛的应用。它以简洁明了的语法和高效的运行速度而闻名&#xff0c;成为了许多开发者的首选。 Python提供了极大的灵活性&#xff0c;使得我们可以随意添加、修改和删除对象的属…

chatgpt赋能python:Python切割技巧:如何用Python切割字符串和列表

Python切割技巧&#xff1a;如何用Python切割字符串和列表 Python是一种高级编程语言&#xff0c;被广泛用于数据分析、机器学习、Web应用程序等领域。在Python编程中&#xff0c;切割技巧是一项必备技能。 什么是切割技巧&#xff1f; 切割技巧是指用一种编程语言&#xff…

chatgpt赋能python:Python列表倒序-从入门到实践

Python列表倒序 - 从入门到实践 Python是一种高级编程语言&#xff0c;被广泛运用于web开发、科学计算、数据分析等领域&#xff0c;也是初学者学习的首选语言之一。Python的列表(List)是其中一个常用的数据类型。在本文中&#xff0c;我们将深入探讨Python列表倒序的方法&…

chatgpt赋能python:Python列表反向:如何用简单的代码将列表元素反转

Python列表反向&#xff1a;如何用简单的代码将列表元素反转 在很多编程语言中&#xff0c;将列表元素反转是一项常见的任务。Python也不例外。Python内置函数提供了一种非常直接的方式来将列表元素反转&#xff0c;而不需要费力地创建一个新列表。 什么是列表反向&#xff1…

chatgpt赋能python:Python动态代码的SEO优化技巧

Python 动态代码的SEO优化技巧 Python是一种常用的编程语言&#xff0c;它以简化开发流程和易于阅读的代码著称。Python动态代码能够让开发者更快捷方便地进行编码&#xff0c;并且能够改善SEO表现。在本文中&#xff0c;我们将着重介绍Python动态代码与SEO优化涉及的技巧。 …

chatgpt赋能python:Python分组匹配:了解正则表达式中的分组匹配技巧

Python 分组匹配: 了解正则表达式中的分组匹配技巧 在 Python 中&#xff0c;正则表达式是一种重要的文本处理工具&#xff0c;它可以帮助我们在字符串中匹配、查找和替换特定的文本模式。其中&#xff0c;分组匹配是正则表达式的重要特性之一&#xff0c;它可以将匹配的结果按…

快速理解会话跟踪技术Cookie和Session

文章目录 会话跟踪技术客户端会话跟踪技术Cookie服务端会话跟踪技术Session 会话跟踪技术 会话&#xff1a;客服端和服务端的多次请求与响应称为会话。 会话跟踪&#xff1a;服务器需要识别多次请求是否来自同一浏览器&#xff0c;在同一次会话多次请求中共享数据。 HTTP协议是…

chatgpt赋能python:Python加解密算法简介

Python加解密算法简介 在当今数字化的时代&#xff0c;数据的安全性变得至关重要。而加密算法就成为了保障数据安全的重要手段之一。Python作为一门高级编程语言&#xff0c;提供了许多加密算法库&#xff0c;使得开发人员可以轻松地实现加密功能。本文将着重介绍Python中一些…

机器学习模型——回归模型

文章目录 监督学习——回归模型线性回归模型最小二乘法求解线性回归代码实现引入依赖&#xff1a;导入数据&#xff1a;定义损失函数&#xff1a;定义核心算法拟合函数&#xff1a;测试&#xff1a;画出拟合曲线&#xff1a; 多元线性回归梯度下降求线性回归梯度下降和最小二乘…

chatgpt赋能python:Python中%取模操作的介绍

Python中%取模操作的介绍 在Python中&#xff0c;取模操作使用符号“%”表示&#xff0c;它的作用是取两个数相除的余数。例如&#xff0c;10 % 3等于1&#xff0c;因为10除以3的余数为1。这个操作可以用在很多场合&#xff0c;比如判断一个数是奇数还是偶数&#xff0c;或者判…

带你开发一个远程控制项目---->STM32+标准库+阿里云平台+传感器模块+远程显示。

目录 本次实验项目&#xff1a; 下次实验项目&#xff1a; 本次项目视频结果/APP/实物展示 实物展示 APP展示 视频展示 模块选择说明; 温湿度传感器模块介绍 光照传感器介绍 ESP8266-01S模块介绍 本次实验项目&#xff1a; 项目清单平台单片机语言实现温湿度传感器模…

Reinforcement Learning | 强化学习十种应用场景及新手学习入门教程

文章目录 1.在自动驾驶汽车中的应用2.强化学习的行业自动化3.强化学习在贸易和金融中的应用4.NLP&#xff08;自然语言处理&#xff09;中的强化学习5.强化学习在医疗保健中的应用6.强化学习在工程中的应用7.新闻推荐中的强化学习8.游戏中的强化学习9.实时出价——强化学习在营…

Redis中的Reactor模型源码探索

文章目录 摘要了解Linux的epoll了解Reactor模型 源码initServerinitListenersaeMain 事件管理器aeProcessEvents读事件 摘要 有时候在面试的时候会被问到Redis为什么那么快&#xff1f;有一点就是客户端请求和应答是基于I/O多路复用&#xff08;比如linux的epoll&#xff09;的…

【高级语言程序设计(一)】第 9 章:编译预处理命令

目录 前言 一、宏定义命令 &#xff08;1&#xff09;无参宏定义 &#xff08;2&#xff09;有参宏定义 ① 带参数的宏定义 ② 带参宏定义与函数的区别 二、文件包含命 &#xff08;1&#xff09;文件包含命令的定义 &#xff08;2&#xff09;文件包含命令的格式 &…

【Leetcode60天带刷】day02—— 977.有序数组的平方、209.长度最小的子数组、 59.螺旋矩阵II

题目&#xff1a;997.有序数组的平方 Leetcode原题链接&#xff1a;997.有序数组的平方——力扣 思考历程与知识点&#xff1a; 题目的意思很简单&#xff0c;就是把每个数的平方&#xff0c;按从小到大的顺序排个序&#xff0c;再输出出来。 第一想法是先每个数平方一遍&a…