统计学的假设检验

news2025/1/12 5:17:45

假设检验的核心其实就是反证法。反证法是数学中的一个概念,就是你要证明一个结论是正确的,那么先假设这个结论是错误的,然后以这个结论是错误的为前提条件进行推理,推理出来的结果与假设条件矛盾,这个时候就说明这个假设是错误的,也就是这个结论是正确的。以上就是反证法的一个简单思路。

了解完反证法以后,我们开始正式的假设检验,这里还是引用一个大家都很熟悉的一个例子『女士品茶』。

女士品茶是一个很久远的故事,讲述了在很久很久以前的一个下午,有一群人在那品茶,这个时候有位女士提出了一个有趣的点,就是把茶加到奶里和把奶加到茶里面最后得到的『奶茶』的味道是不一样的。大部分人都觉得这位女士在瞎说,只有其中一位男士提出了要用科学的方法去证明到底一样不一样(牛人想问题角度永远都是那么独特,多想想别人为什么那么说,而不是一上来就不经思考的拒绝)。

接下来,我们具体看一下这一位男士是怎么去证明的。首先他假设了把茶加到奶里和把奶加到茶里面得出来的『奶茶』味道是一样的。然后随机把这两种『奶茶』端给女士,让女士品,是先加的奶还是先加的茶,如果女士都能品对,说明确实有差异,如果要是品不对,说明是没差异的。这里面就涉及到一个问题,让女士品多少杯呢,品一杯肯定是不行的,因为任意一杯猜对(瞎蒙)的概率都有50%。下面是不同杯数对应的猜对的概率(注意,这里是猜对而不是品对)。

通过上表我们可以看出,连续4杯都猜对的概率不足0.1,连续10杯都猜对的概率不足0.001。如果把奶加到茶里和把茶加到奶里面得到的『奶茶』真没有差别,也就是女士要想品对,基本全靠猜,但是10杯全部猜对的概率不足0.001,我们把这种概率很小很小(这里需要定义一下,具体多小算小概率事件)的事件称为小概率事件。我们认为小概率事件一般是不会发生的,如果发生了,说明我们的认知就是错误的,也就是说女士品茶不是靠猜的,也就是把奶加到茶里和把茶加到奶里面得到的『奶茶』的确是有差别的。

我们把上面这个过程就叫做假设检验

了解完假设检验的思想以后,我们来看一下具体步骤:

step1:提出零假设和备择假设;

零假设(H0)一般是我们要推翻的论点,备择假设(H1)则是我们要证明的论点。拿上面的女士品茶例子来讲。

H0:把茶加到奶里和把奶加到茶里面得到的『奶茶』是一样的。
H0:把茶加到奶里和把奶加到茶里面得到的『奶茶』是不一样的。

step2:构造检验统计量,并找出在H0假设成立的前提下,该统计量所服从的分布;

检验统计量是根据样本观测结果计算得到的样本统计量,并以此对零假设和备择假设做出决策。

图片来源于网络

上面图片中是三种不同的统计量以及其对应的分布,分别叫做Z检验、T检验、卡方检验。

Z检验:一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。在国内也被称作u检验。
T检验:主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。T检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
卡方检验:卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

下面为三种检验对应的分布图:

正态分布

T分布,与正态类似

卡方分布,n为自由度

根据不同检验的特征,我们可以根据下图来进行选择合适的检验方式:

step3:根据要求的显著性水平,求临界值和拒绝域

还记得我们在前面提到的小概率事件吗?如果小概率事件发生了,就表示我们的零假设是错误的,可是具体多小的概率才算是小概率呢?一般这个概率为0.05,也就是5%,如果一件事情发生的概率小于等于5%,我们就认为这是一个小概率事件,0.05就是显著性水平,用α表示。显著性水平把概率分布分为两个区间:拒绝区间和接受区间,最后计算出来的结果落在拒绝区间,我们就可以拒绝零假设;如果落在了接受区间,我们就需要接受零假设。1-α称为置信水平(置信度)。

现在我们知道了显著性水平了,然后就可以根据显著性水平求得临界值和拒绝域了。那具体怎么求呢?这里的临界值就是z值(正太分布用z值)或t值(t分布用t值),以临界值为端点的区间称为拒绝域。z值和t值直接根据显著性水平然后到对应的z值表和t值表中查询即可。

下图为双侧检验和单侧检验对应的α、1-α、临界值、拒绝域、接受域的情况,其中α是表示阴影部分的面积,而不是x轴的值。

双侧检验

单侧检验

到这里显著性水平对应的临界值和拒绝域就算出来了。

step4:计算检验统计量

根据我们在前面选择检验统计量类型,计算对应的检验统计量的值。除此之外我们还可以根据样本量得出P值,P值就是实际样本中小概率事件的具体概率值。

step5:决策

比较计算出来的检验统计量与临界值和拒绝域,如果值落在了拒绝域内,那我们就要拒绝零假设,否则接受零假设。

比较计算出来的P值和显著性水平α值,如果P值小于等于α,则拒绝零假设,否则接受原假设。

上面两种方法分别叫做统计量检验和P值检验。

以上就是假设检验的一般流程。除此之外,假设检验里面还有两种错误,第一类错误叫做弃真错误,通俗一点就是漏诊,就是本来是生病了(假设是正确的),但是你没有检测出来,所以给拒绝掉了;第二类错误是取伪错误,通俗一点就是误诊,就是本来没病(假设是错误的),结果你诊断说生病了(假设是正确的),所以就把假设给接受了。

最终判断H0本来正确H0本来错误
拒绝H0假设犯I型错误正确
接受H0假设正确犯II错误

I型错误的值一般为0.05,II型错误的值一般为0.1或0.2,除此之外还有一个指标叫做功效(power),power = 1 - II型错误的值,power 表示你有多大把握能够正确的拒绝你的零假设H0。

关于假设检验我们就讲到这里,后面会分享统计学里面的其他知识,如果有想看的内容,可以评论区留言。

统计学的假设检验

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/577928.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

总结881

学习目标&#xff1a; 月目标&#xff1a;5月&#xff08;1800基础部分&#xff0c;背诵15篇短文&#xff09; 周目标&#xff1a;1800高等数学部分并完成错题记录&#xff0c;英语背3篇文章并回诵 每日必复习&#xff08;5分钟&#xff09; 前天错题纠错&#xff0c;线代部…

Solidity拓展:数据类型的转换

1.数据类型隐式转换 (自动) 同一类型之间的转换:由低长度转换为高长度int8-int16-int32int256,但int不能自动转换成uint&#xff0c;因为放不下负数所以直接不让转换,且 int8 不能转换成 uint256 &#xff08;因为 uint256 不能涵盖某些值&#xff0c;例如&#xff0c; -1&…

Android解决xutils数据库kotlin添加List数组问题

Android解决xutils数据库kotlin添加List数组问题 前言&#xff1a; 上一篇我们讲解了xutils中数据库版本升级的使用和问题&#xff0c;这篇博客讲解xutils中数据库添加list数据的问题&#xff0c;这个库真的是很强大&#xff0c;但是数据库的使用真不友好&#xff0c;添加一个…

从零开始手搓一个STM32与机智云的小项目——硬件介绍

文章目录 前言硬件简介选型1.主控2.电源3.电机驱动4.舵机驱动5.USB转TTL6.其他模块 原理图绘制1.STM32最小系统1.电源输入2.晶振选择3.复位电路4.BOOT选择电路5.下载电路 2.电源部分及与PC通信部分3.功能模块的实现1.串口2.定时器输入捕获与输出比较3.硬件SPI4.ADC5.温湿度传感…

学校食堂明厨亮灶 yolov8

学校食堂明厨亮灶可以yolov8网络模型技术&#xff0c;学校食堂明厨亮灶通过对厨师的穿戴情况行为举止等进行监测。YOLOv8 算法的核心特性和改动可以归结为如下&#xff1a;提供了一个全新的 SOTA 模型&#xff0c;包括 P5 640 和 P6 1280 分辨率的目标检测网络和基于 YOLACT 的…

C++环形缓冲区设计与实现:从原理到应用的全方位解析

C环形缓冲区设计与实现&#xff1a;从原理到应用的全方位解析 一、环形缓冲区基础理论解析&#xff08;Basic Theory of Circular Buffer&#xff09;1.1 环形缓冲区的定义与作用&#xff08;Definition and Function of Circular Buffer&#xff09;1.2 环形缓冲区的基本原理&…

SAP-MM-内向外向交货单

1、内向&外向交货单概念 外向交货&#xff08;outbound delivery&#xff09;是用在客户与企业之间的交货单&#xff0c;而内向交货&#xff08;inbound delivery&#xff09;则是用在供应商与企业之间的交货单&#xff1b;换言之&#xff0c;外向交货多用于SD 模块&#…

基于MAX-10 FPGA 超声波测距模块HC_SR04

文章目录 一、介绍超声波测距模块HC_SR04二、模块框图三、模块编写1. 测距信号源2. 距离计算3. 数码管模块4. 顶层模块 四、实验现象总结 一、介绍超声波测距模块HC_SR04 HC-SR04是一种基于超声波的测距模块。该模块向前15度内发送超声波并接收回响&#xff0c;通过发出超声波…

第一章:简单的C程序设计基础

一、C语言词汇 在C语言中使用的词汇分为&#xff1a;关键字、标识符、常量、运算符、分隔符、注释符等。 1.1关键字 1.2标识符 在程序中使用的变量名或函数名等统称为标识符&#xff1b;标识符的命名规则如下&#xff1a; &#xff08;C语言区分大小写&#xff09; 不能是关…

一个简单的基于C/S模型的TCP通信实例

1 TCP协议 1.1 概念 TCP是一种面向连接的、可靠的协议&#xff0c;有点像打电话&#xff0c;双方拿起电话互通身份之后就建立了连接&#xff0c;然后说话就行了&#xff0c;这边说的话那边保证听得到&#xff0c;并且是按说话的顺序听到的&#xff0c;说完话挂机断开连接。也…

2023 华为 Datacom-HCIE 真题题库 08--含解析

单项选择 1.[试题编号&#xff1a;190385] &#xff08;单选题&#xff09;以下关于BGP/MPLSIPVPN路由交互的描述&#xff0c;错误的是哪一项? A、PE与CE之间交互的是IPv4路由信息 B、出口PE可以通过BGP、IGP或静态路由的方式向远端CE发送IPv4路由 C、入口PE将从CE接收到的I…

数组(1)

文章目录 目录1. 一维数组的创建和初始化1.1 一维数组的创建1.2 一维数组的初始化 2. 一维数组的使用3. 一维数组在内存中的存储4. 二维数组的创建和初始化4.1 二维数组的创建4.2 二维数组的初始化 5. 二维数组的使用6. 二维数组在内存中的存储7. 数组越界8. 数组作为函数参数 …

chatgpt赋能python:Python自动填表单:提高工作效率的好帮手

Python 自动填表单&#xff1a;提高工作效率的好帮手 在现代社会中&#xff0c;表单已成为我们日常工作中不可或缺的一部分。填表单虽然看似简单&#xff0c;但是时间一长&#xff0c;不仅会影响工作效率&#xff0c;还会带来心理负担。幸运的是&#xff0c;Python 自动填表单…

Linux-0.11 boot目录bootsect.s详解

Linux-0.11 boot目录bootsect.s详解 模块简介 bootsect.s是磁盘启动的引导程序&#xff0c;其概括起来就是代码的搬运工&#xff0c;将代码搬到合适的位置。下图是对搬运过程的概括&#xff0c;可以有个印象&#xff0c;后面将详细讲解。 bootsect.s主要做了如下的三件事: 搬…

doris---Rollup

Rollup 3.5.1基本概念 通过建表语句创建出来的表称为 Base 表&#xff08;Base Table,基表&#xff09; 在 Base 表之上&#xff0c;我们可以创建任意多个 ROLLUP 表。这些 ROLLUP 的数据是基于 Base 表产生的&#xff0c;并且在物理上是独立存储的。 Rollup表的好处&#xff…

C#调用FreeSpire.PDF获取PDF文档中使用的字体

除了图片之外&#xff0c;电子文件中使用的字体都必须要在本机中安装才能正常查看文字&#xff08;word缺少字体的话会自动使用相似或默认字体&#xff09;&#xff0c;要想知道电子文件中使用的字体&#xff0c;可以将电子文件转换为PDF文件&#xff08;如果是打印成PDF的话&a…

chatgpt赋能python:Python收集数据在SEO中的重要性

Python 收集数据在 SEO 中的重要性 随着互联网的发展&#xff0c;搜索引擎对于用户获取信息的重要性日益增加。SEO&#xff08;搜索引擎优化&#xff09;一直是每个网站必须考虑的问题。Python 收集数据在 SEO 中可以发挥重要的作用&#xff0c;帮助网站提高排名。下面我们来详…

Solidity拓展:数学运算过程中数据长度溢出的问题

在数学运算过程中假如超过了长度则值会变成该类型的最小值&#xff0c;如果小于了该长度则变成最大值 数据上溢 uint8 numA 255; numA;uint8的定义域为[0,255]&#xff0c;现在numA已经到顶了&#xff0c;numA会使num变成0(由于256已经超过定义域&#xff0c;它会越过256&…

结构体 --- C语言

目录 1.结构体的声明 2.结构体变量的定义和初始化 3.结构体成员访问 4.结构体传参 1.结构体的声明 结构是一些值的集合&#xff0c;这些称为成员变量&#xff0c;结构的每个成员可以是不同类型的变量。 而数组是一组类型相同的元素的集合。 生活中的描述 人&#xff1a;名…

测试C#分词工具jieba.NET(续1:提取关键词及并行分词)

jieba.NET支持通过两种算法提取文本关键词&#xff1a;TF-IDF算法和TextRank算法&#xff0c;关于这两种算法的介绍详见参考文献10-11&#xff0c;在jieba.NET中对应的类为TfidfExtractor和TextRankExtractor&#xff0c;这两个分词都都支持调用ExtractTags和ExtractTagsWithWe…