卡方检验笔记

news2024/11/28 4:51:44

文章目录

  • 一、定义
  • 二、用途
  • 三、公式
  • 四、案例
    • 4.1 手工统计
    • 4.2 python统计
    • 4.3 SPSS统计

一、定义

  • 卡方检验属于非参数检验,由于非参检验不存在具体参数和总体正态分布的假设,所以有时被称为自由分布检验
  • 原假设 H 0 H_{0} H0:观察频数与期望频数没有显著性差异

二、用途

  1. 检验某个连续变量的分布是否与某种理论分布相一致。例如是否符合正态分布,均匀分布,Poisson(泊松)分布
  2. 检验某个分类变量的各类的概率是否等于指定概率
  3. 检验某两个分类变量是否 相互独立
  4. 检测两种方法的检测结果是否一致
  5. 检测控制某种或某几种的变量后,另外两个分类变量是否相互独立。

三、公式

χ 2 = ∑ ( A − E ) 2 E = ∑ i = 1 k ( A i − n p i ) 2 n p i \chi^2 = \sum \frac{(A-E)^2}{E} = \sum_{i=1}^{k}\frac{(A_{i}-np_{i})^2}{np_{i}} χ2=E(AE)2=i=1knpi(Ainpi)2

其中: A i A_{i} Ai为单元格 i i i 中的观察值, p i p_{i} pi为单元格 i i i 中的在 H 0 H_{0} H0假设前提下的概率, k k k 为单元格数.

四、案例

  • 案例来源:统计学——卡方检验和卡方分布
感冒人数未感冒人数合计感冒率
喝牛奶组439613930.94%
不喝牛奶组288411225.00%
合计7118025128.29%

4.1 手工统计

  1. 提出假设:喝牛奶对感冒发病率是没有影响
  2. 从表得知整体感冒率为28.29%,那么根据原假设(喝牛奶和患上感冒是独立无关的),反推出理论上的感冒人数:
感冒人数未感冒人数合计
喝牛奶组=139*0.2829=139*(1-0.2829)139
不喝牛奶组=112*0.2829=112*(1-0.2829)112

如果喝牛奶和感冒真的是独立无关的,那么理论值和实际值差别应该会很小。

  1. 根据卡方检验的公式,计算得:

χ 2 = ( 43 − 139 ∗ 0.2829 ) 2 139 ∗ 0.2829 + ( 28 − 112 ∗ 0.2829 ) 2 112 ∗ 0.2829 + [ 96 − 139 ∗ ( 1 − 0.2829 ) ] 2 139 ∗ ( 1 − 0.2829 ) + [ 84 − 112 ∗ ( 1 − 0.2829 ) ] 2 112 ∗ ( 1 − 0.2829 ) = 1.077 \begin{aligned} &\chi^2 = \frac{ (43 - 139*0.2829)^2}{139*0.2829} + \frac{ (28 - 112*0.2829)^2}{112*0.2829} + \frac{ [96 - 139*(1 - 0.2829)]^2}{139*(1 - 0.2829)} + \frac{ [84 - 112*(1 - 0.2829)]^2}{112*(1 - 0.2829)} \\ \\ &= 1.077 \end{aligned} χ2=1390.2829(431390.2829)2+1120.2829(281120.2829)2+139(10.2829)[96139(10.2829)]2+112(10.2829)[84112(10.2829)]2=1.077

  1. 查询卡方分布临界值:统计分布临界值表

上述例子中,自由度 k = ( 2 − 1 ) ∗ ( 2 − 1 ) = 1 k=(2-1)*(2-1)=1 k=(21)(21)=1【自由度 = (行数-1)*(列数-1)】

我们看到, χ 2 \chi^2 χ2分布在自由度 k = 1 , p = 0.05 k = 1,p=0.05 k=1p=0.05时的取值为3.84。
在这里插入图片描述
在这里插入图片描述

  1. 我们计算得到的 χ 2 \chi^2 χ2值1.077,小于3.84,故不能拒绝原假设H0 ,即喝牛奶对感冒发病率没有影响(即喝牛奶与感冒无关)

4.2 python统计

from scipy.stats import chi2_contingency

# 构建一个 2x2 的列联表数据
obs = [[43, 96], [28, 84]]

# 执行卡方检验,
# correction 如果设置为 True,则应用 Yates 的连续性校正(Yates' continuity correction),以弥补数据过于稀疏时可能导致的偏差;如果设置为 False,则不使用该校正。
chi2, p_value, dof, expected_freq = chi2_contingency(obs,correction=False)

# 输出结果
print("卡方值:", chi2)
print("P 值:", p_value)
print("自由度:", dof)
print("期望频率:", expected_freq)

在这里插入图片描述

  • 可以看出结果与上文一致

4.3 SPSS统计

参考:数据分析之卡方检验

  • 步骤1:导入数据

在这里插入图片描述

  • 步骤2:数据加权处理

在这里插入图片描述

  • 步骤3:交叉表分析

在这里插入图片描述

选项都勾选好之后,点击确定,即得到以下结果:
在这里插入图片描述
可以得到卡方值为1.077,p值为0.299,与上文一致。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/646760.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大龄、零基础,想转行做网络安全。怎样比较可行?一般人我还是劝你算了吧

昨晚上真的给我气孕了。 对于一直以来对网络安全兴趣很大,想以此作为以后的职业方向的人群。 不用担心,你可以选择兼顾工作和学习,以步步为营的方式尝试转行到网络安全领域。 那么,网络安全到底要学些什么呢? &…

怎么快速给需要的网路标记颜色?

引入 我们在走线的时候,需要知道那些类型的线需要先走,接下来又要走那些类型的线,然后依次走完,如果在团队中,这一类型的线分配给这个人走,哪一类型的线有分配给那个人走。而在不管是那单个人,还…

效果图渲染的几大实用技巧

效果图渲染是建筑、室内、景观、产品设计等行业中非常重要的一环。一个高质量的效果图可以让客户更好地了解和感受设计方案,提高设计师的竞争力。但是渲染效果的好坏和速度都取决于设计师的技巧和工具。本文将介绍几大实用技巧,帮助设计师更好地进行效果…

ASEMI代理光宝IGBT驱动器LTV-155E规格,LTV-155E封装

编辑-Z LTV-155E参数描述: 型号:LTV-155E 储存温度Tstg:-55~125℃ 工作温度Topr:-40~105℃ 输出IC结温度TJ:125℃ 总输出电源电压(VCC –VEE):35V 平均正向输入电流IF:25mA 反向输入电压…

对vite的理解

🐱 个人主页:不叫猫先生,公众号:前端舵手 🙋‍♂️ 作者简介:2022年度博客之星前端领域TOP 2,前端领域优质作者、阿里云专家博主,专注于前端各领域技术,共同学习共同进步…

强化学习笔记-13 Policy Gradient Methods

强化学习算法主要在于学习最优的决策,到目前为止,我们所讨论的决策选择都是通过价值预估函数来间接选择的。本节讨论的是通过一个参数化决策模型来直接根据状态选择动作,而不是根据价值预估函数来间接选择。 我们可以定义如下Policy Gradien…

软件测试外包干了3年,感觉废了..

先说一下自己的情况,大专生,18年通过校招进入湖南某软件公司,干了接近3年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了3年的功能测试&…

官方都不告诉你的 Windows ISO 下载方式

目录 一、背景二、下载 一、背景 我们都知道,在日常生活中,经常会遇到各种操作系统的安装,如 Windows、Linux 等,一般都会通过 ISO 来安装。而在很多第三方地址中下载的 ISO 镜像通常会捆绑一些流氓软件,很是难受。那…

Java 中的异常处理

认识异常 程序中可能会有很多意想不到的问题的出现,这些问题中,有些是在编写阶段时就无法编译通过,比如写代码时变量名写错,出现语法错误 java.lang.Error: Unresolved compilation problem ……;有些是在程序运行的时…

从零开始Vue项目中使用MapboxGL开发三维地图教程(四)改变鼠标style、地图置于单击feature中心、量测距离和polgon面积和中心点坐标

文章目录 1、飞行平移到鼠标点击图层属性的地图中心位置2、当鼠标光标进入“圆”图层中的某个要素时,将其更改为指针3、量测距离4、量测area面积和中心点坐标 1、飞行平移到鼠标点击图层属性的地图中心位置 //鼠标点击事件map.on("click", "iconImag…

基于Amazon SageMaker平台部署Stable Diffusion模型实现——图片识别

序言: 当谈到机器学习和人工智能的开发和部署时,Amazon SageMaker是一个非常强大和全面的平台。作为一项托管式的机器学习服务,Amazon SageMaker提供了一套完整的工具和功能,帮助开发者轻松构建、训练和部署机器学习模型。 首先&…

程序猿成长之路之密码学篇-AES算法解密详解及代码呈现

各位csdn的小伙伴们大家好呀,我又回来了,这篇文章为上一次介绍AES加密算法的姊妹篇,重点将会详细介绍一下AES算法的解密过程并呈上AES加解密的代码。【暂时不包含iv即偏移量】。下面请跟随我一同进入AES解密的世界。 AES加密详解 如果有小伙…

ffmpeg编译笔记:ubuntu18.04编译ffmpeg5.1 x86与64

一、前言 本篇描述了ffmpeg5.1在ubuntu18.04上的编译经验。编译后的库支持h264,h265软硬解码,支持https,支持SDL。本篇同时描述openssl在ffmpeg中的编译经验,以及提供ffmpeg编译和openssl编译的32位和64位的配置命令。 二、相关…

这8道接口测试面试题

接口测试常见的问题了。 大家乍一看! 接口测试面试题 这几个问题,能答出来几个?有没有8个都能够完美的答出来的?在留言区打出你的数字。(0~8) 这些问题你回答起来,不要吞吞吐吐只说几个关键字…

1. java.io.File 类的使用

1.1 概述 • File 类及本章下的各种流,都定义在 java.io 包下。 • 一个 File 对象代表硬盘或网络中可能存在的一个文件或者文件目录(俗称文件夹), 与平台无关。(体会万事万物皆对象) • File 能新建、删除…

重启好多次路由器,还是上不了网怎么办?

大家好,我的网工朋友 遇到突发的网络断连,你一般会怎么做? 我觉得很多人都会插拔一下路由器,这和电脑不行了,马上就重启电脑一样,是刻在DNA里的傻瓜操作。 但是也有很多时候,这个傻瓜操作是解…

PrivateGPT:安全和私密的离线 GPT-4

在人工智能 (AI) 和自然语言处理 (NLP) 领域,隐私通常是一个基本问题,尤其是在处理敏感数据时。PrivateGPT 是这一领域的突破性发展,正面解决了这个问题。它旨在在没有互联网连接的情况下在本地运行,通过防止数据离开您的执行环境…

这些方法可以手写扫描识别

小伙伴们知道有一项技术是可以将我们手写的东西识别出来吗?这一项创新的技术就是手写识别功能,它能够将手写内容快速转换为数字或文本格式,并提高信息处理和管理的效率。而且相比传统的手工记录方式,手写识别功能具有较高的准确性…

腾讯测试开发 4 轮面试,接到 30k*15 的 Offer !详解面试流程和真题

在互联网做了几年之后,去大厂“镀镀金”是大部分人的首选。大厂不仅待遇高、福利好,更重要的是,它是对你专业能力的背书,大厂工作背景多少会给你的简历增加几分竞争力。 但说实话,想进大厂还真没那么容易。我的一个朋…

find命令

你将看到的第一个命令是find。这是个用于搜索文件的命令,它极其有用,但Linux初学者常常觉得它不易使用,这不仅仅是因为它有选项、测试和动作类型的参数,还因为其中一个参数的处理结果可能会影响到后续参数的处理。在深入研究这些选…