卡方检验方法概述与类型——四格表和R*C表卡方检验案例

news2024/11/29 0:29:39

卡方检验是以卡方分布为基础,针对定类数据资料的常用假设检验方法。其理论思想是判断实际观测到的频数与有关总体的理论频数是否一致

卡方统计量是实际频数与理论频数吻合程度的指标。卡方值越小,表明实际观察频数与理论频数越接近,反之卡方值越大则表示两者相差越大。卡方检验原假设实际频数与理论频数相同,依据卡方分布计算显著性p值进行统计结论的推断。取显著性水平α=0.05,当p值小于0.05时说明观察频数与理论频数差异有统计学意义,反之若p值大于0.05则说明观察频数与理论频数无差异。

一、方法概述

1. 应用方向

实际研究分析中,卡方检验有独立性/差异性检验和卡方拟合优度检验这两个重要的应用方向。

(1) 独立性/差异性检验

独立性检验可理解为判断两组或多组计数资料是相互关联还是彼此独立,如是否患病与是否吸烟的关联关系。根据研究侧重点的不同,也可用于两组或多组样本的总体率(或构成比)之间的差别是否具有统计学意义,如某疾病联合化疗和单纯化疗两种治疗方式的存活率有无差异,吸烟与不吸烟两组人群患病率有无差异。

(2) 拟合优度检验

检验实际观察的类别频数分布比例与已知类别频数分布比例是否符合的分析方法,通俗讲即检验验总体是否服从某个指定分布。比如在研究牛的相对性状分离现象时,用黑色无角牛和红色有角牛杂交,子二代出现黑色无角牛192头,黑色有角牛78头,红色无角牛72头,红色有角牛18头。这两对性状是否符合孟德尔遗传规律中9:3:3:1的遗传比例。

2. 数据要求

用于卡方检验的数据录入格式有两种。第一种是列联表频数资料,即加权数据格式,在分析时需要提前用频数进行加权。第二种是原始数据记录,即普通数据格式,在分析时软件工具会自动汇总频数结果。

实践中,列联表频数数据较为常见。列联表也叫交叉表,是两个分类变量各水平两两交叉组合后的频数汇总表。

如果两个分类变量均为2水平,那么二者构成2×2交叉表,交叉组合频数所在的位置也叫做单元格,因此2×2交叉表共有4个单元格,也就是常说的四格表。除四格表之外的列联表,我们可以统称为R×C列联表,其中R代表行个数,C代表列个数。

3. 卡方检验的类型

按列联表的形式,卡方检验可以简单划分为2×2四格表卡方检验、R×C列联表卡方检验;按研究设计不同,包括成组设计的独立性卡方检验和配对卡方检验;按研究目的,可以分为卡方拟合优度检验及独立性卡方检验。此外根据是否有分层变量,还包括分层卡方检验。各种类型卡方检验的应用目的、方法选择见表 4-23。

一般说卡方检验时,默认计算的是Pearson卡方统计量,而实际分析时,在2×2四格表卡方检验、R×C列联表卡方检验中通常会计算多个卡方统计量,包括Pearson卡方、Yates校正卡方(连续校正卡方)、趋势卡方,以及Fisher卡方检验(Fisher确切概率)等,应注意区分不同卡方统计量及其检验的适用条件,根据条件选择恰当的结果进行解释和分析。

使用SPSSAU进行卡方检验时,应注意【通用方法】→【交叉(卡方)】模块只提供较大样本时最常用的Pearson卡方检验,而【实验/医学研究】→【卡方检验】,模块可提供Pearson卡方、Yates校正卡方,以及Fisher卡方检验,适合小样本数据。

二、2×2四格表卡方检验

四格表是最基础的列联表,四格表卡方检验也是最常见的一种。本节介绍的是成组设计的四格表卡方检验,具体分析时需区分Pearson卡方、Yates校正卡方(连续校正卡方),以及Fisher卡方检验(Fisher确切概率)。其适用条件如表 4-24所示。

上表中n为样本量,E为理论频数。在四格表资料中,Pearson卡方适用于n≥40 且全部单元格 E≥5的情况。如果四格表 n≥40但任意单元格出现1≤E﹤5,则一般考虑采用Yates校正卡方,它是对Pearson卡方的校正结果。如果四格表中任意单元格出现E﹤1或n﹤40,则应当采用Fisher卡方(方积乾,2012)。

一般建议采用【实验/医学研究】→【卡方检验】模块来实现成组设计的四格表卡方检验。

【例4-9】某医院欲比较异梨醇口服液(试验组)和氢氯噻嗪+地塞米松(对照组)降低颅内压的疗效。将200例颅内压增高症患者随机分为两组,结果见表 425。问两组降低颅内压的总体有效率有无差别?数据来源于孙振球,徐勇勇(2014),数据文档见“例4-9.xls”

1) 数据与案例分析

本例为频数资料,使用SPSSAU进行分析时,应按照加权数据格式录入数据。“组别”、“疗效”为均有2个水平的分类变量,“频数”为定量数据。在具体分析时需要将“频数”作为权重进行加权。本例加权数据格式见表 4-26。

本例目的在于比较试验组与对照的治疗有效率,是典型的两组率的差异检验。数据资料为四格表频数资料,采用四格表卡方检验进行分析。

2) 卡方检验

读入数据后,仪表盘中依次选择【实验/医学研究】→【卡方检验】模块,将“组别”拖拽至【X(定类)】,“疗效”拖拽至【Y(定类)】。本例需加权处理,故再把“频数”拖拽至【加权项(可选)】。选项框内模型选择【百分数(按列)】,操作界面如图 414所示,最后单击【开始分析】。

图 4-14 卡方检验操作界面

3) 结果解读

为方便理解不同卡方统计量及其检验的适用条件,可先对卡方检验卡方统计量、期望频数E,样本容量n进行统计汇总,其结果见表 4-27,最后按表 4-27的常见三线表格式对结果进行报告。

上表中包括了Pearson卡方、连续校正Yates卡方和Fisher卡方统计量及显著性p值,以及期望频数等基本信息的汇总结果。E为列联表单元格期望频数,n为样本量。本例中,样本量为200例,所有单元格的期望频数均大于5。根据卡方检验适用条件,应选择读取Pearson卡方检验结果。即卡方值12.857,p值﹤0.01,认为试验组与对照组两组人群的治疗有效率差异有统计学意义。

表 4-28最后两列给出的卡方统计量和p值,χ2=12.857,p值﹤0.01,其结果为平台自动匹配选择输出的Pearson卡方检验。

结合以上分析,可知试验组和对照组在降低颅内压的疗效并不相同。试验组有效率95.19%,对照组有效率78.13%。经Pearson卡方检验,按α=0.05水平,认为两组降低颅内压总体有效率不相等,具体表现为异梨醇口服液的有效率高于和氢氯噻嗪+地塞米松的有效率。

本例样本量和期望频数条件满足Pearson卡方检验的适用性,如果在四格表中有单元格出现期望频数在1~5之间的情况,则表 4-27会自动选择输出Yates校正卡方(连续性校正卡方检验)结果。一般建议读者直接读取和使用表 4-27的结果进行报告。

三、R×C表卡方检验与多重比较

R×C列联表卡方检验,包括常见的2×C两组构成比的差异比较;R×2两组或多组率的差异比较,还有多行多列即R×C列联表卡方检验。

本节内容介绍列联表中行与列两个变量均为无序多分类变量的情况,常见R×C卡方的应用场景见表 4-29。

R×C列联表卡方检验时仍然采用的是Pearson卡方其适用条件要求列联表中所有的单元格理论频数不应小于1,并且1≤E﹤5的单元格数量不宜超过总数的1/5。如果出现不符合该条件的情况,研究者可能要考虑采用Fisher确切概率法(方积乾,2012)。

R×C表卡方检验的结论是总体上差异是否显著,如果还想进一步判断两两总体率的差异,应继续做卡方结果的多重比较。在进行卡方检验时,【实验/医学研究】→【卡方检验】功能模块会根据分组情况自动实现卡方分割法多重比较。

以R×2列联表为例,卡方分割的基本思想是将R×2拆分为多个2×2四格表资料从而实现两两比较。例如3×2列联表检验3组总体率的差异,假设3个组名称分别为A/B/C,可拆分出AB(A、B两组率的比较)、AC、BC共3个2×2四格表卡方检验。

多重比较时,检验次数增多会增加Ⅰ类错误的概率,此过程应当对卡方检验p值进行校正,建议使用校正显著性水平(Bonferroni校正),假设显著性水平为0.05,当两两比较次数为3次时,那么Bonferroni校正显著性水平为0.05/3次=0.0167,即p值需要与0.0167进行对比,从而作出统计推断,而不是与0.05比较。

【例4-10】某医师研究物理疗法、药物治疗和外用膏药3种疗法治疗周围性面神经麻痹的疗效,数据资料见表 430。问3种疗法的有效率有无差别。数据来源于孙振球,徐勇勇(2014),本例数据文档见“例4-10.xls”。

1) 数据与案例分析

数据包括“组别”、“疗效”、“频数”3个变量,为加权数据格式。在表 430最后一列已经计算各组疗法的疗效有效率,依次为96.6%、90.11%、81.94%,本例目的比较3种不同治疗方法的疗效差异,为多组率的差异比较,接下来进行R×2卡方检验。

2) 卡方检验

读入数据后,依次选择【实验/医学研究】→【卡方检验】模块,将“组别”拖拽至【X(定类)】,“疗效”拖拽至【Y(定类)】。本例需加权处理,故再把“频数”拖拽至【加权项(可选)】。选项框内模型选择【百分数(按列)】,最后单击【开始分析】。

和上一例一样,表 4-31用于根据期望频数、样本量等适用条件选择正确的统计量和检验结果,表 4-32用于科研写作结果报告,也可以直接解释和分析表 4-32的结果。

本例所有单元格E≥5,样本量532,依据卡方检验的适用条件,本例选择Pearson卡方检验结果,即卡方=21.04,p﹤0.01。

上表结果可直接用于报告,χ²=21.04,p值﹤0.01,说明3种疗法治疗周围性面神经麻痹的有效率有差别。

卡方检验时常使用相关性指标作为效应量的估计,如果研究上需要报告组别的效应量,可结合数据类型及交叉表格类型综合选择。如表 4-33所示,本例选择Cramer v效应量,此处Cramer v为0.2,说明存在弱相关。

综合以上信息,本例比较3组治疗方法的疗效。结果显示,χ²=21.04,p值﹤0.01,提示不同治疗方法其疗效不同,三组治疗有效率差异具有统计学意义。Cramer v = 0.20,疗法与治疗效果之间存在弱相关性。

3) 卡方分割多重比较

当卡方检验整体有显著性后,【实验/医学研究】→【卡方检验】模块会根据分组情况自动实现卡方分割法多重比较,本例结果如表 4-34示。

由上表可知,共进行3次拆分。第一次是外用膏药组与物理疗法组之间的治疗有效率差异比较;第2次是外用膏药组与药物治疗组之间的比较;第3次是物理疗法组与药物治疗组之间的比较。每一次拆分,都是一个独立的四格表卡方检验,输出对应的卡方统计量与显著性p值。

此处要注意到,表中最后一列的p值需要与校正后的显著性水平进行比较。本例进行3次两两比较,因此校正的显著性水平为α=0.05/3=0.0167,p值需与0.0167进行比较,从而推断检验的结果。

物理疗法组与外用膏药组p值﹤0.0167;物理疗法组与药物治疗组p值=0.01﹤0.0167。可以认为物理疗法与药物治疗、外用膏药的有效率均有统计学差异,具体来说是物理疗法的有效率高于其他两种疗法,但我们尚不能认为药物治疗与外用膏药的有效率有差异(=0.03﹥0.0167)。

以上内容摘自《SPSSAU科研数据分析方法与应用》第4章——差异关系研究,书中不仅涵盖了数据清理、统计分析和模型构建等内容,还提供了丰富的案例,以便于读者在实际研究中应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2227410.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

three.js使用ShaderMaterial实现聚光灯光源demo

文章目录 顶点片元全部 核心: 顶点 varying vec3 vNormal;varying vec3 vViewPosition;void main() {vNormal normalMatrix * normal;vNormal normalize( vNormal );vec4 modelViewPosition modelViewMatrix * vec4(position, 1.0);gl_Position projectionMat…

WPF+MVVM案例实战(三)- 动态数字卡片效果实现

1、创建项目 打开 VS2022 ,新建项目 Wpf_Examples,创建各层级文件夹,安装 CommunityToolkit.Mvvm 和 Microsoft.Extensions.DependencyInjectio NuGet包,完成MVVM框架搭建。搭建完成后项目层次如下图所示: 这里如何实现 MVVM 框…

深入理解 SQL 中的 WITH AS 语法

在日常数据库操作中,SQL 语句的复杂性往往会影响到查询的可读性和维护性。为了解决这个问题,Oracle 提供了 WITH AS 语法,这一功能可以极大地简化复杂查询,提升代码的清晰度。本文将详细介绍 WITH AS 的基本用法、优势以及一些实际…

【云原生】Kubernets1.29部署StorageClass-NFS作为存储类,动态创建pvc(已存在NFS服务端)

文章目录 在写redis集群搭建的时候,有提到过使用nfs做storageclass,那时候kubernetes是1.20版本,https://dongweizhen.blog.csdn.net/article/details/130651727 现在使用的是kubernetes 1.29版本,根据之前的修改方式并未生效,反而提示:Error: invalid argument "Re…

算法日记 11 day 二叉树

新的篇章,二叉树!!! 二叉树的种类 满二叉树:如果一棵二叉树只有度为0的结点和度为2的结点,并且度为0的结点在同一层上,则这棵二叉树为满二叉树。 这棵二叉树为满二叉树,也可以说深度…

IDEA->EasyCode(mapper.xml) 字段无逗号分隔和修改全局变量问题

1.mapperxml字段无逗号分隔 在easycode的设置里找到: 1、Template下的 mapper.xml.vm脚本 2、Global Config下的 mybatisSupport.vm脚本 将脚本里的 $velocityHasNext 替换成 $foreach.hasNext,然后保存。Mybatis-Plus框架操作一样 github->issue连…

红队工具---Behinder学习

1.什么是Behinder? Behinder 是一款用于网络渗透测试的安全工具,主要用于对 Web 应用进行攻击和漏洞利用。它提供了强大的功能,是一款红队的大杀器,几乎是现代web安全必须学习的一款webshell管理工具。 主要用途 渗透测试&#…

中航资本:商业卫星产业链建设加快 无人机军民两用空间广阔

互联网医疗迎多重边沿改进 我国居民医疗保健开支稳步添加,据国家统计局数据,2023年全国居民医疗保健人均消费开支为2460元,占人均消费总开支的比例从2018年的8.5%前进至2023年的9.2%。跟着慢病患者群扩展、业态相似的外卖、产品电商翻开以及…

基于springboot+vue实现的免费体育馆场地预约系统 (源码+L文+ppt)4-099

基于springbootvue实现的免费体育馆场地预约系统 (源码L文ppt)4-099 4.1 系统总体结构设计 本系统是基于B/S架构的网站系统,分为系统前台和系统后台,前台主要是提供给注册用户和未注册登录的游客使用的,包括首页、场馆…

雷军救WPS“三次”,WPS注入新生力量,不再“抄袭”微软

救WPS“三次” 1989年,求伯君用128万行代码编写出了WPS1.0,宣告了中国自主办公时代的开启。 那时候,雷军还在武汉大学深造,他早就把求伯君当成了自己的榜样,这一来二去的,雷军和WPS之间也就结下了不解之缘…

基于GFlowNets的蚁群抽样算法在组合优化中的应用(arXiv 2024)(未完) -1

文章目录 Abstract1 Introduction2 Related works2.1 蚁群优化2.2 神经组合优化2.3 GFlowNets与组合优化3 Preliminary3.1 旅行商问题3.2 蚁群优化3.3 生成流网络Abstract 本文介绍了一种神经引导的概率搜索算法——生成流蚁群采样器(GFACS),用于解决组合优化(CO)问题。G…

【C++】类和对象(四):析构函数

大家好,我是苏貝,本篇博客带大家了解C的析构函数,如果你觉得我写的还不错的话,可以给我一个赞👍吗,感谢❤️ 目录 1. 概念2. 特性 1. 概念 通过前面构造函数的学习,我们知道一个对象是怎么来的…

VulkanTutorial(8·Shader modules)

Shader modules 与早期的API不同,Vulkan中的着色器代码必须以字节码格式指定,而不是人类可读的语法,如GLSL和HLSL。这种字节码格式称为SPIR-V它是一种可用于编写图形和计算着色器的格式 使用像SPIR-V这样简单的字节码格式,不会面…

详解PHP正则表达式中的转义操作

PHP正则表达式中的特殊字符和转义 在 PHP 正则表达式中,有许多特殊字符具有特定的意义。这些特殊字符通常用于定义匹配模式的一部分,或者改变匹配的行为。以下是 PHP 正则表达式中一些常用的特殊字符及其含义: .匹配除换行符之外的任何单个字符 ^在方括…

27.Redis哨兵架构

Redis哨兵高可用架构 Sentinel(哨兵)是一种特殊的 Redis 服务,其主要功能并非提供常规的读写服务,而是专门用于监控 Redis 实例节点。 1.在哨兵架构下,客户端(client 端)首次会从哨兵处找出 Re…

STM32G474硬件CRC7和软件CRC7校验

1、CRC7的多项式和初始值 #define CRC_Hardware_POLYNOMIAL_7B 0x09//硬件CRC多项式为0x09 //SD卡中的校验算法CRC7,生成多项式为x^7 x^3 1,由于bit7不存在,只有bit31和bit01,所以多项式为0x09#define CRC7_INIT_VALUE 0…

Java基础 —— IO流详解

IO流 在Java中,IO(输入/输出)流是用于在程序与外部世界(如文件、网络、内存等)之间传输数据的机制。IO流分为两大类:输入流(InputStream/Reader)和输出流(OutputStream/…

【01初识】-初识 RabbitMQ

目录 学习背景1- 初识 MQ1-1 同步调用什么是同步调用?小结:同步调用优缺点 1-2 异步调用什么是异步调用?小结:异步调用的优缺点,什么时候使用异步调用? 1-3 MQ 技术选型 学习背景 异步通讯的特点&#xff…

STK与MATLAB互联——仿真导航卫星与地面用户间距离和仰角参数

文章目录 构建GPS星座创建单个PRN的GPS卫星创建GPS星座,并为其添加发射机 北斗星座构建搭建低轨铱星星座构建一颗轨道高度为800km/1000km/1200km的低轨卫星构建一颗轨道高度为800km/1000km/1200km的低轨卫星建立地面站,可见性分析确定地面站坐标分析单颗…

Excel菜单选项无法点击?两种原因及解决方法全解析

在使用Excel处理数据时,有时会遇到菜单选项无法点击的情况。这种问题会影响到正常的操作和编辑。出现这种情况的原因可能有多种,本文将介绍两种常见的原因,并提供相应的解决方法,帮助小伙伴们快速恢复菜单选项的正常使用。 原因一…