做数据分析为何要学统计学(5)——什么问题适合使用卡方检验?

news2024/12/23 17:50:39

卡方检验作为一种非常著名的非参数检验方法(不受总体分布因素的限制),在工程试验、临床试验、社会调查等领域被广泛应用。但是也正是因为使用的便捷性,造成时常被误用。本文参阅相关的文献,对卡方检验的适用性进行粗浅的论述。

首先,从技术角度来看,(1)卡方检验的样本涉及的因素(也就是变量)需要两个(含)以上,而且是定性变量(分类变量,定类变量),其值可以是数字,也可以符号,但是即使是数字也不具备数量的含义,只是用于区分。比如性别变量,它的值可以是男或女,也可以是0或1,A或B;(2)其样本数据是由多个因素在不同水平(取值)情况下共同决定的数据,直观上表现为列联表(交互分类表,交叉表),形如下表。

某项产品的地区调查(人)
北京上海
满意600480
一般120150
不满意8070

上表涉及的因素(变量)有两个,分别是地区和满意度,其值分别是[北京,上海]和[满意,一般,不满意]。而样本是由两个变量的不同取值作用下的统计数据,可以是总和,也可以是平均数,或者其他统计量。

其次,从应用的角度来看,我们的目的是要进行无差异推断,或者不相关推断(无差异等价于不相关)。比如上述问题可以回答北京、上海两地对该产品的满意度是否无差异,或者说对该产品的满意度是否与上述地区不相关。通过即调用卡方检验函数,获得p=0.00472,在显著性水平0.05下,两地满意度无差异(或与地区不相关)的假设被拒绝。于是我们可以认为“两地对某产品的满意度是有差异的”或“某产品的满意度与地区有相关性”。代码如下:

#chi2_contingency是卡方检验函数
from scipy.stats import chi2_contingency
import numpy as np
#定义样本数据
X= np.array([[600,120,80],[480,150,70]])
chi2_contingency(X)
结果:(10.714285714285714, 0.004714356473549276, 2, array([[576., 144.,  80.],[504., 126.,  70.]]))。这些数值分别为卡方值、p值、自由度和理论值。

还有一种特殊情况,就是样本数据只有一组,也就是说表面上看因素只有一个,这种情况实际是进行“试验值(实际值,经验值)与理论值的无差异”推断。如下例:

进行抛硬币试验,进行七轮,每轮抛20次,数据如下表所示。是否可以认为硬币正面与反面(只有这两种情况)朝上的概率相同。

硬币正面向上的频数
第一轮第二轮第三轮第四轮第五轮第六轮第七轮
812107989

乍一看,此样本只有一组数据,而结合要解答的问题,实际上还有一组数据,即理论值。该理论值是等概率条件下硬币正面向上的次数,也就是每轮都是10。于是样本就变成了

硬币正面向上的频数
第一轮第二轮第三轮第四轮第五轮第六轮第七轮
812107989
10101010101010

通过将上述样本数据带入卡方检验函数,p=0.98928。即在显著性水平0.05下,我们接受“硬币正面与反面朝上的概率相同”这一假设。

再来看一个例子,某餐厅对一年内每周内每天的营业额进行统计(均值),看看营业情况是否存在时间方面的差异,数据如下。

一周的营业额统计(万元)

周一周二周三周四周五周六周日
9116781510

该问题同样是一种“试验值(实际值,经验值)与理论值的无差异”推断问题。只不过理论值的与上例不同。如果我们认为营业额与时间无关,也就意味的每天营业额是相同的,于是理论值将由每天营业额的均值来体现。即样本数据为:

一周的营业额统计(万元)

周一周二周三周四周五周六周日
9116781510
9.429.429.429.429.429.429.42

通过将上述样本数据带入卡方检验函数,p=0.85073。即在显著性水平0.05下,我们接受“营业额不存在时间方面的差异”这一假设。尽管从表面来看,该结果不太容易被接受,似乎周末营业情况更好,但是放眼总体(更长的时间范围),并不能支持直观感受。

***********************接下来划重点,举一个非常有代表性的误用卡方检验的例子***************

某调查机构调查了不同收入水平话费支出的情况,试图分析收入水平是否与话费支出水平相关。数据如下

收入

3000

4000500060007000800010000
话费90100150180200300400

然后对两组数据进行了卡方检验,p=0.000006。结论:拒绝两者不相关的假设。也就是说收入水平与话费支出水平是相关的。从结果来看是没有问题的,两组数据确实是显著正相关的,其皮尔逊相关系数corr=0.9758。但是从样本数据本身来看,不符合使用卡方检验的适用条件。因为:

(1)收入和话费两个因素不是定性变量,而是定量变量。

(2)样本值也不是两个因素共同确定的数值,而是归属于每个因素本身。

对于此类问题使用相关系数才是合理的。

如果上述调查结果改为不同收入水平和话费支出水平下的用户数量,则可以应用卡方检验。比如数据转换为

30004000500060007000800010000
<=90853024718123
90-100710011291295
100-150152075141068
150-2005459019161
200-250698350113
250-300316151415806
>30029419132090

使用卡方检验后1.12896*10^{-300}<0.05,于是我们可以拒绝收入水平与话费支出水平不相关的假设,也就是说收入水平会影响(或决定)话费支出水平。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1303827.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Go】基于GoFiber从零开始搭建一个GoWeb后台管理系统(一)搭建项目

前言 最近两个月一直在忙公司的项目&#xff0c;上班时间经常高强度写代码&#xff0c;下班了只想躺着&#xff0c;没心思再学习、做自己的项目了。最近这几天轻松一点了&#xff0c;终于有时间 摸鱼了 做自己的事了&#xff0c;所以到现在我总算是搭起来一个比较完整的后台管…

血的教训,BigDecimal踩过的坑

很多人都用过Java的BigDecimal类型&#xff0c;但是很多人都用错了。如果使用不当&#xff0c;可能会造成非常致命的线上问题&#xff0c;因为这涉及到金额等数据的计算精度。 首先说一下&#xff0c;一般对于不需要特别高精度的计算&#xff0c;我们使用double或float类型就可…

微服务黑马头条(简略笔记)

Linux中nacos的拉取安装 拉取naocs镜像&#xff1a;docker pull nacos/nacos-server:1.2.0创建容器&#xff1a;docker run --env MODEstandalone --name nacos --restartalways -d -p 8848:8848 nacos/nacos-server:1.2.0访问地址&#xff1a;http://192.168.200.130:8848/n…

Python常见面试知识总结(一):迭代器、拷贝、线程及底层结构

前言&#xff1a; Hello大家好&#xff0c;我是Dream。 今天来总结一下Python和C语言中常见的面试知识&#xff0c;欢迎大家一起前来探讨学习~ 【一】Python中迭代器的概念&#xff1f; 可迭代对象是迭代器、生成器和装饰器的基础。简单来说&#xff0c;可以使用for来循环遍历…

vue自定义指令及常用的自定义指令封装

vue2 自定义指令 官网链接https://v2.cn.vuejs.org/v2/guide/custom-directive.html 指令注册 这里是一个 Vue2 的指令合集&#xff0c;详细的指令移步下面具体的指令文章&#xff0c;现在我们在这里要介绍如何在项目中统一管理和使用这些指令。 注册指令 单文件引入注册 …

Linux上进行Nacos安装

Nacos安装指南 仅供参考&#xff0c;若有错误&#xff0c;欢迎批评指正&#xff01; 后期会继续上传docker安装nacos的过程&#xff01; 1.Windows安装 开发阶段采用单机安装即可。 1.1.下载安装包 在Nacos的GitHub页面&#xff0c;提供有下载链接&#xff0c;可以下载编译好…

性能测试基础

性能测试分类 客户端性能&#xff1a;测试APP自身的性能&#xff0c;例如CPU、内存消耗&#xff1b;web页面元素渲染速度 服务端性能&#xff1a;测试服务端项目程序的支持的并发、处理能力、响应时间等&#xff0c;主要通过接口来做性能测试 性能测试指标 并发 同时向服务…

企业举办年会,可以邀请哪些媒体进行宣传?

传媒如春雨&#xff0c;润物细无声&#xff0c;大家好&#xff0c;我是51媒体网胡老师。 年关将至&#xff0c;筹办年会成为每个企业必做的事情&#xff0c;也是大家非常期待的年终大会&#xff0c;在我们策划年会时候&#xff0c;也要抓住最后宣传的机会。那么企业举办年会时…

【信息安全】-ISO/IEC 27001-2022(翻译)

文章目录 范围规范性引用文件3 术语和定义4 组织环境&#xff08;P&#xff09;4.1 理解组织及其环境4.2 理解相关方的需求和期望组织应确定:a) 信息安全管理体系相关方;b) 这些相关方的相关要求;c) 哪些要求可以通过信息安全管理体系得到解决。注:相关方的要求可包括法律、法规…

MyBatisPlus简介

1 简介 MyBatis-Plus&#xff08;简称 MP&#xff09;是一个 MyBatis的增强工具&#xff0c;在 MyBatis 的基础上只做增强不做改变&#xff0c;为简化开发、提高效率而生。 2、特性 无侵入 只做增强不做改变&#xff0c;引入它不会对现有工程产生影响&#xff0c;如丝般顺滑…

《IT圈里的“鄙视链”:看不起谁又被谁看不起?》

文章目录 每日一句正能量前言一、编程语言篇二、工具篇三、操作系统篇四、硬件篇五、职场篇后记 每日一句正能量 人的结构就是相互支撑&#xff0c;众人的事业需要每个人的参与。 前言 每个领域都存在着错综复杂的鄙视链,这一点在IT 领域更为突出。从编程语言、工具&#xff0…

SD生成的图像不清晰,如何解决

文生图 选择高清修复&#xff1a; 几点注意 重绘幅度&#xff1a;这里不用太高&#xff0c;他会根据你生成的低分辨率图像&#xff0c;生成高分辨率的图像&#xff0c;可以选择0.3~05之间&#xff0c;给AI跟多想象力空间可以选择0.5 ~ 0.7。太低边缘模糊&#xff0c;太高了可能…

Layui深入

1、代码&#xff1a; <!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>注册页面</title> <style> .container { max-width: 600px; margin: 0 auto; padding: 20px; …

14-Kafka-Day02

第 4 章 Kafka Broker 4.1 Kafka Broker 工作流程 4.1.1 Zookeeper 存储的 Kafka 信息 &#xff08;1&#xff09;启动 Zookeeper 客户端。 bin/zkCli.sh 因为你在配置kafka的时候指定了它的名字。 &#xff08;2&#xff09;通过 ls 命令可以查看 kafka 相关信息。 [zk: …

InsCode实践分享:如何实现自动化代码审查和质量控制?

文章目录 文章目录 概要 整体架构流程 InsCode的解释 技术展示 小结 概要 InsCode是一款面向中小型企业的代码审查和自动化质量控制工具。本文将分享如何使用InsCode来实现自动化代码审查和质量控制&#xff0c;帮助企业在代码开发和维护过程中降低风险&#xff0c;提高效率和…

Java最全面试题专题---2、Java集合容器(1)

集合容器概述 什么是集合 **集合框架&#xff1a;**用于存储数据的容器。 集合框架是为表示和操作集合而规定的一种统一的标准的体系结构。 任何集合框架都包含三大块内容&#xff1a;对外的接口、接口的实现和对集合运算的算法。 **接口&#xff1a;**表示集合的抽象数据类…

基于springboot实现的人力资源管理系统

一、系统架构 前端&#xff1a;html | js | css | jquery | bootstrap 后端&#xff1a;springboot | mybatis 环境&#xff1a;jdk1.7 | mysql | maven 二、代码及数据库 三、功能介绍 01. 登录页 02. 首页 03. 员工管理 04. 奖惩管理 05. 合同管理 06. 薪酬管理 07.…

Python从入门到精通五:Python函数

函数介绍 学习目标&#xff1a; 快速体验函数的使用了解函数的作用 函数&#xff1a;是组织好的&#xff0c;可重复使用的&#xff0c;用来实现特定功能的代码段。 我们使用过的&#xff1a;input()、print()、str()、int()等都是Python的内置函数。 为什么要学习、使用函…

WPS没保存关闭了怎么恢复数据?3个方法,完成数据恢复!

“我今天在使用WPS时&#xff0c;突然有点急事出去了一趟&#xff0c;但是我忘记保存文档了&#xff0c;回来之后发现电脑自动关机了&#xff0c;我的文档也没了&#xff01;这可怎么办呢&#xff1f;有什么办法可以找回这些数据吗&#xff1f;” 在快节奏的工作中&#xff0c;…

软件科技成果鉴定测试有什么好处?注意事项有哪些?

软件科技成果鉴定测试是指对软件科技成果进行检测和评估的过程。通过这个测试&#xff0c;可以评估软件科技成果的技术水平、功能性能以及可靠性&#xff0c;并为相关单位和个人提供科学的评价依据。    一、进行软件科技成果鉴定测试有以下好处&#xff1a;   1、客观评价…