统计学9——分类数据统计

news2024/9/22 21:32:29

 知识结构

 内容精读

1.分类数据与$\chi^2$统计量

分类数据在第一章已经进行了详细介绍,就是对数据进行分类的结果,特征是,调查结果虽然用数值表示,但不同数值描述了调查对象的不同特征。由此分类数据的结果是频数,而$\chi^2$检验是对频数进行分析的统计分析方法

$\chi^2$统计量作为三大统计量之一,可以用于测定两个分类变量间的相关程度。

$$\chi^2=\sigma\frac{(f_{0}-f_{e})^2}{f_{2}}$$

其中$f_{0}$表示观察值频数,$f_{2}$表示期望值频数

 $\chi^2$统计量描述了观察值与期望值的接近程度,两者越接近,$\chi^2$就越小。

2.拟合优度检验

 拟合优度检验是用$\chi^2$统计量进行统计的显著性检验的一个重要内容。依据总体分布状况,计算出分类变量中各类别的期望频数,与观察频数进行对比,判断期望频数与观察频数是否有显著差异。

拟合优度检验的一般步骤如下:

  • 计算$f_{0}-f_{e}$
  • 计算$(f_{0}-f_{e})^2$
  • 计算$(f_{0}-f_{e})^2/f_{e}$
  • 计算$\chi^2$
  • 与$\chi^2_{\alpha}(R-1)$进行比较,若$\chi^2>\chi^2_{\alpha}(R-1)$,则认为观察频数与期望频数有显著差异。说明选取的分类特征对研究问题是有影响的。

3.独立性检验

拟合优度是对一个变量的检验,有时候我们也会遇到变量数不唯一的问题,比如研究两个变量间是否存在联系。这种对两个变量的研究又称为独立性检验,通常借助列联表进行性展示。

所谓列联表就是将两个或以上的变量进行交叉分类的频数分布表。

地区一级二级三级合计
526424140
605952171
506574189
合计162188150500

上面就是一个3×3的二维列联表,三个地区与三个等级间相互交叉。 

 针对上面的列联表,独立性检验就是检查地区与等级之间是否有关联。

计算方法与拟合优度相同,都需要构建$\chi^2$统计量。只是对于列联表中每个单位的期望频数采用$f_{e}=\frac{RT×CT}{n}$,RT、CT分别为单元所在行、列的合计值。$\chi^2$统计量的自由度df=(R-1)(C-1),若$\chi^2>\chi^2_{\alpha}{(R-1)(C-1)}$,则拒绝原假设,认为两变量间不是相互独立的。

4.相关性检验 

前面的独立性检验只是判断两个变量是否存在联系,那么如果存在联系,联系的程度又是怎样的呢?这时候就需要进行相关性检验。

$\varphi $相关系数

$$\varphi=\sqrt{\chi^2/n}$$

是列联表中最常用的一种相关系数。$\varphi$的值应该在0-1之间,当两个变量相互独立时,$\varphi=0$,$\varphi=1 或 \varphi=-1$时是两个变量完全相关的一种情况。$\varphi$的绝对值越大,就说明变量的相关程度越高。

ps:

当列联表的行或列大于2时,$\varphi$会随着行列的变大而变大,且没有上限,这时使用$\varphi$测定相关程度就不够清晰了。

c相关系数

$$c=\sqrt{\frac{\chi^2}{\chi^2+n}}$$

c系数主要用于列联表大于2×2的情况。同样当两个变量相互独立式c=0,并且它不会大于1。c系数的最大值依赖于列联表的行数和列数,且随着R和C的增大而增大,因此根据不同的行和列计算的列联系数不便于比较。但因其计算简便,且对总体分布没有要求,在实际的使用较为广泛。

V相关系数

$$V=\sqrt{\frac {\chi^2} {n×min[(R-1),(C-1)]} }$$

跟前两个系数相同的是,当两变量相互独立时,V也等于0,此外当两变量完全相关V=1,对于行列中一个维度为2时,V系数的值就等于$\varphi$系数

以上三种相关系数均是实际中常用的相关性检验的方法,但需要注意的时,使用时要注意列联表的行列数和是否是一个相关系数,只有相同行列个数的列联表,并且采用同一种系数,这样的比较才是有意义的。

5.$\chi^2$分布的期望值准则

在使用$\chi^2$分布进行独立性检验是,样本量必须足够大,否则可能会出现错误,有这样两条准则:

  • 如果只有两个单元,每个单元的期望频数必须大于等于5.
  • 如果有两个以上单元,20%的单元的期望频数小于5,则不能使用$\chi^2$检验。

名词解释

拟合优度检验 

是用x2统计量进行统计显著性检验的重要内容之一。它是依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著性差异,从而达到对分类变量进行分析的目的。

 列联独立性检验

独立性检验是对两个分类变量的分析,分析列联表中行变量和列变量是否相互独立。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1928320.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

git链接远程仓库

【 一 】ssh链接远程仓库 删除git仓库 【 1 】初步使用方法 1、之前把本地代码,以https形式,提交到了远程仓库 # - git remote add origin https://gitee.com/bai-zhitao/lufy.git- 输入用户名密码2、ssh认证,只需要配置一次&#xff…

uniapp踩坑之项目:uni-table垂直居中和水平居中

uni-table 中的水平居中uni-td align"center"&#xff0c;css里的属性vertical-align: middle //html 水平居中<uni-table ref"table" :loading"loading" border stripe emptyText"暂无更多数据"><uni-tr><uni-th :wid…

车载音视频MediaPlayer优化方案

媒体播放现状 从手机到车载&#xff0c;在很多地方还是有很大的不同。针对多媒体的场景Android车机目前大部分结构大致结构如下图&#xff1a; 从以上图看出的问题&#xff1a; 各个音视频APP单独实现播控界面&#xff0c;播放链路不一致&#xff0c;使用的底层播放器和音频焦…

JavaEE:Spring Web简单小项目实践二(用户登录实现)

学习目的&#xff1a; 1、理解前后端交互过程 2、学习接口传参&#xff0c;数据返回以及页面展示 1、准备工作 创建SpringBoot项目&#xff0c;引入Spring Web依赖&#xff0c;添加前端页面到项目中。 前端代码&#xff1a; login.html <!DOCTYPE html> <html lang&…

云备份服务端

文件使用工具和json序列化反序列化工具 //文件和json工具类的设计实现 #ifndef __UTIL__ #define __UTIL__ #include<iostream> #include<fstream> #include<string> #include <vector> #include<sys/stat.h> #include"bundle.h" #inc…

68、Flink DataStream Connector 之文件系统详解

文件系统 1.概述 连接器提供了 BATCH 模式和 STREAMING 模式统一的 Source 和 Sink。 Flink FileSystem abstraction支持连接器对文件系统进行&#xff08;分区&#xff09;文件读写&#xff0c;文件系统连接器为 BATCH 和 STREAMING 模式提供了相同的保证&#xff0c;而且对…

数字孪生Digital Twin 结合建筑信息模型 BIM 在AIoT 智慧城市建设中Web 可视化大屏实践...

智慧城市建设通过将城市中的建筑、基础设施等构建 BIM 模型&#xff0c;并与实时采集的数据相结合&#xff0c;创建数字孪生体。可以实现对城市能源消耗、交通流量、环境质量等的实时监测和预测&#xff0c;优化城市规划和资源分配。 01 数字孪生 Digital Twin 数字孪生 Digita…

Spring MVC 全注解开发

1. Spring MVC 全注解开发 文章目录 1. Spring MVC 全注解开发2. web.xml 文件 的替代2.1 Servlet3.0新特性2.2 编写 WebAppInitializer 3. Spring MVC的配置3.1 Spring MVC的配置&#xff1a;开启注解驱动3.2 Spring MVC的配置&#xff1a;视图解析器3.3 Spring MVC的配置&…

【实战:python-Django发送邮件-短信-钉钉通知】

一 Python发送邮件 1.1 使用SMTP模块发送邮件 import smtplib from email.mime.text import MIMEText from email.header import Headermsg_from 306334678qq.com # 发送方邮箱 passwd luzdikipwhjjbibf # 填入发送方邮箱的授权码(填入自己的授权码&#xff0c;相当于邮箱…

SSE、Webworker 、webSocket、Http、Socket 服务器推送技术

Http协议 受浏览器的同源策略限制 HTTP 协议是一种无状态的、无连接&#xff08;短暂连接&#xff0c;客户端发送请求&#xff0c;服务器响应后即断开连接&#xff09;的、单向的应用层协议。 它采用了请求/响应模型。通信请求只能由客户端发起&#xff0c;服务端对请求做出应…

(day18) leetcode 204.计数质数

描述 给定整数 n &#xff0c;返回 所有小于非负整数 n 的质数的数量 。 示例 1&#xff1a; 输入&#xff1a;n 10 输出&#xff1a;4 解释&#xff1a;小于 10 的质数一共有 4 个, 它们是 2, 3, 5, 7 。示例 2&#xff1a; 输入&#xff1a;n 0 输出&#xff1a;0示例 3…

JVM--自动内存管理--JAVA内存区域

1. 运行时数据区域 灰色的线程共享&#xff0c;白色的线程独享 白色的独享就是根据个体"同生共死" 程序计数器&#xff1a; 是唯一一个没有OOM(内存溢出)的地方 是线程独享的 作用&#xff1a; 是一块较小的内存空间,是当前线程所执行的字节吗的行号指示器 由于…

智慧水利:迈向水资源管理的新时代,结合物联网、云计算等先进技术,阐述智慧水利解决方案在提升水灾害防控能力、优化水资源配置中的关键作用

本文关键词&#xff1a;智慧水利、智慧水利工程、智慧水利发展前景、智慧水利技术、智慧水利信息化系统、智慧水利解决方案、数字水利和智慧水利、数字水利工程、数字水利建设、数字水利概念、人水和协、智慧水库、智慧水库管理平台、智慧水库建设方案、智慧水库解决方案、智慧…

docker 安装 onlyoffice

1.文档地址 Installing ONLYOFFICE Docs for Docker on a local server - ONLYOFFICE 2.安装onlyoffice docker run -i -t -d -p 9000:8000 --restartalways -e JWT_ENABLEDfalse onlyoffice/documentserver 如果发现镜像无法下载,可以尝试更换镜像源 {"registry-mir…

JVM和类加载机制-01[JVM底层架构和JVM调优]

JVM底层 Java虚拟机内存模型JVM组成部分五大内存区域各自的作用虚拟机栈(线程栈)栈帧内存区域 本地方法栈程序计数器为什么jvm要设计程序计数器&#xff1f; 堆方法区 JVM优化-堆详解JVM底层垃圾回收机制jvm调优工具jvisualvm.exeArthas工具使用 Java虚拟机内存模型 JVM跨平台原…

2024年初级注册安全工程师职业资格考试首次开考!

​2024年初级注册安全工程师考试首次开考&#xff08;注&#xff1a;该考试由各省人事考试局组织考试&#xff09;。目前未取得中级注册安全工程师证书的各位同学&#xff0c;可以关注该考试&#xff0c;毕竟初级考证相对较容易&#xff0c;先去考一个。 目前初安开考地区汇总…

PHP多功能投票微信小程序系统源码

&#x1f389;一键决策&#xff0c;尽在掌握&#xff01;多功能投票小程序&#xff0c;让选择不再纠结&#x1f914; &#x1f4f2;【开篇&#xff1a;告别传统&#xff0c;拥抱便捷投票新时代】&#x1f4f2; 还在为组织投票活动手忙脚乱&#xff1f;或是面对众多选项犹豫不…

技术成神之路:设计模式(七)状态模式

1.介绍 状态模式&#xff08;State Pattern&#xff09;是一种行为设计模式&#xff0c;它允许一个对象在其内部状态改变时改变其行为。这个模式将状态的相关行为封装在独立的状态类中&#xff0c;并将不同状态之间的转换逻辑分离开来。 2.主要作用 状态模式的主要作用是让一个…

HTML5+CSS3小实例:纯CSS实现奥运五环

实例:纯CSS实现奥运五环 技术栈:HTML+CSS 效果: 源码: 【HTML】 <!DOCTYPE html> <html lang="zh-CN"> <head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-sca…

算法导论 总结索引 | 第五部分 第十八章:B树

1、B 树是 为磁盘或其他直接存取的辅助存储设备 而设计的一种平衡搜索树。B 树类似于红黑树&#xff0c;在降低磁盘 I/O 操作次数方面要更好一些。许多数据库系统 使用 B 树 或者 B 树 的变种来存储信息 2、B 树与红黑树的不同之处 在于 B 树的结点 可以有很多孩子&#xff0c…