Python3数据分析与挖掘建模(8)检验

news2024/12/24 11:32:30

1. 假设检验

1.1 概述

假设检验是一种统计推断方法,用于对一个或多个总体参数提出关于其取值的假设,并根据样本数据对这些假设进行检验。假设检验的目的是根据样本数据提供统计上的证据,以便对总体参数的假设进行接受或拒绝。

在假设检验中,通常会建立一个原假设H0和一个备择假设H1(或叫做另一种假设)。原假设是对总体参数的陈述,常常是我们希望证明或接受的假设,而备择假设则是对原假设的否定或替代陈述。

1.2 步骤

假设检验的一般步骤如下:

  1. 建立原假设H0和备择假设H1。
  2. 选择适当的检验统计量,该统计量应能够反映样本数据对原假设的支持程度。
  3. 根据显著性水平(通常为0.05)确定拒绝域,拒绝域是检验统计量的取值范围,如果检验统计量的值落在拒绝域内,则拒绝原假设。
  4. 收集样本数据并计算检验统计量的值。
  5. 根据检验统计量的值与拒绝域的关系,做出对原假设的判断,即接受或拒绝原假设。
  6. 给出假设检验的结论,并解释结果的统计显著性和实际意义。

假设检验可以应用于多种情境,例如比较两个或多个总体的均值、比较两个或多个总体的方差、检验相关性等。具体的假设检验方法和统计推断的步骤会根据问题的特点和所采用的统计方法而有所不同。

1.3 示例

洗衣粉标准重量500g,标准差2g。产出的洗衣粉重量为:501.8g、502.4g、499g、500.3g、504.5g、498.2g、505.6g。由此判断这台机器生产的洗衣粉是不是符合要求。

分析过程如下:

  1.  提供的数据包括洗衣粉的标准重量为500克,标准差为2克,以及实际产出的洗衣粉重量数据。
  2. 我们希望通过假设检验来判断这台机器生产的洗衣粉是否符合要求。
  3. 建立原假设H0:样本是符合均值500克,标准差2克的正态分布的。备择假设H1:样本不符合这个分布。
  4. 根据假设校验量的公式 \frac{x-x_{0}}{\sqrt{\sigma ^{2}/n}}= \frac{x-500}{\sqrt{2^{2}/7}},计算出检验统计量为2.176。
  5. 设定显著性水平为0.05。
  6. 根据显著性水平,查找标准正态分布表或使用统计软件,找到检验统计量为2.176对应的双边P值为约0.026。
  7. 比较P值(0.026)和显著性水平(0.05)。由于P值小于显著性水平,我们拒绝原假设H0。
  8. 根据假设检验的结果,得出结论:这台机器生产的洗衣粉不符合标准重量500克,标准差2克的要求。

2. 卡方检验

2.1 概述

卡方检验(Chi-Square Test)是一种用于比较观察值与期望值之间差异的统计检验方法。它适用于分析分类数据的关联性和独立性。

卡方检验的基本思想是比较实际观察值与在假设为真时的期望值之间的差异程度。它通过计算卡方统计量来衡量观察值与期望值之间的差异程度。卡方统计量的计算是基于各个观察值与期望值之间的差异,差异越大,卡方统计量越大,表示观察值与期望值之间的偏离程度越大。

2.2 分析步骤

卡方检验的步骤如下:

(1)建立原假设(H0)和备择假设(H1):

  • H0:变量之间不存在关联或独立。
  • H1:变量之间存在关联或依赖关系。

(2)构建列联表(Contingency Table):

列联表是将两个或多个分类变量的观察值按照不同组合进行统计汇总的表格。

(3)计算期望值(Expected Values):

根据原假设,计算得到在假设为真时的期望值。

(4)计算卡方统计量(Chi-Square Statistic):

根据观察值与期望值的差异程度,计算得到卡方统计量。

(5)确定自由度(Degrees of Freedom):

自由度是用来描述独立变量中可以自由变动的部分。

(6)确定显著性水平(Significance Level):

选择适当的显著性水平,通常是0.05或0.01。

(7)查找卡方分布表或使用统计软件,根据卡方统计量、自由度和显著性水平,计算得到卡方检验的P值。

(8)比较P值和显著性水平的大小:

  • 如果P值小于显著性水平,通常是0.05或0.01,拒绝原假设,认为变量之间存在关联或依赖关系。
  • 如果P值大于等于显著性水平,不拒绝原假设,认为变量之间不存在关联或独立。

请注意,卡方检验的应用条件是变量为分类变量,观察值满足一定的条件,例如每个单元格的期望值不小于5等。如果条件不满足,可能需要考虑使用其他适合的检验方法。

2.3 示例

化妆15(55)95(55)110
不化妆85(45)5(45)90
100100200

计算公式: x^{^{2}}=\sum_{i=1}^{k}\frac{(f_{i}-np_{i})^2}{np_{i}}=\frac{(95-55)^2}{55}+\frac{(15-55)^2}{55}+\frac{(85-45)^2}{45}+\frac{(5-45)^2}{45}=129.3

P0.990.950.900.700.500.300.100.050.01
卡方0.000160.0040.0160.1480.4551.0742.7063.8416.635

根据上述的P值与卡方分布对照表,我们可以找到卡方统计量为 129.3 对应的P值。

假设P值取0.05的话,那么卡方值应该不大于3.841的范围,但目前得出的卡方统计量达到了 129.3 。远超过对应的P值0.05对应的3.841,所以,我们可以得出结论:该卡方的P值在显著性水平为 0.05 下,变量之间存在显著关联。

3. 方差检验

3.1 概述

方差检验(Variance Analysis),也称为方差分析或ANOVA(Analysis of Variance),是一种用于比较多个样本均值之间差异的统计方法。它通过分析样本数据的方差来判断各组之间是否存在显著差异。

3.2 使用场景

方差检验适用于以下场景:

  1. 有一个因变量(连续型)和一个或多个自变量(分类型);
  2. 自变量有两个以上的水平(组);
  3. 假设要比较各组均值是否存在显著差异。

方差检验的基本思想是将总体方差分解为组内方差和组间方差,然后通过计算统计量(F值)来比较组间方差和组内方差的大小关系,进而判断各组均值是否存在显著差异。

3.3 检验步骤

方差检验通常包括以下几个步骤:

(1)建立假设:

  • H0(原假设):各组样本均值相等,即组间差异为零;
  • H1(备择假设):至少有一组样本均值不相等,即组间差异不为零。

(2)计算统计量:

  • 组间平方和(SSB):各组均值与总体均值之差的平方和;
  • 组内平方和(SSW):各组内观察值与各组均值之差的平方和;
  • 组间均方(MSB):组间平方和除以组间自由度;
  • 组内均方(MSW):组内平方和除以组内自由度;
  • F值:组间均方与组内均方的比值。

(3)确定显著性水平(α)和自由度:

  • 显著性水平(α):用于决定拒绝原假设的临界值,常见的显著性水平有0.05和0.01;
  • 自由度:组间自由度和组内自由度。

(4)比较F值与临界值:

  • 如果计算得到的F值大于临界值,则拒绝原假设,认为各组均值存在显著差异;
  • 如果计算得到的F值小于等于临界值,则接受原假设,认为各组均值无显著差异。

(5)计算P值:

  • 如果拒绝原假设,则根据F分布表或使用统计软件计算得到P值;
  • P值表示观察到的样本结果或更极端结果出现的概率,

3.4 示例

数据分为m组,共n个采样:3组,共15个采样

编号电池寿命
1492838
2503240
3393045
4402642
5433448

计算:

SST=\sum_{i=1}^{m}\sum_{j=1}^{n_{i}}(X_{ij}-\bar{x})^2

SSM=\sum_{i=1}^{m}\sum_{j=1}^{n_{i}}(\bar{x}_{i}-\bar{x})^2

SSM=\sum_{i=1}^{m}\sum_{j=1}^{n_{i}}({x}_{ij}-\bar{x_{i}})^2

检验统计量F,做假设检验【F满足自由度(m-1,n-m)的F分布】

F=\frac{SSM/(m-1)}{SSE/(n-m)}

假设:

假设三者的均值是一定的,是没有区别的。检验统计量为F值。

甲 均值乙 均值丙 均值总体均值SSMSSE
44.23042.638.93604.93206

F值:F=\frac{SSM/(3-1)}{SSE/(15-3)}=17.62

P值:P_{value}=0.00027<0.05

由此,可以得出,三者是存在差异的,并不是没有差异。(在方差检验中,P值(P-value)表示观察到的样本结果或更极端结果出现的概率。P值越小,表示观察到的差异越显著,即拒绝原假设的程度越高。)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/593386.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JAVA基础 - 如何使用ClassLoader?

1. CLASSLOADER是什么 ClassLoader&#xff0c;类加载器。用于将CLASS文件动态加载到JVM中去&#xff0c;是所有类加载器的基类(Bootstrap ClassLoader不继承自ClassLoader)&#xff0c;所有继承自抽象的ClassLoader的加载器&#xff0c;都会优先判断是否被父类加载器加载过&a…

C++数据结构:二叉树之二(二叉搜索树)

文章目录 前言一、二叉搜索树的概念二、代码详解1、构建节点2、构建二叉树类3、插入方法4、删除方法5、四种遍历方法6、测试代码 总结 前言 前文已经讲了二叉树概念&#xff0c;并搞出一个数组存储的没写具体实用意义的二叉树&#xff0c;这篇文章将讲解二叉树的另一种存储方式…

限量内测名额释放:微信云开发管理工具新功能

我们一直收到大家关于云数据库管理、快速搭建内部工具等诉求&#xff0c;为了给大家提供更好的开发体验&#xff0c;结合大家的诉求&#xff0c;云开发团队现推出新功能「管理工具」&#xff0c;现已启动内测&#xff0c;诚邀各位开发者参与内测体验。 什么是「管理工具」 管…

当节点内存管理遇上 Kubernetes:自动调度与控制

原理 在现代的容器化环境中&#xff0c;节点资源的管理是一个重要的任务。特别是对于内存资源的管理&#xff0c;它直接影响着容器应用的性能和可用性。在 Kubernetes 中&#xff0c;我们可以利用自动调度和控制的机制来实现对节点内存的有效管理。本文将介绍一种基于 Bash 脚…

EM中等效原理

EM中等效原理 一、基本简介 电磁等效定理对于简化许多问题的解是有用的。此外&#xff0c;它们还提供了对麦克斯韦系统电磁场行为的物理见解。它们与唯一性定理和惠更斯原理密切相关。一个应用是它们在研究来自孔径天线或来自激光腔输出的辐射中的用途。 等效源原理&#xf…

3.2 掌握RDD算子

一、准备工作 &#xff08;一&#xff09;准备文件 1、准备本地系统文件 2、把文件上传到HDFS &#xff08;二&#xff09;启动Spark Shell 1、启动HDFS服务 2、启动Spark服务 3、启动Spark Shell 二、掌握转换算子 &#xff08;一&#xff09;映射算子 - map() …

Sketch在线版免费使用,Windows也能用的Sketch!

Sketch 的最大缺点是它对 Windows/PC 用户不友好。它是一款 Mac 工具&#xff0c;无法在浏览器中运行。此外&#xff0c;使用 Sketch 需要安装其他插件才能获得更多响应式设计工具。然而&#xff0c;现在有了 Sketch 网页版工具即时设计替代即时设计&#xff01; 即时设计几乎…

通达信凹口平量柱选股公式,倍量柱之后调整再上升

凹口平量柱是一组量柱形态&#xff0c;表现为量柱两边高、中间扁平或圆底的形态。如下图所示&#xff0c;左右各有一根高度持平的高量柱&#xff0c;中间夹杂着三五根甚至更多根低量柱。 凹口平量柱选股公式需要结合量柱以及K线&#xff0c;主要考虑以下三点&#xff1a; 1、倍…

git各阶段代码修改回退撤销操作

git push origin master 的含义是将本地当前分支的提交推送到名为 origin 的远程仓库的 master 分支上。 各阶段代码修改回退撤销的操作 case1 git checkout -- . 修改了文件内容但没还有git add 或git commit时撤销当前目录下所有文件的修改 case2 当完成了git add 之后&a…

项目管理:面对未知的挑战时,如何获取和使用信息?

一项实验展示了人们在面对未知的挑战时&#xff0c;对信息的获取和使用的影响。在下面的实验中&#xff0c;三组人被要求步行到十公里外的三个村庄。 第一组人没有任何信息&#xff0c;只跟着向导走。他们在走了短短的两三公里后就开始抱怨和情绪低落&#xff0c;同时感到疲惫…

2022年天府杯全国大学生数学建模竞赛E题地铁线路的运营与规划解题全过程文档及程序

2022年天府杯全国大学生数学建模竞赛 E题 地铁线路的运营与规划 原题再现&#xff1a; 地铁是一种非常绿色快捷的交通出行方式&#xff0c;全国各大城市也都在如火如荼地进行地铁线路建设与规划。但乘坐地铁有时候会感觉特别拥挤&#xff0c;这一时期我们称为高峰期。如何合理…

sqlserver中的merge into语句

merge into语句是用来合并两张表的数据的&#xff0c;比如我们想把一张表的数据批量更新到另外一张表&#xff0c;就可以用merge into语句。具体有哪些业务场景呢&#xff1f; 1.数据同步 2.数据转换 3.基于源表对目标表进行增&#xff0c;删&#xff0c;改的操作。 实践步骤…

JavaScript了解调用带参函数,无参函数的代码

以下为JavaScript了解调用带参函数&#xff0c;无参函数的程序代码和运行截图 目录 前言 一、带参函数 1.1 运行流程及思想 1.2 代码段 1.3 JavaScript语句代码 1.4 运行截图 二、无参函数 2.1 运行流程及思想 2.2 代码段 2.3 JavaScript语句代码 2.4 运行截图 前言…

让代码创造童话,共建快乐世界:六一儿童节特辑

让代码创造童话&#xff0c;共建快乐世界&#xff1a;六一儿童节特辑 六一儿童节即将来临&#xff0c;这是一个属于孩子们的快乐节日。为了让这个节日更加有趣&#xff0c;我们发起了“让代码创造童话&#xff0c;共建快乐世界”六一活动。在这个活动中&#xff0c;我们邀请您…

使用Tensorrt对YOLOv5目标检测的代码进行加速

文章目录 1. 前言2. 官网3. 安装依赖3.1. 安装OpenCV3.1.1. 安装3.1.2. 添加环境变量3.1.3. 查看版本 3.2. 安装TensorRT3.2.1. 下载3.2.2. 安装3.2.3. 添加环境变量 4. 下载项目5. 生成WTS模型6. cmake6.1. 生成Makefile6.1.1. 配置CMakeLists.txt6.1.1.1. 修改编译依赖的路径…

通过python采集1688商品评论数据封装接口、1688评论数据接口

1688商品评论数据是指在1688网站上对商品的评价和评论信息。这些信息包括买家对商品的使用、品质、包装、服务等方面的评价和意见&#xff0c;可以帮助其他用户更好地了解商品的优缺点和性能&#xff0c;从而做出更明智的购买决策。 1688网站是中国最大的B2B电子商务网站之一&…

RK3566调试EC20

参考博客&#xff1a;RK3568开发笔记-buildroot移远EC20模块调试记录 一、内核配置 cd 到kernel目录&#xff0c;执行make ARCHarm64 menuconfig&#xff0c; Device Drivers >USB support > USB Serial Converter support 选中 USB driver for GSM and CDMA modems选…

04.hadoop上课笔记之java编程和hbase

1.win查看服务 netstat -an #linux也有#R数学建模语言 SCALAR 2.java连接注意事项,代码要设置用户 System.setProperty("HADOOP_USER_NAME", "hadoop");3.伪分布式的好处(不用管分布式细节,直接连接一台机器…,适合用于学习) 4.官方文档 查看类(static |…

5个UI设计师必备的Figma汉化插件

即时设计插件广场提供了许多有用的 UI 插件&#xff0c;帮助优化产品设计过程。其中&#xff0c;产品组件库 Figma 汉化插件对常用的 PC 端和移动端组件进行了筛选&#xff0c;使其更加聚焦和精简。PC 端组件包括基础、按钮、菜单和其他元素&#xff0c;移动端组件包括基础、按…

电子阅读器calibre的使用技巧

十条calibre使用技巧&#xff1a; 1. 添加电子书&#xff1a;可以单独添加文件、添加文件夹、添加zipped书籍&#xff0c;或者通过网络链接直接添加。 2. 转换电子书格式&#xff1a;可以将电子书转换为不同的格式&#xff0c;如AZW3、EPUB、MOBI、PDF等。 3. 修改元数据&am…