统计学第4天

news2024/9/21 2:38:23

学前知识点

方差s^2 =\frac{ \sum_1^n(x-\bar{x})^2 }{n}:反映一组数据离散程度,除n是为了缩小数据量对结果的影响。

标准差:s =\sqrt\frac{ \sum_1^n(x-\bar{x})^2 }{n}

多个统计量推断

        使用z统计量和t统计量可对两个总体参数进行推断,如果需要对更多的参数进行推断需要研究多个变量之间的关系,需要用到方差分析的思想和内容。

统计数据的分类有分类数据、顺序数据和数值型数据,在实际运用中主要研究分类数据和数值型数据。数据类型的改变会导致研究方法的改变,本节介绍总体参数的推断方法,分别是研究分类自变量对数值型变量影响的方差分析,和研究分类型自变量对分类型因变量影响的卡方检验。

自变量对因变量的效益称为自变量效益,影响效益的大小体现为因变量的误差,这个误差里面多少是由于因变量造成的?方差分析是通过取误差的分析来检验这种效益是否显著。(方差分析是用来分析数据的误差)

什么是方差分析

1、检验多个总体均值是否相等,通过分析数据的误差判断各总体均值是否相等。

2、研究分类型自变量对数值型因变量的影响。

3、单因素方差分析:涉及一个分类的自变量。

例1、某咨询公司为了研究不同类目的电商公司的服务质量,在服装类目抽取了7家公司,电子产品类目抽取了6家公司,医药类目抽取了5家公司,彩妆类目抽取了5家公司作为样本进行研究。假定他们在服务对象、服务内容、企业规模等方面基本是相同的。然后统计出近一年中消费者对这23家公司的投诉次数,结果如下:

(一般而言,受到的投诉次数越多,说明服务的质量越差。消费者协会想知道这几个行业之间的服务质量是否有显著差异。)

解:分析思路:

分析四个类目之间的服务质量是否有显著差异,也就是要判断类目对投诉次数是否有显著影响;

做出这种判断最终被归结为检验这四个类目被投诉的次数的均值是否相等;

若他们的均值相等,就意味着类目对投诉次数是没有影响的,他们之间的服务质量没有显著性差异;若均值不全相等,则意味着类目对投诉次数是有影响的,他们之间的服务质量有显著性差异;

若它们之间的均值不全相等,则意味着行业对投诉次数是由影响的,它们之间的服务质量有显著性差异。

H_0:\mu_1=\mu_2=\mu_3=\mu_4

H _1:\mu_1,\mu_2,\mu_3,\mu_4不全相等

方差分析中的相关术语

1、因素或因子:所要检验的对象(分析类目对投诉次数的影响,类目是要检验的因素或因子);

2、水平或处理:因子的不同表现(服装、电子产品、彩妆、医药就是因子的水平);

3、观察值:每个因素下得到的样本数据(每个行业被投诉的次数就是观察值);

4、实验:这里只涉及一个因素,因此称为单因素四水平的实验;

5、总体:因素的每一个水平可以看作是一个总体(比如服装、电子、医药、彩妆可以看作四个总体);

6、样本数据:被投诉次数可以看作是从这个总体中抽取的样本数据。

图像描述

 1、以上述案例为例,从散点图上可以看出

  •        不同类目被投诉的次数有明显差异的;
  •         用一个类目,不同公司被投诉的次数也明显不同;
  •         彩妆类目被投诉的次数较高,医药类目被投诉的次数较低;

2、类目与被投诉次数是有一定的关系

  •         如果类目与被投诉之间没有关系,那么它们被投诉的次数应该差不多,在散点图上所呈现的模式也就应该很接近。

3、仅从散点图还不能提供确信的证据证明不同行业被投诉的次数之间有显著差异;

  •         这种差异也有可能是由于抽样的随机性造成的;

4、需要有更准确的方法来检验这种差异是否显著,这是就需要对数据进行方差分析

  •         之所以叫方差分析,是因为虽然我们感兴趣的是均值,但是在判断均值之间是否有差异时则需要借助方差

方差分析的思想和原理

误差分解

1、随机误差和系统误差

(1)随机误差:因素同一水平下,样本各观察值之间的差异。

        比如同一类目下不同公司被投诉的次数是不同的(这种差异可以看作随机因素的影响)

(2)系统误差:因素的不同水平下,各观察值之间的差异。不同类目之间的被投诉次数之间的差异。这种差异可能是由于抽样的随机性造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统因素造成的称为系统误差。

2、组内方差和组间方差

(1)组内方差:因素的同一水平下样本数据的方差(组内方差只包含随机误差)

(2)组间方差:因素的不同水平下样本数据的方差(组间方差既包含随机误差,也包含系统误差)

 误差分析

1、若不同类目对投诉次数没有影响,则组间误差只包含随机误差,没有系统误差。这时,组间误差与组内误差经过平均后的数值就会很接近,它们(组间/组内)比值就会接近1。

2、若不同类目对投诉次数有影响,则组间误差中除了包含随机误差外,还会包含系统误差,这时组间误差平均后的数字就会大于组内误差平均后的数值,它们(组间/组内)的比值就会大大于1。

3、当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,也就是自变量对因变量有影响。

方差分析中的基本假定

1、每个总体都应该服从正态分布;

  • 对于因素的每一个水平,其观察值都是来自服从正态分布总体的简单随机样本,比如,每个类目被投诉的次数必须服从正态分布。

2、各个总体的方差必须相同;

  • 各组观察使从具有相同方差的总体中抽取的,比如,四个类目被投诉次数的方差都相等。

3、观察值使独立的。

  • 比如,每个类目被投诉的次数与其他行业被投诉的次数独立。

在上述假定条件下,判断类目对投诉次数是否有显著影响,实际上就是检验具有同方差的四个正态总体的均值是否相等;

如果四个总体的均值相等,可以期望四个样本的均值也会很接近。

四个样本的均值越接近,判断四个总体均值相等的理由越充分,样本均值越不同,判断总体均值不同的证据越充分。

 在上述案例中:

如果原假设成立,即H_0:\mu_1=\mu_2=\mu_3=\mu_4

四个类目被投诉的次数的均值都相等,意味着每个样本都来自均值\mu方差\sigma^2的统一正态总体

如果备择假设成立H _1:\mu_1,\mu_2,\mu_3,\mu_4不全相等

至少有一个总体的均值是不同的,四个样本分别来自均值不同的四个正态总体。

问题的一般提法

1、设因素有k个水平,每个水平的均值分别用\mu_1,\mu_2,\mu_3...\mu_k表示

2、要检k个水平(总体)的均值是否相等,需要提出如下假设:

  • H_0:\mu_1=\mu_2=\mu_3=...=\mu_k
  • H_1:\mu_1,\mu_2,\mu_3...\mu_k不全相等

3、设\mu_1为服装被投诉次数的均值,\mu_2为电子产品被投诉次数的均值,\mu_3为医药被投诉次数的均值,\mu_4为被彩妆被投诉次数的均值,需要提出如下假设:

  • H_0:\mu_1=\mu_2=\mu_3=...=\mu_k
  • H_1:\mu_1,\mu_2,\mu_3...\mu_k 不全相等

数据结构

进行单因素方差分析时,需要得到下面数据结构:

分析步骤

        1、提出假设

         2、构造检验统计量

         3、统计决策

         4、方差分析表

构造检验统计量

d、计算统计量

a)计算均方MS

  • 各误差平方和的大小与观察值的多少有关,为了消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方,也称为方差;
  • 计算方法时用误差平方和除以相应的自由度;
  • 三个平方和的自由度分别为:
  1.         SST的自由度为n-1,其中n为全部观察值的个数;
  2.         SSA的自由度为k-1,其中k为因素水平(总体)的个数;
  3.         SSE的自由度为n-k。

SST总离差平方和:所有水平的平均值和所有元素的平均值的差平方和;

SSA组间离差平方和:n倍每组均值和总体均值的离差平方和;

SSE组内离差平方和:每组组内方差之和。

组间方差MSA:SSA的均方,记作MSA,计算公式为:MSA = \frac{SSA}{k-1}

前例的计算结果MSA = \frac{SSA}{k-1}=\frac{1456.608696}{4-1}=485.536232

组内方差MSE:SSE的均方,记作MSE,计算公式为MSE=\frac{SSE}{n-k}

前例的计算结果为MSE=\frac{SSE}{n-k}=\frac{2708}{23-4}=142.526316

b)计算检验统计量F

        将MSA和MSE进行对比,即得到所需要的检验统计量F

        当H_0为真时,二者的比值服从分子自由度为k-1、分母自由度为n-k的F分布,即

        F=\frac{MSA}{MSE} \sim F(k-1,n-k)

         前例的计算结果为:F=\frac{MSA}{MSE} = \frac{485.536232}{142.526316}=3.406643

e、构造检验统计量

统计决策

将统计量的值F与给定的显著性水平\alpha的临界值F_{\alpha}进行比较。做出接收或拒绝原假设H_0的决策。

根据给定的显著性水平\alpha,在F分布中查找与分子df_1=k-1、分母自由度df_2=n-k的相应临界值F_{\alpha}

F>F_{\alpha},则拒绝原假设H_0,表名均值之间的差异是显著的,所检验的因素(A)对观察值有显著影响;

F\leq F_{\alpha},则不能拒绝原假设H_0,表名所检验的因素(A)对观察值没有显著影响

单因素方差分析表

1、拒绝原假设表明因素(自变量)与观察值之间有关系

组间平方和SSA度量了自变量(类目)对因变量(投诉次数)的影响效应

  • 只要组间平方和SSA,就表名两个变量之间有关系(只是是否显著的问题)
  • 当组间平方和比组内平方和SSE大,且大到一定程度时,就意味着两个变量之间的关系越显著,大的越多,表名它们之间的关系就越强。反之,就意味着两个变量之间的关系不显著,小的越多就表明它们之间的关系就越弱。

2、变量的关系强弱用组间平方和(SSA)占总平方和(SST)的比例大小来反映,将这一比例记为R^2R^2=\frac{SSA}{SST},其中平方根R就可以用来测量两个变量之间的关系强弱。

上述案例中:R^2=\frac{SSA}{SST}=\frac{1456.608696}{4146.609696}=0.349759=34.9757\%,R=0.591494

结论:

  • 类目(自变量)对投诉次数(因变量)的影响效应占总效应的34.9759%,而残差效应则占65.0241%。即行业对投诉次数差异解释的比例达到35%,而其他因素(残差变量)所揭示的比例近为65%以上;
  • R=0.591494,表明类目与投诉次数之间有中等以上的关系。

方差中的多重比较

作用
  • 多重比较时通过对总体均值之间的匹配比较来进一步检查到底哪些均值之间存在差异;
  • 多重比较方法有很多种,这里费尔希提出的最小显著差异方法,简写LSD。该方法用于判读到底哪些均值之间有差异。
步骤

1、提出假设

H_0:\mu_i=\mu_j(第i个总体的均值等于第j个总体的均值)

H_1:\mu_i\neq \mu_j(第i个总体的均值不等于第j个总体的均值)

2、计算检验统计量:\bar{x_1}-\bar{x_j}

4、计算LSD,其公式为:LSD = t_{\alpha/2}\sqrt{MSE(\frac{1}{n_i}+\frac{1}{n_j})}

4、根据显著性水平做出决策,如果|\bar{x_i}-\bar{x_j}|\geq LSD,拒绝H_0,若|\bar{x_i}-\bar{x_j}|< LSD不能拒绝H_0
5、对前例四个类目的均值做多重比较(\alpha=0.05

第一步提出假设。

检验1:H0:μ1=μ2,H1:μ1≠μ2

检验2:H0:μ1=μ3,H1:μ1≠μ3

检验3:H0:μ1=μ4,H1:μ1≠μ4

检验4:H0:μ2=μ3,H1:μ2≠μ3

检验5:H0:μ2=μ4,H1:μ2≠μ4

检验6:H0:μ3=μ4,H1:μ3≠μ4

第二步:计算检验统计量

第三步:计算LSD。由之前计算结果可知,MSE=142.526316.由于四个类目的样本量不同,需要分别计算LSD。根据自由度=n-k=23-4=19,查t分布表得t_{\alpha/2}=t_{0.0025}=2.093。各检验得LSD如下:

检验1:LSD_1 = 2.093\times\sqrt{142.526316\times(1/7+1/6)}=13.90

检验2:LSD_2 = 2.093\times\sqrt{142.526316\times(1/7+1/5)}=14.63

检验3:LSD_3 =2.093\times\sqrt{142.526316\times(1/7+1/5)}=14.63

检验4:LSD_4 = 2.093\times\sqrt{142.526316\times(1/6+1/5)}=15.13

检验5:LSD_5 = 2.093\times\sqrt{142.526316\times(1/6+1/5)}=15.13

检验6:LSD_6 = 2.093\times\sqrt{142.526316\times(1/5+1/5)}=15.80

第四步:做出决策。

F分布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2099189.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vscode安装rest client插件,提示XHR failed

vscode安装rest client插件&#xff0c;提示XHR failed: 本地搜索rest client插件&#xff0c;然后下载&#xff0c;放到容器对应位置&#xff0c;参考&#xff1a;

GeoScene Pro教程(006):GeoScenePro地图集制作

文章目录 1、加载数据2、修改地图样式3、修改外观4、显示上下左右各为哪个地市5、新建布局6、选择地图框显示区域7、插入指北针、比例尺、图例8、显示相邻地市9、导出地图地图系列的构建来自单个地图图幅的集合,每个图幅显示 特定的地图范围,包含 动态地图元素和 静态地图…

测试用例的具体方法

1.等价类 依据需求将输⼊&#xff08;特殊情况下会考虑输出&#xff09;划分为若⼲个等价类&#xff0c;从等价类中选出⼀个测试⽤例&#xff0c;如果这个测试⽤例测试通过&#xff0c;则认为所代表的等价类测试通过&#xff0c;这样就可以⽤较少的测试⽤例达到尽量多的 功能覆…

建模杂谈系列253 序列突变点的判定

说明 使用pycm3进行推断。 内容 1 环境搭建 使用conda创建对应的包环境&#xff0c;然后再通过jupyter运行 conda create -c conda-forge -n pymc_env "pymc>5" conda activate pymc_envpip3 install ipython -i https://mirrors.cloud.tencent.com/pypi/si…

JavaScript高级进阶(一)

什么是BOM BOM: Browser Object Model(浏览器对象模型) 提供了独立于内容与浏览器窗口进行交互的对象&#xff0c;你可以前进后退……历史记录等&#xff0c;是浏览器自动生成的功能。 浏览器对象模型 对象以及说明: window: 窗口对象&#xff0c;可以用来控制当前窗口&…

FreeRTOS中任务通知的使用

目录 0x01 任务通知介绍0x02 示例代码 0x01 任务通知介绍 简单举个例子&#xff1a; 例如任务一用于获取数据&#xff0c;任务二用于处理数据。 但这其中存在一个先后关系&#xff1a;必须等到任务一获取完了数据&#xff0c;任务二才能开始工作&#xff0c;你会如何选择何种…

两个月冲刺软考——概念+求已知内存按字节编址从(A)…到(B)…的存储容量+求采用单/双缓冲区需要花费的时间计算 类型题目讲解

1.四个周期的区别与联系 时钟周期&#xff1a;也称为CPU周期或机器周期&#xff0c;是CPU操作的基本时间单位。 指令周期&#xff1a;是指CPU执行一条指令所需的全部时间。一个指令周期通常由多个时钟周期组成&#xff0c;因为执行一条指令可能需要多个步骤&#xff0c;如取指…

基于 OpenCV 的数字图像处理实验平台设计

基于 OpenCV 的数字图像处理实验平台设计 前言简介正文资源链接&#xff08;含源码&#xff09; 前言 哈哈上学那会儿做的一个软件&#xff0c;当时把OpenCV各个基础算法都集成在了一起&#xff0c;还有一定程度的顺序执行部分相关算法的功能&#xff0c;那时候网上相关内容比较…

【开源大模型生态1】逐步成熟

人工智能和大模型的发展&#xff0c;我们之前讨论过&#xff0c;我在人工智能考试笔记中&#xff0c;也有分享。 结合上图&#xff0c;一起再来回顾一下。 机器学习出现之后&#xff0c;大模型逻辑推理为主&#xff0c;聚焦决策、认知能力。 深度学习出现之后&#xff0c;大…

利用注解将数据转为树结构

利用注解生成树结构 ListToTree注解 背景介绍: 通常,我们都有需要将一个列表List,转为树的结构 或许我们或多或少都写过工具类如: 或者: 以上写法,或多或少,都需要我们对集合进行一些处理,写多了自然就变得繁琐,甚至有业务相关的时候,修改会变动麻烦 并且功能比较单一,局限…

IO进程day07(信号灯集、消息队列)

【1】信号灯集 semaphore 1》概念 信号灯(semaphore)&#xff0c;也叫信号量&#xff0c;信号灯集是一个信号灯的集合。它是不同进程间或一个给定进程内部不同线程间同步的机制&#xff1b; 而Posix信号灯指的是单个计数信号灯&#xff1a;无名信号灯、有名信号灯。&#xff0…

Spring Security 用户认证和授权管理

文章目录 一、介绍1、简介2、核心概念3、主要功能4、处理流程 二、Spring Security实现权限1、添加依赖2、执行顺序和代码执行流程&#xff08;1&#xff09;用户登录&#xff08;2&#xff09;访问受保护资源 总结1、用户登录2、访问受保护资源 完整源码 一、介绍 1、简介 S…

SpringBoot+Vue的竞赛报名系统【源码】【最详细运行文档】

SpringBootVue的竞赛报名系统 一、项目简介二、技术选型三、运行步骤1. 后端启动2. 前端启动 四、项目演示登录页管理员登录学生登录源码获取方式 总结 大家好&#xff0c;这里是程序猿代码之路。在现代教育和技术竞赛中&#xff0c;一个高效、稳定的报名系统对于赛事的组织和管…

【Java|Stream流】获取各个数据类型的Stream流

文章目录 1.Stream流介绍2.获取Stream流2.1单列集合2.2双列集合2.3数组2.4零散的数据 3.Stream.of()方法的注意事项 1.Stream流介绍 在 Java 中&#xff0c;Stream 流是一种处理集合数据的高级方式&#xff0c;可以方便地对集合进行各种操作&#xff0c;如过滤、映射、排序、聚…

python:序列1~n的立方之和==序列1~n的和之平方

pip install sympy 或者 Anaconda 3 自带 sympy 点击 【Jupyter Notebook】 这是我最喜欢的代数恒等式之一 from IPython.display import Latex Latex(r"$1^32^33^3\cdotsn^3 (123\cdotsn)^2 $") Latex(r"$\sum_{i1}^n i^3 (\sum_{i1}^n i)^2 $")# 求…

小试牛刀-SOL链创建Token代币

目录 1.编写目的 2.账户结构 3.环境及使用依赖 4.步骤分解 4.1.导入相关依赖 4.2. 初始化变量 4.3. 创建并初始化Mint Account 4.4. 创建并初始化Metadata Account 4.5. 发送创建和初始化mint Account 4.6 铸造代币 5.源码分享 Welcome to Code Blocks blog 本篇文…

视频孪生智慧监所平台,实现监管数据的统一管理和立体直观呈现

针对监所传统方式难以有效管控&#xff1b;监所视频监控相似度极高&#xff0c;难以辨识&#xff0c;工作人员劳动强度大&#xff1b;监所行业涉及的系统众多&#xff0c;缺少统一高效的管理&#xff1b;监所行业对系统应急响应能力、智慧化程度要求高等痛点问题。在智慧监所建…

24数学建模国赛及提供助力(12——存贮论)!!!!

需要资料和助攻的小伙伴们可以文章末尾获取链接&#xff01;&#xff01;&#xff01;&#xff01; 点击链接加入群聊获取资料以及助攻https://qm.qq.com/q/NGl6WD0Bky

免费作图软件推荐,六款工具助你提升设计效率

在现代设计工作中&#xff0c;合适的作图工具能极大地提高工作效率。对于设计师、学生或是爱好者来说&#xff0c;免费的作图软件无疑是一个经济实惠的选择。本文将为大家介绍 6 款免费且功能强大的作图软件&#xff0c;其中包括国内备受欢迎的免费作图软件以及 5 款优秀的国外…

多态,匿名内部类(lambda表达式),集合

多态(polymorphism) 一个演员扮演多个不同角色。可以减少if语句的使用。 概念 具有接口或者继承关系 A extends B A implement C 类型一致&#xff08;IEat&#xff09; 民间说法&#xff1a;父类的引用指向不同的子类对象(不同时刻) 产生不同结果 调用相同方法&#x…