数据分析必知的统计知识——方差分析共八篇(其六)

news2025/1/11 0:44:51

6. 方差分析

单因素多水平方差分析

例6.1 不同装配方式对生产的过滤系统数量的差异性检验

某城市过滤水系统生产公司,有A、B、C3种方式进行过滤水系统的装配,该公司为了研究三种装配方式生产的过滤系统数量是否有差异,从全体装配工人中抽取了15名工人,然后随机地指派一种装配方式,这样每个装配方式就有5个工人。在指派装配方法和培训工作都完成后,一周内对每名工人的装配过滤系统数量进行统计如下:

方法A方法B方法C
585848
646957
557159
666447
676849

请根据数据判断3种装配方式有无差异

分析过程:由于目标是判断3种装配方式有无差异,多样本的检验用方差分析

于是我们有了原假设和备择假设

H 0 : μ 1 = μ 2 = μ 3 ↔ H 1 H_0: \mu_1 = \mu_2 = \mu_3 \leftrightarrow H_1 H0:μ1=μ2=μ3H1:均值不全相等

import pandas as pd
import numpy as np
from scipy import stats

# 数据
A = [58,64,55,66,67]
B = [58,69,71,64,68]
C = [48,57,59,47,49]

data = [A, B, C]
# 方差的齐性检验
w, p = stats.levene(*data)
if p < 0.05:
    print('方差齐性假设不成立')
 
 
# 成立之后, 就可以进行单因素方差分析
f_value, p_value = stats.f_oneway(*data)
# 输出结果
print("F_value:", f_value)
print("p_value:", p_value)
F_value: 9.176470588235295
p_value: 0.0038184120755124806

结论 选择显著性水平 0.05 的话,p = 0.0038 < 0.05,故拒绝原假设。支持三种装配方式装配数量均值不全相等的备则假设。

例6.2 不同优惠金额对购买转化率的差异性检验

某公司营销中心为了提升销量,针对某产品设计了3种不同金额的优惠,想测试三种优惠方式对于用户的购买转化率是否有显著影响,先收集到了三种不同方式在6个月内的转化率数据

请根据数据判断3种不同优惠金额的转化率有无差异

优惠A优惠B优惠C
0.0430.050.048
0.0470.0480.05
0.0510.0450.047
0.0490.0550.056
0.0450.0480.054
0.04690.04910.0509

分析过程:由于目标是判断3种不同金额的优惠券对于转化率有无差异,多样本的检验用方差分析

于是我们有了原假设和备择假设

H 0 : μ 1 = μ 2 = μ 3 ↔ H 1 H_0: \mu_1 = \mu_2 = \mu_3 \leftrightarrow H_1 H0:μ1=μ2=μ3H1:认为这几组之间的购买率不一样

P < 0.05 拒绝原假设,倾向于支持不同优惠金额购买率不一样的备择假设。认为不同优惠金额会对购买率产生影响
P > 0.05 无法拒绝原假设。认为不同优惠金额不会对购买率产生影响

import pandas as pd
import numpy as np
from scipy import stats

A = [0.043 , 0.047 , 0.051 , 0.049 , 0.045 , 0.0469]
B = [0.05  , 0.048 , 0.045 , 0.055 , 0.048 , 0.0491]
C = [0.048 , 0.05  , 0.047 , 0.056 , 0.054 , 0.0509]
data = [A, B, C]
# 方差的齐性检验
w, p = stats.levene(*data)
if p < 0.05:
    print('方差齐性假设不成立')
 
 
# 成立之后, 就可以进行单因素方差分析
f_value, p_value = stats.f_oneway(*data)
# 输出结果
print("F_value:", f_value)
print("p_value:", p_value)

# F_value: 2.332956563862427
# p_value: 0.13116820340181937

结论 选择显著性水平 0.05 的话,p = 0.1311 > 0.05,故无法拒绝原假设。认为不同优惠金额不会对购买率产生影响

双因素方差分析

1.双因素方差分析(等重复实验)

这里的等重复实验,意思就是针对每个组合做大于等于两次的实验,比如下方例子中表里A1和B1的组合里面有2个数字,即说明做了两次实验,如果是3个数字则说明3次实验,依次类推。

例6.3 不同燃料种类和推进器的火箭射程差异性检验

火箭的射程与燃料的种类和推进器的型号有关,现对四种不同的燃料与三种不同型号的推进器进行试验,每种组合各发射火箭两次,测得火箭的射程如表(以海里计)(设显著性水平为0.05)

燃料B1B2B3
A158.2 , 52.656.2 , 41.265.3 , 60.8
A249.1 , 42.854.1 , 50.551.6 , 48.4
A360.1 , 58.370.9 , 73.239.2 , 40.7
A475.8 , 71.558.2 , 51.048.7 , 41.0
import numpy as np
import pandas as pd 

d = np.array([[58.2, 52.6, 56.2, 41.2, 65.3, 60.8],
    [49.1, 42.8, 54.1, 50.5, 51.6, 48.4],
    [60.1, 58.3, 70.9, 73.2, 39.2, 40.7],
    [75.8, 71.5, 58.2, 51.0, 48.7,41.4]
])
data = pd.DataFrame(d)
data.index=pd.Index(['A1','A2','A3','A4'],name='燃料')
data.columns=pd.Index(['B1','B1','B2','B2','B3','B3'],name='推进器')

# pandas宽表转长表
data = data.reset_index().melt(id_vars =['燃料'])
data = data.rename(columns={'value':'射程'})
data.sample(5)
燃料推进器射程
A2B348.4
A3B273.2
A3B339.2
A4B171.5
A2B254.1
import statsmodels.api as sm
from statsmodels.formula.api import ols

# 进行双因素方差分析
model = ols('射程~C(燃料) + C(推进器)+C(燃料):C(推进器)', data =data).fit()
# 打印方差分析表
anova_table = sm.stats.anova_lm(model, typ=2)
anova_table
sum_sqdfFPR(>F)
C(燃料)261.67534.417390.025969
C(推进器)370.98129.39390.00350603
C(燃料):C(推进器)1768.69614.92886.15115e-05
Residual236.9512nannan

结论:

对燃料因素来说,其p = 0.0259 < 0.05 所以拒绝 H 01 H_{01} H01,认为燃料对射程影响显著;

对推进器因素来说,其p = 0.0035 < 0.05,所以拒绝 H 02 H_{02} H02,认为推进器对射程影响显著;

对燃料和推进器的交互因素来说,其p = 0.000062< 0.05 ,所以拒绝 H 03 H_{03} H03,认为交互因素其对射程影响显著。

2.双因素方差分析(无重复实验)

在等重复实验中,我们为了检验实验中两个因素的交互作用,针对每对组合至少要做2次以上实验,才能够将交互作用与误差分离开来,在处理实际问题时候,如果我们一直不存在交互作用,或者交互作用对实验指标影响极小,则可以不考虑交互作用,此时每对组合只做一次实验,类似下方例子中的表中数据:

例6.3 不同时间、不同地点颗粒状物含量差异性检验 无重复实验

下面给出了在5个不同地点、不同时间空气中的颗粒状物(单位:mg/m°)含 量的数据记录于表中,试在显著性水平 α = 0.05 \alpha = 0.05 α=0.05下检验不同时间、不同地点颗粒状物含量有无显著差异?(假设两者没有交互作用〉

因素B -地点
因素A - 时间
1995年10月 76 67 81 56 51
1996年01月 82 69 96 59 70
1996年05月 68 59 67 54 42
1996年08月 63 56 64 58 37
import numpy as np
import pandas as pd 

d = np.array([
    [76,67,81,56,51],
    [82,69,96,59,70],
    [68,59,67,54,42],
    [63,56,64,58,37]])
data = pd.DataFrame(d)
data.index=pd.Index(['1995年10月','1996年01月','1996年05月','1996年08月'],name='时间')
data.columns=pd.Index(['B1','B2','B3','B4','B5'],name='地点')
# pandas宽表转长表
data = data.reset_index().melt(id_vars =['时间'])
data = data.rename(columns={'value':'颗粒状物含量'})
data.sample(5)

随机查看5条转化后的数据:

时间地点颗粒状物含量
1996年05月B454
1995年10月B456
1996年05月B367
1996年01月B269
1996年01月B396
import statsmodels.api as sm
from statsmodels.formula.api import ols

# 进行双因素方差分析
model = ols('颗粒状物含量~C(时间) + C(地点)', data =data).fit()
# 打印方差分析表
anova_table = sm.stats.anova_lm(model, typ=2)
anova_table
sum_sqdfFPR(>F)
C(时间)1182.95310.72240.00103293
C(地点)1947.5413.23930.000234184
Residual441.312nannan

结论:

对时间因素来说,其p = 0.001033 < 0.05 所以拒绝 H 01 H_{01} H01,认为时间对颗粒状物含量影响显著;

对地点因素来说,其p = 0.000234 < 0.05,所以拒绝 H 02 H_{02} H02,认为地点对颗粒状物含量影响显著;

致敬:数理统计的大半江山的创造者——费希尔

下期将为大家带来《统计学极简入门》之相关分析

点击下方链接,观看下期内容。
https://edu.cda.cn/goods/show/3386

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/999460.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第17章 站点构建

mini商城第17章 站点构建 一、课题 站点构建 二、回顾 1、Gateway限流 2、Nginx限流 3、Redis集群应用 4、缓存灾难处理 三、目标 1、Sentinel Sentinel介绍 Sentinel核心功能 Sentinel集成Gateway Sentinel控制台 2、Lvs+Nginx集群 Lvs负载均衡模式 NAT模式 TUN模式 …

——二叉树

二叉树种类 二叉树有两种主要的形式&#xff1a;满二叉树和完全二叉树。 满二叉树 如果一棵二叉树只有度为0的结点和度为2的结点&#xff0c;并且度为0的结点在同一层上&#xff0c;则这棵二叉树为满二叉树。 完全二叉树 在完全二叉树中&#xff0c;除了最底层节点可能没…

最新数据库流行度最新排名(每月更新)

2023年09月数据库流行度最新排名 TOP DB顶级数据库索引是通过分析在谷歌上搜索数据库名称的频率来创建的 一个数据库被搜索的次数越多&#xff0c;这个数据库就被认为越受欢迎。这是一个领先指标。原始数据来自谷歌Trends 如果您相信集体智慧&#xff0c;那么TOP DB索引可以帮…

为什么说在「云端」进行产品开发与管理是大势所趋?

提起工业软件&#xff0c;大家会想到各种应用程序&#xff0c;比如机械设计软件、电气设计软件、仿真模拟、生命周期管理等&#xff0c;进而又引出各个工业软件原厂商。由于不同软件之间的壁垒&#xff0c;用户很难实现各个软件之间的协同。不过本文要谈的3DEXPERIENCE WORKS&a…

sql注入的数据提交方式和查询方式

死在山野的风里&#xff0c;活在自由的梦里 sql注入的数据提交方式和查询方式 数据提交方式GET方式注入POST方式注入Request方式注入HTTP头注入什么是Header头部注入&#xff1f;cookie注入 查询方式 数据提交方式 GET方式注入 get注入方式比较常见&#xff0c;主要是通过ur…

@全体开发者们,ChunJun 有奖征文,精美奖品,快来参加!

2022年4月&#xff0c;在 FlinkX 进行初版开源的整整四年后&#xff0c;技术团队决定对FlinkX进行整体升级&#xff0c;并更名为 ChunJun。到目前为止&#xff0c;ChunJun 正式更名上线已经过了一年多了。作为一款稳定、易⽤、⾼效、批流⼀体的数据集成框架&#xff0c;相信各位…

博客系统(升级(Spring))(四)(完)基本功能(阅读,修改,添加,删除文章)

博客系统 (三&#xff09; 博客系统博客主页前端后端个人博客前端后端显示个人文章删除文章 修改文章前端后端提取文章修改文章 显示正文内容前端后端文章阅读量功能 博客系统 博客系统是干什么的&#xff1f; CSDN就是一个典型的博客系统。而我在这里就是通过模拟实现一个博客…

ARM接口编程—WDT(exynos 4412平台)

WDT简介 Watch Dog Timer即看门狗定时器&#xff0c;其主要作用是当发生软件故障时可产生复位信号使SOC复位&#xff0c;其本质是一个计数器 WDT工作原理 WTD寄存器 wtd控制寄存器 用于设置一级分频、二级分频、使能、产生复位和中断信号 WTD数据寄存器 用于获取计数值&…

如何在Windows系统搭建filebrowser私人网盘并实现在外网访问本地内网

Windows系统搭建网盘神器filebrowser结合内网穿透实现公网访问 文章目录 Windows系统搭建网盘神器filebrowser结合内网穿透实现公网访问前言1.下载安装File Browser2.启动访问File Browser3.安装cpolar内网穿透3.1 注册账号3.2 下载cpolar客户端3.3 登录cpolar web ui管理界面3…

JBoss JMXInvokerServlet 反序列化漏洞复现(CVE-2015-7501)

一、漏洞说明 JBoss中/invoker/JMXInvokerServlet路径对外开放&#xff0c;JBoss的jmx组件支持反序列化。JBoss在/invoker/JMXInvokerServlet请求中读取了用户传入的对象&#xff0c;然后我们利用Apache Commons Collections中的Gadget执行任意代码。 二、影响版本 JBoss Enter…

虹科分享 | 知识产权盗窃:它是什么以及如何预防

知识产权 (IP) 涵盖各种形式的创造力和创新&#xff0c;例如艺术品、配方、徽标、文献、食谱、工业设计等。个人和企业都可以拥有知识产权&#xff0c;赋予他们对其想法和创作的合法权利。这些权利帮助知识产权所有者从他们的作品中获益、保护作品并防止复制。知识产权对于推动…

【Redis】Redis 的学习教程(九)之 发布 Pub、订阅 Sub

1. Pub/Sub 介绍 Redis 的发布订阅&#xff08;Pub/Sub&#xff09;模式是一种消息传递机制&#xff0c;它允许在发送者和接收者之间建立松耦合的通信关系。在这种模式中&#xff0c;发送者&#xff08;发布者&#xff09;将消息发布到一个指定的频道或模式&#xff0c;而接收…

用户体验设计师是什么,一篇文章读懂!

我是设计师l1m0&#xff0c;今天要给大家分享一个有趣的职业&#xff1a;UX设计师。 在我们日常生活中&#xff0c;我们无时无刻都在与产品发生交互行为&#xff0c;例如使用应用APP、访问网站、与实体陈燕萍进行交互&#xff08;例如试穿衣服&#xff09;或者享受某个服务&am…

恒运资本:多股涨停!“吃药”行情卷土重来;政策利好,元宇宙又可以了!

今日早盘&#xff0c;A股小幅震荡反弹&#xff0c;科创50指数继续围绕900点打开争夺。 盘面上&#xff0c;医药&#xff0c;轿车、元世界、煤炭等板块涨幅居前&#xff0c;航空、家居用品、卫星导航、房地产等板块跌幅居前。北上资金净流出4.4亿元。 医药股全线走强 医药股早…

12个小朋友手拉手站成一个圆圈 约瑟夫环 + 字节历险记

目录 12个小朋友手拉手站成一个圆圈&#xff0c;从某一个小朋友开始报数&#xff0c;报到7的那个小朋友退到圈外&#xff0c;然后他的下一位重新报“1”。这样继续下去&#xff0c;直到最后只剩下一个小朋友求解这个小朋友原来站在什么位置上呢? 请问在互联网公司中,OKR是什…

C语言访问Mysql

文章目录 C语言访问Mysql1. 环境设置2. mysql接口介绍(1) 初始化mysql_init()(2) 链接数据库mysql_real_connect(3) 下发mysql命令mysql_query()(4) 获取执行结果mysql_store_result(5) 释放结果集mysql_free_result()(6) 获取结果行数mysql_num_rows(7) 获取结果列数mysql_num…

Java——》synchronized互斥性

推荐链接&#xff1a; 总结——》【Java】 总结——》【Mysql】 总结——》【Redis】 总结——》【Kafka】 总结——》【Spring】 总结——》【SpringBoot】 总结——》【MyBatis、MyBatis-Plus】 总结——》【Linux】 总结——》【MongoD…

Solidity 小白教程:13. 继承

Solidity 小白教程&#xff1a;13. 继承 这一讲&#xff0c;我们介绍solidity中的继承&#xff08;inheritance&#xff09;&#xff0c;包括简单继承&#xff0c;多重继承&#xff0c;以及修饰器&#xff08;modifier&#xff09;和构造函数&#xff08;constructor&#xff…

新手必看!Python爬虫 教程:IP池的使用

前言 嗨喽~大家好呀&#xff0c;这里是小曼呐 ❤ ~! 一、简介 爬虫中为什么需要使用代理 一些网站会有相应的反爬虫措施&#xff0c;例如很多网站会检测某一段时间某个IP的访问次数&#xff0c;如果访问频率太快以至于看起来不像正常访客&#xff0c;它可能就会禁止这个IP的访…

CE单相智能电力仪表ADL200

安科瑞 华楠 ADL200 单相电子式电能表主要用于计量低压网络的单相有功电能&#xff0c;同时可测量电压、电流、功率等电量&#xff0c; 并可选配 RS485 通讯功能&#xff0c;方便用户进行用电监测、集抄和管理。可灵活安装于配电箱内&#xff0c;实现对不同区域和不 同 负 荷 …