【Python实战因果推断】63_随机实验与统计知识5

news2024/11/15 5:52:38

目录

Hypothesis Testing

Null Hypothesis


Hypothesis Testing

另一种引入不确定性的方法是陈述假设检验:两个组之间的均值差异是否在统计上与零(或其他任何值)不同?要回答这类问题,你需要回想正态分布的和或差也是正态分布。最终的均值将是两个分布的和或差,而方差则始终是两个方差的和:

N\Big(\mu_{1},\sigma_{1}^{2}\Big)-N\Big(\mu_{2},\sigma_{2}^{2}\Big)=N\Big(\mu_{1}-\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2}\Big)\\N\Big(\mu_{1},\sigma_{1}^{2}\Big)+N\Big(\mu_{2},\sigma_{2}^{2}\Big)=N\Big(\mu_{1}+\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2}\Big)

如果你记不住,没关系。你可以随时使用代码和模拟数据来自己验证这一点:

  import seaborn as sns
 from matplotlib import pyplot as plt
 np.random.seed(123)
 n1 = np.random.normal(4, 3, 30000)
 n2 = np.random.normal(1, 4, 30000)
 n_diff = n2 - n1
 plt.figure(figsize=(10,4))
 sns.distplot(n1, hist=False, label="$N(4,3^2)$")
 sns.distplot(n2, hist=False, label="$N(1,4^2)$")
 sns.distplot(n_diff, hist=False,
 label=f"$N(-3, 5^2) = N(1,4^2) - (4,3^2)$")
 plt.legend();

如果取两组数据,每组都有一个关联的分布,然后将一组从另一组中减去,最终会得到第三个分布。这个最终分布的均值将是两组均值之差,而标准差将是两个方差之和的平方根。既然我们讨论的是实验平均值的分布,可以将这些分布的标准差视为均值的标准误:

\begin{aligned}&\mu_{diff}=\mu_{1}-\mu_{2}\\&SE_{diff}=\sqrt{SE_{1}^{2}+SE_{2}^{2}}\end{aligned}

你可以利用这个概念来比较你的交叉销售邮件实验中的转化率。如果你取两个组的估计分布——比如说短邮件组和无邮件组——并从中减去一个,你就会得到差异的分布。有了这个分布,你可以轻松构造出两组均值之差的95%置信区间:

 diff_mu = short_email.mean() - no_email.mean()
 diff_se = np.sqrt(no_email.sem()**2 + short_email.sem()**2)
 ci = (diff_mu - 1.96*diff_se, diff_mu + 1.96*diff_se)
 print(f"95% CI for the difference (short email - no email):\n{ci}")
 
 95% CI for the difference (short email - no email):
 (0.01023980847439844, 0.15465380854687816)

Null Hypothesis

通过这个置信区间,你可以回答关于所谓的零假设的问题。例如,你可以提出这样的假设:简短邮件与完全不发邮件相比,在转化率上没有差异。通常我们会用H0来表示零假设:

H_0:Conversion_{no_email}=Conversion_{short_email}

一旦你有了这个假设,接下来要问自己的问题是,“如果零假设是真的,我观察到如此大的差异的可能性有多大?”你会审视数据,看它是否符合你的零假设。如果不符合,你会说,如果零假设为真,看到这样的数据太奇怪了,因此你应该拒绝这个假设。 一种检验零假设的方式是使用你刚刚构建的置信区间。

注意,前面的95%置信区间并不包含零。同时,回想一下这是转化率差异的CI。因为零假设指出这个差异是零,但你看到置信区间完全在零之外,所以可以说如果零假设为真,看到这样结果的概率太低。因此,你可以以95%的置信度拒绝零假设。

当然,除了指出完全没有差异的零假设外,你还可以提出其他的零假设。例如,假设发送邮件存在一定的成本,这是非常现实的情况。即使没有显著的金钱成本,如果你向客户发送过多的邮件,最终他们可能会标记你为垃圾邮件发送者,这会关闭与他们的沟通渠道,导致未来销售额下降。在这种情况下,也许营销团队只有在转化率提升高于1%时才愿意推广交叉销售邮件。那么,你可以这样表述零假设:“转化率的差异是1%。”为了检验这个假设,你只需将置信区间移动,即从均值差异中减去1%即可:

 # shifting the CI
 diff_mu_shifted = short_email.mean() - no_email.mean() - 0.01
 diff_se = np.sqrt(no_email.sem()**2 + short_email.sem()**2)
 ci = (diff_mu_shifted - 1.96*diff_se, diff_mu_shifted + 1.96*diff_se)
 print(f"95% CI 1% difference between (short email - no email):\n{ci}")
 
 95% CI 1% difference between (short email - no email):
 (0.00023980847439844521, 0.14465380854687815)

由于这个95%CI也高于零,你也可以拒绝这个其他的零假设。然而,现在95%CI非常接近于零,这意味着你无法拒绝效果等于比如2%这样的数值的零假设,至少不能以95%的置信度来拒绝。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1970938.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Java算法专场】前缀和(上)

前言 在求数组或者矩阵求和等问题,我们如果采用暴力解法,时间复杂度可能会达到O(n)或者更高,因此,我们可利用前缀和来解决。 前缀和 前缀和是指序列中的n项和,相当于数学问题中秋数列的前n项和。主要用于数组或列表中…

[Bugku] web-CTF-POST

1.开启环境 2.根据题目得知使用POST传参,即可得到flag

[240802] 有关 Homebrew 的安全审核 | Running C++ anywhere like a script

目录 有关 Homebrew 的安全审核Running C anywhere like a script 有关 Homebrew 的安全审核 Trail of Bits 对 macOS 包管理工具 Homebrew 进行了安全审计,重点关注其核心代码库和 CI/CD 流程。审计发现了 Homebrew 中存在的一些问题,这些问题可能被攻…

来点八股文(四) 数据检索ESOLAPCK和Calcite

文章目录 压缩存储&索引codegen优化器向量化 如何解决深度分页问题? scoll 游标分页 使用的是快照,没法保证实时fromsize 最差的实现,内存占用和时间都很差search_after 搜索上下文 通过记录自增id来查询,减少了内存占用 luc…

GDAL——地理空间数据抽象库在VS2022下的编译

上图是GDAL在github上的首页截图,GDAL库本身是没法运行的(一开始想运行它看看,但后知后觉一个库单独怎么能运行呢哈哈哈哈哈哈)。编译成功后,会生成几个文件夹,里面有一些文件,把这些文件配置到合适的位置后&#xff0…

css-grid布局之美

一,grid布局概述 网格布局(Grid)是最强大的 CSS 布局方案。 它将网页划分成一个个网格,可以任意组合不同的网格,做出各种各样的布局。以前,只能通过复杂的 CSS 框架达到的效果,现在浏览器内置…

游戏加速器推荐 网游加速器排行榜

游戏加速器推荐,玩游戏用什么加速器!我得给你推荐一款我常用的。首先呢,就是深度加速器,它针对目前手游网游的游戏加速效果特别棒,而且界面也很友好。 另外,还有深度加速器,这款加速器不仅支持国…

使用模版完成不同数据类型的数组的选择排序

目录 6.模版(167-263) 6.1函数模板 6.1.1函数模版注意事项 6.1.2函数模版案例--选择排序 1. 比较排序的基本概念 2. 决策树 3. 决策树的深度 4. 结论 5.选择排序示例: 6.模版(167-263) (项目先跳过) 模板不能直接使用,它只是一个框架. 模板不是万能的. 6.1函数模板…

HCIE还是CCIE?高级认证到底要怎么选?

HCIE与CCIE,作为网络技术领域的两大旗舰认证,一直是IT专业人士追求的目标。 它们不仅代表了个人技术能力的权威认可,更是职业生涯中的重要里程碑。 然而,面对这两个同为高级认证的金字招牌,许多人不禁要问:…

基于FPGA的数字信号处理(21)--超前进位加法器

目录 1、什么是超前进位加法器 2、CLA加法器的关键路径 3、CLA加法器的Verilog实现 4、CLA加法器的时序性能 5、总结 文章总目录点这里:《基于FPGA的数字信号处理》专栏的导航与说明 1、什么是超前进位加法器 在之前的文章,我们介绍了行波进位加法器…

安装linux系统的时候没有允许root用户远程登录,怎么修改?

1、进入/etc/ssh/sshd_config vim /etc/ssh/sshd_config /etc/ssh/sshd_config通常是 SSH 服务(Secure Shell)的配置文件。 SSH 是一种用于安全远程登录和执行命令的网络协议。在这个配置文件中,您可以设置诸如端口号、允许或拒绝的登录用户…

数据结构(5.4_1)——树的存储结构

树的逻辑结构 双亲表示法(顺序存储) 每个结点中保存指向双亲的“指针” #define MAX_TREE_SIZE 100//树中最多结点typedef struct {//树的结点定义int data;//数据元素int parent;//双亲位置域 }PTNode; typedef struct {//树的类型定义PTNode nodes[MAX_TREE_SIZE];//双亲表…

红外热成像手持终端:从建筑检测到野外搜救的全方位应用

红外热成像手持终端,凭借其独特的红外探测与夜视功能,广泛应用于多个关键领域。无论是军事侦察、消防救援中的夜间作业,还是电力巡检、野生动物观察等多样场景,其精准的红外热成像技术均能提供至关重要的实时数据,助力…

TrainingArguments 的ignore_data_skip解释

文章目录 0. 背景1. 官方解释2. 查看源码3. 验证4. 总结 0. 背景 在采用 HuggingFace 提供的 Transformers 库来训练模型时,如果出现模型训练中断的情况,此时我们希望断点接训,TraningArguments 有一个参数:resume_from_checkpoi…

都从哪里下载量产工具,我给大家推荐一下吧

就推荐量产部落!因为从事固态硬盘维修这行,而且我自己也喜欢DIY,所以我比较关注量产工具下载。 要说量产工具,就得从U盘和固态硬盘的兴衰开始说起,从2016年开始,U盘就在走下坡路了,U盘量产工具…

英特尔裁员、暂停分红和市场挑战

英特尔(INTC)近日宣布了一系列战略调整,以应对其面临的严峻挑战。这家总部位于加利福尼亚州圣克拉拉的芯片制造商计划裁员超过15%,并从第四季度起暂停派息,以重振其盈利能力。 股价暴跌与市值蒸发 英特尔的这一决定导…

找不到的软件资源,试试这个网站

0daydown是一个提供多种资源下载的网站,包括软件、电影、音乐和游戏等。该网站通常会转载其他0day站点或PT站点的内容,并以其丰富的资源和便捷的下载方式而闻名。此外,0daydown还收录了稀缺的0day软件,并提供百度网盘下载链接。 …

双 Token 三验证解决方案

更好的阅读体验 \huge{\color{red}{更好的阅读体验}} 更好的阅读体验 问题分析 以往的项目大部分解决方案为单 token: 用户登录后,服务端颁发 jwt 令牌作为 token 返回每次请求,前端携带 token 访问,服务端解析 token 进行校验和…

serial---- vulnhub打靶

1.新建虚拟机,虚拟硬盘使用vulnhub下载提供的虚拟硬盘文件 2.打开虚拟机,扫描网段,确定IP(或者arp -a) 3.发现没有robots.txt,以及一些常见admin,www.zip目录文件,尝试扫目录 拿另一个工具扫一下看看多了一个 4.发现备…

凸优化学习之旅

目录标题 专业名词MM算法CCP算法:代码说明 SCA算法:连续松弛梯度投影算法 分支定界搜索法凸问题辨别OA算法λ-representationADMM算法代码说明 BCD算法BCD(Block Coordinate Descent)代码示例与ADMM的区别总结 2024年5月6日15:15:…