【Python实战因果推断】56_因果推理概论6

news2024/9/27 17:37:00

目录

Causal Quantities: An Example

Bias


Causal Quantities: An Example

让我们看看在我们的商业问题中,你如何定义这些量。首先,你要注意到,你永远无法知道价格削减(即促销活动)对某个特定商家的确切影响,因为这需要你同时看到两种可能的结果:没有促销时的销售额AmountSold0i与促销后的销售额AmountSold1i。但是,你却可以将焦点放在一些可估算的事情上,比如价格削减对销售额的平均影响:

ATE=E\big[AmountSold_{1i}-AmountSold_{0i}\big],

或是参与价格削减的商家如何增加了它们的销售量:

ATT=E\big[AmountSold_{1i}-AmountSold_{0i}\big|IsOnSales=1\big],

又或是圣诞节那一周进行促销活动的影响:

CATE=E\big[AmountSold_{1i}-AmountSold_{0i}\big|weeksToXmas=0\big]

现在,我明白你无法同时看到两个可能的结果,但为了论证的目的,也为了让事情变得更为具体,我们假设你能够。想象一下,因果推断的神明对你在众多统计战役中的英勇表现感到满意,因而赐予你神力,使你能看到潜在的替代宇宙——在其中一个宇宙里,每种结果都已发生。凭借这股力量,你说你收集了六个商家的数据,其中三个商家正在进行促销,而另外三个则没有。

在下表中,i是单位标识符,y是观察到的结果,y0和y1分别是控制组和处理组的潜在结果,t是处理指示符,x是标记距离圣诞节还有多少周的协变量。请记住,进行促销是处理,销售金额是结果。我们同样假设在这六个商家中,你从两个商家那里收集到了圣诞节前一周的数据,这通过x=1来表示;而其余的数据则来自圣诞节当周:

你可能会看着这个数据思考,“这当然不理想,但我不能仅仅取处理组的平均值,然后与未处理组的平均值进行比较吗?换句话说,我不能直接做ATE = (500 + 600 + 800) / 3 - (200 + 120 + 300) / 3 = 426.67吗?”不可以! 你刚刚犯下了将关联误认为因果关系的严重错误!

注意结果的差异有多大。你之前计算的ATE不到100,而现在你却说它是超过400。问题在于,参与促销活动的商家与未参与的商家不同。事实上,即使不降价,参与促销的商家也可能卖出更多的商品。为了证明这一点,只需回顾一下你能看到两种潜在结果的情况。那时,处理组的Y0比未处理组高得多。处理组之间Y0的这种差异使得仅通过比较两组来揭示处理效应变得更加困难。

尽管比较平均值并不是最明智的想法,但我认为你的直觉方向是正确的。现在是时候应用你刚学到的新概念来精炼这一直觉,最终理解为什么关联并不等于因果。是时候面对因果推断的主要敌人了。

Bias

直截了当地说,偏差是让关联与因果产生区别的原因。你在数据中估计的量与你想恢复的因果量不符,这才是问题所在。幸运的是,通过一些直观理解,这个问题很容易被把握。让我们回顾一下商业案例。当你面对“降价能增加商家销售量”的说法时,你可以质疑它,指出那些进行促销的商家即使没有降价,可能也会卖出更多的商品。也许这是因为它们规模更大,有能力实施更具侵略性的促销策略。换句话说,进行促销的商家(即被处理的商家)与未进行促销的商家(即未被处理的商家)不具备可比性。

为了给出更正式的论证,你可以使用潜在结果符号来转化这一直观认识。首先,为了估计ATE,你需要估计如果被处理者没有接受处理会发生什么,即E[Y0|T=1],以及如果未被处理者接受了处理会发生什么,即E[Y1|T=0]。当你比较被处理者和未被处理者的平均结果时,你实际上是在用E[Y|T=0]来估计E[Y0],并用E[Y|T=1]来估计E[Y1]。换句话说,你是在试图通过E[Y|T=t]来恢复E[Yt]。如果两者不匹配,那么像E[Y|T=t]这样的估计器,比如接受处理t的那些个体的平均结果,就会成为E[Yt]的有偏估计。

回归直观理解,你甚至可以利用你对世界运作方式的理解来进一步分析。你可以指出,被处理商家的Y0可能比未处理商家的Y0要大。这是因为有能力进行价格削减的商家,无论是否有价格削减,其销售量往往更高。请花一点时间来消化这个观点。习惯于谈论潜在结果需要一段时间,因为它涉及到推理那些可能发生但并未发生的事件。请再次阅读这一段落,确保你理解了它。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1949328.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

算法 定长按组翻转链表

一、题目 已知一个链表的头部head,每k个结点为一组,按组翻转。要求返回翻转后的头部 k是一个正整数,它的值小于等于链表长度。如果节点总数不是k的整数倍,则剩余的结点保留原来的顺序。示例如下: (要求不…

数据集成工具之kettle

Kettle 是一个用于数据集成的开源工具,由 Pentaho 开发,现已由 Hitachi Vantara 维护。Kettle 的全名是 Pentaho Data Integration (PDI),主要用于数据提取、转换和加载(ETL)过程。 1. 核心组件 Spoon: 图形化的设计工…

【MetaGPT系列】【MetaGPT完全实践宝典——多智能体实践】

目录 前言一、智能体1-1、Agent概述1-2、Agent与ChatGPT的区别 二、多智能体框架MetaGPT2-1、安装&配置2-2、使用已有的Agent(ProductManager)2-3、多智能体系统介绍2-4、多智能体案例分析2-4-1、构建智能体团队2-4-2、动作/行为 定义2-4-3、角色/智…

mysql面试(六)

前言 本章节详细讲解了一下mysql执行计划相关的属性释义,以及不同sql所出现的不同效果 执行计划 一条查询语句经过mysql查询优化器的各种基于成本和各种规则优化之后,会生成一个所谓的 执行计划,这个执行计划展示了这条查询语句具体查询方…

Qt自定义MessageToast

效果&#xff1a; 文字长度自适应&#xff0c;自动居中到parent&#xff0c;会透明渐变消失。 CustomToast::MessageToast(QS("最多添加50张图片"),this);1. CustomToast.h #pragma once#include <QFrame>class CustomToast : public QFrame {Q_OBJECT pub…

广义线性模型(2)线性回归

线性回归算法应该是大多数人机器学习之路上的第一站&#xff0c;因为线性回归算法原理简单清晰&#xff0c;但却囊括了拟合、优化等等经典的机器学习思想。 说到线性回归&#xff0c;我们得先说说回归与分类、线性与非线性这些概念的区别。 一 分类与回归的区别 机器学习中的…

【虚拟机】Windows(x86)上部署ARM虚拟机(Ubuntu)

【虚拟机】Windows&#xff08;x86&#xff09;上部署ARM虚拟机&#xff08;Ubuntu&#xff09; 零、起因 最近在学嵌入式&#xff0c;这就不得不涉及ARM指令集&#xff0c;但是电脑是x86指令集的&#xff0c;用手机不太方便&#xff0c;买开发板又要等几天……&#xff0c;总…

商场导航系统:从电子地图到AR导航,提升顾客体验与运营效率的智能解决方案

商场是集娱乐、休闲、社交于一体的综合性消费空间&#xff0c;随着商场规模的不断扩大和布局的日益复杂&#xff0c;顾客在享受丰富选择的同时&#xff0c;也面临着寻路难、店铺曝光率低以及商场管理效率低下等挑战。商场导航系统作为提升购物体验的关键因素&#xff0c;其重要…

springcloud RocketMQ 客户端是怎么走到消费业务逻辑的 - debug step by step

springcloud RocketMQ &#xff0c;一个mq消息发送后&#xff0c;客户端是怎么一步步拿到消息去消费的&#xff1f;我们要从代码层面探究这个问题。 找的流程图&#xff0c;有待考究。 以下我们开始debug&#xff1a; 拉取数据的线程&#xff1a; PullMessageService.java 本…

【无标KaiwuDB CTO 魏可伟:差异化创新,面向行业的多模架构题】

2024年7月16日&#xff0c;KaiwuDB CTO 魏可伟受邀于 2024 可信数据库发展大会主论坛发表演讲《多模一库 —— KaiwuDB 的现代数据库架构探索》&#xff0c;以下是演讲精华实录。 多模数据库 是顺应时代发展与融合趋势的产物 数据模型最早始于网状模型和层次模型&#xff0c;…

删除的视频怎样才能恢复?详尽指南

在日常生活中&#xff0c;我们有时会不小心删除一些重要的视频文件&#xff0c;或者在整理存储空间时不慎丢失了珍贵的记忆片段。这时候&#xff0c;我们可以通过一些数据恢复工具和技巧&#xff0c;找回这些被删除的视频。本文将详细介绍几种常见且有效的视频恢复方法&#xf…

升腾c92安装ubuntu20.04 server(二)

一、本人使用大白菜制作的U盘安装ubuntu服务出现了如下错误 通过晚上查询知道&#xff0c;出现unable to find a medium containing a live file system 是因为U盘和升腾c92的u口不匹配导致&#xff0c;解决方案如下&#xff1a; 一、安装软碟通 在安装完软碟通之后&#xf…

git 版本回退-idea

1、选中项目&#xff0c;右键&#xff0c;打开 git历史提交记录 2、选中想要回退的版本&#xff0c;选择 hard&#xff08;不保留版本记录&#xff09; 3、最终选择强制提交&#xff08;必须强制&#xff09; OK&#xff0c;搞定

合作伙伴中心Partner Center中添加了Copilot预览版

目录 一、引言 二、Copilot 功能概述 2.1 Copilot 简介 2.2 Copilot 的核心功能 2.3 Copilot 的访问和使用 三、Copilot 的使用方法 3.1 Copilot 功能区域 3.2 Copilot 使用示例 3.2.1 编写有效提示 3.2.2 使用反馈循环 四、负责任的人工智能 4.1 Copilot 结果的可…

Docker 安全及日志管理(包含SSL证书)

目录 一、Docker 存在的安全问题 二、Docker 架构缺陷与安全机制 三、Docker 安全基线标准 四、容器相关的常用安全配置方法 五、限制流量流向 六、镜像安全 七、DockerClient 端与 DockerDaemon 的通信安全 https的单向认证流程 https的双向认证流程 八、DockerClie…

实时同步:使用 Canal 和 Kafka 解决 MySQL 与缓存的数据一致性问题

目录 1. 准备工作 2. 将需要缓存的数据存储 Redis 3. 监听 canal 存储在 Kafka Topic 中数据 1. 准备工作 1. 开启并配置MySQL的 BinLog&#xff08;MySQL 8.0 默认开启&#xff09; 修改配置&#xff1a;C:\ProgramData\MySQL\MySQL Server 8.0\my.ini log-bin"HELO…

STM32——GPIO(LED闪烁)

一、什么是GPIO&#xff1f; GPIO&#xff08;通用输入输出接口&#xff09;&#xff1a; 1.GPIO 功能概述 GPIO 是通用输入/输出&#xff08;General Purpose I/O&#xff09;的简称&#xff0c;既能当输入口使用&#xff0c;又能当输出口使用。端口&#xff0c;就是元器件…

HTML常用的转义字符——怎么在网页中写“<div></div>”?

一、问题描述 如果需要在网页中写“<div></div>”怎么办呢&#xff1f; 使用转义字符 如果直接写“<div></div>”&#xff0c;编译器会把它翻译为块&#xff0c;类似的&#xff0c;其他的标签也是如此&#xff0c;所以如果要在网页中写类似于“<div…

docker 构建 mongodb

最近需要在虚拟机上构建搭建mongo的docker容器&#xff0c;搞了半天老有错&#xff0c;归其原因&#xff0c;是因为现在最新的mango镜像的启动方式发生了变化&#xff0c;故此现在好多帖子&#xff0c;就是错的。 ok&#xff0c;话不多说&#xff1a; # 拉取最新镜像&#xf…

SpringBoot 使用easypoi.excel实现导入解析数据,并结合数据字典实现对数据的校验

在日常开发工作中避免不了的功能需求&#xff1a;导入Excel文件&#xff0c;然而导入文件流操作、对数据的校验有是件麻烦事&#xff0c;自从接触了easypoi后&#xff0c;觉得封装的很好&#xff0c;很简洁。 使用的主要依赖如下&#xff1a; <dependency><groupId&…