CausalEGM:通过编码生成建模的通用因果推理框架

news2024/11/17 5:28:35

英文题目:CausalEGM: a general causal inference framework by encoding generative modeling

中文题目:CausalEGM:通过编码生成建模的通用因果推理框架

单位:斯坦福大学统计系

时间:2023

论文链接:https://arxiv.org/pdf/2212.05925.pdf

代码:https://github.com/SUwonglab/CausalEGM

摘要:

尽管理解和表征因果效应在观察性研究中变得至关重要,但当协变量高维时,它具有挑战性。在本文中,我们开发了一个通用框架 CausalEGM,用于通过编码生成建模来估计因果效应,该框架可以应用于二进制和连续处理设置。在具有无混淆的潜在结果框架下,我们在高维协变量空间和已知密度的低维潜在空间之间建立双向转换(例如,多元正态分布)。通过这种方法,CausalEGM同时解耦协变量对治疗和结果的依赖性,并将协变量映射到低维潜在空间。通过对低维潜在特征的条件,CausalEGM 可以估计每个个体的因果影响或人群中的平均因果效应。我们的理论分析表明,CausalEGM 的超额风险可以通过经验过程理论来限制。在编码器-解码器网络的假设下,可以保证估计的一致性。在一系列实验中,CausalEGM 在二元和连续处理方面都表现出优于现有方法的性能。具体来说,我们发现 CausalEGM 在样本量大和高维协变量存在的情况下比竞争方法更强大。CausalEGM 的软件可在 https://github.com/SUwonglab/CausalEGM 免费获得。

1简介

鉴于观察数据,对治疗因果效应的推论对于许多科学和工程问题至关重要,并引起了广泛的兴趣。例如,(1) Zhang et al.(2017)研究了药物对个性化医疗健康结果的影响;(2) Panzzia和Presbitero(2014)评估了政府公共政策的有效性;(3) Kohavi和Longbotham(2017)进行了A/B测试,为商业公司选择更好的推荐策略。从历史上看,许多数据集的小样本大小阻碍了通过传统亚组分析有意义地探索治疗效果。在大数据时代,数据积累激增。因此,我们需要更强大的工具来准确估计大规模观测数据的因果影响。

研究人员对学习因果关系比因果推理的相关性更感兴趣。学习因果关系最有效的方法是进行随机对照试验 (RCT),其中受试者被随机分配到接受治疗/干预的实验组和一个对照组进行比较。那么结果的实验组和对照组之间的差异衡量了治疗/干预的有效性。RCT 已成为研究因果关系的黄金标准,因为随机化可能会限制各种偏差。然而,RCT 是耗时、昂贵且有问题的,具有普遍性(RCT 中的参与者并不总是代表他们的人口)。相比之下,观察性研究可以提供有价值的证据并检查“现实世界”设置中的影响,而 RCT 倾向于评估高度选定人群中理想条件下的治疗效果。给定观测数据,我们知道每个个体的治疗、结果和协变量。需要发现治疗对结果有因果关系的机制。一个目标是估计反事实的结果。例如,“如果患者/她接受了不同的治疗,这个患者是否会有不同的健康状况?”在实际应用中,由于混杂因素引入的选择偏差,治疗通常不会随机分配。因此,处理过的人群可能与一般人群有很大不同。因果效应的准确估计涉及处理混杂因素,即影响治疗和结果的变量。未能调整混淆效应可能会导致估计偏差和错误的结论。

已经提出了许多框架来解决上述问题。Rubin (1974) 和 Splawa-Neyman et al. (1990) 的潜在结果模型,也称为 Neyman-Rubin 因果模型,可以说是使用最广泛的框架。它对因果关系和潜在假设进行了精确的推理。为了衡量治疗的因果影响,我们需要比较每个个体的事实和反事实结果。由于不可能在不同的治疗条件下观察同一个体的潜在结果,推理任务可以看作是一个“缺失数据”问题,其中需要估计反事实结果。一旦我们在个人或人口平均水平解决“缺失数据”问题,就可以估计相应的个体因果效应或平均因果效应。

潜在结果框架下因果效应非参数估计的经典方法包括重新加权、匹配和分层,详细参见评论文章 Imbens (2004)。当协变量的维度较低时,这些方法通常表现良好,但当协变量的数量很大时会崩溃。近年来,机器学习的繁荣在很大程度上加速了因果推理算法的发展。在本文中,我们探索了机器学习(尤其是深度学习)的进步,以提高因果效应估计的性能。具体来说,我们探索了如何应用深度生成模型将高维协变量映射到具有所需分布的潜在空间。所提出的降维方案能够对低维潜在特征进行调节,这为处理高维协变量提供了新的见解。

1.1相关工作

我们的工作有助于文献使用深度生成模型估计因果效应。该领域的大多数工作都是在二元处理设置下进行的。例如,重新加权方法,例如Rosenbaum(1987)的IPW,Robins等人(1994)为每个单元分配适当的权重以消除选择偏差。基于匹配的方法提供了一种直接比较匹配样本中处理组和对照组的结果的解决方案。Stuart (2010) 中可以找到匹配方法的详细回顾。

因果推理中另一种流行的方法是基于决策树。这些基于树的方法通过学习从数据中学习决策规则来使用非参数分类或回归。请参阅 Athey 和 Imbens (2016)、Hill (2011) 和 Wager 和 Athey (2018)。

最近,神经网络已应用于因果推理,展示了令人信服的和有希望的结果。参见Shalit等人(2017)、Shi等人(2019)、Louizos等人(2017)和Yoon等人(2018)。这些努力中的大多数都处于二元处理设置下。这些方法存在一些局限性。首先,这些模型通常使用单独的网络来估计不同处理条件下的结果函数。这种特定于治疗的网络很难推广到连续治疗。其次,这些基于神经网络的方法侧重于最小化反事实结果的预测误差,同时缺乏足够的理论分析来解释模型设计和架构的合理性。

至于处理连续处理的方法,很多努力都集中在开发 Hirano 和 Imbens (2004) 的广义倾向得分理论。有关其他基于回归的模型,请参见双鲁棒估计器 Robins 和 Rotnitzky (2001)、基于树的方法 Hill (2011)、Lee (2018) 和 Galagate (2016)。还有一些非参数方法不需要正确规范将治疗或结果与协变量联系起来的模型。参见Flores等人(2007)、Kennedy等人(2017)、Fong等人(2018)和Colangelo和Lee(2020)。然而,大多数基于回归的方法需要对协变量和治疗或结果之间的关系进行限制性条件。例如,Galagate (2016) 只考虑平均剂量响应函数 (ADRF) 是二次的情况。Fong等人(2018)依赖于治疗与协变量呈线性关系的假设。这种强有力的假设阻碍了这些方法的广泛应用。根据经验,这些方法中的许多在存在高维协变量的情况下失败,并且不能扩展到大规模数据集

为了克服上述限制,我们开发了 CausalEGM,这是一种使用编码生成建模估计治疗效果的通用框架。CausalEGM 模型在以下方面与现有方法不同。1)CausalEGM 没有使用特定于治疗的网络,而是利用了一个统一的模型架构,该架构适用于离散和连续处理设置。2) CausalEGM采用编码生成降维方案,将协变量对治疗和结果的依赖性解耦,而大多数现有方法无法区分依赖关系。3) CausalEGM 不假设任何预规范处理模型和结果模型。综上所述,本文的主要贡献是提出了一个新的框架,通过编码生成方案将高维协变量映射到低维潜在特征。通过也就是说,使用对抗训练具有所需分布的潜在特征使得它很容易条件。统一的模型设计还支持二进制和连续处理设置下的治疗效果估计。基准数据集的一系列系统实验表明,我们的框架在各种设置下优于最先进的方法。

2 方法

2.1问题表述

 2.2因果推理的编码生成模型

2.3模型训练

CausalEGM 模型由双向转换模块和两个前馈神经网络组成。双向转换模块用于将协变量投影到低维空间并解耦依赖关系。这个双向模块由两个生成对抗网络 (GAN) 组成。在一个方向上,编码器网络E旨在将协变量转换为潜在特征,其分布与标准多元高斯分布相匹配。鉴别器 Dz 网络试图将从多元高斯分布(标记为正高斯分布)中采样的数据与 E 网络生成的数据区分开来(标记为零)。类似地,GAN 模型中还有另一个鉴别器网络以相反的方向工作,其中生成器/解码器网络 G 将潜在特征转换回原始协变量空间以匹配协变量的经验分布。鉴别器网络 D 可以被认为是一个二元分类器,其中潜在多元正态的 D(x) = 1,对于来自经验数据分布的编码器诱导的分布,D(x) = 0。我们使用 WGAN-GP (Gulrajani et al., 2017) 作为 GAN 实现的架构,其中判别器的梯度惩罚被视为一个额外的损失项。因此,对抗训练在潜在空间中分布匹配的损失函数为两项

 2.4模型架构

CausalEGM 的架构非常灵活。在这项工作中,我们对所有网络使用全连接层。具体来说,(E, G, F, H) 网络包含 5 个全连接层,每层有 64 个隐藏节点。(Dz , Dv) 网络每个网络分别包含 3 个全连接层,分别有 64、32、8 个隐藏节点。leaky-ReLu 激活函数部署为每个隐藏层中的非线性变换。当处理为二进制时,我们使用 Sigmoid 作为 H 网络最后一层的激活函数。对于连续处理,我们不使用任何激活函数。批量归一化(Ioffe 和 Szegedy,2015)应用于鉴别器网络。我们使用初始学习率为 2 × 10−4 的 Adam 优化器 (Kingma and Ba, 2015)。模型参数以小批量方式更新,批量大小为 32。训练迭代的默认数量为 30,000。

3理论分析

3.1 GAN背景

3.2问题设置和符号

4 实验

我们进行了一系列实验来评估 CausalEGM 对某些最先进方法的性能。在观察性研究中,准确估计治疗对人口水平和个体水平的影响都是至关重要的。我们的目标是验证CausalEGM估计对人口水平的平均治疗效果和对异质治疗效果的个体治疗估计的能力。由于 CausalEGM 适用于二元处理和连续处理,我们测试了 CausalEGM 在两种设置下的性能。

4.1 数据集

对于连续处理设置,将使用来自先前出版物的三个模拟数据集和真实数据集。

4.2评估指标

4.3 基线 

对于连续处理设置,使用了三个不同的基线。

对于二元处理设置,引入了五个基线。

 

 4.4结果

 

 5 结论

 在本文中,我们开发了一种新的 CausalEGM 模型,该模型利用深度生成模型的进步来处理混杂因素并估计因果推理中的治疗效果。CausalEGM实现了高效的编码,映射高维协变量到低维潜在空间。我们使用基于 GAN 的对抗训练和基于自动编码器的重建来保证潜在特征彼此独立,并包含协变量的必要变化以进行良好的重建。CausalEGM可以灵活地估计二元或连续处理设置下个体和种群的治疗效果。

在一系列系统实验中,CausalEGM 表现出优于其他现有方法的卓越性能。CausalEGM 模型的一些扩展和改进留待。在这里,我们为进一步探索提供了几个方向。首先,虽然我们使用基于 GAN 的对抗训练来保证潜在特征中的独立性,但值得尝试在生成过程中结合近似误差来分析 CausalEGM 收敛的行为。其次,当应用于具有不同样本大小的数据集时,研究 CausalEGM 中超参数的复杂性应该很有希望。

 

参考


深度因果推断模型 - CausalEGM - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/936388.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

聚类分析 | MATLAB实现基于AHC聚类算法可视化

聚类分析 | MATLAB实现基于AHC聚类算法可视化 目录 聚类分析 | MATLAB实现基于AHC聚类算法可视化效果一览基本介绍程序设计参考资料 效果一览 基本介绍 AHC聚类算法,聚类结果可视化,MATLAB程序。 Agglomerative Hierarchical Clustering(自底…

Git企业开发控制理论和实操-从入门到深入(七)|企业级开发模型

前言 那么这里博主先安利一些干货满满的专栏了! 首先是博主的高质量博客的汇总,这个专栏里面的博客,都是博主最最用心写的一部分,干货满满,希望对大家有帮助。 高质量博客汇总 然后就是博主最近最花时间的一个专栏…

数据结构】二叉树篇|超清晰图解和详解:后序篇

博主简介:努力学习的22级计算机科学与技术本科生一枚🌸博主主页: 是瑶瑶子啦每日一言🌼: 你不能要求一片海洋,没有风暴,那不是海洋,是泥塘——毕淑敏 目录 一、核心二、题目 一、核心 我们清楚…

UML四大关系

文章目录 引言UML的定义和作用UML四大关系的重要性和应用场景关联关系继承关系聚合关系组合关系 UML四大关系的进一步讨论UML四大关系的实际应用软件开发中的应用其他领域的应用 总结 引言 在软件开发中,统一建模语言(Unified Modeling Language&#x…

飞桨中的李宏毅课程中的第一个项目——PM2.5的预测

所谓的激活函数,就是李宏毅老师讲到的sigmoid函数 和 hard sigmoid函数 ,ReLU函数那些 现在一点点慢慢探索,会成为日后想都做不到的经历,当你啥也不会的时候,才是慢慢享受探索的过程。 有一说一,用chatGP…

观察级水下机器人使用系列之六超短基线(下)

本文主要讲述超短基线的安装校准和应用。 1、安装校准概述 水下声学导航系统标定算法的准确性很大程度上取决于所采集的数据质量、超短基线基阵的几何结构、高效的数值计算算法等方面。Mc Ewen 等在 2005 年发现了对于分立式的超短基线系统,水声传感器与姿态传感器…

数据结构--树4.2(二叉树)

目录 一、二叉树的定义和特点 1、定义 2、特点 二、二叉树的基本形态 1、空二叉树 2、只有一个根结点 3、根结点只有左子树 4、根结点只有右子树 5、根结点既有左子树又有右子树 6、斜树 7、满二叉树 8、满二叉树和完全二叉树 三、二叉树的性质 一、二叉树的定义和…

2. 使用IDEA创建Spring Boot Hello项目并管理依赖——Maven入门指南

前言:本文将介绍如何使用IDEA创建一个Spring Boot Hello项目,并通过Maven来管理项目的依赖。我们从项目的创建到代码的编写,再到项目的构建和运行,一步步演示了整个过程。 🚀 作者简介:作为某云服务提供商的…

LeetCode-738-单调递增的数字

题目描述&#xff1a; 当且仅当每个相邻位数上的数字 x 和 y 满足 x < y 时&#xff0c;我们称这个整数是单调递增的。 给定一个整数 n &#xff0c;返回 小于或等于 n 的最大数字&#xff0c;且数字呈 单调递增 。 解题思路&#xff1a; 先将int变成char[]&#xff0c;获取…

86. 分隔链表(中等系列)

给你一个链表的头节点 head 和一个特定值 x &#xff0c;请你对链表进行分隔&#xff0c;使得所有 小于 x 的节点都出现在 大于或等于 x 的节点之前。 你应当 保留 两个分区中每个节点的初始相对位置。 示例 1&#xff1a; 输入&#xff1a;head [1,4,3,2,5,2], x 3 输出&…

webassembly004 ggml wasm_eval 与js代码交互 调试

试用 $:~/ggml/ggml$cd examples/mnist $:~/ggml/ggml/examples/mnist$ emcc -I../../include -I../../include/ggml -I../../examples ../../src/ggml.c main.cpp -o web/mnist.js -s EXPORTED_FUNCTIONS["_wasm_eval","_wasm_random_digit","_mall…

Linux设备驱动之多个同类设备共用一套驱动

1. 应用场景 比如我们的设备上有很多一样的usb接口&#xff0c;这些usb接口都需要有驱动才能工作&#xff0c;那么是每个usb都一套单独的驱动程序么&#xff1f;显然不是的&#xff0c;这些usb接口属于同一类设备&#xff0c;用户对他们的操作方法完全一致&#xff0c;只不过不…

连接器信号完整性仿真教程 七

本将介绍微带线及差分微带线仿真。做连接器信号完整性仿真时&#xff0c;有时后没法将激励端口直接设置到连接器端子上&#xff0c;这就需画出连接器PCB PAD&#xff0c;将激励端口设置在PAD的端面上&#xff0c;或者用引线连接PAD&#xff0c;将引线引出到适当的位置&#xff…

Window基础命令

文章目录 查看哪些端口被禁用TCP协议删除开机启动项方案1方案2 查看哪些端口被禁用TCP协议 netsh interface ipv4 show excludedportrange protocoltcp删除开机启动项 方案1 列出所有启动项 bcdedit /enum仔细看你要删除的是哪一项&#xff08;看description&#xff09;&a…

2. 两数相加(中等系列)

给你两个 非空 的链表&#xff0c;表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的&#xff0c;并且每个节点只能存储 一位 数字。 请你将两个数相加&#xff0c;并以相同形式返回一个表示和的链表。 你可以假设除了数字 0 之外&#xff0c;这两个数都不会以 0 …

Django基础6——数据模型关系

文章目录 一、基本了解二、一对一关系三、一对多关系3.1 增删改查3.2 案例&#xff1a;应用详情页3.2 案例&#xff1a;新建应用页 四、多对多关系4.1 增删改查4.2 案例&#xff1a;应用详情页4.3 案例&#xff1a;部署应用页 一、基本了解 常见数据模型关系&#xff1a; 一对一…

RabbitMQ+springboot用延迟插件实现延迟消息的发送

延迟队列&#xff1a;其实就是死信队列中消息过期的特殊情况 延迟队列应用场景&#xff1a; 可以用死信队列来实现&#xff0c;不过死信队列要等上一个消息消费成功&#xff0c;才会进行下一个消息的消费&#xff0c;这时候就需要用到延迟插件了&#xff0c;不过要线在docker上…

HSP高度敏感的人应该了解的内容(附图书资源)

推荐图书:《高敏感是种天赋》 在爆炸的信息海中希望你慢慢看&#xff0c;细细品~ 什么是高敏感人群&#xff1f; &#xff08;Highly Sensitive Person&#xff0c;简称HSP&#xff09;是指那些对外界刺激和情绪变化非常敏感&#xff0c;容易受到情绪的影响&#xff0c;并且需…

在window上配置NASM

NASM是支持x86、x64架构CPU的汇编器(汇编软件)&#xff1b;NASM也支持大量的文件格式&#xff0c;包括Linux&#xff0c;*BSD&#xff0c;a.out&#xff0c;ELF&#xff0c;COFF&#xff0c;Mach−O&#xff0c;Microsoft 16−bit OBJ&#xff0c;Win32以及Win64&#xff0c;同…

今天去看看俺姐(老婆)新开的超市

首发博客地址 https://blog.zysicyj.top/ 1 昨晚写博客到12点多&#xff0c;今天困死了&#xff0c;比较意外的是&#xff0c;早上老爸没有叫我&#xff0c;今天早上是老爸和小舅送的葡萄。 所以呢&#xff0c;今早睡得很晚&#xff0c;然后6点多才醒&#xff0c;睡得真舒服&am…