个体因果效应估计|EDVAE:用于个体治疗效果估计的反事实推理中的解开潜在因素模型

news2024/11/13 8:01:01

【摘要】根据观察数据估计个体治疗效果(ITE)是一项至关重要但具有挑战性的任务。解缠结表示已用于将代理变量分为混杂变量、工具变量和调整变量。然而,根据观测数据准确地进行反事实推理来识别 ITE 仍然是一个悬而未决的问题。在本文中,我们从数据和模型的角度重新审视 ITE 估计问题,揭示了以前未充分探索的方面。具体来说,我们研究了不平衡数据对 ITE 估计的影响,强调了假设兼容和方法简单性在处理不平衡数据中的重要性。从模型的角度来看,我们从信息论的角度重新审视了解缠结的表示学习,并提供了支持变分自动编码器(VAE)框架实现解缠结的有效性的理论证据。利用这些见解,我们提出了 EDVAE,这是一种用于解开潜在因素的数据驱动模型。 EDVAE 包含三个可扩展组件:用于不平衡数据的过采样层、用于分离潜在因子的表示层以及结果预测层。合成数据集和真实数据集的实验结果强调了我们提出的方法的有效性,展示了其解决根据观测数据估计 ITE 的复杂问题的潜力。

原文:EDVAE: Disentangled latent factors models in counterfactual reasoning for individual treatment effects estimation
地址:https://www.sciencedirect.com/science/article/abs/pii/S0020025523011635
出版:Information Sciences
机构: Wuhan University; Hubei Luojia Laboratory
解析人:公众号“码农的科研笔记”

1 研究问题

本文研究的核心问题是: 如何设计一个数据驱动的解耦隐变量模型,用于从观察数据中估计个体治疗效应(ITE)。

在医疗领域,医生常常需要根据病人的个人特征,来决定是否给予某种治疗(如化疗)。这里的关键是要估计出每个病人在接受和不接受治疗情况下的预后差异,即个体治疗效应(ITE)。但现实中我们只能观察到病人实际接受的治疗结果,而无法知道反事实情况下的结果。

本文研究问题的特点和现有方法面临的挑战主要体现在以下几个方面:

  • 观察数据中存在混淆偏差,即治疗分配与治疗结果之间存在共同的影响因素。传统的回归方法无法很好地消除这种偏差。

  • 治疗组和对照组的样本分布不平衡,治疗组的样本量通常远小于对照组。现有的ITE估计方法大多忽略了这一问题。

  • 从高维观察数据中准确识别出仅影响治疗、仅影响结果、同时影响治疗和结果的潜在因素,对于减少ITE估计偏差至关重要,但现有方法还不够理想。

针对这些挑战,本文提出了一种基于变分自编码器(VAE)框架的"EDVAE"方法:

EDVAE巧妙地将ITE估计问题分解为三个模块:过采样层、表示层和预测层。过采样层通过复制少数类(治疗组)样本来平衡数据分布。表示层利用VAE的解耦能力,从高维观察数据中提取出独立的工具变量、混淆变量和调整变量。预测层则基于治疗和潜在因素来预测反事实结果。 这种模块化设计就像一个齿轮传动装置,通过将复杂任务分解为几个简单步骤,最终实现了从观察数据到因果推理的无缝衔接。其中VAE框架起到了至关重要的作用,犹如变速箱中的"离合器",将原始数据压缩到低维隐空间,并实现了关键因素的解耦。实验表明,与现有方法相比,EDVAE在合成和真实数据集上都取得了优异的ITE估计性能,体现了其在因果推理领域的前景和潜力。

2 研究方法

为了从观察数据中准确估计个体治疗效应(ITE),本文提出了一种新的基于解开表示的方法EDVAE。EDVAE考虑了ITE估计中不平衡数据的影响,并从信息论的角度分析了变分自编码器(VAE)学习解开表示的有效性。如图3所示,EDVAE主要由三个模块组成:过采样层、表示层和预测层。

2.1 不平衡数据处理

在因果推断中,由于实际治疗的约束,治疗组的样本量通常远小于对照组,导致样本分布不平衡。不平衡数据会使一组相对另一组过度代表,造成治疗效果估计偏差。因此,EDVAE在表示学习前先引入过采样层来处理不平衡数据。

常见的过采样方法可分为生成式和非生成式两类。生成式方法(如SMOTE)通过对少数类样本插值来合成新样本。但它们可能破坏治疗、结果与协变量间原有的关系,违背因果推断所需的先验假设。非生成式方法(如随机重采样)通过对少数类样本复制来平衡数据,保持了原有关系,更适合ITE估计任务。因此,EDVAE采用随机重采样对少数的治疗组样本进行过采样,使治疗组和对照组的样本量接近。

2.2 基于VAE的解开表示学习

从因果图3(a)可知,研究者通常假设存在三类隐含因子:只影响治疗的工具变量 、同时影响治疗和结果的混淆变量 、只影响结果的调整变量 。学习相互独立的隐含因子,有助于从观察数据中准确估计治疗效应。

从信息论角度看,最小化互信息 可以降低隐含因子间的依赖性。本文推导出该互信息的一个上界(公式4),其形式与VAE的ELBO损失非常相似。因此,论文基于VAE框架来学习解开的隐含表示。表示层由一个编码器 和一个解码器 组成。其中编码器通过神经网络参数化隐变量 的后验分布,解码器对 施加先验。为了平衡治疗组和对照组在隐空间的分布差异,论文还引入Wasserstein距离作为正则项(公式13)。最终,表示层的损失由VAE重构误差、后验正则和分布差异度量三部分组成(公式6)。

2.3 协变量分解为隐含因子

个体治疗效应定义为 ,即在给定协变量 的条件下,个体 接受治疗()和未接受治疗()的潜在结果之差。为了从可观测的协变量中识别隐含的因果结构,论文将 分解为工具变量 、混淆变量 和调整变量 。这三类隐变量相互独立,分别只影响治疗、同时影响治疗和结果、只影响结果。

EDVAE的表示层负责从协变量中学习这三类相互独立的隐含因子。编码器 、、 分别对 、、 的后验分布进行建模,使其服从各自独立的高斯分布(公式10-12)。而解码器 对隐变量的联合先验分布进行建模,用于重构原始协变量。通过最小化VAE损失和分布差异度量,表示层可以学习到既能很好重构 、又能保持治疗组和对照组分布一致的隐含因子表示。

2.4 基于治疗和隐含因子的结果预测

获得隐含因子后,预测层通过因果图3(a)所示的因果关系,来预测个体在不同治疗条件下的潜在结果。其中工具变量 只影响治疗分配 而与结果 无关,因此 可以用混淆变量 和调整变量 在给定治疗 的条件下来预测。

预测层采用前馈神经网络来拟合 关于 的条件分布。它包含两个分支,分别预测个体 在治疗()和对照()条件下的潜在结果(公式9)。损失函数为预测值与观测值的对数似然(公式15)。为了估计ITE,需要对治疗前的协变量 分别假设施加治疗()和不施加治疗()两种干预,计算相应的潜在结果,再取其差值。这一过程要求隐含因子 满足可忽略性假设,即给定 的情况下,治疗分配与潜在结果相互独立。

2.5 EDVAE算法流程总结

EDVAE通过过采样层、表示层和预测层三个模块,实现端到端的个体治疗效应估计:

  1. 过采样层利用随机重采样平衡治疗组和对照组的样本分布;

  2. 表示层基于VAE框架,从平衡后的协变量中解开三个相互独立的隐含因子;

  3. 预测层在给定治疗和隐含因子的条件下,估计个体的潜在结果。

在训练阶段,三个模块的损失函数联合优化,使表示层学习到既满足因果假设、又与预测任务相关的隐含因子。在推理阶段,对于新的个体,表示层将其协变量映射到隐空间,预测层再估计其在不同治疗条件下的潜在结果,由此得到个体治疗效应。

总的来说,EDVAE在ITE估计中考虑了不平衡数据的影响,并利用VAE从信息论角度学习解开表示,以提高估计的准确性。同时该方法的三个模块可灵活拓展,增强了框架的通用性。 第四步、实验部分详细撰写:

5 实验

5.1 实验场景介绍

该论文提出了一个用于个体治疗效应(ITE)估计的可分离潜在因子模型EDVAE。论文实验主要在合成数据和真实数据上验证EDVAE模型的有效性,以及与其他模型的对比效果。

5.2 实验设置

  • Datasets:

    • 合成数据集:通过不同的实验组比例设置生成,每个数据集包含2000个样本,25个特征

    • ACIC 2016:由4802个样本和58个变量组成

    • IHDP:一项随机临床试验数据,通过消除treated subjects的非随机子集来模拟选择偏差

  • Baseline:

    • TARNet

    • TEDVAE

    • CEVAE

    • DML4CATE

    • X-learner

    • DragonNet

  • metric:

    • PEHE:衡量估计的ITE与真实ITE之间的均方根距离

  • 消融实验变体:

    • EDVAE-WR:不包含过采样层的EDVAE模型

5.3 实验结果

5.3.1 实验一、合成数据集上算法性能对比

目的:验证不平衡数据对ITE估计的影响,并比较不同算法在不同程度不平衡数据下的性能

涉及图表:图4

实验细节概述:在具有不同实验组比例(5%到40%)的合成数据集上,比较TARNet、TEDVAE、CEVAE、DML4CATE、X-learner、DragonNet和EDVAE的PEHE性能

结果:

  • 大多数方法在比例小于20%时性能较差

  • EDVAE在比例超过10%时表现相对稳定,在估计ITE方面具有优势

5.3.2 实验二、可分离模型性能的回归可视化

目的:直观展示EDVAE等可分离表示学习模型处理不平衡数据的优势

涉及图表:图5

实验细节概述:对CEVAE、TEDVAE和EDVAE模型的ITE估计结果进行回归拟合,并给出回归线方程

结果:

  • 与CEVAE和TEDVAE相比,EDVAE的回归线斜率和截距更好

  • 证实了不平衡数据对可分离潜在因子模型结果的重要影响

5.3.3 实验三、EDVAE消融实验

目的:研究EDVAE模型中关键组件(过采样层、不同潜在因子维度等)对模型性能的影响

涉及图表:图4,表1

实验细节概述:

  • 比较包含和不包含过采样层的EDVAE模型性能

  • 探究不同维度的混淆、工具和调整变量对EDVAE性能的影响

结果:

  • EDVAE整体优于EDVAE-WR,证实了过采样层在ITE估计中的有效性

  • 当潜在维度参数非零时,EDVAE性能显著提升,验证了其成功识别潜在因子的能力

5.3.4 实验四、ACIC 2016数据集性能对比

目的:在ACIC 2016数据集上评估EDVAE相比其他方法的优势

涉及图表:表2

实验细节概述:使用训练集和测试集的PEHE指标比较DML4CATE、X-learner、DragonNet、CEVAE、TEDVAE、EDVAE-WR和EDVAE

结果:

  • 学习可分离表示的方法(如EDVAE和TEDVAE)取得了更好的结果

  • EDVAE在平均值和方差方面实现了最佳性能

5.3.5 实验五、IHDP数据集性能对比

目的:在IHDP半合成数据集上评估EDVAE相比其他方法的优势

涉及图表:表3

实验细节概述:使用训练集和测试集的PEHE指标比较DML4CATE、X-learner、DragonNet、CEVAE、TEDVAE、EDVAE-WR和EDVAE

结果:

  • EDVAE的PEHE错误率在训练集和测试集上分别比TEDVAE低6.10%和5.12%

  • EDVAE的标准差较小,表明其在真实数据集上表现更稳定

4 总结后记

本论文针对从观察数据估计个体治疗效应(ITE)的问题,提出了一种新的数据驱动的解耦隐变量模型EDVAE。该模型包含三个可扩展的组件:用于不平衡数据的过采样层、用于解耦隐变量表示的表示层以及结果预测层。在合成数据和真实数据上的实验结果表明,所提出的方法在ITE估计任务上优于现有方法,展现了从观察数据估计ITE的潜力。

疑惑和想法:

  1. EDVAE目前只考虑了二元治疗,如何扩展到多元治疗的场景?

  2. 除了VAE框架,是否可以探索其他形式的生成模型来学习解耦表示,如GAN、Flow等?

  3. 如何将EDVAE与其他减少选择偏差的技术(如匹配、重加权等)相结合,进一步提升ITE估计的性能?(聚焦数据挑战)

  4. EDVAE能否扩展到估计其他形式的因果效应,如平均治疗效应(ATE)、条件平均治疗效应(CATE)等?

可借鉴的方法点:

  1. 在表示学习中引入VAE框架和互信息最小化准则来实现解耦表示,这一思想可以推广到其他领域,如视觉、语音等。

  2. 采用过采样层来处理不平衡数据问题的方法简单有效,可以应用于其他对不平衡数据敏感的机器学习任务。

  3. 将因果推断问题转化为表示学习和预测问题的思路值得借鉴,为因果效应估计提供了新的视角。

  4. 利用辅助损失函数来平衡治疗组和对照组在隐空间的分布差异,这一技巧可用于改进其他领域的域适应问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1686166.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

6. Spring面试题汇总

Java全栈面试题汇总目录-CSDN博客 1. 什么是Spring框架? Spring是一种轻量级开发框架,旨在提高开发人员的开发效率以及系统的可维护性。 我们一般说Spring框架指的都是Spring Framework,它是很多模块的集合,使用这些模块可以很方便地协助…

每周打靶VulnHub靶机-LOOZ_ 1

Looz: 1 靶机传送门 Not that hard and not that easy, it’s always straightforward if you can imagine it inside your mind. 没有那么难也没有那么容易,只要你能在脑海中想象出来,它总是很简单的 1.信息搜集 使用nmap进行域内存活主机扫描发现targ…

A10 vThunder镜像-eveng pnetlab镜像下载

A10 vThunder 是由 A10 Networks 发布的。A10 Networks 是一家专注于应用交付控制器(ADC)、负载均衡、安全和基于云的应用交付解决方案的公司。A10 vThunder 系列产品包括虚拟应用交付控制器(ADC)和其他虚拟化网络功能&#xff0c…

html 段落与排版标记 Web前端开发技术、详细文章(例如)

段落与排版标记 网页的外观是否美观,很大程度上取决于其排版。在页面中出现大段的文字,通常采用分段进行规划,对换行也有极其严格的划分。本节从段落的细节设置入手,利用段落与排版标记自如地处理大段的文字。 段落p标记 在HTM…

展厅设计对企业有哪些作用

1、增强品牌形象 企业展厅对于增强企业品牌形象、提升企业的知名度和市场竞争力具有显著作用和意义。展厅作为企业对外的窗口,是客户和访客了解企业的第一印象。通过独特的设计风格和精心的展示布局,企业可以将自身的核心价值和文化理念巧妙地融入到展厅…

ip地址怎么改成自己想要的地区

在数字化时代,IP地址不仅代表着我们在网络世界中的身份标识,更是与地理位置紧密相连的要素。然而,有时出于隐私保护、网络优化或特定访问需求,我们可能希望更改IP地址至心仪的地区。本文将为您详细介绍如何实现这一目标。 IP地址通…

Mac安装 Intellij IDEA,亲测有效M1、M2可用

引言 最近开始学习使用spring boot写一个简单的后端项目,使用Intellij IDEA软件,Intellij IDEA为新用户提供了30天的免费试用。 方案 1.官网下载Intellij IDEA IntelliJ IDEA – the Leading Java and Kotlin IDE 或者直接网盘连接下载:…

轻松驾驭文件重命名,一键批量导出位置与名称至表格,让文件管理更高效便捷!

无论是工作还是生活,我们都需要与各种各样的文件打交道。有时,为了快速查找或整理文件,我们可能需要记录它们的位置和名称。但面对海量的文件,手动记录不仅耗时耗力,还容易出错。那么,有没有一种方法能够轻…

ES6中的Map和WeakMap你能分清吗?这里教会你

Map和WeakMap都是ES6中新增的数据结构,用于存储键值对。他们之间有什么区别,本文给大家详细讲述下,并附上示例代码。 一、什么是Map和WeakMap? 在JavaScript中,Map和WeakMap都是用来存储键值对的数据结构。 Map是一…

vue.js对接海康威视摄像头web开发包

一、登录海康开放平台下载web开发包,下载需要先登录海康账号,没有的需先注册一个。 这里的appkey、ip、port、secret 和cameraIndexCodeasd是自己去申请的 appkey: "****", ip: "****", port: **, secret: "****", //必填…

区块链钱包如果丢失了私钥或助记词,资产还能恢复吗?

如果你丢失了区块链钱包的私钥或助记词(通常是用于恢复钱包的短语或种子),那么你的资产在大多数情况下是无法恢复的。私钥是访问和控制你在区块链上资产的唯一凭证,而助记词(如BIP39标准中的12、18、24个单词的短语&am…

科技产业园3D探秘:未来科技之城的奇幻之旅

在数字时代的浪潮中,科技产业园区成为了推动城市经济发展、科技创新的重要引擎。 当我们打开科技产业园的3D可视化模型,仿佛穿越时空,来到了一个充满奇幻色彩的科技世界。在这里,高楼大厦鳞次栉比,绿色植被点缀其间&am…

1673. 找出最具竞争力的子序列

题目 给定一个整数数组 nums 和一个正整数 k,返回长度为 k 且最具竞争力的 nums 子序列。 数组的子序列是从数组中删除一些元素(可能不删除元素)得到的序列。 在子序列 a 和子序列 b 第一个不相同的位置上,如果 a 中的数字小于…

【C语言】结构体内存对齐:热门面试话题

🔥引言 书接上文,我们了解关于结构体的基本知识,这篇将深入剖析结构体中一个重要的知识点:内存对齐 关于内存对齐是属于热门面试话题,对此单独放在一篇来分享 🌈个人主页:是店小二呀 🌈C语言笔记…

uniapp宠物咖门店连锁会员制宠物寄养系统 微信小程序-

随着人们生活水平的提高,越来越多的人喜欢给自己或是家里的老人小孩养一只可爱的宠物,满足宠物的需要也就成为了许多爱宠人士每天苦恼的事情,去哪可以选购到健康合格的宠物食品?去哪能给宠物看病?去哪能给脏了的宠物美…

Nat Hum Behav | 人类前额叶皮层非空间注意力的因果相位依赖性控制

摘要 非空间注意力是一种基本的认知机制,它使个体能够将意识的焦点从无关刺激转向与行为目标相关的感觉信息上。有人提出了一种关于注意力是由前额叶皮层中缓慢兴奋性波动的持续相位所调节的假设,但这一假设存在争议且尚未达成共识。在这里,…

Rust Tarui 中的 Scrcpy 客户端,旨在提供控制安卓设备的鼠标和按键映射,类似于游戏模拟器。

Scrcpy-mask 为了实现电脑控制安卓设备,本人使用 Tarui Vue 3 Rust 开发了一款跨平台桌面客户端。该客户端能够提供可视化的鼠标和键盘按键映射配置。通过按键映射实现了实现类似安卓模拟器的多点触控操作,具有毫秒级响应速度。该工具可广泛用于电脑控…

亚信安慧AntDB数据库采集技术创新:ACC从Java到Go的转型之路

传统的指标采集方法通常使用一些命令行工具,如top、free等来获取系统的性能数据。然而,这种方法存在一些缺点。首先,这些命令行工具输出的数据格式通常是文本形式,需要进行解析和处理才能得到有用的信息,这增加了开发者…

【深度学习】加速采样生成图像——DDIM原理解析

文章目录 1、前言2、DDPM回顾及为何不能跳步采样2.1、回顾2.2、从DDPM的目标函数视角上看,为什么无法跳步采样?2.3、DDPM的困境 3、DDIM3.1、马尔可夫假设3.2、跳步采样构造3.3、DDIM的目标函数3.4、求解目标函数3.4.1、设定逆扩散过程3.4.2、求解KL散度…

企业级内网穿透(神卓互联)

神卓互联内网穿透采用自主研发的 WanGooe Tunnel 第九代核心引擎,拥有高级别用户访问权限验证,无授权将无法访问项目,地域限制,可灵活设置仅限某个地区可以访问 项目,保障数据传输安全采用,端到端加密&…