Learning Counterfactual Representations for Estimating Individual Dose-Response Curves

1介绍

2相关工作

3方法

4实验

5结果和讨论

6结论

7理解

论文标题

Learning Counterfactual Representations for Estimating Individual Dose-Response Curves

收录会议：

AAAI 2020

论文链接：

https://arxiv.org/abs/1902.00981

代码链接：

https://github.com/d909b/drnet

学习估计个别剂量-反应曲线的反事实表征

摘要：估计个体在不同程度的治疗暴露下的潜在反应，对于医疗保健、经济学和公共政策等几个重要领域具有很高的实际意义。然而，现有的从观察数据中估计反事实结果的学习方法要么专注于估计平均剂量-反应曲线，要么局限于只有两种没有相关剂量参数的治疗方法。在这里，我们提出了一种新的机器学习方法，用于学习反事实表示，用于使用神经网络估计具有连续剂量参数的任意数量治疗的单个剂量-反应曲线。在已建立的潜在结果框架的基础上，我们引入了性能指标、模型选择标准、模型架构和用于估计单个剂量反应曲线的开放基准。我们的实验表明，在这项工作中开发的方法在估计个体剂量反应方面设置了一个新的最先进的方法。

1介绍

从观测数据估计剂量-反应曲线是许多领域的一个重要问题。例如，在医学上，我们感兴趣的是使用过去接受过治疗的人的数据来预测哪些治疗方法和相关剂量会给新患者带来更好的结果。这个问题的核心是一个反事实的问题，也就是说，我们感兴趣的是预测，如果我们在给定的情况下，以特定的剂量给病人特定的治疗，会发生什么。回答这样的反事实问题是一项具有挑战性的任务，需要对潜在的数据生成过程进行进一步假设，或者进行前瞻性的干预实验，如随机对照试验[2 - 4]。然而，进行前瞻性实验既昂贵又耗时，而且在许多情况下，在道德上是不合理的。仅从观察数据估计反事实结果有两个方面的困难[6,7]:首先，我们只观察事实结果，而从不观察如果我们选择了不同的治疗方案可能会发生的反事实结果。例如，在医学上，我们只观察给病人以特定剂量的特定治疗的结果，但我们从不观察如果给病人一种潜在的替代治疗或相同治疗的不同剂量会发生什么。其次，在观察数据中，治疗通常不是随机分配的。在医疗环境中，医生在选择治疗方案时考虑一系列因素，如患者对治疗的预期反应。由于这种治疗分配偏差，治疗人群可能与一般人群有显著差异。一个经过训练以最小化事实错误的监督模型会过度拟合被处理组的属性，因此不能推广到整个人群。

为了解决这些问题，我们引入了一种新的方法来训练神经网络进行反事实推理，扩展到具有连续剂量参数的任何数量的治疗。为了控制观察数据中治疗分配的偏倚。我们把该方法采用最初为离散处理设置开发的各种正则化方案，如分布匹配[8,9]、倾向下降(PD)[10]和平衡分数匹配[7,11,12]。此外，我们还设计了性能指标、模型选择标准和用于估计个别剂量-反应曲线的开放基准。我们的实验表明，在这项工作中开发的方法在推断个体剂量-反应曲线方面开创了新的艺术水平。这项工作的源代码可在https://github.com/d909b/drnet.Contributions上获得。

贡献。我们提出以下贡献:

我们介绍了一种用于训练神经网络进行反事实推理的新方法，与现有方法相比，该方法适用于估计任何数量的具有相关暴露参数的治疗方案的反事实结果。
我们开发性能指标、模型选择标准、模型架构和用于估计单个剂量-反应曲线的开放基准。
我们将最先进的反事实推理方法扩展到两个非参数治疗方案的多参数治疗方案设置。
我们进行了大量的实验，结果表明，我们的方法在从几个具有挑战性的数据集的观测数据推断单个剂量-反应曲线方面达到了最新水平。

2相关工作

背景：在许多领域，通过严格的实验对治疗效果进行因果分析是验证干预措施的基本工具。在医学上，前瞻性实验，如随机对照试验，是事实上的金标准，以评估给定的治疗是否有效治疗人群中的特定适应症[13,14]。然而，进行前瞻性实验是昂贵的，耗时的，而且由于道德原因通常是不可能的。因此，从历史上看，人们对开发利用现成观测数据进行因果推断的方法非常感兴趣[3,11,15 - 19]。训练监督模型以最小化所观察到的事实错误的naïve方法，由于治疗分配偏差和无法观察到反事实结果，通常不适用于反事实推断任务。为了解决在这种情况下无监督和有监督学习的缺点，最近有人提出了对现有机器学习方法的几种适应，旨在从观察数据中估计反事实结果[6 - 10,20 - 22]。在这项工作中，我们在这些进展的基础上开发了一种机器学习方法，用于使用神经网络估计个体剂量反应。

评估个别治疗效果(ITE)。匹配方法[12]是从观测数据中进行因果推断最广泛使用的方法之一。匹配方法估计样本的反事实的结果X t治疗使用的观测事实结果得到t。最近的邻国倾向得分匹配(PSM)[11]打击的诅咒维度匹配的协变量直接在X而不是匹配的标量概率p (t | X)接收治疗t X反是;另一个类别的方法使用调整后的回归模型,得到协变量X和处理作为输入。最简单的模型是普通最小二乘(OLS)，它可以对所有处理使用一个模型，也可以对每个处理使用一个单独的模型[23]。基于神经网络的更复杂的模型，如治疗不可知表示网络(TARNETs)，可以用于构建非线性回归模型[9]。将一种形式的调整回归与暴露模型结合起来的估计器，以一种使它们对任何一种错误规范都具有健壮性的方式被称为双健壮性[24]。除了OLS和神经网络，基于树的估计器，如贝叶斯可加性回归树(BART)[25,26]和因果森林(CF)[20]，以及分布建模方法，如因果多任务高斯过程(CMGP)[21]，因果效应变分自编码器(CEVAEs)[22]和用于个性化治疗效果推断的生成对抗网(GANITE)[6]，也被提出用于ITE估计其他方法，如平衡神经网络(BNNs)[8]和反事实回归网络(CFRNET)[9]，试图通过显式最小化在治疗组中实现平衡的协变量分布使用诸如Wasserstein距离[28]等指标计算治疗组之间的经验差异距离。上面提到的大多数工作都集中在最简单的设置上，有两个可用的治疗方案，没有相关的剂量参数。一个值得注意的例外是广义倾向评分(GPS)[1]，它将倾向评分扩展到连续剂量的治疗。

与现有方法相比，我们提出了第一个机器学习方法，通过神经网络从观察数据中获取连续剂量参数，来学习估计多个可用治疗的单个剂量-反应曲线。我们还扩展了几个已知的反事实推理正则化方案，以解决观察数据中的治疗分配偏差。为了促进这一重要领域的未来研究，我们引入了性能指标、模型选择标准和开放基准测试。我们相信这项工作对于精确医学的应用尤其重要，目前估计整个人群的平均剂量反应的最先进技术并没有考虑到个体差异，尽管许多疾病的个体之间剂量反应的巨大差异已得到充分证明[29-31]。

3方法

问题陈述：我们考虑这样一种设置:给定N个观察样本X，其中预处理协变量xi和xi and i ∈ [0 . . p − 1]。对于每个样本，潜在的结果yn,t(st)是第n个样本对k个可用治疗选项集中的治疗t的响应st ={0，…， k−1}以剂量st∈{st∈R，在> 0 |，在≤s≤bt}，其中at和bt分别为处理t的最小和最大剂量。治疗集T可以有两个或多个可用的治疗选项。作为训练数据，我们接受事实样本X及其观察结果yn,f (sf)，在应用特定的观察处理f，剂量sf后。使用具有实际结果的训练数据，我们希望训练一个预测模型，以对所有可用治疗方案t在整个s范围内的潜在结果产生精确的估计。

假设：在[1,33]之后，我们假设无混淆性，它由三个关键部分组成:(1)条件独立性假设:在治疗前协变量X的情况下，对治疗t的分配与结果yt无关;(2)共同支持假设:对于所有X值，必须有可能以大于0的概率观察到所有治疗方案;(3)稳定单位治疗值假设:任何一个单位的观察结果必须不受分配到其他单位的治疗的影响。此外，我们假设平滑性，即具有相似协变量xi的单位具有相似的结果y，无论是对模型训练还是选择。

指标：为了能够在所述设置中对模型进行有意义的比较，我们使用了涵盖用于估计单个剂量-反应曲线的训练模型的几个可取方面的指标。我们提出的指标分别旨在衡量预测模型的能力(1)在整个剂量值范围内恢复剂量-反应曲线，(2)确定每种治疗的最佳剂量点，以及(3)推导出最佳治疗政策的整体，包括为每个病例选择正确的治疗和剂量点。为了衡量模型覆盖单个剂量-反应曲线整个范围的程度，我们使用模型在N个样本、所有处理T和整个剂量s范围[at, bt]上估计的真实剂量-反应y和预测剂量-反应y之间的平均积分平方误差3(MISE)。

模型架构：模型结构在神经网络反事实推理的表征学习中起着重要作用[7,9,35]。训练神经网络进行反事实推理的一个特别具有挑战性的方面是，处理指标变量t的影响可能会在高维隐藏表示[9]中丢失。为了解决在没有剂量参数的情况下设置两种可用治疗方法的问题，Shalit et al.[9]提出了TARNET架构，该架构为两种治疗方案使用共享的基础网络和单独的头部网络。在TARNETs中，头部网络仅在接受相应处理的样本上进行训练。Schwab et al.[7]通过使用k个单独的头部网络将TARNET架构扩展到多个治疗环境，每个治疗方案一个头部网络。在具有相关剂量参数的多个治疗选项的设置中，这个问题进一步复杂化，因为我们不仅必须保持t对整个网络中隐藏表示的影响，而且还必须保持连续剂量参数s的影响。为了确保t和s对隐藏表示的影响，我们提出了一个用于多个治疗的层次结构，称为剂量反应网络(DRNet，图1). DRNets通过为每个E∈N等大小的剂量层分配一个头部，以确保剂量参数s保持其影响，这些剂量层细分了潜在剂量参数的范围[at, bt]。超参数E定义计算性能和分辨率(b−a)E之间的权衡，在该分辨率上对剂量值的范围进行划分。T

为了进一步减弱头部层内剂量参数s的影响，我们在头部层中的每个隐藏层上重复添加s。我们用回归和比较方法对反事实推理[23]的有效性来激励所提出的层次结构，其中为每个可用的治疗选项构建单独的估计量。针对每种治疗方案的单独模型存在数据稀疏性，因为只有接受每种治疗方案的单元才能用于训练每种治疗方案的模型，而且每种治疗方案可能没有大量的样本。DRNets能够通过治疗层在整个剂量范围内共享信息，并通过基础层在整个治疗范围内共享信息，从而缓解了数据稀疏问题。

模型的选择：给定多个模型，决定哪个模型在反事实任务中表现更好并非易事，因为我们通常无法获得真实的剂量-反应来计算上面给出的误差指标。因此，我们使用MISE的最近邻近似来使用未用于训练的事实数据来执行模型选择。我们计算了MISE的最近邻近似NN-MISE

图1:对于具有相关剂量参数的多个治疗设置，具有共享基础层、k个中间治疗层和k * E头的剂量反应网络(DRNet)结构。共享基础层在所有样本上进行训练，而治疗层仅在各自治疗类别的样本上进行训练。每个处理层进一步细分为E个头部层(上面只显示了t = 0处理的一组E = 3个头部层)。每个头部层被分配一个剂量层，该剂量层将潜在剂量[at, bt]的范围细分为等宽(b - a)/E的Epartitions。每个头部层都预测剂量参数s值范围内的结果yt(s)，并且只在属于各自剂量层的样本上进行训练。DRNets的层次结构使它们能够在所有样本(基础层)、处理选项(处理层)和剂量层(头部层)之间共享共同的隐藏表示，同时保持t和s对隐藏层的影响。

Regularisation方案：DRNets可以与开发的正规化方案相结合，以进一步解决治疗分配偏差。为了确定各种正则化方案的效用，我们使用分布匹配[9]、倾向下降[10]、整个数据集匹配[12]和批处理级别匹配[7]来评估DRNets。我们naïvely扩展了这些正则化方案，因为这些方法最初都不是为剂量-反应设置开发的(附录A)。

4实验

我们的实验旨在回答以下问题:

1我们提出的方法的性能与目前最先进的估计个体剂量反应的方法相比如何?

2不同的E选择如何影响反事实推理的表现?

3治疗分配偏倚的增加如何影响剂量-反应估计器的性能?

使用真实数据，我们在三个半合成数据集上进行了实验，其中有两种或两种以上的处理方案，以更好地理解我们提出的方法的经验属性。为了覆盖广泛的设置，我们选择了具有不同结果和治疗分配函数的数据集，以及不同数量的样本、特征和治疗(表1)。所有三个数据集都随机分为训练集(63%)、验证集(27%)和测试集(10%)。

模型：我们评估了DRNet、消融、基线和所有相关的最先进方法:最近邻(kNN)[12]、BART[25,26]、CF[20]、GANITE[6]、TARNET[9]和GPS[1]，使用“causaldrf”包[40]。通过在治疗组分布(+ Wasserstein)[9]、PD (+ PD)[10]、批量匹配(+ PM)[7]以及使用PM算法(+ PSMPM)[7]将整个训练集匹配为预处理步骤[41]，我们评估了哪种学习反事实表示的正则化策略是最有效的。为了确定DRNet架构在学习反事实推理表征方面是否比其替代品更有效，我们还评估了(1)多层感知器(MLP)，该多层感知器接收治疗指数t和剂量s作为额外输入，以及(2)接收剂量s作为额外输入的多个治疗(TARNET)[7,8]，同时保持架构旁所有其他超参数相同。作为DRNet的最后一次消融，我们通过在头部网络的第一个隐藏层中训练只接收一次剂量参数的DRNet来测试将剂量参数附加到头部网络的每个隐藏层是否有效(重复)。我们naïvely通过添加剂量作为额外的输入协变量来扩展CF、GANITE和BART，因为它们不是为剂量治疗而设计的。

5结果和讨论

反事实推断：为了评估各种方法在大范围设置下的相对性能，我们比较了所列模型的MISE在News-2/4/8/16、MVICU和TCGA基准上的反事实推理(表2;在基准测试中，我们发现DRNets在MISE方面优于所有现有的最先进的方法。我们还发现，使用额外正则化策略的DRNets在News-2, News-4, News-8和News-16上的表现优于普通DRNets。然而，在MVICU和TCGA上，使用额外正则化的drnet与标准drnet表现相似。在正则化有效的情况下，治疗组之间的Wasserstein正则化(+ Wasserstein)和批次匹配(+ PM)通常比PSMPM和PD略有效。此外，在DRNet的每个剂量范围头部(- Repeat)中不对每一层重复剂量参数，比在News-2、News-4和News-8上附加剂量参数表现更差。最后，结果表明，DRNet在所有数据集上都比TARNET和MLP基线有了很大的改进——这证明了DRNet引入的分级剂量细分。

治疗分配偏差。为了评估DRNet和现有方法对观察数据中治疗分配偏差水平增加的稳健性，我们在News-2的测试集上，用不同的治疗分配偏差κ∈[5,20]比较了DRNet与TARNET、MLP和GPS的性能(图3)。我们发现，在整个评估的治疗分配偏差范围内，DRNet优于现有方法。

6结论

我们提出了一种基于观察数据的深度学习方法，以学习估计个体对多种治疗的剂量反应，使用连续剂量参数。我们将一些现有的正规化策略扩展到具有相关剂量参数的任何数量的治疗方案，并将其与我们的方法结合起来，以解决观察数据中固有的治疗分配偏倚。此外，我们还介绍了性能度量、模型选择标准、模型体系结构，以及用于此设置的新的开放基准测试。我们的实验表明，模型结构在学习神经表征以从观测数据进行剂量-反应曲线的反事实推断方面是至关重要的，并且在DRNets中模型分辨率和计算性能之间存在权衡。DRNets在多个基准上推断单个剂量-反应曲线方面明显优于现有的最先进方法。