现在我们将焦点转移到一种叫做协变量转移的扰动上。我们在一个分类或回归设置中工作,我们希望从x预测y,并假设p≈(y | x)和p∗(y | x)是相同的(标记函数在训练和测试之间不会改变)
假设 (Covariate Shift)。对于列车分布p~和检验分布p∗,我们假设p ~(y | x) = p∗(y | x)对于所有x。
与因果推理的联系
倾向加权也可以用于因果推理。这里我们有一个协变量为X的患者,治疗条件为T(通常T∈{0,1}),结果为Y。我们的目标是估计治疗效果,粗略地说,它是E[Y | T = 1]−EY | T = 0。我们将在下面看到如何做到这一点,让p∗0和p∗1分别是T = 0和T = 1的分布。然而,首先我们需要更仔细地设置问题。
为了更仔细地设置问题,我们使用潜在结果框架。在这个框架中,实际上有两个变量,Y(0)和Y(1),它们分别是我们设置T = 0或T = 1时的结果。这可能不同于以T为条件的结果分布,因为可能存在T与Y相关的因素(例如,如果T是吸烟,Y是肺癌,可能存在一些基因,导致一个人更有可能吸烟,更有可能患肺癌,这说明了T和Y之间强烈的经验相关性;这是费雪提出的反对意见!)
当然,在观察环境中,有很多因素会造成T和Y之间的相关性,例如,病情较重的患者更有可能得到积极的治疗。只要这些因素作为协变量x的一部分被观察到,我们就可以接受这一点。这就引出了无混杂假设:
假设 (非混杂性)。如果Y (0), Y(1)⊥T | X,那么分布(X, T, Y (0), Y(1))就是无混杂的。换句话说,治疗和结果应该是独立的,取决于协变量X。
潜在结果框架的主要挑战是我们只观察到(X, T, Y (T))。换句话说,我们只观察了实际应用的治疗T的结果,这使得很难估计E[Y(1)]或E[Y(0)]。我们将把估计E[Y(1)]作为一个领域适应问题来处理,并使用倾向加权。首先要注意的是,通过澄清,我们有
其中我们定义p∗1使得p∗1 (x, t, y) = p≈(x)I[t = 1]p≈(y | x, t = 1);它在x上的分布与p ~相同,但总是采用t = 1的处理。由于p≈(y | x, t)几乎肯定= p∗(y | x, t),所以协变量移位假设成立。因此,我们可以通过倾向加权估计p * 1下的期望:
对于分布p∗0 (x, t, Y) = p≈(x)I[t = 0]p≈(Y | x, t = 0),计算Ep≈[Y(0)]同样适用
由于右边是用Y (T)表示的,所以它只涉及可观测的量,只要知道~ p(T | X),就可以从样本中估计出来。这个估计量被称为逆倾向加权,因为它涉及除以倾向权重≈p(T | X)。