【斯坦福因果推断课程全集】2

【斯坦福因果推断课程全集】2_无混淆和倾向分1

news2026/2/14 10:58:25

Beyond a single randomized controlled trial

Aggregating difference-in-means estimators

Continuous X and the propensity score

随机试验的一个最简单的扩展是无约束下的干预效果估计。从定性上讲，当我们想估计一种并非随机的治疗效果，但一旦我们控制了一组协变量Xi，其效果就和随机的一样好时，无边界性就与此相关。

本讲座的目的就是讨论在这种无边界假设下平均干预效果的识别和估计。与之前一样，我们将采用非参数方法：我们不会假设任何参数模型的良好规范，平均治疗效果的识别将完全由设计（即与潜在干预结果和治疗相关的条件独立性声明）驱动。

Beyond a single randomized controlled trial

我们通过潜在干预结果来定义治疗的因果效应。对于二元干预 w∈{0, 1}，我们定义潜在结果 Yi(1)和 Yi(0)，分别对应第 i 个受试者在接受或不接受干预时会经历的结果。我们假设 SUTVA， $Y_i = Y_i(W_i)$ ，并希望估计平均干预效果

$\text{ATE}=\mathbb{E}\left[Y_i(1)-Y_i(0)\right]$

在第一讲中，我们假设随机干预分配， $\{Y_i(0), Y_i(1)\}\perp W_i$ ，并研究了 ATE 的几个 √n 一致性估计器。

超越一个 RCT 的最简单方法是考虑两个 RCT。举个具体例子，假设我们对给予青少年现金奖励以阻止他们吸烟感兴趣。加利福尼亚州帕洛阿尔托市 5%的青少年和瑞士日内瓦 20%的青少年有资格参加这项研究。

在每个城市内，我们都进行了随机对照研究，事实上很容易看到干预有所帮助。然而，查看总体数据会产生误导，看起来干预会造成伤害；这就是有时被称为辛普森悖论的一个例子：一旦我们汇总数据，这就不再是一项 RCT，因为日内瓦人既更有可能接受治疗，也更有可能无论是否接受治疗都吸烟。为了得到一致的 ATE 估计值，我们需要分别估计每个城市的干预效果： $\begin{aligned} &\hat{\tau}_{\mathrm{PA}}=\frac{5}{152+5}-\frac{122}{2362+122}\approx-1.7\%, \\ &\hat{\tau}_{\mathrm{GVA}}=\frac{350}{350+581}-\frac{1979}{2278+1979}\approx-8.9\% \\ &\begin{aligned}\hat{\tau}=\frac{2641}{2641+5188}\hat{\tau}_{\mathrm{PA}}+\frac{5188}{2641+5188}\hat{\tau}_{\mathrm{GVA}}\approx-6.5\%.\end{aligned} \end{aligned}$

这个估计器的统计特性是什么？这个想法是如何推广到连续的x呢？

Aggregating difference-in-means estimators

假设协变量 Xi 在离散空间 Xi∈X 中取值， $|\mathcal{X}|=p<\infty$ 。再假设治疗分配是以 Xi 为条件的随机分配（即每组都有一个由 x 水平定义的 RCT）： $\{Y_i(0), Y_i(1)\} \perp W_i \big| X_i=x, \text{for all} x\in\mathcal{X}.$

定义组内平均治疗效果为 $\tau(x)=\mathbb{E}\begin{bmatrix}Y_i(1)-Y_i(0)&X_i=x\end{bmatrix}$

然后，如上所述，我们可以通过聚合组级治疗效果估计来估计ATE τ，

$\begin{aligned}\hat{\tau}_{AGG}=\sum_{x\in\mathcal{X}}\frac{n_x}{n}\hat{\tau}(x),\quad\hat{\tau}(x)=\frac{1}{n_{x1}}\sum_{\{X_i=x,W_i=1\}}Y_i-\frac{1}{n_{x0}}\sum_{\{X_i=x,W_i=0\}}Y_i,\end{aligned}$

其中 $n_x=|\{i:X_i=x\}|$ ， $\begin{aligned}n_{xw}=|\{i:X_i=x, W_i=w\}|\end{aligned}$ 。这个估计值有多好？直观地说，我们需要估计 $|\mathcal{X}|=p$ 个 "参数"，因此我们可能期望方差与 p 成线性关系？

为了研究这个估计值，我们可以把它写成下面这样。首先，对于任何具有协变量 x 的组，将 e(x) 定义为在该组中得到治疗的概率， $e(x)=\mathbb{P}\left[W_{i}=1 \big| X_{i}=x\right]$ ，并注意到

$\sqrt{n_x}\left(\hat{\tau}(x)-\tau(x)\right)\Rightarrow\mathcal{N}\left(0, \frac{\text{Var}\left[Y_i(0) \big| X_i=x\right]}{1-e(x)}+\frac{\text{Var}\left[Y_i(1) \big| X_i=x\right]}{e(x)}\right)$

此外，根据 $\mathrm{Var}\begin{bmatrix}Y(w)&X=x\end{bmatrix} =\sigma^{2}(x)$ 不依赖于 w 的简化假设，我们可以得到

$\sqrt{n_x}\left(\hat{\tau}(x)-\tau(x)\right)\Rightarrow\mathcal{N}\left(0, \frac{\sigma^2(x)}{e(x)(1-e(x))}\right).$

接下来，对于集合估计器，将 $\hat{\pi}(x) = n_x/n$ 定义为 $X_{i}=x$ 的观测值的比例，将 $\pi(x)=\mathbb{P}\left[X_i=x\right]$ 定义为其期望值，我们可以得出

把这些部分放在一起，我们得到了 $\sqrt{n}\left(\hat{\tau}_{AGG}-\tau\right)\Rightarrow\mathcal{N}\left(0,V_{AGG}\right)$

$\begin{gathered} V_{AGG} =\mathrm{Var}\left[\tau(X_{i})\right]+\sum_{x\in\mathcal{X}}\pi^{2}(x)\frac{1}{\pi(x)}\frac{\sigma^{2}(x)}{e(x)(1-e(x))} \\ =\mathrm{Var}\left[\tau(X_i)\right]+\mathbb{E}\left[\frac{\sigma^2(X_i)}{e(X_i)(1-e(X_i))}\right]. \end{gathered}$

值得注意的是渐近方差 VAGG 并不依赖于组数 $|\mathcal{X}|=p,$ 正如我们稍后将看到的，这一事实在观察研究中有效地进行平均干预效果的半参数推断方面起着关键作用。

Continuous X and the propensity score

在上文，我们考虑了 X 是离散的、水平数有限的情况，治疗 Wi 如（2.1）中 Xi = x 的条件一样是随机的。在这种情况下，我们发现仍然可以通过汇总组内治疗效果估计值来准确估计 ATE，而且组的确切数目 |X | = p 并不影响推论的准确性。然而，如果 X 是连续的（或 X 的卡方数非常大），这一结果就不能直接应用--因为我们无法为 x∈X 的每个可能值获得足够的样本，从而无法像（2.3）中那样定义 τ (x)。

为了将我们的分析推广到离散-X 的情况之外，我们不能再简单地试图通过简单平均来估计每个 x 值的τ (x)，而是要使用更间接的论证。为此，我们首先需要概括 "每组都有 RCT "的假设。在形式上，我们只需写出同样的内容

$\{Y_i(0),Y_i(1)\}\perp W_i \big| X_i,\quad(2.6)$

尽管现在 Xi 可能是一个任意的随机变量，对这句话的解释可能需要更加谨慎。从定性的角度来看，对（2.6）的一种理解是，我们已经测量了足够多的协变量来捕捉 Wi 与潜在结果之间的任何依赖关系，因此在给定 Xi 的情况下，Wi 无法 "窥视"{Yi(0), Yi(1)} 。我们称这一假设为unconfoundedness.

假设 (2.6) 似乎很难在实际中使用，因为它涉及到连续随机变量的条件。然而，正如 Rosenbaum 和 Rubin（1983 年）所指出的，通过考虑倾向得分 $e(x)=\mathbb{P}\begin{bmatrix}W_i=1 \big| X_i=x\end{bmatrix}$

从统计学上看，倾向得分的一个关键属性是，它是一个平衡得分：如果（2.6）成立，那么实际上

$\{Y_i(0),Y_i(1)\}\perp W_i | e(X_i),\quad(2.8)$

也就是说，实际上只需要控制 e(X)而不是 X，就可以消除与非随机干预分配相关的偏差。我们可以通过以下方法验证这一说法：

$\begin{aligned} &\mathbb{P}\left[W_{i}=w \big| \{Y_{i}(0), Y_{i}(1)\big\} , e(X_{i})\right] \\ &=\int_{\mathcal{X}}\mathbb{P}\left[W_i=w \big| \{Y_i(w)\} ,X_i=x\right]\mathbb{P}\left[X_i=x \big| \{Y_i(w)\} , e(X_i)\right] dx \\ &=\int_{\mathcal{X}}\mathbb{P}\left[W_i=w \big| X_i=x\right]\mathbb{P}\left[X_i=x \big| \big\{Y_i(w)\big\} , e(X_i)\right] dx\quad\text{(unconf.)} \\ &=e(X_{i})\mathbf{1}_{w=1}+(1-e(X_{i}))\mathbf{1}_{w=0}. \end{aligned}$