英文题目：

Qini Curves for Multi-Armed Treatment Rules

中文题目：多臂治疗规则的 Qini 曲线

单位：Stefan Wager

论文链接：

代码：GitHub - grf-labs/maq: Treatment rule evaluation via the multi-armed Qini

example：Qini curves: Automatic cost-benefit analysis • grf

摘要：Qini 曲线已成为评估数据驱动目标规则对治疗分配的好处的一种有吸引力的流行方法。我们提出了一种将Qini曲线推广到多个昂贵的处理效应，该机械臂量化了在不同预算水平下在单元和治疗臂之间最佳选择的值。我们开发了一种计算这些曲线的有效算法，并提出了基于自举的置信区间，这些置信区间在曲线上的任意点的大样本中精确。这些置信区间可用于进行假设检验，比较使用手臂的最佳组合和仅使用手臂子集的非目标分配规则（或忽略协变量的非目标分配规则）在不同预算水平下的治疗目标值。我们在模拟实验中展示了统计性能以及针对选举转折的治疗应用。

1简介

Qini 曲线最初是在营销文献中提出的 [Radcliffe, 2007]，绘制了当我们改变预算时处理对治疗最响应的单位的平均策略效应。然后，我们可以通过评估在一系列不同预算级别进行的成本效益练习来量化治疗目标的价值。Qini 曲线已在各种实际应用中采用，以评估受资源约束的处理目标规则的经验性能。

二元处理下类似的指标的理论性质，以及曲线摘要下面积的扩展，最近受到了许多作者对统计文献中的关注，包括Imai和Li[2023, 2022]，Sun等人[2021]和Yadlowsky等人[2021]。这些方法考虑了针对（可能代价高昂）二元干预分配的问题。在本文中，我们探索了对多个治疗组的场景的扩展，其中分配的好处和成本可能因单位而异。例如，低成本药物可能对一组人有益，但高成本药物可能对其中的一个子集更有益。通过两个臂的单独秦曲线分析此设置可以隐藏重要的效率权衡。对于特定的预算，最优策略可能需要为不同的人分配不同的药物；一个组的药物成本较低，另一个组的药物成本较高。确定将个体特征映射到几个治疗组之一的最佳治疗分配策略涉及解决约束优化问题。

我们开发了理论和统计框架，将Qini曲线扩展到我们有许多互斥且昂贵的处理的情况。我们表明，扩展到多个臂的秦i曲线保留了单个秦i的理想基于比率的解释治疗臂，不是确定最优分配的绝对成本，而是每个臂的增量效率。这意味着没有必要在相同的尺度上消除治疗效果和成本。如果收益与参与者集相对于成本的比率大于任何其他手臂和参与者集的相应比率，则将额外的预算单位分配给手臂和一组目标参与者（由其特征定义）。

图1:单臂治疗策略(虚线)的Qini曲线和多臂策略(实线黑线)的Qini曲线，使用第4节中描述的合成数据。增益定义为零成本控制的平均值。蓝线是仅考虑手臂 1 的平均治疗效果的秦曲线（因为手臂 2 具有负估计的平均治疗效果，所以它的平均值留在图中）。在0.5的预算下，忽略协变量的策略通过将每个单元分配给手臂1，获得了等于0.2(标准误差0.07)的平均治疗效果的增益。使用协变量信息针对同一臂的目标的策略获得了0.6的增益(标准误差0.06);这种增益已经在0.3的预算下实现;在这个预算中，可以将所有估计值高于无成本控制的单位。将最优臂分配给最响应单元的策略产生 0.8 的增益（标准误差 0.0）。

为了直观地了解秦i对多个臂的推广，回想一下，单个臂的Qini曲线是评估策略诱导的治疗规则的评估指标。使用单个治疗组，为简单起见，每个单元分配成本相同，最优策略是根据条件平均治疗效果的降序分配治疗。鉴于这些治疗效果的估计，传统的Qini曲线绘制了根据个体估计的治疗效果优先分配治疗的估计值。图 1 显示了 Qini 曲线的示例，如虚线。例如，如果我们只能使用手臂 1 并且总预算为 0.2，那么我们可以获得 0.52 的增益；而如果我们只能使用手臂 2，则相同的预算会产生 0.56 的估计增益。请注意，一旦我们传递了 0.3 的支出水平，手臂-1 Qini 曲线平台——这是因为，一旦我们已经达到了这个支出使用手臂 1 的水平，我们已经对被认为从中受益的所有单元给予治疗，因此无法通过增加支出获得进一步的收益。

图 1 中单个治疗臂的 Qini 曲线易于计算，因为底层策略会导致优先规则，该规则涉及按照估计的条件平均治疗效果顺序对单元进行排序。计算多臂策略的最优分配更加复杂，因为它涉及解决跨多个臂的约束成本效益问题。我们表明，尽管潜在的多臂策略更加复杂，但它们仍然产生了一个诱导处理规则，可以用秦曲线进行评估，就像单臂情况一样。图 1 中的实线黑线显示了估计的多臂策略的 Qini 曲线，并强调由于不同的臂可以更好地用于不同的组，因此目标使不同的臂能够分配给适合不同子组的成本效益分析。例如，预算为 0.2，我们现在可以获得 0.68 的增益，这比我们单独使用任何一个手臂所能获得的要好。

由于两个原因，将额外的手臂纳入两个改进（即提高）秦曲线。首先，即使在没有针对性的情况下，扩大预算也会导致更大的手臂使用，平均而言效率较低(收益成本较低的比率)，但相对有益。其次，目标允许识别特别受益于可能平均表现不佳的手臂的子组，因此在没有目标的情况下不会优先排序。

我们描述了最优的多臂策略，表明在扩大预算时，最优分配选择单元以根据增量效益成本比最高的位置接收更有效的处理。我们进一步展示了如何，对于单元的给定特征，最优策略可以通过一组预算阈值来表征，其中单元的分配更改为更有益但效率较低的手臂。我们提出了一种有效的算法来估计Qini曲线基础上的多臂策略的解路径，该算法有效地分配初始预算，然后利用我们的理论表征将增量支出分配给最增量高效的单元。

我们的主要理论结果通过估计的多臂策略值的中心极限定理来量化秦曲线上点的不确定性。结果估计条件平均治疗效果（在控制上）和给定的预期成本，但解释了从近似每个级别预算的最佳分配以及估计该分配的策略值的不确定性。中心极限定理可用于估计给定预算下两条Qini曲线之间的差异，例如，替代治疗效果估计器引起的替代Qini曲线，或针对治疗臂子集估计的Qini曲线，或不针对目标。

所提出方法的开源软件实现可在 github.com/grflabs/maq 获得。

example

仅实现了核心 MAQ 求解器功能（点估计和解路径的置信区间）

https://github.com/grf-labs/maq/tree/master/python-package

2最优多臂治疗分配的解决方案路径

为了表征最佳多臂治疗分配，我们在潜在结果框架下运行 [Imbens and Rubin, 2015]。

2.1 描述最优策略

3 The Qini Curve for Multi-Armed Policies

policy选取

实验后依旧可以评估 // 需要随机数据

干预不一样要剔除

计算解路径和值。有了估计 Q(B) 所需的所有部分，算法 1 概述了为多臂策略计算 Qini 曲线所需的所有组件的伪代码，从估计条件平均治疗效果和训练集上的成本开始。有了这些，以及适当的评估分数，算法 2 用伪代码形式化了图 3 背后的直觉，用于计算诱导的多臂策略，并直到某个最大预算级别 Bmax。

3.1确定曲线的中心极限定理

4模拟实验

有多种策略可用于估计可以扩展到多臂设置的条件平均治疗效果τ (Xi)。一些流行和灵活的方法是所谓的元学习器，它采用旨在预测的机器学习算法，相反目标是反事实差异，示例包括 Kennedy [2020]、K̈unzel 等人。 [2019] 和 Nie 和 Wager [2021]。这些方法针对数量 E [Yi(1) − Yi(0) | Xi = x]，其中 Yi(1) 是治疗臂的潜在结果，Yi(0) 是控制臂的潜在结果。为了用这些策略估计多臂治疗效果，可以采用一对一编码，如果分配第 k 个臂，则定义 Wi 为 1，否则为 0。另一种方法是直接针对向量值参数 τ (Xi)。在经验插图中，我们使用基于 R-learner [Nie and Wager, 2021] 的基于森林的 [Athey et al., 2019] 多臂治疗效果估计器，可在 R 包 grf [Tibshirani et al., 2023, R Core Team, 2022] 中通过函数多臂因果森林获得，该森林具有内置功能以产生多臂评估分数 (12)。这种方法直接使用以下森林加权损失来估计 τ (Xi)。

grf: Generalized Random Forests, 2023.

URL https://github.com/grf-labs/grf. R package version 2.3.0.】

使用机器学习估计异质治疗效果的元学习器

Metalearners for estimating heterogeneous treatment effects using machine learning

Offline Multi-Action Policy Learning: Generalization and Optimization

离线多动作策略学习：泛化和优化

我们将已知且等于单位可观测预处理协变量Ci(1) = Xi1, Ci(2) = 2Xi2的成本视为已知且等于单位可观测预处理协变量Ci(1) = Xi1, Ci(2) = 2Xi2。用噪声N (0, 4)观察到结果。

为了研究多臂秦曲线上点的实际推理特性，使用灵活的非参数估计器，我们计算 Q(B) 的 95% 置信区间的覆盖率。我们首先固定一个在n = 10000的训练集估计的ˆτ(·)函数。我们考虑Qini曲线上10个点B = {0.05,0.10,0.15,0.20,0.25,0.30,0.35,0.4,0.45,0.5}，然后在大小为n = {1000,2000,5000,10000}的测试集上计算策略ˆπB，估计双鲁棒分数bΓ，然后使用自举标准误差计算估计Q(B)的覆盖率。表 1 中的结果表明该过程在 1000 次蒙特卡洛重复中的平均经验覆盖率。

数据集

在本节中，我们将我们的方法应用于 2006 年 8 月初选中的投票数据集。该数据集最初由Gerber等人(2008)收集，以研究人们投票的动机。我们在本节中的目标是将此数据集应用策略学习算法并说明一些有趣的发现。

数据集描述：我们首先快速描述数据集，只关注与我们当前的策略学习上下文相关的方面。该数据集包含 180002 个数据点（即 n = 180002），每个数据点对应于不同家庭中的单个选民。选民跨越密歇根的整个状态。我们使用的选民特征有 10 个：出生年份、性别、家庭规模、城市、g2000、g2002、g2004、g2000、p2002、p2004。前 4 个特征是自我解释的。接下来的三个特征是选民分别在 2000、2002 和 2004 年投票支持一般选举的结果：如果选民进行投票，则记录 1，如果选民没有投票，则记录 0。最后三个特征是选民在 2000 年、2002 年和 2004 年是否投票给主要的结果。正如 Gerber 等人指出的那样。

(2008)，这 10 个特征通常用作协变量来预测单个选民是否会投票 9。总共有五个动作，如下：

无事：没有执行动作

。Civic：在初选之前，带有“你的公民义务吗”的字母被电子邮件给家庭。

监控：在主要选举之前，将带有“您正在研究”的字母电子邮件给家庭。收到这封信的选民被告知他们将观察他们是否投票在该选举中。

自历史：选民过去投票记录的字母以及居住在同一家家庭的其他选民的投票记录在主选举之前被邮件给家庭。这封信还表明，一旦选举结束，选民是否被投票的后续信将被发送到家庭。

邻居：一个带有该选民投票记录的信，居住在同一个家庭的选民，这个家庭的邻居的选民在主选举之前被电子邮件给家庭。这封信还表明“您的所有邻居都能够看到您的过去投票记录”，并且将发送后续信件，以便该选民投票在即将到来的选举中是否会成为邻居之间的公共知识。

5 治疗靶向策略的假设测试

图 4a 提供了Qini 曲线可以看的程式化示例，在这种情况下，基于主题特征的目标有好处，可用的处理臂有 3 个（加上控制）。对于固定的花费点和策略，数量 Q(B) - Q(B) 测量剩余行之一之间的垂直差异，表示。一个基线策略，使用所有或只有一个手臂而不针对目标。由于这个距离是正的，它表示基于主题特征的目标的好处。

图 4b 说明了成本曲线如何查看存在（根据预算）的场景，这是在单个手臂上使用最佳手臂组合的好处。例如，在 B = 2 时，差异 Q(B) - Q1(B) 是红线和蓝线之间的垂直差异，并表明在所有可用臂中最佳选择可以比仅使用手臂 1 的目标产生约 1.5 的增益增加。

6 应用：选举转出的处理目标

Gerber等人[2008]通过邮件各种形式的字母，进行了多臂随机对照试验，研究了2006年美国初选中选民转出的社会决定因素。180 002 户被随机分配一个 K = 4 个治疗组，其中手臂 1（“Civic”）告诉接受者做他们的公民义务和投票。Arm 2（“Hawthorne”）通知接收者他们决定投票或不被监控。ARM 3（“Self”）通知接收者他们和相似的家庭过去的投票历史，手臂 4（“Neighbors”）将让接收者的邻居知道他们的投票历史。对照组没有字母。感兴趣的结果是家庭中的一个人是否在即将到来的一次选举中投票。Gerber等人[2008]发现，发送“邻居”字母是增加选民转出最有效的，几乎没有异质性的证据。