淘系两年半A/B实验经历，聊聊我理解的“科学实验”

在淘宝天猫两年半的A/B实验经历里，我从零到一分别经历了货架电商-淘特的A/B实验能力建设和内容电商-直播的A/B实验能力建设，前者更关注实验通用能力建设，后者更关注实验科学落地。在拥抱变化的当下，专注一个领域是幸运的，因此做个总结，聊聊我理解的“科学实验”怎么做。

背景

在淘宝直播的这一年里，我先用一个月时间独自把昆仑镜（在淘特做的实验平台）换皮上线，其中包括工程架构优化、前端优化、资源部署、实验数仓建模、业务口径梳理等，没有什么能阻止一个enfp的全栈工程师～在随后时间里承接住直播绝大部分的业务实验需求和算法实验需求，也正是我技术身份与业务身份的高度重叠，我得以在下文中结合大量业务案例，聊聊实验科学怎么做～

业务目标科学：增长目标应该是长期健康、可量化验证的

▐ 案例一：「蹊跷板问题」- 此起彼伏的运营实验

案例分析

从实验结论可以看出，该实验显著提升人均GMV，同时显著降低用户体验；这类对冲指标在业务中并不少见，例如提高人均成交笔数的同时不降低比单价、提高人均观看时长的同时不降低人均成交金额等等，如果不同的小团队恰好分配到了对冲指标（组织架构常见问题），则大团队需要合理制定目标同时，格外关注对冲指标。

当前解法

由大团队维护核心指标、围栏指标，通常这块需要业务leader、财务、BI多方确定。

归一化渲染核心指标和围栏指标走势，观察实验推全节点对其产生的直观变化；

结合长期反向桶，验证实验增量价值。（图中未展示）

思考：实验管理视角下的业务OKR指标应该怎么定？

通常业务制定OKR时，会以总体指标的提升为目标，例如GMV+10%，因此实验报告里也常常会紧扣目标出现GMV+3%这类的实验结论，然而实验推全之后，可能由于UV环比下跌导致GMV下跌，从而营造出一种：“实验报告都好看，就是大盘不涨”的错觉。这类问题通常有两个思路：

OKR设定为可实验证明的指标（例如人均GMV），通过这个指标来量化评估实验价值；
严格反向桶管控流程，通过反向桶预估GMV贡献；

实验设计科学

在常规实验中，由于用户规模大，往往会默认随机抽取的样本组具有同质性，同时货架电商的用户网络相对简单（分享类实验除外），也不会考虑样本间的独立性。然而，小样本量实验往往会面临同质性问题，实验单元的行为溢出同样会面临样本间独立性问题。

简化实验流程图

▐ 案例二：「同质性问题」，小样本量实验难进行：新主播实验

案例分析

业务假设：我们通常会做大量策略实验，来提高淘宝新主播的入驻体验，以某个策略为例，我们假设该策略能够有效提高新主播积极性。

实际情况：经过业务筛选后的可实验新主播样本量较少，而主播之间的个体差异巨大，因此随机抽取的两个样本组间指标波动较大，无法开展实验。

当前解法思路

方差缩减：围绕实验待验证指标，适量剔除离群点（注意：剔除过多会导致实验效果偏小，剔除过少会导致波动过大，经验上至少保留到99分位），如果依然方差过大，可以适当加工为长周期指标，本案例中主播单日成交金额差异过大，我们则取了三日平均成交金额。但是，这会导致实验回收数据周期变长、实验可解释性可能变差，因此需要明确实验目的，再做口径处理。
指标&维度配平：通过离线处理，获取到指标数据分布相当、维度分布相当的多组样本。

1. 如果样本量不是很小、组内差异不太明显，可以试试简单分组配平，即每个分组取相同比例的主播参与实验。
2. 如果样本量过小，或组内差异较大，则可以使用模型做指标、维度的配平处理，本次案例采用协变量自适应随机方法，可以稳定通过AA检验。

AA检验：保证分组结果具有同质性，确保实验结论可用，这块在下文详细展开。

思考

小样本量实验由于其对大盘的影响较小、实现难度较大，往往容易被忽略，然而在精细化运营下，这类实验也开始逐渐被重视起来。关于小样本量的“小”我们也需要注意，在一个真实的商品降价案例中，重复随机采样500个商品1000次，发现其均值集合并不符合正态分布，调整到随机采样10000个商品后均值开始呈现明显正态分布，因此该背景下的实验可抽样数量不得小于10000。

▐ 案例三&四：「独立性问题」，粉丝间的社群关系导致的用户行为溢出、主播间的流量竞争关系导致的主播行为溢出，这些实验怎么做？

案例分析

业务假设1：我们希望探索权益表达方式不同带来的成交增量，实验的AB组用户看到的权益表达不同；

实际情况：B组用户看到权益后，分享给A组用户，而A组用户进来是看到不同的权益表达，引起用户体验不一致问题。

业务假设2：我们希望通过流量调控策略把流量倾斜给符合某特定规则的主播，从而体验成交金额。

实际情况：实验组里符合规则的主播确实获得更多流量，但在总流量池子不变的前提下，实验组的主播新增流量导致其他组主播流量减少，形成了实验组的行为溢出，导致实验的独立性假设不成立。

当前解法

通过将时间分割成多个时间片，并以每个时间片作为独立的实验单元，我们可以确保在同一个时间片内的所有用户都会体验到相同的策略。这种设计有效地规避了用户体验的不一致性问题。同理，在每个时间片中，所有流量都会被统一分配至一个策略之下。这样的安排从根本上预防了流量竞争和用户体验的不一致性，确保了实验的公平性和有效性。通过时间片轮转实验，我们能够在任何给定时刻为所有用户提供统一的体验，从而在实验过程中维持一致性和避免潜在的干扰。

缺点：

由于其实验单元为时间，所以可统计样本量较少，导致实验效果评估周期长，同时日期切片容易受热点事件影响，导致实验结论偏差。
由于需保证实验单元的独立性，且日期天然存在延续性，因此要减少日期之间的影响，例如1号的策略会影响到2号凌晨的主播（因为主播的场次容易跨天），所以日期切割需要结合业务特点，灵活选择时间切片大小和切割点。

实验数据可用

▐ 案例五：「AA检验不通过」在一次下单返红包的实验中，在分析实验数据时才发现用户分布不均匀，导致实验结论严重错误，甚至得出相反结论，浪费实验期间投入的预算等资源。

案例分析

这个案例中，实验假设没有问题，问题出在分流结果严重不同质，导致的实验数据不可用，充分实验AA检验的意义：不仅保证实验数据可用，更重要的是避免因果关系误判，沉淀错误业务认知，误导业务发展方向。

当前解法

采用AA日志回溯检验，提前验证数据可用：实验平台根据进桶用户的过去7天数据，判断两组用户是否同质。结合案例，采用日志回溯可在分流数据出来后，通过回溯其过去7天数据，发现两组用户实际不同质，实验应立刻停止；

建议给实验分级管控，高成本实验必须空跑一天及以上，通过AA检验结果后再上策略。这并不影响实验啥上线效率，业务放提前一天以上创建好实验即可。新用户类的实验不适用于日志回溯。

AA日志回溯检验和AA空桶检验同属于AA检，AA检验主要包括三个方面：

1、分布均匀性检验

在这次案例中，实验组和对照组在购买力分层上严重不均，从而导致其核心指标也显著不均，无法获得实验效果。注意：

注意：分布不均匀并不一定表示实验数据不可用，本次案例是由于分布不均匀引起了核心指标不同质，导致了实验效果无法验证；

2、方差齐性检验 & 统计检验

在这次案例中，购买力的分布不均已经引起了指标不同质。从下图可以直观理解不同质现象，假设实验组和对照组本身同质，那么他们的数据分布应该都在绿色区域中，随后因为实验组施加了不同策略，导致实验组数据分布从绿色区域移动到了黄色区域。如果实验组未上策略就已经移动到了黄色区域，那么我们是无法证明策略对实验的影响。

本案例中，实验组通过日志回缩检验发现自身已经处于黄色区域，这是典型的不同质实验。

图为检验结果

数据分布形状主要由均值、方差影响，因此我们只需验证均值、方差是否一致，即可证明分组是否同质。

统计检验：通过双样本T检验或者多样本ANOVA检验，比较两个独立样本或配对样本的均值差异，具体检验方法可以根据实验样本量大小、样本均衡性情况、样本组数量决定。
方差齐性检验：通过Levene's Test或Bartlett's Test来验证实验组和对照组的数据方差是否一致。如果p值大于常用的显著性水平（如0.05），则可以认为组间方差是同质的。