网络上有很多类似名称,又名A/B试验,ab test。
文章目录
- 一、应用场景
- 二、什么是AB测试
- 三、AB测试可以解决什么问题
- 四、AB测试的流程
- 五、AB测试常见的误区
- 六、AB测试的原理
一、应用场景
以公司遇到的问题及需求入手,帮助大家建立感性认识。总结常见应用场景如下:
1、UI交互
对于UI视觉及交互部分的优化,往往凭设计师的经验是不够的,需要利用技术手段来验证哪种UI展示风格、哪种交互方式是用户更喜欢的、能够带来最大收益的。如西瓜视频、今日头条的定名,如网页皮肤优化。
2、功能研发
顾名思义,app或网页上增加不同的功能模块,对整体业务核心指标的影响。
3、算法模型迭代
算法不但要在模型评估指标上表现好,还要在业务指标上有效果。
算法开发人员通过AB测试来验证一个新的算法或者小的算法优化是否可以提升算法的业务指标。
——这题我做过。推荐项目用到ab测试。
4、运营
用户运营(用户拉新、会员运营等)、内容运营(视频行业的节目编排等)、活动运营(抽奖等)等都可以借用AB测试技术来验证哪种运营策略是更加有效的。
二、什么是AB测试
ab测试属于试验范畴,以统计检验为理论基石。ab测试是一种探究因果关系的有效科学方法。
ab测试是同质样本组的对照实验,即我们有两个同质的样本组,对其中一个组做出某种改动,观测这个改动对关注的核心指标是否有显著的影响。
三、AB测试可以解决什么问题
ab测试是一种用科学的方式解决选择问题的方法论,换句话说,帮助企业以数据驱动决策。在互联网行业较为常见。比如,两个或多个方案中哪个更好呢?若不同方案的成本不同,哪个方案投入产出比更高呢?
ab测试类似于打造一个“平行时空”,把不同策略放进去对比实验,再基于“投石问路”的结果选择更优方案,降低决策风险。
四、AB测试的流程
1、设定指标
进行A/B试验的第一步是确定比较指标,选取哪些指标进行对比需要根据试验的目的来决定。A/B试验中的指标可以分为三类,即核心指标、辅助指标和反向指标,在进行A/B试验时建议同时选择三类指标作为试验指标。
辅助指标可以根据用户行为漏斗进行设定;也可以选择重要的下游指标,如平均点击次数、下单成功率、复购率等;反向指标是可能对产品产生负面影响的指标,如回跳率、退货率、回撤率、应用删除率等。
2、创建变量
这一步通常由研发比如前端完成。其他几步由数据分析师完成。
3、生成假设
通常为了改进核心指标表现而做ab测试,因此假设是改进方案比原方案更好。在假设检验上,原假设是没有显著差异,备择假设是由显著差异。
4、确定分类(抽样)方案
- 选择同质用户
- 确定样本量
样本量计算器
(更多开源小工具 传送门 待补充)
5、确定试验时长
- 试验时长不宜太短,否则参与试验的用户都是活跃用户
- 试验时长与样本量相关
6、收集数据
如设计一张hive表,专门用于收集存储试验数据,方法提取数据并分析。
7、分析数据
判断两个方案之间是否存在统计学上的显著性差异。
(1)当核心指标是数值类,如平均时长、用户购买量等。统计检验方式是t检验。
(2)当核心指标是比率类,比如点击率、留存率、渗透率等。统计检验方式是Z检验或卡方检验(非正态情况下)。
这里面学问比较深,要视情况而定,平时多研习同行案例,不断精进。(待补充具体案例)
五、AB测试常见的误区
1、忽略统计学意义。
仅仅通过判断两个组的核心指标大小不同就断定优劣是不够的,需要统计检验。通俗来说,不但要有差异,差异还要显著,才能断定方案优劣。
2、忽略新奇效应对于试验的影响。
在统计学上,新奇效应也称为均值回归,即随着试验次数的增加,结果往往趋近于均值。
如图,在ab测试中,试验早期用户可能会因为新的改动而产生好奇,从而带来点击率的提升,但是随着试验时间的增加,这个点击率会趋近于用户的真实点击水平。
因此,需要等到观测指标平稳之后才能停止试验,以避免新奇效应对于试验结果的影响。
3、忽略用户活跃周期而导致以偏概全——试验周期没有覆盖产品高低频用户。
- 在流量分配的时候需要保证对照组和试验组的用户具有同时性、同质性、均匀性和唯一性。
- 要考虑用户流失周期
- 要考虑周末效应
4、随意切割试验流量比例而造成辛普森悖论。
在测试过程,为尽快得到足够的试验数据而更改流量,但是没有同比例放大,因结构改变从而出现辛普森悖论。辛普森悖论 传送门
在测试过程,确实需要改变样本量,ab组一定要同比例缩放。
5、设计正交试验,解决多个试验同时进行时流量分配的问题。
实际工作中,往往遇到多个活动同时进行ab测试,如果设计不当,那么结果将是不可信的。那么如何设计试验?如何评估每个活动的效果?如何评估所有活动的叠加效果?
设计正交试验要遵照两个原则:
(1)正交
流量正交可以让业务关联度小的试验有足够的流量同时进行,实现流量的高可用性。正交一般情况下是对于不同试验层来说的,将上一层的流量随机打散到下一层的试验中,使得用户再进入其他试验时是均匀分布的。
(2)互斥
流量互斥可以让关联度较大的试验分开进行,避免相互影响,从而保证结果的可信度。流量互斥一般情况下是对于同一试验层来说的。
要量化一个活动的整体效果时,就需要一个贯穿所有活动的对照组,在A/B试验系统中称为贯穿层。
六、AB测试的原理
(详情 传送门 待补充)
附-参考材料
参考1
参考2
参考3:《数据分析之道》