AB测试-A/B Test

news2025/1/23 13:00:31

网络上有很多类似名称,又名A/B试验,ab test。

文章目录

  • 一、应用场景
  • 二、什么是AB测试
  • 三、AB测试可以解决什么问题
  • 四、AB测试的流程
  • 五、AB测试常见的误区
  • 六、AB测试的原理

一、应用场景

以公司遇到的问题及需求入手,帮助大家建立感性认识。总结常见应用场景如下:

1、UI交互
对于UI视觉及交互部分的优化,往往凭设计师的经验是不够的,需要利用技术手段来验证哪种UI展示风格、哪种交互方式是用户更喜欢的、能够带来最大收益的。如西瓜视频、今日头条的定名,如网页皮肤优化。

2、功能研发
顾名思义,app或网页上增加不同的功能模块,对整体业务核心指标的影响。

3、算法模型迭代
算法不但要在模型评估指标上表现好,还要在业务指标上有效果。
算法开发人员通过AB测试来验证一个新的算法或者小的算法优化是否可以提升算法的业务指标

——这题我做过。推荐项目用到ab测试。

4、运营
用户运营(用户拉新、会员运营等)、内容运营(视频行业的节目编排等)、活动运营(抽奖等)等都可以借用AB测试技术来验证哪种运营策略是更加有效的。

二、什么是AB测试

ab测试属于试验范畴,以统计检验为理论基石。ab测试是一种探究因果关系的有效科学方法。
ab测试是同质样本组的对照实验,即我们有两个同质的样本组,对其中一个组做出某种改动,观测这个改动对关注的核心指标是否有显著的影响。

三、AB测试可以解决什么问题

ab测试是一种用科学的方式解决选择问题的方法论,换句话说,帮助企业以数据驱动决策。在互联网行业较为常见。比如,两个或多个方案中哪个更好呢?若不同方案的成本不同,哪个方案投入产出比更高呢?
ab测试类似于打造一个“平行时空”,把不同策略放进去对比实验,再基于“投石问路”的结果选择更优方案,降低决策风险。

四、AB测试的流程

1、设定指标

进行A/B试验的第一步是确定比较指标,选取哪些指标进行对比需要根据试验的目的来决定。A/B试验中的指标可以分为三类,即核心指标、辅助指标和反向指标,在进行A/B试验时建议同时选择三类指标作为试验指标。

辅助指标可以根据用户行为漏斗进行设定;也可以选择重要的下游指标,如平均点击次数、下单成功率、复购率等;反向指标是可能对产品产生负面影响的指标,如回跳率、退货率、回撤率、应用删除率等。

2、创建变量
这一步通常由研发比如前端完成。其他几步由数据分析师完成。

3、生成假设
通常为了改进核心指标表现而做ab测试,因此假设是改进方案比原方案更好。在假设检验上,原假设是没有显著差异,备择假设是由显著差异。

4、确定分类(抽样)方案

  • 选择同质用户
  • 确定样本量
    样本量计算器

在这里插入图片描述

(更多开源小工具 传送门 待补充)

5、确定试验时长

  • 试验时长不宜太短,否则参与试验的用户都是活跃用户
  • 试验时长与样本量相关

6、收集数据
如设计一张hive表,专门用于收集存储试验数据,方法提取数据并分析。

7、分析数据

判断两个方案之间是否存在统计学上的显著性差异。

(1)当核心指标是数值类,如平均时长、用户购买量等。统计检验方式是t检验。

(2)当核心指标是比率类,比如点击率、留存率、渗透率等。统计检验方式是Z检验或卡方检验(非正态情况下)。

这里面学问比较深,要视情况而定,平时多研习同行案例,不断精进。(待补充具体案例)

五、AB测试常见的误区

1、忽略统计学意义。
仅仅通过判断两个组的核心指标大小不同就断定优劣是不够的,需要统计检验。通俗来说,不但要有差异,差异还要显著,才能断定方案优劣。

2、忽略新奇效应对于试验的影响。
在统计学上,新奇效应也称为均值回归,即随着试验次数的增加,结果往往趋近于均值。
如图,在ab测试中,试验早期用户可能会因为新的改动而产生好奇,从而带来点击率的提升,但是随着试验时间的增加,这个点击率会趋近于用户的真实点击水平。
因此,需要等到观测指标平稳之后才能停止试验,以避免新奇效应对于试验结果的影响。
在这里插入图片描述
3、忽略用户活跃周期而导致以偏概全——试验周期没有覆盖产品高低频用户。

  • 在流量分配的时候需要保证对照组和试验组的用户具有同时性、同质性、均匀性和唯一性。
  • 要考虑用户流失周期
  • 要考虑周末效应

在这里插入图片描述
4、随意切割试验流量比例而造成辛普森悖论。
在测试过程,为尽快得到足够的试验数据而更改流量,但是没有同比例放大,因结构改变从而出现辛普森悖论。辛普森悖论 传送门
在这里插入图片描述

在测试过程,确实需要改变样本量,ab组一定要同比例缩放。

5、设计正交试验,解决多个试验同时进行时流量分配的问题。

实际工作中,往往遇到多个活动同时进行ab测试,如果设计不当,那么结果将是不可信的。那么如何设计试验?如何评估每个活动的效果?如何评估所有活动的叠加效果?

设计正交试验要遵照两个原则

(1)正交
流量正交可以让业务关联度小的试验有足够的流量同时进行,实现流量的高可用性。正交一般情况下是对于不同试验层来说的,将上一层的流量随机打散到下一层的试验中,使得用户再进入其他试验时是均匀分布的。

(2)互斥
流量互斥可以让关联度较大的试验分开进行,避免相互影响,从而保证结果的可信度。流量互斥一般情况下是对于同一试验层来说的。

要量化一个活动的整体效果时,就需要一个贯穿所有活动的对照组,在A/B试验系统中称为贯穿层。

在这里插入图片描述

六、AB测试的原理

(详情 传送门 待补充)

附-参考材料
参考1
参考2
参考3:《数据分析之道》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/384272.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

动态规划:leetcode 198.打家劫舍、213.打家劫舍II、337.打家劫舍III

leetcode 198.打家劫舍leetcode 213.打家劫舍IIleetcode 337.打家劫舍IIIleetcode 198.打家劫舍你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相…

GitCode使用教程

目录 0.前言 1. 安装git 2. 注册 gitcode 3. 创建SSH key 4. GitCode 中配置公钥 5. 新建项目 6. clone项目 7. push 项目 0.前言 笔者之前大致知道,2020年9月10日,CSDN正式推出全新升级的开源平台 GitCode,不过鉴于稳定性原因一直没…

第十章 优化stop功能

优化stop功能 突然发现其实stop存在边缘案例是没有通过的,比如我图中红框中的obj.prop 当加上这句代码后,运行测试案例是不能通过的,原因分析: stop后已经把依赖清除了,obj.prop又走了get,触发了依赖收集…

Java 获取文件后缀名【一文总结所有方法】

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

Delphi 中 FireDAC 数据库连接(管理事务)

参见:Delphi 中 FireDAC 数据库连接(总览)描述了如何使用FireDAC来管理DBMS事务。FireDAC提供TFDConnection和TFDTransaction组件来帮助你处理数据库事务。一、概述默认情况下,FireDAC应用程序在自动提交模式下工作,当…

Spring Cloud Alibaba全家桶(四)——微服务调用组件Feign

前言 本文小新为大家带来 微服务调用组件Feign 的相关知识,具体内容包含什么是Feign,Spring Cloud Alibaba快速整合OpenFeign,Spring Cloud Feign的自定义配置及使用(包括:日志配置、契约配置、自定义拦截器实现认证逻…

五方面提高销售流程管理的CRM系统

销售充满了不确定性,面对不同的客户,销售人员需要采用不同的销售策略。也正因为这种不确定性,规范的销售流程对企业尤为重要,它会让销售工作更加有效,快速地实现成交。下面小编给您推荐个不错的CRM销售流程管理系统。 …

BQ25071QWDQCRQ1示意图ISO6721BQDRQ1引脚配置ISO7330CQDWRQ1数字隔离器

1、BQ25071QWDQCRQ1应用程序示意图BQ25071 1A 单输入、单节线性电池充电器是一款高度集成的线性 LiFePO4 电池充电器,适用于空间受限的便携式应用。它接受来自 USB 端口或交流适配器的电力,为单节 LiFePO4 电池提供高达 1A 的充电电流。该器件具有单个电…

【DaVinci Developer专题】-45-自动生成SWC中所有Runnable对应的C文件

点击返回「Autosar从入门到精通-实战篇」总目录 案例背景(共5页精讲): 在DaVinci Developer中,以Test_A_SWC的Runnable为例,见图0-1。我们现在尝试自动生成一个包含Test_A_SWC_Init和Test_A_SWC_Main函数原型(也是适用于 C/S Port Serve Runnable)的C文件。 图0-1 目…

详解旨在提升EVM底层性能的兼容公链Monad

EVM带来的繁荣2020年以太坊链上DeFi的蓬勃发展使得EVM成为关注焦点,大部分DeFi项目都开始基于以太坊公链,这也使得EVM成为行业的标杆,不少链都加入了EVM大军,比如polygon、BSC、fantom等等,而EVM也使得链上生态进一步繁…

【算法笔记】队列与优先队列

队列与优先队列 1.队列的概念 只允许在一端插入数据操作,在另一端进行删除数据操作的特殊线性表;进行插入操作的一端称为队尾(入队列),进行删除操作的一端称为队头(出队列); 队列…

离散事件动态系统

文章目录离散事件动态系统ppt离散事件系统建模离散事件动态系统的基本组成元素离散事件动态系统仿真具体建模petri建模实例离散事件动态系统 ppt ppt 仿真建模步骤 离散事件系统建模 from:离散事件系统建模 离散事件动态系统的基本组成元素 (1&am…

腾讯云服务器CVM和轻量应用服务器区别对比

腾讯云新推出的轻量应用服务器Lighthouse和原来的CVM云服务器有什么区别?轻量应用服务器Lighthouse是一种易于使用和管理、适合承载轻量级业务负载的云服务器,主要用于Web网站应用,轻量服务器使用及后期运维更加简单方便;云服务器…

TypeError: Axes3D.view_init() got an unexpected keyword argument ‘roll‘——版本问题

解决办法 删除roll关键字参数。 掉坑过程 今天在学习matplotlib绘制3D图形时,使用的是matplotlib官网提供的例子Plot 2D data on 3D plot 敲好代码后,运行时报错TypeError: Axes3D.view_init() got an unexpected keyword argument ‘roll’ 看来官…

k8s学习之路 | Day18 Pod 基础

文章目录Pod 基础认知什么是 PodPod 的示例 yamlPod 的形式Pod 的多容器协同Pod 的生命周期容器的类型应用容器初始化容器临时容器静态 Pod什么是静态 Pod静态 Pod 位置Pod 探针机制探针类型Probe 配置项探针案例Pod 基础认知 什么是 Pod https://kubernetes.io/zh-cn/docs/c…

黑马程序员Java教程学习笔记(四)

学习视频:https://www.bilibili.com/video/BV1Cv411372m 如侵权,请私信联系本人删除 文章目录黑马程序员Java教程学习笔记(四)static:修饰成员变量、内存机制static:修饰成员方法、内存机制static访问注意事…

【Vue学习】Vue原理—虚拟DOM和diff算法

1. 虚拟DOM 1.1 虚拟DOM介绍 主流前端框架(Vue、React)的主要思想是数据驱动视图,以避免不必要DOM操作,从而提高Web应用程序的性能。如何高效的操作DOM,就需要使用虚拟DOM(Virtual DOM, vdom)技术。在Vue的实现中,虚拟DOM是以Ja…

信息收集工具使用详解

要求:熟练掌握域名收集、子域名、IP地址收集的各种工具的使用,结果写入实验报告 警示:遵纪守法 工具:kail 信息收集 信息收集又称 网络踩点(footprinting),攻击者通过各种途径对要攻击的目标进行有计划和有步骤的信息…

除了ChatGPT,这20款AI神器同样值得你使用

2022年是AI技术大发展的一年,特别是ChatGPT的很空出世,让AI工具迎来大爆发,今天就给大家整理出20款免费且实用的AI工具推荐,无论是做设计还是日常学习工作都能用得到。2023年已经开始,让这些AI工具帮你提升生产效率&am…

Docker SYS_ADMIN 权限容器逃逸

1.漏洞原理Docker容器不同于虚拟机,它共享宿主机操作系统内核。宿主机和容器之间通过内核命名空间(namespaces)、内核Capabilities、CGroups(control groups)等技术进行隔离。若启动docker容器时给主机一个--cap-addSY…