【推荐算法的评估与调试】离线评估+在线A/B Test

【推荐算法的评估与调试】离线评估+在线A/B Test

news2026/3/30 17:55:29

文章目录

1、离线评估
- 1.1、评估排序算法
- - 1.1.1、AUC和GAUC
  - 1.1.2、NDCG
- 1.2、评估召回算法
- - 1.2.1、Precision&Recall
  - 1.2.2、MAP
  - 1.2.3、Hit Rate
  - 1.2.4、持续评估
2、在线评估
- 2.1、线上：流量划分
- - 2.1.1、根据User ID划分流量
  - 2.1.2、分层重叠划分流量
  - 2.1.3、A/A实验的重要性
- 2.2、线下：统计分析
2.3、其他事项

模型上线前需要进行离线评估；模型上线后需要进行在线评估。
推荐系统的评估流程：

1）离线评估：在相同的训练集上，不同算法训练出新旧两版模型，在同一个测试集上进行评估。若新模型的指标优于旧模型，则通过离线测试，可进入下一阶段。注意：离线评估的训练集一般采用连续3天或7天的历史数据；在第4天或第8天的数据上测试

2）上线前回溯：新模型在上线评估之前必须先进行回溯，比如自两周前的历史数据开始训练，直到追平并接入线上的实时样本流。之后，新旧模型就能够同步接收线上的实时反馈并自我更新，才能进行后续A/B实验的在线评估

3）在线评估：A/B 实验，随机划分为两份流量：控制组（流入老模型）；实验组（流入新模型，可以有多个）。实验一段时间后，统计关键业务指标（例如CTR、平均观看时长等），若实验组显著优于控制组，就认为新模型优于旧模型，可考虑推广至全部流量

1、离线评估

主要针对排序（粗排和精排）和召回算法，存在不同的评估指标

1.1、评估排序算法

1.1.1、AUC和GAUC

评估排序模型最重要的指标是AUC（ROC曲线下面积，以TPR和FPR分别为纵坐标和横坐标）
AUC更为直观的解释：模型给一堆样本（正负类别标签已知）预测打分，然后将他们从大到小排序，正样本能够正确排在负样本前面的概率就是AUC

$\frac{正确排序的样本对}{所有样本对}$
一个正样本和负样本可组成一个样本对
正确排序是指按概率，将正样本排在负样本之前
下图显示的AUC为7/9

从上述定义来看，AUC天然适合衡量模型的排序性能，然而AUC体现的是全局的性能，会将所有用户的排序结果都考虑进来，可能会存在失真，因此可以引入GAUC（Groupwise AUC），将样本划分为group，每个group计算一个AUC，最后再加权平均
一般以用户为单位划分group计算GAUC：
$\frac{ {\textstyle \sum_{u}w_uAUC_u} }{\sum_{u}n_u}$

$AUC_u$ 是在用户u的样本上计算的AUC， $n_u$ 是给用户u曝光过的物料数目

由于AUC/GAUC只能针对的是二分类，对于CTR、CVR指标是可以的，针对实数型目标（比如观看时长、销售金额），可以转换为二分类目标，例如是否会有效播放（观看超过15秒）、是否会长播放

1.1.2、NDCG

需要注意的一点是，物料在展示列表的位置可以反映物料的价值（越靠前，价值越高）
而AUC无法反应排序位置这个因素的影响
因此，引入DCG（Discounted Cumulative Gain）指标：
$\sum_{k=1}^{K}\frac{2^{c_k}-1}{log_2{k+1}}$

K是排序结果的长度
$c_k$ 是第k个位置的物料贡献，未点击为0，点击为观看时长、点赞等的函数
从上述公式可看出，越靠后的位置，其DCG越大

为了做归一化，定义理想情况下的DCG为IDCG，即按照物料的真实贡献从高到低排序计算出的DCG，然后得到NDCG（Normalized DCG）：
$\frac{DCG@K}{IDCG@K}$
由于排序长度不同，直接计算DCG不易比较，而归一化后的NDCG可以进行比较

1.2、评估召回算法

评估召回模型时，一般不用AUC这样强调排序性能的指标

如果用AUC进行评估，正样本为点击过的样本，而负样本若为曝光未点击的样本，与召回的真实样本情况（包含大量和用户毫不相关的样本）不符；若负样本为除点击之外的其他物料，也不能保证这些物料一定不喜欢
＊因此，要避免直接统计负样本，而是从预测的正样本与真实的正样本之间的命中率、覆盖度角度进行评估

1.2.1、Precision&Recall

以双塔召回模型为例，可进行如下P和R值的计算：

$u_i$ 表示第i次推荐请求的用户
$T_i^{expose}$ 表示第i次请求中向用户曝光的物料集合
$T_i^{click}$ 表示用户点击的物料集合

计算得到的** $P rec i s i o n @ K$ ：平均下来，每次召回的物料中真正被用户喜欢的占比； $R ec a ll @ K$ ：平均下来，一个用户真正喜欢的物料中有多大占比能被模型召回。**

1.2.2、MAP

Precision和Recall是一对此消彼长的指标，即召回的越多，Recall越高，Precision会随之下降
因此采用AP值来衡量召回能力比P和R值更全面，计算过程为：设置不同i值，即取前i个物料作为召回结果计算PR曲线，以及曲线下面积即为AP。AP值的计算方法如下：
$\frac{ {\textstyle \sum_{i=1}^{K}}Precision@i\times IsPositive@i }{TotalPositives}$

K表示最大的召回数量
TotalPositives表示本次召回中用户喜欢物料的数目
Precision@i表示前i个召回结果的Precision
IsPositive@i表示第i个召回结果是否为用户所喜欢，喜欢为1，不喜欢为0

将多次召回结果的AP取平均，几位MAP，可以用来衡量模型的整体召回性能
例子和具体计算流程如下：

1.2.3、Hit Rate

Hit Rate表示在N条点击记录中，有多少物料可以被召回模型所覆盖

1.2.4、持续评估

模型需要实时地持续更新，同时也需要持续评估
为了实现无偏的估计，常采用Progressive Validation的方法

1）模型拿到最新一批的用户反馈后，先进行前向传播得到预测结果
2）一边反向传播更新模型，一边拿预测结果与用户反馈真值计算各种评估指标

这种方式可以共用前向传播环节，避免重复计算；同时由于模型未更新，基于当前预测结果的指标是无偏的，更可信

2、在线评估

A/B实验是推荐系统中的最常用的线上评估方式，思路如下：

1）将用户流量随机划分为控制组和实验组
2）控制组流量流入老模型，实验组流量流入新模型，其中只有模型不同，其余的用户分布、物料分布等必须完全相同
3）上线实验一段时间，积累足够多的用户反馈
4）根据收集到的用户反馈，统计关键业务指标
5）若实验组的指标优于控制组，可以考虑新模型替换旧模型

A/B实验更加客观、公平可靠，但是其整个实验系统功能复杂、实现难度高，并且要求进行足够长的时间，至少覆盖一个完整的周期，例如一周（周中和周末不一样）
下面介绍线上实验和线下分析的关键知识点

2.1、线上：流量划分

线上的流量划分需要遵循以下两个原则，以保证两组流量的同分布原则：

1）随机性：一个用户被划分到控制组和实验组是完全随机的
2）确定性：当一个用户被划分到哪个组，今后的访问也必须在相同的组

2.1.1、根据User ID划分流量

最简单的方式是根据User ID随机划分到控制组和实验组
但是这种方式最大问题在于，一个用户一次只能进行一个实验，例如召回和精排很容易就将全部流量占满了，而通常有很多实验需要上线验证，就会导致排队阻塞的问题。
因此一般利用分层重叠的方式

2.1.2、分层重叠划分流量

分层划分的思想如下：

1）如果进行N个实验，就将流量划分为N层，每个实验独占一层流量
2）同一层实验的各个实验组的流量是互斥的，即一个用户只会被划分到一个组里
3）不同层的实验，流量是重叠的，一个用户可以被分配到不同层的多个组里

这种方式中，上下层的实验的流量完全正交，用户流量在前几层实验的不同划分，并不会在后续实验引入偏差。
需要注意的是，Layer层并没有层次的关系，就只是指的不同的实验，并且流量在进入一个新的实验前会被重新打散

2.1.3、A/A实验的重要性

A/A实验就是在控制组和实验组采用完全相同的配置
在进行正式的A/B实验前最好先进行一段时间的A/A实验，检验实验的两组流量是否存在偏差

2.2、线下：统计分析

可以通过显著性检验的方式验证新模型的性能，是否显著优于旧模型
常会遇到I类错误和II类错误

2.3、其他事项

在做出新模型推广至全部流量的决定时，还要综合来考虑业务收益的性价比，如果只有微小提升，对业务的影响微乎其微，就不值得推广
不止要考虑在全体流量上的结果，也要考察在细分流量上的差异（例如新老客户、不同国家、不同频道等）

参考书籍：
《互联网大厂推荐算法实战》

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1819686.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

最新下载：Paragon NTFS for Mac 15【软件附加安装教程】

最新下载：Paragon NTFS for Mac 15【软件附加安装教程】

NTFS For Mac 15是首个支持Mac上读写NTFS外置存储设备解决方案 ，解决mac不能读写外置让您更加简单直观的在Mac机上随意对NTFS文件修改、删除等操作。安装包获取地址： Paragon Ntfs For Mac 15版：https://souurl.cn/mqM9C6 软…

阅读更多...

python:faces swap

python:faces swap

# encoding: utf-8 # 版权所有 2024 ©涂聚文有限公司 # 许可信息查看： 两个头像图片之间换脸 # 描述： https://stackoverflow.com/questions/902761/saving-a-numpy-array-as-an-image?answertabvotes # Author : geovindu,Geovin Du 涂聚文. #…

阅读更多...

(几何:六边形面积)编写程序，提示用户输入六边形的边长，然后显示它的面积。

(几何:六边形面积)编写程序，提示用户输入六边形的边长，然后显示它的面积。

(几何:六边形面积)编写程序，提示用户输入六边形的边长，然后显示它的面积。计算六边形面积的公式是: 这里的s就是边长。下面是一个运行示例 package myjava; import java.math.*; import java.util.Scanner; public class cy {public static void main(S…

阅读更多...

数据结构笔记-2、线性表

数据结构笔记-2、线性表

2.1、线性表的定义和基本操作如有侵权请联系删除。 2.1.1、线性表的定义： 线性表是具有相同数据类型的 n (n>0) 个数据元素的有限序列，其中 n 为表长，当 n 0 时线性表是一个空表。若用 L 命名线性表，则其一般表示为&am…

阅读更多...

STM32理论 —— μCOS-Ⅲ(2/2)：时间管理、消息队列、信号量、任务内嵌信号量/队列、事件标志、软件定时器

STM32理论 —— μCOS-Ⅲ(2/2)：时间管理、消息队列、信号量、任务内嵌信号量/队列、事件标志、软件定时器

文章目录 9. 时间管理9.1 OSTimeDly()9.2 OSTimeDlyHMSM()9.3 OSTimeDlyResume()9.4 延时函数实验 10. 消息队列10.1 创建消息队列函数OSQCreate()10.2 发送消息到消息队列函数(写入队列)OSQPost()10.3 获取消息队列中的消息函数(读出队列)OSQPend()10.4 消息队列操作实验 11. …

阅读更多...

【因果推断python】32_合成控制2

【因果推断python】32_合成控制2

目录合成控制作为线性回归的一种实现编辑合成控制作为线性回归的一种实现为了估计综合控制的治疗效果，我们将尝试构建一个类似于干预期之前的治疗单元的“假单元”。然后，我们将看到这个“假单位”在干预后的表现。合成控制和它所模仿的单位之间的…

阅读更多...

Apollo配置中心最佳实践

Apollo配置中心最佳实践

携程配置中心地址：GitCode - 全球开发者的开源社区,开源代码托管平台 1.1 Apollo配置中心介绍 Apollo（阿波罗）是开源配置管理中心，能够集中化管理应用不同环境、不同集群的配置，配置修改后能够实时推送到应用端…

阅读更多...

【课程总结】Day9：机器学习主要知识点梳理

【课程总结】Day9：机器学习主要知识点梳理

阅读更多...

又一个对标Sora的AI视频工具，Dream Machine，开始免费试用

又一个对标Sora的AI视频工具，Dream Machine，开始免费试用

新的AI视频工具又又来了-Dream Machine，开始免费试用。地址：https://lumalabs.ai/dream-machine 该工具需要科学上网先看一下官网的宣传视频 luma AI 发布 Dream Machine 我生成了几个视频，效果还可以生成视频很简单只需要输入描述就可…

阅读更多...

高等数学笔记（一）：映射与函数

高等数学笔记（一）：映射与函数

一、映射 1.1 映射的概念存在一个法则 f ，使得对 X 中每个元素 x ，在 Y 中有唯一确定的元素 y 与之对应（X、Y 非空集） 称 f 为从 X 到 Y 的映射，如图所示其中 y 称为元素 x（在映射 f 下）的…

阅读更多...

高交会专题展—2024BTE第8届国际生物技术大会暨展览会

高交会专题展—2024BTE第8届国际生物技术大会暨展览会

第二十六届中国国际高新技术成果交易会 THE 26th CHINA HI-TECH FAIR BTE第8届国际生物技术大会暨展览会 The 8th International Bio-technology Conference & Expo 2024年11月14-16日深圳国际会展中心展位预定：137交易会1016交易会3299 龚经理组织机构…

阅读更多...

企业商家如何精明选择软件开发公司

企业商家如何精明选择软件开发公司

在当今信息化社会，企业的运营和发展已经离不开软件系统的支持。而选择一个合适的软件开发公司，则成为了企业商家在信息化道路上的一大挑战。那么，究竟如何挑选出既符合业务需求，又能保障项目成功的软件开发公司呢？ 明…

阅读更多...

【第5章】Vue之API风格

【第5章】Vue之API风格

文章目录前言一、选项式 API（Options API）1. 代码2. 效果二、组合式 API（Composition API）1. 代码2. 效果三、两者之间的区别总结前言 Vue.js 提供了两种主要的 API 风格来组织组件的代码：选项式 API（…

阅读更多...

SAP MMRV/MMPV 物料账期月结月底月初开关

SAP MMRV/MMPV 物料账期月结月底月初开关

公告：周一至周五每日一更，周六日存稿，请您点“关注”和“在看”，后续推送的时候不至于看不到每日更新内容，感谢。这是一条刮刮乐，按住全部选中：点关注的人最帅最美，欢迎&#xff1…

阅读更多...

码农学点儿经济学-博傻理论

码农学点儿经济学-博傻理论

博傻理论一位石油大佬去天堂开会，他兴冲冲地跑进会议室，却发现座无虚席，早已经没了他的座位。于是他灵机一动，大喊一声：大家注意啦！听说，有人在地狱发现了石油！此言一出&#xff0c…

阅读更多...

(财务应用程序:计算利息)

(财务应用程序:计算利息)

(财务应用程序:计算利息)如果知道收支余额和年利率的百分比，就可以使用下面的公式计算： 编写程序，读取收支余额和年百分利率，显示下月利息。下面是一个运行示例: package myjava; import java.math.*; import java.util.Scanner;…

阅读更多...

10.4 Go 并发模式

10.4 Go 并发模式

💝💝💝欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:「stormsha的主页」…

阅读更多...

使用Arthas查看方法的参数信息情况

使用Arthas查看方法的参数信息情况

使用Arthas查看方法的参数信息情况前言最近在排查一个bug，需要看看一个接口方法的传参，但是方法里并没有打印传参，而且还是生产环境，更新包也麻烦，所以，准备安装一下Arthas，通过Arthas可以做…

阅读更多...

iText7——画发票PDF（完整）

iText7——画发票PDF（完整）

显示描述： 1、每页显示必须带有发票头、“销售方和购买方信息” 2、明细填充为：当n≤8 行时，发票总高度140mm，每条发票明细行款高度4.375mm； 当8<n≤12行时，发票高度增加17.5mm，不换页&#…

阅读更多...

Flink任务如何跑起来之 2.算子 StreamOperator

Flink任务如何跑起来之 2.算子 StreamOperator

Flink任务如何跑起来之 2.算子 StreamOperator 前文介绍了Transformation创建过程，大多数情况下通过UDF完成DataStream转换中，生成的Transformation实例中，核心逻辑是封装了SimpleOperatorFactory实例。 UDF场景下，DataStream到…

阅读更多...

推荐文章

最新文章