【推荐算法的评估与调试】离线评估+在线A/B Test

news2025/1/14 1:21:22

文章目录

  • 1、离线评估
    • 1.1、评估排序算法
      • 1.1.1、AUC和GAUC
      • 1.1.2、NDCG
    • 1.2、评估召回算法
      • 1.2.1、Precision&Recall
      • 1.2.2、MAP
      • 1.2.3、Hit Rate
      • 1.2.4、持续评估
  • 2、在线评估
    • 2.1、线上:流量划分
      • 2.1.1、根据User ID划分流量
      • 2.1.2、分层重叠划分流量
      • 2.1.3、A/A实验的重要性
    • 2.2、线下:统计分析
  • 2.3、其他事项

  • 模型上线前需要进行离线评估;模型上线后需要进行在线评估。
  • 推荐系统的评估流程:

1)离线评估:在相同的训练集上,不同算法训练出新旧两版模型,在同一个测试集上进行评估。若新模型的指标优于旧模型,则通过离线测试,可进入下一阶段。注意:离线评估的训练集一般采用连续3天或7天的历史数据;在第4天或第8天的数据上测试

2)上线前回溯:新模型在上线评估之前必须先进行回溯,比如自两周前的历史数据开始训练,直到追平并接入线上的实时样本流。之后,新旧模型就能够同步接收线上的实时反馈并自我更新,才能进行后续A/B实验的在线评估

3)在线评估:A/B 实验,随机划分为两份流量:控制组(流入老模型);实验组(流入新模型,可以有多个)。实验一段时间后,统计关键业务指标(例如CTR、平均观看时长等),若实验组显著优于控制组,就认为新模型优于旧模型,可考虑推广至全部流量

1、离线评估

  • 主要针对排序(粗排和精排)和召回算法,存在不同的评估指标

1.1、评估排序算法

1.1.1、AUC和GAUC

  • 评估排序模型最重要的指标是AUC(ROC曲线下面积,以TPR和FPR分别为纵坐标和横坐标 )
  • AUC更为直观的解释:模型给一堆样本(正负类别标签已知)预测打分,然后将他们从大到小排序,正样本能够正确排在负样本前面的概率就是AUC

A U C = 正确排序的样本对 所有样本对 AUC = \frac{正确排序的样本对}{所有样本对} AUC=所有样本对正确排序的样本对
一个正样本和负样本可组成一个样本对
正确排序是指按概率,将正样本排在负样本之前
下图显示的AUC为7/9
在这里插入图片描述

  • 从上述定义来看,AUC天然适合衡量模型的排序性能,然而AUC体现的是全局的性能,会将所有用户的排序结果都考虑进来,可能会存在失真,因此可以引入GAUC(Groupwise AUC),将样本划分为group,每个group计算一个AUC,最后再加权平均
  • 一般以用户为单位划分group计算GAUC:
    G A U C = ∑ u w u A U C u ∑ u n u GAUC = \frac{ {\textstyle \sum_{u}w_uAUC_u} }{\sum_{u}n_u} GAUC=unuuwuAUCu

A U C u AUC_u AUCu是在用户u的样本上计算的AUC, n u n_u nu是给用户u曝光过的物料数目

  • 由于AUC/GAUC只能针对的是二分类,对于CTR、CVR指标是可以的,针对实数型目标(比如观看时长、销售金额),可以转换为二分类目标,例如是否会有效播放(观看超过15秒)、是否会长播放

1.1.2、NDCG

  • 需要注意的一点是,物料在展示列表的位置可以反映物料的价值(越靠前,价值越高)
  • 而AUC无法反应排序位置这个因素的影响
  • 因此,引入DCG(Discounted Cumulative Gain)指标:
    D C G @ K = ∑ k = 1 K 2 c k − 1 l o g 2 k + 1 DCG@K = \sum_{k=1}^{K}\frac{2^{c_k}-1}{log_2{k+1}} DCG@K=k=1Klog2k+12ck1
  • K是排序结果的长度
  • c k c_k ck是第k个位置的物料贡献,未点击为0,点击为观看时长、点赞等的函数
  • 从上述公式可看出,越靠后的位置,其DCG越大
  • 为了做归一化,定义理想情况下的DCG为IDCG,即按照物料的真实贡献从高到低排序计算出的DCG,然后得到NDCG(Normalized DCG):
    N D C G @ K = D C G @ K I D C G @ K NDCG@K = \frac{DCG@K}{IDCG@K} NDCG@K=IDCG@KDCG@K
  • 由于排序长度不同,直接计算DCG不易比较,而归一化后的NDCG可以进行比较

1.2、评估召回算法

  • 评估召回模型时,一般不用AUC这样强调排序性能的指标

如果用AUC进行评估,正样本为点击过的样本,而负样本若为曝光未点击的样本,与召回的真实样本情况(包含大量和用户毫不相关的样本)不符;若负样本为除点击之外的其他物料,也不能保证这些物料一定不喜欢
*因此,要避免直接统计负样本,而是从预测的正样本与真实的正样本之间的命中率、覆盖度角度进行评估

1.2.1、Precision&Recall

  • 以双塔召回模型为例,可进行如下P和R值的计算:

u i u_i ui表示第i次推荐请求的用户
T i e x p o s e T_i^{expose} Tiexpose表示第i次请求中向用户曝光的物料集合
T i c l i c k T_i^{click} Ticlick表示用户点击的物料集合

  • 计算得到的** P r e c i s i o n @ K Precision@K Precision@K:平均下来,每次召回的物料中真正被用户喜欢的占比; R e c a l l @ K Recall@K Recall@K:平均下来,一个用户真正喜欢的物料中有多大占比能被模型召回。**
    在这里插入图片描述
    在这里插入图片描述

1.2.2、MAP

  • Precision和Recall是一对此消彼长的指标,即召回的越多,Recall越高,Precision会随之下降
  • 因此采用AP值来衡量召回能力比P和R值更全面,计算过程为:设置不同i值,即取前i个物料作为召回结果计算PR曲线,以及曲线下面积即为AP。AP值的计算方法如下:
    A P @ K = ∑ i = 1 K P r e c i s i o n @ i × I s P o s i t i v e @ i T o t a l P o s i t i v e s AP@K = \frac{ {\textstyle \sum_{i=1}^{K}}Precision@i\times IsPositive@i }{TotalPositives} AP@K=TotalPositivesi=1KPrecision@i×IsPositive@i
  • K表示最大的召回数量
  • TotalPositives表示本次召回中用户喜欢物料的数目
  • Precision@i表示前i个召回结果的Precision
  • IsPositive@i表示第i个召回结果是否为用户所喜欢,喜欢为1,不喜欢为0
  • 将多次召回结果的AP取平均,几位MAP,可以用来衡量模型的整体召回性能
  • 例子和具体计算流程如下:
    在这里插入图片描述
    在这里插入图片描述

1.2.3、Hit Rate

  • Hit Rate表示在N条点击记录中,有多少物料可以被召回模型所覆盖
    在这里插入图片描述

1.2.4、持续评估

  • 模型需要实时地持续更新,同时也需要持续评估
  • 为了实现无偏的估计,常采用Progressive Validation的方法

1)模型拿到最新一批的用户反馈后,先进行前向传播得到预测结果
2)一边反向传播更新模型,一边拿预测结果与用户反馈真值计算各种评估指标

  • 这种方式可以共用前向传播环节,避免重复计算;同时由于模型未更新,基于当前预测结果的指标是无偏的,更可信

2、在线评估

  • A/B实验是推荐系统中的最常用的线上评估方式,思路如下:

1)将用户流量随机划分为控制组和实验组
2)控制组流量流入老模型,实验组流量流入新模型,其中只有模型不同,其余的用户分布、物料分布等必须完全相同
3)上线实验一段时间,积累足够多的用户反馈
4)根据收集到的用户反馈,统计关键业务指标
5)若实验组的指标优于控制组,可以考虑新模型替换旧模型

  • A/B实验更加客观、公平可靠,但是其整个实验系统功能复杂、实现难度高,并且要求进行足够长的时间,至少覆盖一个完整的周期,例如一周(周中和周末不一样)
  • 下面介绍线上实验和线下分析的关键知识点

2.1、线上:流量划分

  • 线上的流量划分需要遵循以下两个原则,以保证两组流量的同分布原则:

1)随机性:一个用户被划分到控制组和实验组是完全随机的
2)确定性:当一个用户被划分到哪个组,今后的访问也必须在相同的组

2.1.1、根据User ID划分流量

  • 最简单的方式是根据User ID随机划分到控制组和实验组
  • 但是这种方式最大问题在于,一个用户一次只能进行一个实验,例如召回和精排很容易就将全部流量占满了,而通常有很多实验需要上线验证,就会导致排队阻塞的问题。
  • 因此一般利用分层重叠的方式
    在这里插入图片描述

2.1.2、分层重叠划分流量

  • 分层划分的思想如下:

1)如果进行N个实验,就将流量划分为N层,每个实验独占一层流量
2)同一层实验的各个实验组的流量是互斥的,即一个用户只会被划分到一个组里
3)不同层的实验,流量是重叠的,一个用户可以被分配到不同层的多个组里

  • 这种方式中,上下层的实验的流量完全正交,用户流量在前几层实验的不同划分,并不会在后续实验引入偏差。
    在这里插入图片描述
  • 需要注意的是,Layer层并没有层次的关系,就只是指的不同的实验,并且流量在进入一个新的实验前会被重新打散

2.1.3、A/A实验的重要性

  • A/A实验就是在控制组和实验组采用完全相同的配置
  • 在进行正式的A/B实验前最好先进行一段时间的A/A实验,检验实验的两组流量是否存在偏差

2.2、线下:统计分析

  • 可以通过显著性检验的方式验证新模型的性能,是否显著优于旧模型
  • 常会遇到I类错误和II类错误
    在这里插入图片描述

2.3、其他事项

  • 在做出新模型推广至全部流量的决定时,还要综合来考虑业务收益的性价比,如果只有微小提升,对业务的影响微乎其微,就不值得推广
  • 不止要考虑在全体流量上的结果,也要考察在细分流量上的差异(例如新老客户、不同国家、不同频道等)

参考书籍:
《互联网大厂推荐算法实战》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1819686.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

最新下载:Paragon NTFS for Mac 15【软件附加安装教程】

NTFS For Mac 15是首个支持Mac上读写NTFS外置存储设备解决方案 ,解决mac不能读写外置让您更加简单直观的在Mac机上随意对NTFS文件修改、删除等操作。 安 装 包 获 取 地 址: Paragon Ntfs For Mac 15版:​​https://souurl.cn/mqM9C6​​ 软…

python:faces swap

# encoding: utf-8 # 版权所有 2024 ©涂聚文有限公司 # 许可信息查看: 两个头像图片之间换脸 # 描述: https://stackoverflow.com/questions/902761/saving-a-numpy-array-as-an-image?answertabvotes # Author : geovindu,Geovin Du 涂聚文. #…

(几何:六边形面积)编写程序,提示用户输入六边形的边长,然后显示它的面积。

(几何:六边形面积)编写程序,提示用户输入六边形的边长,然后显示它的面积。计 算六边形面积的公式是: 这里的s就是边长。下面是一个运行示例 package myjava; import java.math.*; import java.util.Scanner; public class cy {public static void main(S…

数据结构笔记-2、线性表

2.1、线性表的定义和基本操作 如有侵权请联系删除。 2.1.1、线性表的定义: ​ 线性表是具有相同数据类型的 n (n>0) 个数据元素的有限序列,其中 n 为表长,当 n 0 时线性表是一个空表。若用 L 命名线性表,则其一般表示为&am…

STM32理论 —— μCOS-Ⅲ(2/2):时间管理、消息队列、信号量、任务内嵌信号量/队列、事件标志、软件定时器

文章目录 9. 时间管理9.1 OSTimeDly()9.2 OSTimeDlyHMSM()9.3 OSTimeDlyResume()9.4 延时函数实验 10. 消息队列10.1 创建消息队列函数OSQCreate()10.2 发送消息到消息队列函数(写入队列)OSQPost()10.3 获取消息队列中的消息函数(读出队列)OSQPend()10.4 消息队列操作实验 11. …

【因果推断python】32_合成控制2

目录 合成控制作为线性回归的一种实现​编辑 合成控制作为线性回归的一种实现 为了估计综合控制的治疗效果,我们将尝试构建一个类似于干预期之前的治疗单元的“假单元”。然后,我们将看到这个“假单位”在干预后的表现。合成控制和它所模仿的单位之间的…

Apollo配置中心最佳实践

携程配置中心地址:GitCode - 全球开发者的开源社区,开源代码托管平台 1.1 Apollo配置中心介绍 Apollo(阿波罗)是开源配置管理中心,能够集中化管理应用不同环境、不同集群的配置,配置修改后能够实时推送到应用端…

又一个对标Sora的AI视频工具,Dream Machine,开始免费试用

新的AI视频工具又又来了-Dream Machine,开始免费试用。 地址:https://lumalabs.ai/dream-machine 该工具需要科学上网 先看一下官网的宣传视频 luma AI 发布 Dream Machine 我生成了几个视频,效果还可以 生成视频很简单 只需要输入描述就可…

高等数学笔记(一):映射与函数

一、映射 1.1 映射的概念 存在一个法则 f ,使得对 X 中每个元素 x ,在 Y 中有唯一确定的元素 y 与之对应(X、Y 非空集) 称 f 为从 X 到 Y 的映射,如图所示 其中 y 称为元素 x(在映射 f 下)的…

高交会专题展—2024BTE第8届国际生物技术大会暨展览会

第二十六届中国国际高新技术成果交易会 THE 26th CHINA HI-TECH FAIR BTE第8届国际生物技术大会暨展览会 The 8th International Bio-technology Conference & Expo 2024年11月14-16日 深圳国际会展中心 展位预定:137交易会1016交易会3299 龚经理 组织机构…

企业商家如何精明选择软件开发公司

在当今信息化社会,企业的运营和发展已经离不开软件系统的支持。而选择一个合适的软件开发公司,则成为了企业商家在信息化道路上的一大挑战。那么,究竟如何挑选出既符合业务需求,又能保障项目成功的软件开发公司呢? 明…

【第5章】Vue之API风格

文章目录 前言一、选项式 API(Options API)1. 代码2. 效果 二、组合式 API(Composition API)1. 代码2. 效果 三、两者之间的区别总结 前言 Vue.js 提供了两种主要的 API 风格来组织组件的代码:选项式 API(…

SAP MMRV/MMPV 物料账期月结月底月初开关

公告:周一至周五每日一更,周六日存稿,请您点“关注”和“在看”,后续推送的时候不至于看不到每日更新内容,感谢。 这是一条刮刮乐,按住全部选中:点关注的人最帅最美,欢迎&#xff1…

码农学点儿经济学-博傻理论

博傻理论 一位石油大佬去天堂开会,他兴冲冲地跑进会议室,却发现座无虚席,早已经没了他的座位。于是他灵机一动,大喊一声:大家注意啦!听说,有人在地狱发现了石油!此言一出&#xff0c…

(财务应用程序:计算利息)

(财务应用程序:计算利息)如果知道收支余额和年利率的百分比,就可以使用下面的 公式计算: 编写程序,读取收支余额和年百分利率,显示下月利息。下面是一个运行示例: package myjava; import java.math.*; import java.util.Scanner;…

10.4 Go 并发模式

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

使用Arthas查看方法的参数信息情况

使用Arthas查看方法的参数信息情况 前言 最近在排查一个bug,需要看看一个接口方法的传参,但是方法里并没有打印传参,而且还是生产环境,更新包也麻烦,所以,准备安装一下Arthas,通过Arthas可以做…

iText7——画发票PDF(完整)

显示描述&#xff1a; 1、每页显示必须带有发票头、“销售方和购买方信息” 2、明细填充为&#xff1a;当n≤8 行时&#xff0c;发票总高度140mm&#xff0c;每条发票明细行款高度4.375mm&#xff1b; 当8<n≤12行时&#xff0c;发票高度增加17.5mm&#xff0c;不换页&#…

Flink任务如何跑起来之 2.算子 StreamOperator

Flink任务如何跑起来之 2.算子 StreamOperator 前文介绍了Transformation创建过程&#xff0c;大多数情况下通过UDF完成DataStream转换中&#xff0c;生成的Transformation实例中&#xff0c;核心逻辑是封装了SimpleOperatorFactory实例。 UDF场景下&#xff0c;DataStream到…