推荐算法架构6:数据样本

news2024/12/30 1:11:25

1 整体架构

深度学习的数据样本决定了算法的上限,模型只是去不断逼近这个上限,可见数据样本对于深度学习的重要意义。与CVNLP不同,推荐系统可以获取大量用户的浏览和点击等行为,很容易构造正负样本。例如,在精排点击率(Click-Through RateCTR)预估任务中,通常将用户点击物品作为正样本,将用户曝光未点击作为负样本。另外,精排面对的候选集和解空间相比召回和粗排要小得多,所以它的样本选择偏差(Sample Selection BiasSSB)问题相对没那么严重。精排模型在数据样本上一般会遇到以下问题。

  • 样本不均衡:包括正负样本不均衡、不同活跃度用户样本不均衡等。
  • 样本不置信:包括爬虫等非正常流量、服务端伪曝光、未完全曝光、快速曝光、完全没有正样本的用户、最后一个点击位置以下的曝光等。
  • 离在线样本不一致:包括构建离线样本出现数据穿越和特征穿越、特征不一致、数据分布不一致等。

数据样本的技术架构如图所示,下面逐一详细讲解。

样本不均衡

样本不均衡问题在深度学习的各项任务中均广泛存在,是一个共性问题。在计算机视觉和自然语言处理中处理样本不均衡问题的方法也可以应用在推荐算法中。样本不均衡问题主要有正负样本不均衡和不同活跃度用户样本不均衡等。

在点击率预估任务中,如果点击率是1%,则正负样本的比例为1: 99,负样本远远多于正样本,导致样本不均衡。如果在分类问题中存在样本不均衡问题,样本少的类别在训练时反向传播梯度更新的几率就小,对模型损失(Loss)的贡献也比较低,不利于其收敛,最终导致样本多的类别主导了模型,使得模型整体偏向它们,而对其他类别预估不准确。针对此类问题,主要有如下解决方法。

  • 负样本欠采样:也叫负样本降采样,指采用随机欠采样,以一定概率从全量负样本中选取一部分样本,将其余的样本直接丢弃。这种方法简单易行,一方面可以减少样本存储和模型训练的压力,另一方面可以缓解正负样本不均衡问题。但负样本中其实也有很多有用的信息,直接丢弃实在可惜,特别是在小场景样本不足时。另外,负样本欠采样在一定程度上破坏了训练和预测两阶段数据分布的一致性。除了负样本欠采样,也可以同时对正样本做一定程度的重复采样,也就是过采样,以增加正样本数量,从而进一步缓解正负样本不均衡问题。通过简单复制构造过采样正样本时,要注意可能出现的过拟合问题。
  • Focal Loss:最早使用在图像领域,可以解决图像多分类中的样本不均衡问题,也可以使用在推荐场景中。负样本数量多且一般比较容易区分,可以通过Focal Loss自动降低其权重。正样本则相反,样本少且难学习,通过Focal Loss可以自动增加其权重。Focal Loss可以充分利用所有样本,不用做欠采样,尽量保留所有数据信息,最终可实现在正负样本不均衡的情况下,模型充分收敛。

用户活跃度也会存在样本不均衡问题,高活用户的样本比低活用户多很多,会导致模型偏向于学习高活用户,在低活用户上的表现不够好。此时的解决方法主要如下。

  • 对高活用户降采样:减少高活用户的正负样本,从而使得不同活跃度用户的样本可以均衡。随机降采样的方法实现简单,但由于丢弃了一部分样本,可能会损失一些宝贵的数据信息。
  • 样本加权与Focal Loss:可以在损失函数中增加低活用户样本的权重,使得模型更关注它们。同样,可以利用Focal Loss实现自动调权。
  • 多领域学习:将高活与中低活用户单独建模,分别训练它们的样本。为了加快模型收敛,可以共享模型Embedding层和部分底层。

3 样本不置信

推荐系统精排模型一般将用户曝光点击作为正样本,曝光未点击作为负样本。那么,曝光点击就一定是用户感兴趣,未点击就一定是不感兴趣吗?其实不尽然。精排中存在很多样本不置信问题,主要如下。

  • 爬虫等非正常流量:通过爬虫可以快速形成大量的点击行为,这些显然不是真实用户的行为。把它们加入精排正样本,会造成严重的样本不置信问题。因此,需要在网络请求的入口处拦截掉爬虫。
  • 服务端伪曝光:服务端发出一次网络请求,会下发多条数据给客户端,用户可能需要滚动屏幕才能浏览完毕。如果用户未浏览完毕,则有部分数据没有得到真正曝光,形成伪曝光。如果将没有真正曝光的样本也加入负样本,则会带来负样本的不置信。所以一般需要采用客户端上报的日志来构建样本,避免出现伪曝光问题。
  • 未完全曝光:在瀑布流产品中,物品以卡片的形式展现,卡片可能只曝光了一部分,如图2-2所示,导致用户没有点击。如果将这部分未完全曝光的样本也当作负样本,则同样存在样本不置信问题。因此,可以将这部分样本从负样本中过滤掉
  • 快速曝光:在瀑布流产品中,用户快速滚动屏幕,会在短时间内产生大量曝光未点击样本。用户可能没有对这些物品给予足够关注,但如果直接认为用户不感兴趣,而把它们当作负样本,会有一定的样本不置信问题。在沉浸式产品中,这个问题同样存在。怎么避免这个问题呢?可以设定一个曝光时间阈值,将低于阈值的曝光未点击从负样本中去除。
  • 完全没有正样本的用户:如果用户只是为了签到,或者碰巧被消息推送唤醒,抑或是随便点开了App,那么可能没有正样本,全是负样本。此时,用户是否点击与推荐的物品是否符合兴趣关系不大,可以直接将负样本过滤掉。
  • 最后一个点击位置以下的曝光:用户点击某个物品后,可能兴趣已经得到了满足,因此对点击位置以下的物品没有给予足够的注意。这部分曝光未点击样本同样置信度不足,可以从负样本中过滤掉。这就是Skip-Above方案。

离在线样本不一致

在精排模型中,我们经常碰到这样的情况:在离线训练模型时,验证集中的指标增长了,但在线上做A/B测试时,指标不但没有增长,反而可能有所下降。这就是典型的离在线不一致问题,产生该问题的原因如下。

  • 构建的离线样本出现数据穿越和特征穿越:一种情况是验证集数据穿越,也就是验证集中的数据出现在了训练集中。例如训练模型时使用了1号到30号数据,验证集使用了30号数据,导致模型训练时就包含了验证集中的数据,离线训练指标当然就会增长了,此时一定要注意训练集和验证集要完全独立。另一种情况是特征穿越,在构造后验统计特征时容易遇到。例如,统计近7天用户的点击数,如果将当天的数据也统计在内,则会导致特征中包含标签(label)信息,造成特征穿越,此时一定要注意不要包含标签所在分区的数据。
  • 离在线特征不一致:在线侧使用的特征很多是通过离线侧定时产出,再加载到线上系统中的,这会导致线上特征切换延时问题。例如,当特征按照天的级别产出时,如果特征切换发生在早上4点,则早上0点到4点之间的线上特征仍然是前一天的老特征。但离线侧构建样本时,通常整天都使用新特征,这就会导致一定程度的离在线特征不一致问题。若要优化这个问题,则一般可以将线上预测时使用的所有特征直接落盘,这样就不需要离线拼接特征构造样本,但会增加推荐工程的资源开销。
  • 离在线数据分布不一致:训练模型使用的离线样本,不论正样本还是负样本,都是基于用户曝光日志产出的。大量未曝光样本和物品没有参与模型训练,处于冰山之下。但在线上预测时,需要对候选集进行全量打分,而不仅仅是已曝光的物品。部分物品可能不在曝光日志中,没有参与模型训练,导致其线上预估可能不准确,从而影响线上指标和业务效果。其本质原因是训练阶段样本选择偏差问题,导致训练和预测(也就是离线和在线)两阶段数据分布不一致。离线样本仅仅是线上数据的一部分,模型在离线数据中表现好,不一定在线上数据中表现好。

5 参考文献

[1]    Lin T Y , Goyal P , Girshick R ,et al.Focal Loss for Dense Object Detection[J].arXiv e-prints, 2017.

[2]    Li P , Li R , Da Q ,et al.Improving Multi-Scenario Learning to Rank in E-commerce by Exploiting Task Relationships in the Label Space[C]//CIKM '20: The 29th ACM International Conference on Information and Knowledge Management.ACM, 2020.DOI:10.1145/3340531.3412713.

[3]    Sheng X R , Zhao L , Zhou G ,et al.One Model to Serve All: Star Topology Adaptive Recommender for Multi-Domain CTR Prediction[J].2021.DOI:10.48550/arXiv.2101. 11427.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1321577.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

瑞友天翼应用虚拟化系统 多处SQL 注入漏洞复现(可RCE)

0x01 产品简介 瑞友天翼应用虚拟化系统是西安瑞友信息技术资讯有限公司研发的具有自主知识产权,基于服务器计算架构的应用虚拟化平台。它将用户各种应用软件集中部署在瑞友天翼服务器(群)上,客户端通过WEB即可快速安全的访问经服务器上授权的应用软件,实现集中应用、远程接…

【MATLAB】数据拟合第13期-基于最小二乘支持向量机的拟合

有意向获取代码,请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 基于最小二乘支持向量机的拟合算法是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。这种算法在曲线拟合中应用广泛,包括线性拟合和非线性拟合…

司铭宇销售技巧培训师需要具备的功底

销售技巧培训师需要具备的功底 售技巧培训师是负责传授销售技巧和策略的专业人士,他们需要具备深厚的功底,以帮助销售人员提高销售业绩。以下是一些销售技巧培训师需要具备的功底 一、深厚的销售理论功底 销售技巧培训师要想在培训过程中游刃有余&…

dbeaver导出数据为excel格式

dbeaver导出excel 目前数据的可选择只有这几种 恰好没有我们需要的excel模式,而我们需要数据一般都需要excel的 所以我们可以通过以下步骤得到我们的excel格式的数据集: 1.直接选csv模式,至于csv有陌生的小伙伴可以理解:CSV(Comma-Separated Values)是…

众和策略:如何稳健投资股票?

怎么稳健出资股票?下降股票亏本概率的办法! 1、长时间坚持 股票商场的动摇是非常大的,特别是短期内呈现的改变,假如不是短线出资者的话,那么建议长时间出资较为稳健,长时间出资能够协助出资者躲避商场动摇…

代码随想录刷题题Day17

刷题的第十七天,希望自己能够不断坚持下去,迎来蜕变。😀😀😀 刷题语言:C Day17 任务 ● 530.二叉搜索树的最小绝对差 ● 501.二叉搜索树中的众数 ● 236. 二叉树的最近公共祖先 1 二叉搜索树的最小绝对差 …

Elasticsearch 索引生命周期和翻滚 (rollover) 策略

Elasticsearch 是搜索引擎中的摇滚明星,它的蓬勃发展在于使你的数据井井有条且速度快如闪电。 但当你的数据成为一场摇滚音乐会时,管理其生命周期就变得至关重要。 正确使用索引生命周期管理 (ILM) 和 rollover 策略,你的后台工作人员可确保顺…

【JVM从入门到实战】(八)垃圾回收(1)

内存泄漏:指的是不再使用的对象在系统中未被回收,内存泄漏的积累可能会导致内存溢出 什么是垃圾回收 Java中为了简化对象的释放,引入了自动的垃圾回收(Garbage Collection简称GC)机制。通过垃 圾回收器来对不再使用的…

20231218在微软官网下载WINDOWS10以及通过rufus-4.3p写入U盘作为安装盘

20231218在微软官网下载WINDOWS10以及通过rufus-4.3p写入U盘作为安装盘 2023/12/18 17:06 百度搜索:下载 windows10 https://www.microsoft.com/zh-cn/software-download/windows10 下载 Windows 10 更新之前,请参阅 Windows 版本信息状态中的已知问题&a…

STM32 CAN多节点组网项目实操 挖坑与填坑记录2

系列文章,持续探索CAN多节点通讯, 上一篇文章链接: STM32 CAN多节点组网项目实操 挖坑与填坑记录-CSDN博客文章浏览阅读120次。CAN线性组网项目开发过程中遇到的数据丢包问题,并尝试解决的记录和推测分析。开发了一个多节点线性…

【可用性】Redis作为注册中心配合Spring Task的高可用案例

需求: 假设当前有一个短信服务是多节点集群部署,我们希望每个服务节点在启动时能将服务信息"注册"到redis缓存中,所有服务节点每隔3分钟上报一次,表示当前服务可用。每个服务还会作为哨兵节点每隔10分钟查询一次redis&a…

I.MX6ULL_Linux_驱动篇(47)linux RTC驱动

RTC 也就是实时时钟,用于记录当前系统时间,对于 Linux 系统而言时间是非常重要的,就和我们使用 Windows 电脑或手机查看时间一样,我们在使用 Linux 设备的时候也需要查看时间。本章我们就来学习一下如何编写 Linux 下的 RTC 驱动程…

小程序自定义轮播图样式

小程序自定义轮播图样式以下是各案例&#xff0c;仅供大家参考。 效果展示&#xff1a; index.wxml代码&#xff1a; <view><!-- 轮播 --><view><swiper indicator-dots"{{indicatorDots}}"autoplay"{{autoplay}}" interval"{{…

易点易动:实现固定资产账实一致和一站式管理的财务系统打通

在当今竞争激烈的商业环境中&#xff0c;企业需要高效管理其固定资产&#xff0c;确保资产账实一致&#xff0c;并实现一站式管理。易点易动是一种集成的财务系统&#xff0c;它通过打通各个环节&#xff0c;提供了一种便捷的方式来管理固定资产。本文将探讨易点易动系统的优势…

基于ssm大学学生成长系统论文

摘 要 随着互联网技术的发展&#xff0c;各类网站应运而生&#xff0c;网站具有新颖、展现全面的特点。因此&#xff0c;为了满足阜阳师范大学学生成长管理的需求&#xff0c;特开发了本阜阳师范大学学生成长系统。 本阜阳师范大学学生成长系统采用Java技术&#xff0c;基于SS…

Axure之中继器的使用(交互动作reperter属性Item属性)

目录 一.中继器的基本使用 二.中继器的动作&#xff08;增删改查&#xff09; 2.1 新增 2.2 删除 2.3 更新行 2.4 效果展示 2.5 模糊查询 三.reperter属性 在Axure中&#xff0c;中继器&#xff08;Repeater&#xff09;是一种功能强大的组件&#xff0c;用于创建重复…

AttributeError: module ‘jax‘ has no attribute ‘Array‘解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)更改应用名称

鸿蒙&#xff08;HarmonyOS&#xff09;项目方舟框架&#xff08;ArkUI&#xff09;更改应用名称 一、操作环境 操作系统: Windows 10 专业版 IDE:DevEco Studio 3.1 SDK:HarmonyOS 3.1 二、更改应用名称(HAP) 更改位置如下&#xff1a;entry->src->main->modul…

C++ 字符串输入cin、cin.get()、cin.getlin()

程序string.cpp有一个缺陷&#xff0c;这种缺陷通过精心选择输入被掩盖掉了。 如下示例码&#xff1a; // Len_char.cpp : 此文件包含 "main" 函数。程序执行将在此处开始并结束。 //#include <iostream> using namespace std;#define SIZE 20 int main() {c…

水利部提前下达补助资金,推进小型水库除险加固!

为加快推进小型水库除险加固前期工作&#xff0c;水利部协调财政部提前下达了2023年度中央补助资金&#xff0c;对小型水库实施除险加固。加快构建气象卫星和测雨雷达、雨量站、水文站组成的雨情、水情监测防线&#xff0c;大力推进数字孪生水利建设&#xff0c;提升流域防洪数…