召回/粗排阶段 负样本常见构造方法

news2025/1/12 13:28:08

文章目录

  • 1、曝光未点击
  • 2、全局随机选择负例
  • 3、batch内随机选择负例
  • 4、曝光数据随机选择负例
  • 5、基于popularity随机选择负例
  • 6、基于hard选择负例
  • 大佬的总结:

大佬的名言:“如果精排是特征的艺术,那么召回就是样本的艺术(负样本为王)”。负样本的构造对于召回阶段来说非常非常重要!

1、曝光未点击

这就是上面说的导致Sample Selection Bias问题的原因(因为实际召回时面对的是全局物料池里的样本,包含未曝光与曝光;所以正常来说负样本的构造应使得它尽量能够和实际召回输入的数据分布保持一致)。我们的经验是,这个数据还是需要的,只是要和其它类型的负例选择方法,按照一定比例进行混合,来缓解SSB问题。当然,有些结论貌似是不用这个数据,所以用还是不用,可能跟应用场景有关。

2、全局随机选择负例

从全局物料池里的随机抽取负例,Youtube DNN双塔模型就是这么做的。从道理上讲,这个肯定是完全符合输入数据的分布一致性的,但是,一般这么选择的负例,因为和正例差异太大,导致模型太好区分正例和负例,所以模型能学到多少知识是成问题的。还有个问题就是会引入假阳性, 可能是因为对于某些任务全局随机负采样容易引入fasle-negative样本(这些样本是用户喜欢但是没有被系统曝光,所以被当成了负样本)。

3、batch内随机选择负例

样本里只包含正例,训练的时候,在batch内,选择除了正例之外的其它item,做为负例。它在一定程度上,也可以解决Sample Selection Bias问题。比如Google的双塔召回模型,就是用的这种负例方法。

4、曝光数据随机选择负例

在给所有用户曝光的数据里,随机选择做为负例。大佬们测试过,在某些场景下是有效的。

5、基于popularity随机选择负例

全局随机选择,但是越是流行的item,越大概率会被选择作为负例。目前不少研究证明了,负例采取popularity-based方法,对于效果有明显的正面影响。它隐含的假设是:如果一个例子越流行,那么它没有被用户点过看过,说明更大概率,对当前的用户来说,它是一个真实的负例。同时,这种方法还会打压流行item,增加模型个性化程度【因为流行的item往往占的比例比较大,很多用户都喜欢,但采取popularity-based方法后,相当于“别以为你火,大家都喜欢~”】。

6、基于hard选择负例

选择那些比较难的例子,做为负例。因为难区分的例子,很明显给模型带来的loss和信息含量比价多,所以从道理上讲是很合理的。但是怎样算是难的例子,可能有不同的做法,有些还跟应用有关。比如Airbnb,还有不少工作,都是在想办法筛选Hard负例上。

大佬的总结:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yGOW7CZH-1684400778494)()]

所以说,我觉得一定程度上负样本的构造和具体业务挂钩,用哪种效果好还不好说,得去试试才知道。







参考链接: https://zhuanlan.zhihu.com/p/358779957

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/541310.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

linux 用mv替代rm将文件移动到回收站,避免误操作

有时候在linux上操作rm -rf 删除命令时,不下心就会将不想删除的文件给删除了,删完后,顿时傻眼了,比如 ,文件夹test下面有 a ,a1 ,b ,b2四个文件,本来想删除test文件夹下面的a和a1连个文件, 输入…

TCP、UDP原理、DNS协议、CDN原理

1. 如何理解UDP 和 TCP? 区别? 应用场景? 一、UDP UDP(User Datagram Protocol),用户数据包协议,是一个简单的面向数据报的通信协议,即对应用层交下来的报文,不合并,不拆分,只是…

Win10搭建Docker Desktop

Win10搭建Docker Desktop 1 介绍 Docker Desktop是适用于Windows的Docker桌面,是Docker设计用于在Windows 10上运行。它是一个本地 Windows 应用程序,为构建、交付和运行dockerized应用程序提供易于使用的开发环境。Docker Desktop for Windows 使用 Wi…

ChatGPT 插件,组合后更妙了

ChatGPT 插件,组合后更妙 大家好,我是章北海mlpy 昨天极简介绍了一些热门的ChatGPT插件 我测试了一些组合玩法,感觉效率、效果都远超预期。 今天就演示一下如何利用多个插件,高速阅读、理解一篇论文。 备注:一个C…

HTB靶机013-Poison-WP

013-Poison 靶机IP: 10.10.10.84 Scan Nmap 快速扫描: ┌──(xavier㉿kali)-[~] └─$ sudo nmap -sSV -T4 10.10.10.84 -F Starting Nmap 7.93 ( https://nmap.org ) at 2023-04-30 16:41 CST Nmap scan report for 10.10.10.84 Host is up (0.27s…

公牛车充拆解 | 拓尔微A+C双口快充方案IM2403+TMI3451

在快节奏的生活中,手机已成为人们不可或缺的工具。对于经常开车出门的人来说,在车上给手机充电已经成为刚需,因此车载充电器是很多车主的不二之选,它能便捷地解决手机在车内充电的问题,让车主在开车途中保持电量充足。…

MySQL高级_第10章_索引优化与查询优化

MySQL高级_第10章_索引优化与查询优化 1. 数据准备 学员表 插 50 万 条, 班级表 插 1 万 条。 步骤 1 :建表 CREATE TABLE class ( id INT ( 11 ) NOT NULL AUTO_INCREMENT , className VARCHAR ( 30 ) DEFAULT NULL , address …

FlinkKafkaProducer 源码分析

initializeState 先查询是否开启isCheckpointingEnabled配置,如果没开,但是使用了EXACTLY_ONCE或者AT_LEAST_ONCE语义,就报错。 然后从checkpoint中保存的state中读取nextTransactionalIdHintState。 NEXT_TRANSACTIONAL_ID_HINT_DESCRIPTOR…

表情、特殊字符、字符串截取

码元与码点 关于码元和和码点,通过一个例子进行介绍。 如图,字符串😊只有一个“笑脸”符号,但是通过length属性发现,“长度”为2,string.length到底表示什么? 答:码元的个数 什么是…

C语言爬取HTML-爬取壁纸 文末附源码

前言:这学期计算机软件课程设计的其中一个题目是使用C语言爬取HTML,本打算使用C语言的CSpidr库来实现,但是因为它的依赖liburi没有找到在哪里安装,所以放弃了这个想法,使用的是curl以及libxml2这两个库,能够…

这几款实用且有趣的软件不容错过

软件一:天若ocr 这款Windows平台的天若OCR文字识别工具一定更适合你。 软件作者来自天若游心,我爱破解。 发布一年半以来一直深受好评,更新速度也非常快。 最近,它增加了批次识别功能。 软件二:腾讯柠檬精简版 除了Q…

P2233 [HNOI2002]公交车路线

题目描述 在长沙城新建的环城公路上一共有 8 个公交站,分别为 A、B、C、D、E、F、G、H。公共汽车只能够在相邻的两个公交站之间运行,因此你从某一个公交站到另外一个公交站往往要换几次车,例如从公交站 A 到公交站 D,你就至少需要…

keycloak介绍与使用示例,超时时间设置

keycloak介绍 Keycloak是一款由Red Hat开源社区开发的开放源代码的身份和访问管理解决方案,它提供了安全的单点登录(SSO)、多因素身份验证、社交登录和基于角色的访问控制等功能Keycloak基于OAuth 2.0和OpenID Connect协议,并支持SAML 2.0,可…

spring Bean的循环依赖问题

public class Husband {private String name;private Wife wife;public void setName(String name) {this.name name;}public String getName() {return name;}public void setWife(Wife wife) {this.wife wife;}// toString()方法重写时需要注意:不能直接输出wif…

【计算机网络基础】章节测试2 物理层

文章目录 判断题选择题辨析题应用题 判断题 现在的无线局域网常用的频段是2.8GHz和5.4GHz。 多模光纤只适合于近距离传输。√ 数据在计算机内部多采用串行传输方式,但在通信线路上多采用并行传输方式。 统计时分复用可以按需动态分配时隙。√ 相对于同步时分复用…

卷麻了,新来的00后实在是太卷了...

在程序员职场上,什么样的人最让人反感呢? 是技术不好的人吗?并不是。技术不好的同事,我们可以帮他。 是技术太强的人吗?也不是。技术很强的同事,可遇不可求,向他学习还来不及呢。 真正让人反感的,是技术平平&…

geoserver切片数据本地缓存和层级配置

很多业务场景中,我们会用到图层切片功能,默认情况下,每次调用都是新的重新切片,这样在性能上存在一定问题;基于此我们可以进行本地缓存切片,及此地理位置只进行一次切片处理,数据缓存在本地磁盘…

基于Python实现线性分类器

访问【WRITE-BUG数字空间】_[内附完整源码和文档] 在机器学习领域,分类的目标是指将具有相似特征的对象聚集。而一个线性分类器则透过特征的线性组合来做出分类决定,以达到此种目的。对象的特征通常被描述为特征值,而在向量中则描述为特征向…

Visual studio 配置intel realsense sdk环境

前面的部分已经有博主写过了,这里就不赘述了,附上链接:VS配置使用realsense相机SDK 仅仅配置上述文章中的部分,运行realsense example的部分例子程序时会出现找不到glfw3.h的问题。我查找了github上的提问发现这个问题原因是没有…

网络安全中NISP二级证书和CISP证书的优势有什么

优势?那就需要多个点展开说说啦~ 1.权威含金量高 我国信息安全领域唯一的国家级注册安全专业人员证书 2.就业面宽,企业优先选择证书持有者 通过专业培训和考试提高个人信息安全从业水平,证明具备从事信息安全技术和管理工作的能力&#x…