【电商搜索】现代工业级电商搜索技术-中科大-利用半监督学习改进非点击样本的转化率预测

news2024/10/17 12:44:19

【电商搜索】现代工业级电商搜索技术-中科大-利用半监督学习改进非点击样本的转化率预测

0. 论文信息

RecSys24: Utilizing Non-click Samples via Semi-supervised Learning for Conversion Rate Prediction

@inproceedings{huang2024utilizing,
title={Utilizing Non-click Samples via Semi-supervised Learning for Conversion Rate Prediction},
author={Huang, Jiahui and Zhang, Lan and Wang, Junhao and Jiang, Shanyang and Huang, Dongbo and Ding, Cheng and Xu, Lan},
booktitle={Proceedings of the 18th ACM Conference on Recommender Systems},
pages={350–359},
year={2024}
}

在这里插入图片描述
利用半监督学习改进非点击样本的转化率预测

1. 摘要

这篇文章提出了一种新的半监督学习方法,称为非点击样本改进的半监督(NISE)方法,用于提高转化率(CVR)预测的准确性。该方法旨在解决样本选择偏差(SSB)、数据稀疏性(DS)和假阴性样本(FNS)问题,这些问题在推荐系统中进行CVR预测时尤为突出。通过将非点击样本视为未标记样本,并预测它们如果被点击可能会转化的概率,然后将这些概率作为伪标签用于进一步的模型训练。此外,文章还引入了一个辅助的点击通过率(CTR)预测任务,并通过多任务学习来增强嵌入层的表示。通过在多个真实世界数据集上的广泛实验,验证了该方法在减少FNS挑战和提高CVR估计准确性方面的优越性。

2. 研究背景

在推荐系统中,准确预测用户的转化率(CVR)对于匹配推荐项目和用户偏好至关重要。然而,由于样本选择偏差和数据稀疏性,以及假阴性样本问题,这一任务面临挑战。现有的方法通过多任务学习来解决这些问题,但这些方法可能会加剧假阴性样本问题。
在这里插入图片描述

3. 问题与挑战

  • 样本选择偏差(SSB):传统CVR模型在点击空间训练时,由于未随机选择的暴露但未点击样本,导致在整体空间推断时出现偏差。
  • 数据稀疏性(DS):与暴露样本相比,点击样本明显稀疏,导致模型难以拟合。
  • 假阴性样本(FNS)问题:由于CVR任务的反事实性质,非点击样本可能被视为负面,但未点击并不一定意味着用户不喜欢这些项目。

4. 如何解决

文章提出了NISE方法,该方法通过以下方式解决上述挑战:

  • 将非点击样本视为未标记,并预测它们如果被点击可能会转化的概率。
  • 将这些概率作为伪标签,用于半监督学习。
  • 引入CTR预测任务,并通过多任务学习增强嵌入层的表示。
  • 采用动态任务权重分配机制,以确保平衡和稳定的训练过程。

5. 创新点

  • 提出了一种新的半监督学习方法,通过预测非点击样本的转化概率并将其作为伪标签,以解决假阴性样本问题。
  • 引入CTR预测任务,并通过多任务学习提高模型的表示能力。
  • 设计了动态权重分配机制,以平衡CVR和CTR任务的训练。

6. 算法模型

NISE方法的核心是一个半监督学习框架,它结合了CTR和CVR任务,并使用动态权重分配策略。该方法在整体空间上建模,利用伪标签来处理非点击样本,并利用多任务学习来提高模型性能。
在这里插入图片描述
在这里插入图片描述

7. 实验效果

  • 在两个公共数据集和一个生产数据集上进行了实验,NISE方法在减少FNS挑战和提高CVR估计准确性方面优于五个最先进的基线方法。
  • 在Ali-CCP数据集上,NISE方法实现了1.11%的AUC相对增益,在Kuaipure数据集上实现了2.00%的AUC相对增益,在生产数据集上实现了0.70%的AUC增益。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

8. 推荐阅读指数

★★★★☆

推荐理由

这篇文章提出了一种创新的半监督学习方法来改进CVR预测,特别是在处理非点击样本时。它不仅解决了样本选择偏差和数据稀疏性问题,还通过引入CTR任务和动态权重分配机制,有效地缓解了假阴性样本问题。这些贡献对于推荐系统领域的研究人员和实践者来说都是非常有价值的。

9. 小结

这篇文章通过引入半监督学习框架和多任务学习策略,有效地解决了推荐系统中的转化率预测问题,特别是在处理非点击样本时,提高了模型的准确性和鲁棒性。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2211789.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微生物测序报告中的多样性数据详细解读

随着技术的发展,高通量测序技术已成为研究微生物群落的重要工具。这种技术使得科学家们能够解析巨量微生物DNA序列,从而获得丰富的微生物组数据,包括16S rRNA基因、ITS序列和宏基因组。然而,这些数据只是迈向揭示微生物群落复杂性…

docker启动MySQL容器失败原因排查记录

背景 最近在尝试容器搭建MySQL集群时碰到一个错误,启动MySQL时碰到一个,经过排查解决,在此做一个记录 问题过程 1、启动MySQL容器 $ sudo docker run -d -p 3306:3306 \ > --name mysql \ > -v /opt/mysql/log:/var/log/mysql \ &g…

java项目之大型商场应急预案管理系统(源码+文档)

项目简介 大型商场应急预案管理系统实现了以下功能: 大型商场应急预案管理系统的主要使用者管理员功能有个人中心,员工管理,预案信息管理,预案类型管理,事件类型管理,预案类型统计管理,事件类…

【vue】03-指令补充+样式绑定+计算属性+侦听器

代码获取 知识总结 ⼀、指令补充 1.指令修饰符 1.1 什么是指令修饰符? 所谓指令修饰符就是让指令的 功能更强⼤,书写更便捷 1.2 分类 1.2.1 按键修饰符 keydown.enter:当enter键按下时触发 keyup.enter:当enter键抬起时触…

执行powershell脚本出错:未对文件进行数字签名

解决执行powershell脚本时出错:未对文件 \test.ps1进行数字签名。无法在当前系统上运行该脚本 前言 今天从github上下载了一个PowerShell脚本要在本地运行,运行的时候出现了未对文件进行数字签名的问题,然后在这里记录下怎么解决 解决方法…

选择2024年开发App的理由,费用分析与效益

App开发费用受复杂度、团队、地理位置、平台等因素影响。低代码平台如ZohoCreator提供经济高效开发方案,降低费用并提升灵活性。2024年,企业需考虑这些因素制定长期规划。 调查显示: 企业估算应用开发费用时,常采用以下公式&…

大厂面试真题-组合和聚合的区别是什么

组合和聚合比较类似,二者都表示整体和部分之间的关系。 聚合关系的特点是:整体由部分构成,但是整体和部分之间并不是强依赖的关系,而是弱依 赖的关系,也就是说,即使整体不存在了,部分仍然存在…

算法专题六: 模拟与分治快排

目录 模拟1. 替换所有的问号2. 提莫攻击3. Z字形变换4. 外观数列5. 数青蛙分治快排1. 颜色分类2. 排序数组3. 数组中的第K个最大元素4. 库存管理Ⅲ 模拟 1. 替换所有的问号 算法思路: 本题就是简单的模拟, 只需按照题目的思路遍历所有的字符, 如果为?则将其替换, 替换时寻找2…

今日指数项目day8实战权限管理器(上)

3.权限管理器 3.1 权限列表展示功能 1)原型效果 2)接口说明 功能描述: 查询所有权限集合 服务路径: /api/permissions 服务方法:Get 请求参数:无响应数据格式: {"code": 1,"data":…

Python自然语言处理之pyltp模块介绍、安装与常见操作案例

pyltp是哈尔滨工业大学社会计算与信息检索研究中心推出的一款基于Python封装的自然语言处理工具,它提供了哈工大LTP(Language Technology Platform)工具包的接口。LTP工具包以其强大的中文分词、词性标注、命名实体识别、依存句法分析等功能&…

Idea不能创建java8切换路径

顶部的Server URL改成https://start.aliyun.com/

Ubuntu配置应用开机自启动

有些自己下载的应用想要配置开机自启动,比如snipaste,steam等,可以通过一下步骤进行配置 点击应用展开图标 这个里面就是开机自启动的一些应用,可以将自己想要自启动的应用添加到这个里面来 以上是snipaste配置,起…

大数据治理:构建数据驱动的智能决策体系

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

RocketMq详解:三、RocketMq通用生产和消费方法改造

文章目录 1.背景2.通用方法改造2.1添加maven依赖2.2 RocketMq基础配置2.3 配置类2.5 消息传输的对象和结果2.4 消息生产者2.5 消息消费者2.6 功能测试 1.背景 在第二章:《RocketMq详解:二、SpringBoot集成RocketMq》中我们已经实现了消费基本生产和消费…

CISCN2022-cactus

这周在疯狂学kernel pwn。 记录一下这题,race conditonmsg_msgpipe_buffer,kaslrsmepsmapkpti。 漏洞很简单,所有操作都没加锁,就是race condition了。edit什么的都只能2次。 很明显了,一次泄露基址,一次劫…

unidbg console debugger 调试技巧

版权归作者所有,如有转发,请注明文章出处:https://cyrus-studio.github.io/blog/ 打开debug日志 编辑 unidbg-android/src/test/resources/log4j.properties 把 log4j.logger.com.github.unidbg.AbstractEmulator 改为 DEBUG 当运行报错时…

lenovo联想 ThinkPad E14 Gen 2,E15 Gen 2 AMD(20T6,20T7,20T8,20T9)原厂Win10系统镜像下载

适用机型:【20T6、20T7、20T8、20T9】 链接:https://pan.baidu.com/s/1AVTvmiIHjafsFw8P7_jMPg?pwdzux5 提取码:zux5 联想原装WIN系统自带所有驱动、出厂主题壁纸、系统属性联机支持标志、系统属性专属LOGO标志、Office办公软件、联想电脑…

C#实现CRC32算法

CRC32 是一种校验和算法&#xff0c;用于检测消息是否未被修改。 它被广泛使用&#xff1a;例如&#xff0c;计算以太网发送包校验和。 public class CRC32 {private static readonly uint[] Crc32Table new uint[256];static CRC32(){uint i, j;uint crc;for (i 0; i < …

《深度学习》OpenCV 风格迁移、DNN模块 案例解析及实现

目录 一、风格迁移 1、什么是风格迁移 2、步骤 1&#xff09;训练 2&#xff09;迁移 二、DNN模块 1、什么是DNN模块 2、DNN模块特点 1&#xff09;轻量 2&#xff09;外部依赖性低 3&#xff09;方便 4&#xff09;集成 5&#xff09;通用性 3、流程图 4、图像…