【电商搜索】CRM: 具有可控条件的检索模型

news2024/12/24 10:39:13

【电商搜索】CRM: 具有可控条件的检索模型


目录

文章目录

  • 【电商搜索】CRM: 具有可控条件的检索模型
    • 目录
      • 文章信息
      • 摘要
      • 研究背景
      • 问题与挑战
      • 如何解决
      • 核心创新点
      • 算法模型
      • 实验效果(包含重要数据与结论)
      • 相关工作
      • 后续优化方向
    • 后记


https://arxiv.org/pdf/2412.13844

文章信息

在这里插入图片描述

CRM: 具有可控条件的检索模型
https://arxiv.org/pdf/2412.13844

摘要

本文提出了一种新型的检索模型——可控检索模型(CRM),旨在通过将回归信息作为条件特征整合到双塔检索范式中,增强检索阶段与排名阶段之间的一致性,并提升检索模型的能力。通过实际的A/B测试验证了CRM的有效性,并展示了其在快手短视频推荐系统中的成功部署,该系统服务于超过4亿用户。

研究背景

推荐系统(RecSys)旨在连接用户与相关项目,同时满足平台的业务目标。典型的工业推荐系统分为两个主要阶段:检索和排名。检索阶段的目标是在数百万项目中搜索出符合用户兴趣的数百个候选项;排名阶段的目标是基于每个候选项的多个目标估计来选择最佳的十几个项目。与排名模型相比,检索模型在推理过程中缺乏候选项信息,因此通常只通过分类目标(例如点击率)进行训练,未能整合回归目标(例如预期观看时间),这限制了检索的有效性。

问题与挑战

如何在检索模型中引入回归目标是一个挑战,因为回归目标(例如预期观看时间)需要知道相应的项目才能确定。这种现象导致了检索和排名阶段之间的一致性问题,并限制了推荐系统链的性能。

如何解决

本文提出的CRM模型通过将回归信息作为额外的条件来指导模型,使得同时利用分类和回归信号成为可能。具体来说,在训练期间,将回归条件作为特征纳入用户塔中,以生成定向的用户表示。在在线推理期间,策略性地设置条件以指导检索过程,以符合我们的平台目标。

核心创新点

  • 提出了一种新的设计检索模型的范式,通过将回归信息作为条件,增强了检索和排名阶段之间的一致性,为推荐系统的进步提供了启示。
  • 引入了两种简单但有效的方法来实现CRM:一种涉及改进双塔架构,另一种涉及序列建模,为其他采用CRM的人提供了参考。
  • 在快手最大的短视频推荐场景中验证了选择条件的新而有效的策略。

算法模型

CRM模型有两种实现方式:基于DNN的双塔范式和基于Transformer的范式。基于DNN的模型通过直接输入观察到的下一个视频的观看时间作为条件到用户塔中,允许模型学习观看时间和目标视频的联合分布。基于Transformer的模型则利用序列建模的优势,将用户的交互序列形成RL(强化学习)序列风格,以优化CRM模型。
在这里插入图片描述
在这里插入图片描述

实验效果(包含重要数据与结论)

在线实验在快手的短视频推荐场景中进行,该场景包括超过4亿用户和每天500亿日志。实验结果表明,CRM模型在多个关键指标上取得了改进,例如视频观看时间、总应用使用时间和用户互动等。此外,CRM在平均每次视频观看时间的关键指标上表现最佳,显著优于所有其他检索模型。

相关工作

本文回顾了双塔检索工作流程和基于RL的决策变换器序列建模。双塔检索工作流程旨在利用用户/项目特征来模拟用户偏好和项目属性,以预测用户可能与之交互的下一个视频。决策变换器(DT)是序列建模的先驱工作,旨在根据过去的奖励和状态序列直接进行动作决策。

后续优化方向

未来的工作将探索更多可以作为条件的目标,更有效的条件指定策略,并将这种方法扩展到推荐系统以外的领域。


后记

如果您对我的博客内容感兴趣,欢迎三连击 ( 点赞、收藏和关注 )和留下您的评论,我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2264675.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【python自动化六】UI自动化基础-selenium的使用

selenium是目前用得比较多的UI自动化测试框架,支持java,python等多种语言,目前我们就选用selenium来做UI自动化。 1.selenium安装 安装命令 pip install selenium2.selenium的简单使用 本文以chrome浏览器为例,配套selenium中c…

Sigrity Optimize PI CapGen仿真教程文件路径

为了方便读者能够快速上手和学会Sigrity Optimize PI和 Deacap Generate 的功能,将Sigrity Optimize PI CapGen仿真教程专栏所有文章对应的实例文件上传至以下路径 https://download.csdn.net/download/weixin_54787054/90171471?spm1001.2014.3001.5503

免费线上签字小程序,开启便捷电子签名

虽如今数字化飞速发展的时代,但线上签名小程序的开发制作却并非易事。需要攻克诸多技术难题,例如确保签名的真实性与唯一性,防止签名被伪造或篡改。 要精准地捕捉用户手写签名的笔迹特征,无论是笔画的粗细、轻重,还是…

02、服务器的分类和开发项目流程

硬件介绍 1、服务器分类2.开发流程 1、服务器分类 1.1 服务器分类 1u服务器(u表示服务器的厚度) 1U4.45cm; 4u服务器(u表示服务器的厚度) , 服务器有两个电源模块,接在不同的电源,…

canvas绘制仪表盘刻度盘

canvas画布可以实现在网页上绘制图形的方法,比如图表、图片处理、动画、游戏等。今天我们在vue模板下用canvas实现仪表盘的绘制。 对canvas不熟悉的同学可以先了解下canvas的API文档:canvas API中文网 - Canvas API中文文档首页地图 一、创建模板&#…

搭建Alist(Windows系统环境下的)并挂载阿里云盘open映射到公网

文章目录 前言1. 使用Docker本地部署Alist1.1 本地部署 Alist1.2 访问并设置Alist1.3 在管理界面添加存储 2. 安装cpolar内网穿透 前言 本文将讲解如何在 Windows 系统中借助 Docker 部署 Alist 这一强大的全平台网盘工具,并结合 cpolar 内网穿透,实现随…

【QT常用技术讲解】发送POST包(两种方式:阻塞方式及非阻塞方式)

前言 http/https(应用层)协议是广泛使用的网络通信协议。在很多与第三方API对接的场景中,通常是通过http/https协议完成,比如API对接时,通常要通过POST包获取access_token进行鉴权,然后再进行数据交互(本篇也包含有对接…

【电商搜索】文档的信息论生成聚类

【电商搜索】文档的信息论生成聚类 目录 文章目录 【电商搜索】文档的信息论生成聚类目录文章信息概览研究背景技术挑战如何破局技术应用主要相关工作与参考文献后续优化方向 后记 文章信息 https://arxiv.org/pdf/2412.13534 概览 本文提出了一种基于信息论的生成聚类&#…

【数据结构与算法】排序算法(下)——计数排序与排序总结

写在前面 书接上文:【数据结构与算法】排序算法(中)——交换排序之快速排序 文章主要讲解计数排序的细节与分析源码。之后进行四大排序的总结。 文章目录 写在前面一、计数排序(非比较排序)代码的实现: 二、排序总结 2.1、稳定性 3.2、排序算法复杂度及…

Unity全局雾效

1、全局雾效是什么 全局雾效(Global Fog)是一种视觉效果,用于在3D场景中模拟大气中的雾气对远处物体的遮挡 它通过在场景中加入雾的效果,使得距离摄像机较远的物体看起来逐渐被雾气覆盖,从而创造出一种朦胧、模糊的视…

Kafka Streams 在监控场景的应用与实践

作者:来自 vivo 互联网服务器团队- Pang Haiyun 介绍 Kafka Streams 的原理架构,常见配置以及在监控场景的应用。 一、背景 在当今大数据时代,实时数据处理变得越来越重要,而监控数据的实时性和可靠性是监控能力建设最重要的一环…

数据分析思维(五):分析方法——假设检验分析方法

数据分析并非只是简单的数据分析工具三板斧——Excel、SQL、Python,更重要的是数据分析思维。没有数据分析思维和业务知识,就算拿到一堆数据,也不知道如何下手。 推荐书本《数据分析思维——分析方法和业务知识》,本文内容就是提取…

解读DiffusionNER: Boundary Diffusion for Named Entity Recognition

content 摘要1. 图1图21. 上方:扩散过程与实体边界2. 下方:网络结构(Sentence Encoder Entity Decoder)3. 关键思想小结 摘要 主要内容分为四个部分: 模型定位与基本原理: 提出了DiffusionNER模型将命名…

【QSS样式表 - ⑥】:QPushButton控件样式

文章目录 QPushBUtton控件样式QSS示例 QPushBUtton控件样式 常用子控件 常用伪状态 QSS示例 代码: QPushButton {background-color: #99B5D1;color: white;font-weigth: bold;border-radius: 20px; }QPushButton:hover {background-color: red; }QPushButton:p…

数字经济下的 AR 眼镜

目录 1. 📂 AR 眼镜发展历史 1.1 AR 眼镜相关概念 1.2 市面主流 XR 眼镜 1.3 AR 眼镜大事记 1.4 国内外 XR 眼镜 1.5 国内 AR 眼镜四小龙 2. 🔱 关键技术 2.1 AR 眼镜近眼显示原理 2.2 AR 眼镜关键技术 2.3 AR 眼镜技术难点 3. &#x1f4a…

smb和nfs双栈协议共享目录

1 简介 NFS和SAMBA协议都是文件共享,Linux客户端常用于NFS协议访问远程共享目录,Windows客户端常用于SAMBA协议访问远程共享目录。 2 环境 合计使用三台服务器,服务器都位于同一个子网(10.0.0.0/19)、同一个安全组…

Day13 用Excel表体验梯度下降法

Day13 用Excel表体验梯度下降法 用所学公式创建Excel表 用Excel表体验梯度下降法 详见本Day文章顶部附带资源里的Excel表《梯度下降法》,可以对照表里的单元格公式进行理解,还可以多尝试几次不同的学习率 η \eta η来感受,只需要更改学习率…

Python获取系统负载并打印折线图

#! /opt/py36/bin/python import psutil import matplotlib.pyplot as plt import time# 创建一个空列表,用于存储负载数据 load_data []# 循环收集负载数据 while True:# 获取当前系统负载load_avg psutil.getloadavg()# 将平均负载添加到load_data列表中load_da…

RCE 命令执行漏洞 过滤模式 基本的过滤问题 联合ctf题目进行实践

前言 知道RCE 命令执行分为 代码执行 和 命令执行 原理 : 就是用户的输入被当做命令或者代码执行了 从而造成了危害 代码执行 除了eval php代码执行漏洞的函数还有 eval()、a ssert()、 preg_replace()、 create_function()、 array_map()、 call_user_func(…

Leetcode打卡:考场就坐

执行结果:通过 题目: 855 考场就坐 在考场里,有 n 个座位排成一行,编号为 0 到 n - 1。 当学生进入考场后,他必须坐在离最近的人最远的座位上。如果有多个这样的座位,他会坐在编号最小的座位上。(另外&am…