推荐算法实战-五-召回(上)

news2025/1/12 16:09:56

一、传统召回算法

(一)基于物料属性的倒排索引

在离线时,将具有相同属性的物料集合起来,根据一些后验统计指标将物料排序。

当一个用户在线交互发出请求后,提取用户的兴趣标签,根据标签检索相应物料集合返回。

倒排索引示意

(二)基于统计的协同过滤算法

1、协同过滤的两个类型

传统的协同过滤是不是基于深度学习的,而是基于统计的。

①基于用户的协同过滤User CF

给用户a推荐与其相似的用户b喜欢的物料。

②基于物料的协同过滤Item CF

给用户a推荐与其喜欢的物料相似的物料。

2、基于Item的协同过滤

(1)机制描述

首先建立用户反馈矩阵A\in R^{m \times n},m是用户个数,n是物料个数。如果用户u和物料t交互过,那么A[u][t]=v,v可以来自于显式交互,比如打分,也可以来自于隐式交互,比如点击次数等指标。

由于大部分用户交互过的物料没那么多,因此A是比较稀疏的。

再计算物料相似矩阵S=AA^T,其中S[i][j]表示第i个物料和第j个物料的相似程度。

在为用户u召回时,可以通过计算r_u=A[u,:]S,其中r_u表示用户u对所有物料的喜好程度,根据数值大小排序后向用户推荐。

(2)优点
  • 比起数据量庞大的用户数量,物料相对稳定且数量相对较小,S可以离线计算好。
  • 可以使用MapReduce分布式算法进行S的计算。
  • 可以采用cosine、欧几里得距离等来进行相似度的计算。

(三)矩阵分解MF算法

1、MF机制

MF定义一个反馈矩阵A,同Item CF中定义相同。A中空的位置用MF预测填充,有数值的则代表用户u与物料t的显式\隐式交互指标。

定义一个预测矩阵P \in R^{m \times n},用户隐向量矩阵U \in R^{m \times k},物料隐向量矩阵V \in R^{n \times k}。有公式P=UV^T。在MF中要学习优化的便是U和V,根据A中非空值进行训练模型,使P中相应位置的值靠近A中值。训练好U和V后,P[u,:]中筛选出得分最高且未被用户u消费过的前k个物料进行推荐(未被消费过的物料在A[u,:]中以空值形式存在)。

矩阵分解示意

2、MF缺点

  • 只能将user id和item id当做feature,信息来源受限。
  • 对于没有参与训练的新用户和新物料,无法进行预测。

(四)如何合并多路召回

1、多路召回的作用和细节

多路召回有冗余防错和互相补充的作用。

将多路召回的结果合并成一个结果集,去重后再传递给下游模块。若超过了下游模块接收处理能力,那么实施截断。

2、多路召回合并

①错误的合并思路:将不同路的召回先人工评估重要性,重要性高的召回子序列先加入结果集,直到达到一定限度为止,剩下路的召回被截断。

②正确的合并思路:实施多轮多路召回合并,每次每路选取一小部分精华加入结果集,直到达到一定的限度。

二、向量化召回统一建模框架

(一)向量化召回简述

1、定义

向量化召回Embedding-based Retrieval,是将召回问题建模成向量空间内最近邻搜索问题。

2、类型

  • U2I:为用户找到其可能喜欢的物料。
  • I2I:推荐与用户喜欢的物料相似的物料。
  • U2U2I:推荐与用户相似的用户喜欢的物料。

3、机制描述

(1)机制:用户和物料都被映射到同一个向量空间

  • 每个物料实例喂给模型后都被映射成向量,然后这些向量被存入faiss等向量数据库中,建立索引。
  • 在线交互时,针对用户实例q,将其喂给模型映射成向量,然后在向量数据库中通过ANN算法查找与用户向量最为邻近的K个物料向量,将对应的物料返回。

(2)关注的问题

  • 如何定义正样本,即哪些用户向量和物料向量应该邻近。
  • 如何定义负样本,即哪些用户向量和物料向量应该远离。
  • 如何映射成向量。
  • 如何优化目标。

(二)如何定义正样本

1、关注的问题

哪些q向量(表示用户向量)和t向量(表示物料向量)在向量空间中的距离应该相近。

2、三种类型

  • I2I:同一个用户在同一个会话session(较短的用户行为序列)中交互过的物料向量应该相近,体现两个物料之间的相似性。
  • U2I:一个用户与其交互过的物料在向量空间中应该是相近的。
  • U2U

(三)如何定义负样本

1、负样本主要依靠随机采样

喂入召回模型中的负样本主要依靠随机采样。负样本在召回中地位非常重要。

2、怎么随机采样

随机采样一些样本作为负样本,与正样本相差过大的负样本被称为easy negative,与正样本优点相似的负样本被称为hard negative(比如对于一只狗而言,狐狸是hard negative,猫是easy negative)。

在召回模型中以easy negative为主,辅以hard negative。这是因为召回是从海量候选集中选出用户比较感兴趣的物料、筛去用户无感的物料,因此easy negative的数量优势能保证召回的基本精度。

(四)解耦生成embedding

1、排序鼓励交叉

  • 特征策略:通过将特征交叉挖掘新模式。
  • 模型结构:通常将用户特征、物料特征、交叉特征拼接成一个大向量共同喂给DNN,一般在第一个FC(全连接层)以后就分不清哪一位属于哪个特征了。

2、召回要求解耦

  • 召回要求解耦的原因:因为召回面对的候选集太大了,交叉以后代价过大。
  • 召回解耦的实现:(1)在离线时,计算好每个物料的embedding,存入faiss等向量数据库,建立检索。(2)用户在线交互时,计算用户的embedding向量,利用ANN算法等在faiss中检索相应物料并返回。

(五)如何优化目标

1、召回中用户物料匹配程度衡量方法

采用用户embedding和物料embedding的点积或者cosine来衡量两者的匹配程度,值越大越匹配。

2、召回与排序的精度要求

  • 召回面对的候选集很大,不追求预测值的绝对准确,而是要求排序的相对准确,只要能够筛选出用户可能感兴趣的物料即可。因此常用的一些的loss遵循learning-to-rank(LTR)思想。
  • 由于召回面对的数据中正样本是来自于真实数据,而负样本是随机采样得到的,因此在召回的过程中要求对正样本预测地较好即可,常采用多分类的softmax loss。

3、召回Loss

(1)NCE Loss

①Softmax Loss

优化目标是用户u和其交互过的物料t的向量越邻近越好,可以表示为以下公式:

L_{softmax}=-\frac{1}{|B|}\sum_{(u_i,t_i)\in B}log\frac{exp(u_i,t_i)}{\sum_{j\in T}exp(u_i,t_j)}

其中B表示一个batch,|B|是B中样本的数量,T是包含所有物料的集合,其中(u_i,t_i)被看做B中一个样本。Softmax loss将召回看成一个多分类问题,每个物料看为一类。由于量级过大,因此采用NCE Loss来简化分母。

②NCE Loss(Noise Contrastive Estimation)

NCE loss将softmax loss的超大多分类问题简化成了一个二分类问题(正样本和负样本)。其中正样本是与用户交互过的物料组成的,负样本是随机采样得到的。用G(u,t)来表示一个样本是正样本的logit如下式所示:

G(u,t)=log\frac{P(t|u)}{Q(t|u)}=logP(t|u)-logQ(t|u)

其中P表示用户u确实喜欢物料t的概率,而Q表示物料t是噪声的概率,比如说用户不喜欢物料t但是因为它太过热门被误点。

我们可以用u_i和t_i的点积来表示用户u确实喜欢物料t的概率,则可简化上式如下:

G(u,t)=log\frac{P(t|u)}{Q(t|u)}=u\cdot t-logQ(t|u)

-logQ(t|u)项的作用是为了防止热门物料被过度惩罚,因为大部分的噪声都来自于热门物料。这个修正项可以使用户u适当靠近热门物料,是一种补偿。-logQ(t|u)修正只发生在训练阶段,预测阶段不使用。

因此可以采用G(u,t)计算Binary Cross-Entropy Loss,就得到NCE Loss,公式如下:

L_{NCE}=-\frac{1}{|B|}\sum_{(u_i,t_i)\in B}[log(1+exp(-G(u_i,t_i)))+\sum_{j \in S_i}log(1+exp(G(u_i,t_j)))]

进一步简化计算,忽略修正项得到NEG(negative sampling loss)如下:

L_{NEG}=-\frac{1}{|B|}\sum_{(u_i,t_i)\in B}[log(1+exp(-u_i,t_i))+\sum_{j \in S_i}log(1+exp(u_i,t_j))]

NEGloss的优点在于:计算简便。而NCE的优点在于当负样本物料足够充足的时候,NCE梯度与softmax loss的梯度趋于一致。

(2)Sampled Softmax Loss

假设有一个推荐系统,其中需要从 1000 万个候选项中推荐商品给用户。如果使用标准的 Softmax Loss,你需要计算每个候选项的概率并归一化。而使用 Sampled Softmax Loss,你可以随机选择一小部分候选项(如1000个)进行计算,其中包括正样本(用户实际点击的商品)和若干负样本。这大大减少了计算负担,并使得模型能够在大规模数据集上有效训练。

(3)Pairwise Loss

Pairwise Loss是Learning-to-rank的一种实现。每个样本都是由用户、正样本(用户消费过的样本)、随机取样的负样本的embedding向量组成的三元组。优化目标是,用户与正样本的匹配程度要远远高于和负样本的匹配程度,因此可以采用一种Marginal Hinge Loss,表示如下:

其中m是一个超参数,为边界值。

为了减少调节超参m的麻烦,可以使用BPR loss(Bayesian personalized ranking loss)。BPR Loss的优化思想为针对用户u_i其正确排序(即正样本的排在负样本前面)的概率P_correctorder最大化。

三、借助Word2Vec

(一)Word2Vec简介

1、Word2Vec功能

Word2Vec的目标是每个单词都能学习到表征其意义的稠密向量,也就是Word embedding。

2、Skip-Gram

利用Skip-Gram实现上述目标,就是给定一个中心词w,去预测哪些词c能够出现在它的上下文中。

采用NEG loss训练有:

L_{word2vec}=-\frac{1}{|B|}\sum_{(u_i,t_i)\in B}[log(1+exp(-w_i,c_i))+\sum_{j \in S_i}log(1+exp(w_i,c_j))]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2064703.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

24吉林成考报名明日开始,注意照片规格

24吉林成考报名明日开始,注意照片规格 #吉林成考 #成考报名 #成考报名照片 #成人高考报名 #成人高考 #成人高考报名照片

CANoe.DiVa的应用——Diva进行诊断自动化测试执行过程详解(三)

🙋‍♂️【Vector CANdelastudio配置CDD】文章合集💁‍♂️点击跳转 ——————————————————————————————————–—— 从0开始学习CANoe使用 从0开始学习车载测试 相信时间的力量 星光不负赶路者,时光不负有心人。 目录 1.工程导入2.查看用…

SpringBoot3 简单集成 Spring AI 并使用

文章目录 准备JDK17api key 创建项目编写配置文件创建controller启动并测试角色预设流式响应\异步响应ChatModel(聊天模型)ImageModel(文生图)文生语音语言翻译多模态Function Calling (函数调用第三方API)…

小折叠手机首获120万次弯折耐久认证,意味着什么?

提到折叠屏手机,很多人都会担心其耐用性。毕竟,频繁的开合对铰链和屏幕都是极大的考验。但华为nova Flip却用实力证明,耐用性不再是问题。凭借玄武水滴铰链技术,首获瑞士SGS 120万次弯折耐久认证的小折叠屏手机。 一、120万次弯折…

springboot中后缀匹配模式useSuffixPatternMatch、useTrailingSlashMatch的源码匹配分析

背景: 上篇文章,已经说了,如果我们直接debug调试没法找到源码中具体的代码,那么就可以通过jd-gui反编译的方式通过搜关键词的方式来找到源码中具体的位置,这次简单说下spring中的两种后缀匹配模式useSuffixPatternMat…

ArcGIS Pro基础:并行处理设置

如上所示,随便打开一个工具,找到【环境】设置,然后就可以找到【并行处理因子】的设置。 ArcGIS 软件里的并行处理因子一般是空的,这是默认设置,表达的是意思由是各个工具【自行决定】使用进程的数量。 其他情况&…

redis面试(十九)读写锁ReadLock

读写锁ReadLock 简单来说就是互斥锁和非互斥锁。多个客户端可以同事加的锁叫读锁,只能有一个客户端加的锁叫写锁。这个理论应该是从数据库中来的,放在这里也是同样的解释。 多个客户端同时加读锁,是不会互斥的,多个客户端可以同…

【Excel】Excel小技巧(实时更新中)- 0.0.1

文章目录 单元格操作多列数据"".join()为一个 END 单元格操作 多列数据"".join()为一个 END

Python保留字符

Python中的保留字。 这些保留字不能用作常数或变数,或任何其他标识符名称。 所有 Python 的关键字只包含小写字母。

Java 中边读数据库边写到文件,可以处理大型数据文件而不会消耗太多内存。

从数据库查询结果集中提取单行数据,并按列格式化为字符串形式。主要功能如下: 遍历结果集的每一列。 根据不同的数据类型转换列值为字符串。 使用StringBuilder拼接各列值,列间以colSeparator分隔。 替换字符串中的换行符\n和回车符\r为空字符…

C语言—指针(2)

目录 一、数组名的理解 二、使用指针访问数组 三、一维数组传参的本质 四、冒泡排序 五、二级指针 六、指针数组 七、字符指针变量 八、数组指针变量 (8.1)什么是数组指针变量 (8.2)数组指针变量的初始化 九、二维数组传…

Linux入门——08 进程间通讯——管道

1.进程间通讯 1.1什么是通讯 进程具有独立性(每个进程都有自己的PCB,独立地址空间,页表)但是要进行进程的通信,通信的成本一定不低,打破了独立性 进程间通信目的 数据传输:一个进程需要将它的数据发送给…

探索风扇产品模型的3D可视化魅力

在这个科技日新月异的时代,每一个细微的创新都能为我们的生活带来前所未有的便捷与享受。今天,就让我们一起踏入一场视觉与科技的盛宴,探索风扇产品模型如何通过3D可视化技术,重新定义家居生活的舒适与美学。 想象一下&#xff0c…

Redis—缓存机制

Redis 缓存机制 1. 缓存三兄弟1.1 缓存击穿1.2 缓存穿透1.3 缓存雪崩 2. 布隆过滤器3. 缓存和数据库数据一致性3.1 缓存更新策略3.2 缓存不一致处理 4. 热点 key4.1 热点 key 处理4.2 热点 key 重建 5. 缓存预热 Redis,一个轻量级的开源内存数据结构存储系统&#x…

Java:循环练习

目录 1. 回文判断 2. 减法求商余 3. 求平方根 4.求质数 5. 猜数字 1. 回文判断 输入一个数字,判断是否为回文,回文就是正着读和反着读都一样,如121是回文,123则不是。 import java.util.Scanner;public class DemoNew {publ…

白卡无法注册TDSCDMA问题分析

1、问题描述 MTK平台 实验室白卡测试TDSCDMA,默认无法注册。使用移动卡测试,无此问题。 2、问题分析 查看Radio log,Radio中反复下发EFUN去开关飞行模式。 39191: 08-14 22:45:57.159210 1469 1512 D RmcWp : [0] ECSRA info E…

CART决策树-基尼指数(全网最详解)

文章目录 一、基尼指数的定义二、基尼指数在CART决策树中的应用三、基尼指数与CART决策树的构建1.计算每个子集的基尼系数:2.计算基尼指数3.选择最优特征4.其余基尼指数5.构建决策树 四、总结 CART决策树基尼指数是CART(Classification And Regression T…

稳石机器人 | 工业级AMR S1200L,专为多样化需求设计,柔性拓展更易用

近日,稳石机器人重磅推出基于新品控制器ROC1000的全新移动机器人AMR S1200L,专为满足生产制造和仓储物流的多样化需求而设计,无需改造现场,最快可在1周内完成部署。 重载型AMR-S1200L设计注重实用性和灵活性,可在室内…

Excel 中找出每列第一个和最后一个非空格对应的行--Excel难题#87

Excel表格的第2-6列有空格。 ABCDEF1StartDateQID1QID2QID3QID4QID5210/03/2024 10:561yes32310/03/2024 03:102no423409/03/2024 19:253yes22509/03/2024 11:404no1yes609/03/2024 03:555yes5no708/03/2024 20:106808/03/2024 12:257no908/03/2024 04:408yes1007/03/2024 20:…

Linux云计算 |【第二阶段】SECURITY-DAY4

主要内容: Kali系统、扫描与抓包、Nginx安全加固、Linux基本防护 补充:使用Curl命令查看网页头部信息和页面内容 不加选项,默认查看网页的内容; [ -I ] 选项:访问服务器页面时,显示HTTP的头部信息&#xf…