机器学习28：《推荐系统-I》概述

news2025/7/8 8:39:34

在互联网领域，推荐系统（Recommendation Systems）的应用非常广泛。在音视频方面，如抖音、快手、哔哩等；在电商平台方面，如京东、淘宝、拼多多等。推荐有助于帮助用户快速发现潜在感兴趣的内容（音视频、商品、新闻等信息流），从而提升用户体验，同时有助于提升商业效率。

从本文开始，笔者将结合自身在信息流推荐领域的经验，通过系列文章对推荐系统展开介绍。

目录

1.什么是推荐？

1.1 首页推荐

2.为什么推荐？

3.基本术语

3.1 Item

3.2 Query

3.3 Embedding

3.4 推荐场景中哪些数据可以采用 Embedding 来构造特征呢？

3.4.1 User 数据

3.4.2 Item 数据

3.4.3 额外数据

4.推荐系统架构

4.1 候选 Item 池

4.2 打分

4.3 重排

5.候选 Item 池

5.1 嵌入空间

5.2 相似性计算

5.2.1 余弦

5.2.2 点积

5.2.3 欧氏距离

5.3 召回

6.参考文献

1.什么是推荐？

当你进入淘宝、京东等电商平台APP时，你可能会发现，展示的商品大都是自己感兴趣的。当你进入抖音、快手、哔哩等音视频APP时，你会发现很多音视频也是自己感兴趣的。不必惊讶，这其实就是推荐——更准确地说，是信息流推荐——即通过机器学习的推荐模型，从海量的商品、视频、新闻中寻找出用户潜在感兴趣的内容。常用的推荐有两种：

首页推荐——home page recommendations
相关Item推荐——related item recommendations

注意：Item 一词直接翻译为“项目”并不合适，在信息流推荐领域，Item 指一条新闻、一则广告、一个商品、一首歌曲、一个权益等等。Item 可以理解为被一条被推荐的内容。

1.1 首页推荐

首页推荐是根据用户的已知兴趣向用户个性化推荐。每个用户都会看到不同的推荐——俗称“千人千面”。你可以尝试访问淘宝、京东等 APP，和身边的朋友对比一下，你会发现，你们看到的内容是不一样的。

顾名思义，相关 Item 推荐是指推荐与特定 Item 相似 Item。在 Google Play 应用程序示例中，查看数学应用程序页面的用户还可能会看到相关应用程序的面板，例如其他数学或科学应用程序。

2.为什么推荐？

推荐系统可以帮助用户在大型语料库中快速找到感性却的内容。例如，Google Play 商店提供数百万个应用程序，而 YouTube 提供数十亿个视频。每天都会新增更多应用程序和视频。用户如何找到新颖且感兴趣的内容呢？

一种朴素的观点，人们可以使用搜索来寻找、访问内容。然而，这并不高效，因为用户可能并不了解自己对哪些内容感兴趣，即便知道，也可能不清楚使用哪些关键词来搜索。相较之下，推荐引擎可以为用户推荐一些用户自身 “未曾想到但感兴趣” 的 Item。

你可知道？

Google Play 上 40% 的应用安装来自推荐。
YouTube 上 60% 的观看时间来自推荐。

3.基本术语

为了便于理解后面的系列文章，我们先 “统一语言”——即定义一些术语，基于这些术语交流，可以减少歧义：

3.1 Item

直译为：项目，内涵为系统推荐的实体（如视频、商品、新闻、酒店等等），也称为项目，在不同场景下，Item 的内涵也有差异。对于 Google Play 商店，Item 是要安装的应用程序；对于 YouTube，Item 是视频。

3.2 Query

也称为上下文-Context，推荐系统需要根据 Query 来计算并返回建议（推荐）的 Item。Query 可以是以下各项的组合：

用户信息
- 用户的 ID
- 用户之前交互过的 Item
- 用户的地理位置、年龄、学历、收入等
补充信息（也称为额外信息）
- 一天中的时间
- 用户的设备类型和 ID

3.3 Embedding

即嵌入，在《机器学习20：嵌入-Embeddings》一文中有详细的介绍。嵌入是指从离散集（在本例中为 Query 集或要推荐的 Item 集）到称为嵌入空间的向量空间的映射。许多推荐系统依赖于学习 Query 和 Item 的适当嵌入表示—— Query 和 Item 的合适嵌入，将有助于推荐。

在提到 Embedding 时，首先想到的是“向量化”，主要作用是将 高维稀疏向量 转化为 低维稠密向量，从而方便下游模型处理。换一种说法，Embedding 是用一个 低维稠密向量 来表示一个对象，使得这个向量能够表达相应对象的某些特征，同时向量之间的距离能反映对象之间的相似性。

还有一种定义：Embedding 是将一个实例（instance）从复杂的空间嵌入（投射）到相对简单的空间，以便对原始实例进行理解，或者在相对简单的空间中进行后续操作。

3.4 推荐场景中哪些数据可以采用 Embedding 来构造特征呢？

下面简单列了笔者在 游戏和信息流推荐 时主要采用 Embedding 技术来处理的数据。

3.4.1 User 数据

典型如：用户的基础属性数据，如性别、年龄、关系链、兴趣偏好等。

对于用户兴趣偏好，一般简单地采用文本 Embedding 方法来得到各标签的 Embedding 向量，然后根据用户对这个标签的偏好程度做向量加权；
对于关系链数据（如同玩好友、游戏中心相互关注等），构造用户关系图，然后采用基于图的 embedding 方法来得到用户的 Embedding 向量；

3.4.2 Item 数据

Item 基本信息数据，如标题、作者、游戏简介、标签等。

对于文本、简介和标签等可以采用基于文本的 Embedding 方法来在已有语料上预训练模型，然后得到对应的 Embedding 向量（如 word2vec 或者 BERT）；
此外对于有明确关系的（如 item->文本->标签 or 关键词）可以采用对关键词/标签的向量均值来表示 item 的文本向量；
针对用户对 Item 的操作（如点击、互动、下载）构造：用户->item+Item 标签体系，构造用户-item-tag 的异构网络，然后可以采用 Metapath2vec 来得到各节点的 Embedding 向量；
通过记录用户在整个场景访问 item，构造 Item-Item 关系图，然后采用 DeepWalk 算法得到 item 的向量，用来挖掘 Item 间的关系特征；

3.4.3 额外数据

外部扩充数据，如用户游戏行为、用户微信其他场景活跃等。

标签型，主要是用户在各场景的兴趣偏好；
关系链型（如游戏中心好友、游戏内好友、开黑好友）可以采用用户关系构造用户关系图，采用 Graph Embedding 方法（如 GraphSAGE）来表示用户抽象特征。

4.推荐系统架构

推荐系统的常见架构如下图所示，包括四个组件（复杂的推荐系统包括召回、粗排、精排、重排，会更加复杂）。

物料库：包括所有 Item 和 User 的特征数据
召回：即采用简单模型从海量物料库中选择部分用户可能感兴趣的 Item
精排：即通过复杂模型对 Item 进行打分，进而排序
重排：给用户推荐的 Item 也不能完全是用户潜在感兴趣的，需要考虑多样性、时效性等

4.1 候选 Item 池

在第一阶段，系统从一个潜在的巨大物料库开始，通过【召回】生成一个小得多的候选子集。例如，YouTube 中的候选生成器将数十亿个视频减少到数百或数千个。鉴于语料库规模巨大，该模型需要快速评估查询。给定的模型可以提供多个候选生成器，每个生成器指定不同的候选子集。

4.2 打分

在复杂的推荐系统中，打分通常包括两个部分：【粗排打分】+【精排打分】。本质上都是通过模型对候选 Item 进行评分和排序，以便选择要向用户展示的 Item 集（信息流推荐大多数是分页的，每页大约 10 个，因此每次打分后，取 TOP N 即可）。由于该模型评估相对较小的 Item 子集，因此系统可以使用依赖于附加查询的更精确的模型。

4.3 重排

最后，系统必须考虑最终排名的附加约束。例如，系统删除用户明确不喜欢的项目或提高较新鲜内容的分数。重新排名还有助于确保多样性、新鲜度和公平性。

5.候选 Item 池

如何获取候选 Item 池呢？作为推荐的第一阶段，本质是一个【召回】过程。给定一个 Query，系统会生成一组相关的候选 Item。如下表所示，为两种常见的候选池生成方法。

类型	定义	例子
基于内容的过滤	利用 Item 之间的相似性，来推荐与用户喜欢的 Item 相似的 Item	如果用户 A 观看了两个可爱的猫咪视频，那么系统可以向该用户推荐可爱的动物视频。
协同过滤	同时使用 Query 和 Item 之间的相似性来提供建议。	如果用户A与用户B相似，并且用户B喜欢视频1，则系统可以向用户A推荐视频1（即使用户A没有看过任何与视频1类似的视频）。

5.1 嵌入空间

基于内容的过滤和协作过滤都将每个 Item 和每个 Query（或上下文）映射到公共嵌入空间中的嵌入向量 $E = \mathbb R^d$ 。通常，嵌入空间是低维的（即 $d$ 比物料库的大小小得多），并捕获 Item 或 Query 集的一些潜在结构。类似的 Item（例如由同一用户观看的 YouTube 视频）最终会在嵌入空间中紧密结合在一起。“接近度” 的概念是通过相似性度量来定义的。

额外资源： projector.tensorflow.org是一个用于可视化嵌入的交互式工具。

5.2 相似性计算

相似性度量是一个函数 $s : E \times E \to \mathbb R$ 它接受一对嵌入并返回一个测量它们相似度的标量。嵌入可用于候选池生成（即召回，也称为【向量召回】）。如下所示：给定查询嵌入： $q \in E$ ，系统寻找那些接近于 $q$ 的 Item 的嵌入 $x \in E$ ，即相似度高的嵌入 $s(q, x)$ 。

为了计算相似度，大多数推荐系统依赖于以下一项或多项：

余弦
点积
欧氏距离

5.2.1 余弦

即计算两个向量之间角度的余弦， $s(q, x) = \cos(q, x)$ ，两个向量越接近，余弦值越大，夹角为 90 度（垂直），则结果为 0，即可认为相似度最低。

5.2.2 点积

两个向量的点积为 $s(q, x) = \langle q, x \rangle = \sum_{i = 1}^d q_i x_i$ 。也可用 $s(q, x) = \|x\| \|q\| \cos(q, x)$ （角度的余弦乘以范数的乘积）。因此，如果嵌入被规范化（归一化），则点积和余弦重合。

5.2.3 欧氏距离

欧几里得空间中的距离。距离越小意味着相似度越高。请注意，当嵌入规范化（归一化）时，平方欧几里德距离与点积（和余弦）一致，直到达到一个常数，因为在这种情况下。 $s(q, x) = \|q - x\| = \left[ \sum_{i = 1}^d (q_i - x_i)^2\right]^{\frac{1}{2}}$

5.3 召回

基于 Embedding 和相似度计算，我们就可以从海量的物料库中寻找到那些用户可能感兴趣的 Item，即基于相似度计算结果取出 TOP N。这一过程，在很多推荐场景中被称为【召回】。

6.参考文献

1-https://developers.google.cn/machine-learning/recommendation/overview

2-https://www.163.com/dy/article/FROC0ILQ0518R7MO.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/730850.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

RS485或RS232转ETHERCAT连接安川ethercat总线伺服

RS485或RS232转ETHERCAT连接安川ethercat总线伺服

最近，生产管理设备中经常会遇到两种协议不相同的情况，这严重阻碍了设备之间的通讯，串口设备的数据不能直接传输给ETHERCAT。这可怎么办呢？ 别担心，远创智控YC-ECT-RS485/232来了！这是一款自主研发的ETHER…

阅读更多...

使用vue ui创建vue项目失败原因

使用vue ui创建vue项目失败原因

每个人的失败原因都不相同，因为下载NodeJS文件时，默认下载到c盘中，我改变盘符到了D盘，因此要删除c盘中隐藏的文件，注意是c盘中的.npmrc文件。具体位置如下： 点击查看显示隐藏文件才能看到该文件最后创建项…

阅读更多...

磁性材料在使用时需要注意什么

磁性材料在使用时需要注意什么

为了不引起人身损伤及磁体性能不良，请遵循以下注意事项： 1、磁体在使用过程中应确保工作场所干净，否则容易吸附铁屑等磁性小颗粒影响使用。 2、磁体在充磁时，磁体必须固定，且充磁场必须大于磁体材料矫顽力的2.5倍&…

阅读更多...

CEC2023动态多目标优化算法：基于自适应启动策略的混合交叉动态约束多目标优化算法(MC-DCMOEA)求解CEC2023（提供MATLAB代码）

CEC2023动态多目标优化算法：基于自适应启动策略的混合交叉动态约束多目标优化算法(MC-DCMOEA)求解CEC2023（提供MATLAB代码）

一、动态多目标优化问题 1.1问题定义 1.2 动态支配关系定义二、基于自适应启动策略的混合交叉动态多目标优化算法基于自适应启动策略的混合交叉动态多目标优化算法（Mixture Crossover Dynamic Constrained Multi-objective Evolutionary Algorithm Based on Se…

阅读更多...

【ElasticSearch】JavaRestClient实现文档查询、排序、分页、高亮

【ElasticSearch】JavaRestClient实现文档查询、排序、分页、高亮

文章目录 1、入门案例2、全文检索3、精确查询4、复合查询-boolean query5、排序和分页6、高亮 1、入门案例先初始化JavaRestClient对象： SpringBootTest public class HotelSearchTest {private RestHighLevelClient client;Testvoid testInit() {System.out.pri…

阅读更多...

uniapp如何给空包进行签名操作

uniapp如何给空包进行签名操作

这里给大家分享我在网上总结出来的一些知识，希望对大家有所帮助首先安装sdk https://www.oracle.com/java/technologies/downloads/ 正常下一步即可~安装完毕后，进入在sdk根目录执行cmd C:\Program Files\Java\jdk-18.0.1.1\bin生成keystore 例&#xf…

阅读更多...

数据结构--线索二叉树找前驱后继

数据结构--线索二叉树找前驱后继

数据结构–线索二叉树找前驱后继中序线索二叉树找中序后继在中序线索二叉树中找到指定结点*p的中序后继 \color{red}中序后继中序后继next ①若p->rtag 1，则next p->rchild ②若p->rtag 0 中序遍历――左根右左根(左根右) 左根((左根右)根右) next …

阅读更多...

PVT、OCV、工艺偏差、CPPRCRPR、ld漏级电流计算

PVT、OCV、工艺偏差、CPPRCRPR、ld漏级电流计算

文章目录 PVT&OCV(local variation)Sources of variation1) Etching2) Oxide Thickness propagation delay、ld、drain currentCPPR&CRPRsetup checkHold check 芯片的delay由两部分影响因素构成 cell delay：library set pvt_cornernet delay: rc tech fil…

阅读更多...

电风扇自动温控调速器电路设计

电风扇自动温控调速器电路设计

这是一个电风扇自动温控调速器，可根据温度变化情况自动调节电风扇的转速，电路加以调整，也可用于其它电气设备的控制。一、电路工作原理电路原理如图 37 所示。图中 IC 是 555 时基电路，与R2、R3 和 C2 等元件构成多谐振荡器…

阅读更多...

前端Vue自定义暂无数据组件nodata 用于页面请求无数据时展示

前端Vue自定义暂无数据组件nodata 用于页面请求无数据时展示

随着技术的发展，开发的复杂度也越来越高，传统开发方式将一个系统做成了整块应用，经常出现的情况就是一个小小的改动或者一个小功能的增加可能会引起整体逻辑的修改，造成牵一发而动全身。通过组件化开发，可以有效实现单…

阅读更多...

【Cesium 安装+Cesium 加载b3dm】

【Cesium 安装+Cesium 加载b3dm】

Cesium 安装一、安装的方式大致有三种： 1、引入ceisum源码包使用； 2、安装cesium插件； 3、安装Vue-cesium插件我这里只尝试了第一种和第二种。引入ceisum源码包使用可以使用直接下载官方压缩包来引入也可以npm i cesium包，把…

阅读更多...

Socket error Event: 32 Error: 10053.

Socket error Event: 32 Error: 10053.

Socket error Event: 32 Error: 10053. 一、报错 ：二、问题：三、原因：四、解决方案： 一、报错 ： Socket error Event: 32 Error: 10053. 二、问题： xshell连接虚拟机断连三、原因： 虚拟机…

阅读更多...

密码学学习笔记(八)：Public-Key Encryption - 公钥加密1

密码学学习笔记(八)：Public-Key Encryption - 公钥加密1

简介公钥加密也被称为非对称加密。下面是一个例子： Bob生成一个密钥对，发布他的公钥𝑃𝐾𝐵, 保管密钥𝑆𝐾𝐵 私有的Alice使用𝑃𝐾𝐵 加密明文M…

阅读更多...

哪个牌子的骨传导蓝牙耳机好？精选当下五款最热门的骨传导耳机

哪个牌子的骨传导蓝牙耳机好？精选当下五款最热门的骨传导耳机

在目前的耳机市场上，大部分耳机的传声原理还是通过空气传声，因为这种传声方式较为符合大家的听觉习惯，但是由于耳机和鼓膜距离太近，如果长时间使用会对鼓膜造成不可逆转的损伤，但骨传导原理的耳机就不会出现这种情况&a…

阅读更多...

常用数据分类算法总结记录

常用数据分类算法总结记录

本文的主要目的是总结记录日常学习工作中常用到的一些数据分类算法，对其原理简单总结记录，同时分析对应的优缺点，以后需要的时候可以直接翻看，避免每次都要查询浪费时间，欢迎补充。机器学习领域中常用的分类模型包括以…

阅读更多...

【用户调研】用户体验地图：寻找产品突破口

【用户调研】用户体验地图：寻找产品突破口

文章目录什么是用户体验地图为什么需要用户体验地图制作步骤用户体验地图与其他“地图”关系总结什么是用户体验地图为什么需要用户体验地图制作步骤用户体验地图与其他“地图”关系总结

阅读更多...

前端面试题-HTML、HTTP、web综合问题(三)

前端面试题-HTML、HTTP、web综合问题(三)

26 你做的⻚⾯在哪些流览器测试过？这些浏览器的内核分别是什么? IE : trident 内核Firefox ： gecko 内核Safari : webkit 内核Opera :以前是 presto 内核， Opera 现已改⽤Google - Chrome 的 Blink 内核Chrome:Blink (基于 webkit &#xf…

阅读更多...

照片模糊怎么变清晰？秒变高清图,三个方法分享给你!

照片模糊怎么变清晰？秒变高清图,三个方法分享给你!

对于摄影爱好者和日常使用照片的人来说，需要高清晰度的图片是很常见的需求。在编写文档、制作展示或者从网络获取图片时，我们经常会遇到模糊的照片，这些照片既不能满足我们的需求，也无法直接使用。那么，如何将模糊的照…

阅读更多...

OpenCV图像的仿射变换、旋转和缩放

OpenCV图像的仿射变换、旋转和缩放

以下是对代码的逐行解释： // 包含必要的OpenCV头文件和C++库文件 #include "opencv2/highgui/highgui.hpp" #include "opencv2/imgproc/imgproc.hpp" #include <iostream> using namespace cv;

阅读更多...

大数据/AI 行业案例资源介绍分享

大数据/AI 行业案例资源介绍分享

大数据行业案例库是泰迪科技在数据挖掘领域探索10余年和高校资深讲师联合经验总结之作，内容涵盖智能电网、移动电信、医疗健康、网络舆情、电子商务、金融保险、交通运输、信息安全、政务民生等诸多行业，特别适合有数据挖掘相关课程教学的高校、研究所和…

阅读更多...

推荐文章

最新文章