小模型大智慧！港大重磅开源EasyRec，推荐系统进入语言模型时代

在当今的信息时代，我们每天都被海量信息所包围，不断面临各种选择。从网上购物、音乐播放到视频推荐，推荐系统已经成为我们生活中不可或缺的一部分。那么，这些系统是如何运作的？它们又是如何在信息的洪流中帮助我们找到所需的内容的呢？

推荐系统的核心在于预测用户的兴趣，从而提供个性化的建议。传统方法主要依赖于用户的历史行为数据，但在面对新用户或新项目时，这种方法往往显得无力，即所谓的“冷启动”问题。此外，用户兴趣的变化也对推荐系统提出了持续学习和适应的要求。

深度学习，特别是深度神经网络，为这一领域带来了新的突破，能够捕捉到用户与项目之间的复杂关系。然而，在新用户、新项目以及动态变化的用户兴趣面前，传统的深度学习方法依然存在局限。

在这种背景下，我们将介绍由香港大学的学者在文章《EasyRec: Simple yet Effective Language Models for Recommendation》提出的名为 EasyRec 的语言模型。该模型采用创新的文本推荐方式，为推荐系统开辟了新的前景。本文将深入探讨该模型的工作原理、实际应用效果，以及它在理解和预测用户兴趣方面的优势。

文章地址：

http://arxiv.org/abs/2408.08821

开源代码：

https://github.com/HKUDS/EasyRec

港大数据智能实验室：

https://sites.google.com/view/chaoh/home

深度学习与推荐系统

在推荐系统的发展过程中，深度神经网络（DNNs）起到了重要的作用。通过挖掘用户与商品之间的深层互动关系，DNNs 为协同过滤技术带来了新的发展动力。协同过滤是一种基于用户或商品相似性进行推荐的方法，借助深度学习，其性能得到了显著提升。

然而，现有的深度协同过滤模型依然面临诸多挑战。尤其是，这些模型高度依赖用户和商品的唯一标识符（ID），这在实际应用中带来了诸多不便。对于新用户或新上架的商品，由于缺乏足够的数据支持，模型往往难以提供准确的推荐。

同时，当市场环境或用户喜好发生变化时，模型的适应能力也显得不足。特别是在零样本学习场景中，即当用户或商品没有历史交互数据时，传统的协同过滤方法显得无能为力。为了解决这些问题，研究者们开始转向语言模型（LMs）。这些模型在自然语言处理领域表现优异，通过文本向量化技术，构建了一个通用的特征空间。这意味着，即使在缺乏用户和商品 ID 的情况下，我们仍然可以实现有效的推荐。

基本知识

首先，我们需先了解推荐系统的基础概念和表示方法，这些知识是理解模型工作原理的关键。在推荐系统中，我们定义了用户集合和商品集合。每个用户有一个交互过的商品集合。而每个商品则有一个交互过的用户集合，交互过的用户集合。用户-商品的交互可以通过一个交互矩阵来表示，其中为 1 表示用户与商品有过交互，否则为 0。

基于文本的零样本推荐。零样本推荐技术在解决新用户或新商品缺乏交互数据的问题上起着关键作用。当系统面对新用户或新商品时，往往由于缺乏足够的历史交互数据而难以提供准确的个性化推荐。为了应对这一挑战，我们提出了一种基于文本的方法。该方法通过利用用户和商品的文本描述，采用强大的语言模型来构建语义表示，实现基于文本的推荐。具体而言，我们为每个用户和商品获取相应的文本画像。

然后，这些文本会通过语言模型转化为向量表示，类似于将文本内容转换为一种数值形式。这些向量表示能够捕捉到文本中的语义信息，帮助系统理解用户和商品之间的关系。

接下来，系统会计算用户和商品的文本向量之间的相似度。相似度越高，意味着用户可能对该商品更感兴趣。系统会根据这些相似度得分，为用户推荐那些与其兴趣最为接近的商品。通过这种基于文本的推荐方法，即使在没有历史交互数据的情况下，系统也能够为新用户或新商品提供精确的个性化推荐，解决了零样本推荐中的难题。

文本增强的协同过滤协同过滤（CF）是推荐系统中的核心技术之一，它通过分析用户与用户、商品与商品之间的相似性，为用户推荐可能感兴趣的商品。然而，传统的协同过滤方法主要依赖于用户和商品的 ID，这在面对新用户或新商品时，效果往往不尽如人意。

为了解决这一问题，我们提出了一种文本增强的协同过滤方法。这种方法不仅仅依赖于用户与商品的交互数据，还引入了通过语言模型生成的文本特征。具体地说，对于每个用户和商品，我们会将他们的文本描述通过语言模型转化为嵌入向量。这些文本嵌入提供了丰富的语义信息，使得模型能够做出更精确的推荐。

EasyRec

3.1 构建用户和商品文本画像

在实际应用中的推荐系统数据集中，我们经常会遇到数据受限的问题。例如，只能获取与商品相关的基础文本信息，如商品标题和分类，同时由于隐私保护的原因，用户信息的收集也受到限制。直接使用这些原始文本数据，可能会忽略对精确用户行为建模和偏好识别至关重要的协同关系。为了克服这些限制，我们提出利用大型语言模型并结合协同信息，来为用户和商品生成详细的文本画像。

我们的目标是创建能够全面描述商品特点和用户偏好的文本画像。对于商品来说，文本画像不仅展示商品的基本信息，还要体现出可能吸引的用户群体。而对于用户，文本画像则基于其历史交互记录和商品评价，揭示其偏好的商品类型。为实现这一目标，我们采用了协同画像生成方法，通过整合交互数据与原始文本，利用大型语言模型生成这些画像。

画像策略的优势分析：

(i) 我们的协同画像方法不仅依赖于原始文本，还能更加深入地捕捉用户和商品的特性及其交互的语义。通过利用推荐系统专用的语言模型，这些丰富的画像信息被编码到共享特征空间中，使得已交互的用户和商品表征更加接近。这显著提升了推荐系统在识别相关匹配项上的能力，特别是针对“零样本”用户和商品——即那些没有先前交互记录的对象，这在实际应用中非常常见。借助文本画像中蕴含的协同信号，系统能够做出更为精准的推荐，从而有效缓解冷启动问题。

(ii) 基于这种画像训练的语言模型，使推荐系统能够迅速响应用户偏好和交互模式的变化。其独特优势在于，只需简单更新文本用户画像，即可实时反映用户兴趣和行为的变化。这种高度的灵活性使得我们的方法非常适用于用户兴趣随时间变化的动态环境中的推荐系统。

3.2 模型架构与训练

EasyRec 的推荐系统核心采用了多层双向 Transformer 架构，其具有两个显著的优势：

首先，该架构可以编码有效的文本表示，它的码编码器设计使得推理过程更加高效。这一高效性使得系统可以迅速处理大量用户和商品信息，为实时推荐提供了强大的支持。

其次，该架构的适应性使我们能够通过优化学习过程来调整预训练的 Transformer，从而更好地满足具体推荐任务的需求。这一灵活性确保了 EasyRec 在推荐场景下的卓越表现。

在 EasyRec 中，我们将用户或商品的文本描述视为多个词汇组成的段落。在文本处理时，我们首先在词序列的开头插入一个特殊标记 [CLS]。分词层随后负责将输入文本编码为初始嵌入，并融入位置信息。这些嵌入接着传递给 Transformer 层进行深度编码。在这一阶段，自注意力机制起到了至关重要的作用，使每个词汇都能够从整个序列中获取信息，从而实现彻底的上下文理解。

最终，我们提取与 [CLS] 标记相对应的首个嵌入，作为用户资料的代表性表示。这个嵌入随后经过多层感知机的加工，形成最终的编码表示。通过这些步骤，我们成功生成了丰富上下文信息的用户和商品文本嵌入。利用余弦相似度，我们能够准确衡量用户与商品之间的交互可能性，为精准推荐奠定基础。

进一步的，EasyRec 采用了对比学习方法进行训练。这种训练方法使整个编码特征空间得到更全面的优化，从而提高推荐准确性。我们从用户与商品的交互数据中进行抽样，将曾有交互的用户与商品文本特征拉近，加强在特征空间的聚合。同时，未交互的用户或商品特征被作为负样本进行排斥，使得模型能够更清晰地辨别正负样本。

此外，为了提升模型的语义理解能力和泛化性能，我们还引入了文本掩码-重构损失机制。这一损失函数促使模型深入理解文本的语义内容，从而提高推荐的精准度和用户的满意度。

3.3 文本画像的多样性增强

为提升模型在面对未知用户和商品时的泛化能力，我们引入了一种多样化的画像增强策略。尽管传统上仅使用单一的文本画像来描述每位用户或商品显得简单明了，但这种方法限制了表示的多样性，对模型性能造成了负面影响，尤其在复杂的实际应用场景中尤为明显。

因此，我们开发了一种基于大语言模型的增强方法，通过精细化处理现有的用户和商品画像，使每个实体能够展现多样的交互偏好与特征。具体的，我们利用自我指导机制和大型语言模型（LLMs）的强大功能，在保留原始意义的前提下，对用户和商品的文本描述进行了重新阐述。这一策略使得我们得以从单一输入生成多个语义相近但表达迥异的画像，大幅提升了数据的多样性与表达的丰富性。

3.4 数据集

我们使用了 Amazon Review Data 中的多样化类别数据构建了训练数据集和部分数据集。此外，为了更全面评估模型性能，我们还引入了 Steam 和 Yelp 数据集，作为跨平台的测试集，以检验模型在多样化应用场景中的泛化能力。

为了在零样本环境下对模型进行有效验证，我们确保训练集和测试集完全独立，避免任何用户或商品的重叠。这种划分方式有助于客观评估模型面对全新数据时的表现。如需更详细的信息，欢迎查阅相关论文和开源代码。

实验验证

4.1 零样本文本推荐能力

在测试集（Sports、Steam 和 Yelp）上，我们采用全排序方法来评估模型在基于文本的零样本推荐能力。为了全面分析模型性能，我们选用了多种语言模型作为基准，其中包括通用语言模型（如 BERT 和 RoBERTa）、深度检索专用模型（如 SimCSE、GTR 和 BGE），以及与推荐系统相关的模型（如 BLaIR）。

此外，我们还对比了 OpenAI 的两款重要语言模型（v3-Small 和 v3-Large）的性能。实验结果表明，EasyRec 在零样本推荐能力上显著优于所有对比模型，能够有效地实现用户画像和商品画像之间的精确对齐，从而提供准确的推荐结果。

这一成功得益于我们创新的模型设计和训练方法，使 EasyRec 在全新数据集上表现出色。为了进一步验证模型的可扩展性，我们训练了三个不同规模的模型版本（从 Small 到Large），发现在模型规模增大时，性能稳步提升，体现出明显的 Scaling Laws 效应。

这一结果印证了我们在语言模型训练中，结合用户和商品交互偏好的文本画像及协同信号的实践路径是有效的。这种训练方法不仅提高了推荐的精准度，还为模型在不同规模和复杂度的数据集上的应用奠定了坚实基础。

4.2 基于文本增强协同过滤算法

为了研究不同语言模型对现有 ID-based 协同过滤算法的增强作用，我们选择了两个广泛使用的基准模型：GCCF和 LightGCN。同时，为了确保实验的一致性和公平性，我们采用了领先的文本增强框架 RLMRec 作为统一增强框架。

通过实验，我们观察到 EasyRec 在性能上明显优于这两个基准模型。这一提升的关键在于 EasyRec 能够有效地将文本中的协同信息编码为文本特征。这种编码不仅丰富了特征的内涵，还为后续的文本增强框架提供了高质量、含有丰富协同信息的特征。因此，当这些特征被用于推荐时，模型的推荐性能得到了显著改善。

4.3 捕获用户动态偏好

在之前的讨论中，我们指出 EasyRec 的一大突出优势是其能够快速捕捉并适应用户随时间变化的个人偏好和行为模式。为量化这一适应能力，我们选择了 Amazon 体育用品数据集，构建了两组模拟用户画像，清晰展示了用户兴趣从篮球活动转向游泳的过程。

接着，我们利用 t-SNE 对这些用户和商品的文本向量进行了可视化分析，结果显示，用户的表示在特征维度空间中随着兴趣变化而发生了显著重构。这一变化直接反映在推荐内容的更新上，原本集中于篮球装备的推荐列表，转而精准推送游泳用品，符合用户的新偏好。

值得强调的是，这一动态调整仅依赖于对用户画像的改变，底层推荐模型未经过任何额外训练步骤。这充分体现了该模型在灵活适应用户偏好变动方面的高效性与优越性能。

结语

本文介绍了语言模型 EasyRec，它结合了先进的语言模型和对比学习技术，为用户行为分析和个性化推荐提供了强有力的支持。EasyRec 能够敏锐捕捉用户兴趣和行为的微妙变化，并能够迅速响应并调整推荐内容，无论变化大小。在文本推荐的场景中，EasyRec 展现出了独特的优势，能够为用户提供精准的、符合潜在兴趣的推荐。此外，通过增强协同过滤技术，EasyRec 进一步提升了推荐的多样性和准确性，为用户带来了更加丰富和个性化的浏览与购物体验。

🌟本文内容已获论文原作者独家授权发布，如需转载请联系PaperWeekly工作人员微信：pwbot02，添加时请备注「转载」。

更多阅读