【电商搜索】现代工业级电商搜索技术-EMNLP2024-无监督的用户偏好学习

news2026/2/14 1:00:41

【电商搜索】现代工业级电商搜索技术-EMNLP2024-无监督的用户偏好学习

0. 论文信息

Title: Unsupervised Human Preference Learning
Authors: Sumuk Shashidhar, Abhinav Chinta, Vaibhav Sahai, Dilek Hakkani Tur
Comments: EMNLP 2024 Main Conference
https://arxiv.org/pdf/2410.03731
在这里插入图片描述

1. 摘要：

本文提出了一种新颖的方法，使用小型参数模型作为偏好代理，以生成指导大型预训练模型的自然语言规则，实现个性化内容的高效生成。该方法通过一个小型的本地“方向盘”模型来指导一个更大的基础模型，以产生符合个人偏好的内容，同时利用大模型的广泛知识和能力，且无需对大模型进行微调。实验结果表明，该技术在数据和计算效率方面显著优于现有的个性化方法。

2. 研究背景：

大型语言模型（LLMs）在推理、知识检索和内容生成方面展示了令人印象深刻的能力，但在适应个体用户偏好方面存在挑战。现有的个性化技术，如上下文学习和参数高效微调，难以捕捉人类偏好的复杂性，尤其是在个人数据集较小的情况下。

3. 问题与挑战：

LLMs通常在大规模、通用的数据集上进行训练，这促进了中立性，但限制了它们学习和适应个体细微差别的能力。此外，现有的个性化技术在面对有限的个人数据时，难以实现有效的个性化。

4. 如何解决：

研究者提出了一种基于偏好代理的概念的新方法。这些代理是小型的、本地可训练的语言模型，旨在学习和编码个体用户的偏好到简洁的自然语言规则中。这些代理充当小型“方向盘”，引导更大、更通用的LLMs的输出，以期望的个性化风格和内容为目标。

5. 创新点：

提出了一种新的微调目标，利用提取的偏好信息而非传统的输入-输出对，促进了用户偏好的有效学习。
通过偏好代理的使用，实现了显著的性能提升，尤其是在将LLMs与个体风格和偏好对齐方面。
发布了三个大型、人类意图注释的偏好数据集，以促进未来个性化研究。

6. 算法模型：

该方法涉及两个关键组件：生成捕获用户偏好的自然语言规则，并使用这些规则指导一个更大的预训练语言模型。这种模块化架构允许在不进行广泛重新训练的情况下进行有效的个性化。
在这里插入图片描述
文章中提到的小型参数模型，即偏好代理（preference agents），是用来学习和编码用户个性化偏好的小型语言模型。这些模型的工作方式如下：

任务定义：偏好代理的目标是将用户意图（u）和相关的任务元数据（m）映射到自然语言偏好规则（P）。这些规则将用来引导大型预训练模型（ML）的输出，以匹配用户的个性化需求。
模型训练：
- 零样本响应：首先，让大型模型（ML）对训练数据集（D）生成零样本（zero-shot）响应。这些响应是基于模型的预训练知识，不包含任何用户特定的偏好信息。
- 提取偏好规则：然后，利用ML的能力提取零样本输出（Yz）和真实输出（G）之间的差异。这个差异代表了需要由小型模型（MS）学习的偏好规则（P）。
- 训练小型模型：接下来，训练小型模型（MS）来生成这些偏好规则。训练数据由输入-偏好规则对组成，MS学习将用户意图和任务元数据映射到自然语言偏好规则。
模型对齐：训练完成后的偏好代理（MA）用于将大型模型的输出与未见过的用户数据对齐。对于新的输入（x），首先使用训练有素的代理生成偏好规则（p），然后将这些规则作为额外的上下文与原始输入一起提供给大型语言模型（ML），生成考虑用户偏好的输出（ya）。
量化对齐：使用一个评估函数（Eval）在未见过的测试集（T）上评估对齐效果。对于T中的每个例子，该函数比较考虑偏好规则的输出（ya）和不考虑偏好规则的零样本输出（yz）。通过在测试集上聚合这些分数，得到一个总体的对齐分数（Score(T)）。
偏好规则的生成：偏好代理通过分析零样本响应和真实响应之间的差异来生成规则，这些规则以自然语言的形式提供具体的指导，例如调整语气、长度、风格等。