论文解读《LaMP: When Large Language Models Meet Personalization》

引言：因为导师喊我围绕 “大语言模型的个性化、风格化生成” 展开研究，所以我就找相关论文，最后通过 ACL 官网找到这篇，感觉还不错，就开始解读吧！

“说是解读，其实大部分都是翻译哈哈哈，不过是经过俺这🍉脑子的翻译”

✅ NLP 研 1 选手的学习笔记

简介：Wang Linyong，NPU，2023级，计算机技术
研究方向：摘要生成、大语言模型
论文链接：https://aclanthology.org/2024.acl-long.399.pdf，2024 ACL(CCF A) 长文
项目链接：https://lamp-benchmark.github.io/
中文标题：《LaMP：当大模型遇到个性化》，文艺一点：《LaMP：大模型与个性化的邂逅》

在这里插入图片描述

文章目录

0 摘要(Abstract)
1 前言(Introduction)
2 LaMP 基准(The LaMP Benchmark)
- 2.1 任务定义(Tasks Definitions)
- - 2.1.1 LaMP-1: 个性化引文识别
  - 2.1.2 LaMP-2: 个性化电影标签
  - 2.1.3 LaMP-3: 个性化产品评级
  - 2.1.4 LaMP-4: 个性化新闻标题生成
  - 2.1.5 LaMP-5: 个性化学术标题生成
  - 2.1.6 LaMP-6: 个性化邮件主题生成
  - 2.1.7 LaMP-7: 个性化推文改写
- 2.2 数据拆分(Data Splits)
- 2.3 评估(Evaluation)
3 个性化 LLMs 的检索增强(Retrieval Augmentation for Personalizing LLMs)
4 实验(Experiments)
- 4.1 实验设置(Experimental Setup)
- 4.2 用于个性化地微调检索增强语言模型(Fine-Tuning Retrieval Augmented LMs for Personalization)
- 4.3 LLMs 的零样本个性化结果(Zero-Shot Personalized Results for LLMs)
5 LaMP 支持的研究问题(Research Problems Enabled by LaMP)
6 相关工作
7 结论
8 参考文献

0 摘要(Abstract)

● 本文强调了大型语言模型中个性化的重要性，并介绍了 LaMP 基准(benchmark)——一个用于训练和评估语言模型以产生个性化输出的新基准。LaMP 提供了一个全面的评估框架，具有不同的语言任务和每个用户画像(user profile) 的多个条目(entries)。它由 7 项个性化任务组成，跨越 3 个文本分类和 4 个文本生成任务。本文还提出 2 种检索增强方法，从每个用户画像(user profile) 中检索个人事项(personal items)，以个性化语言模型输出。为此，研究了各种检索模型，包括词匹配、语义匹配和时间感知方法。在 LaMP 上进行的零样本(zero-shot) 和微调语言模型的广泛实验，证明了所提出的检索增强方法的有效性，并突出了个性化在各种自然语言任务中的影响。

整篇文章的一些常出现的术语，我的翻译：

文章中一些常出现的术语	我的翻译	`含义`
user profile	用户画像	即用户的一些个人信息和历史(交互)数据等，比如性别、性格、爱好、个人签名、购物历史等
LaMP	语言模型个性化	Language Model Personalization

1 前言(Introduction)

● 最近大型语言模型(LLM)的发展彻底改变了自然语言处理(NLP)应用。随着 LLM 的使用，如 GPT-4 (OpenAI, 2023) 在现实世界应用程序中的发展，个性化成为满足用户对符合其独特需求和偏好的定制体验期望的关键因素 (Huang et al., 2022)。个性化已经被广泛研究，包括信息检索(information retrieval, IR)和人机交互(human-computer interaction, HCI)社区，通常应用于搜索引擎和推荐系统(Fowler等人，2015; Xue et al., 2009; Naumov., 2019)。最近的工作也强调了与个性化 LLM 相关的影响和担忧，并将其与正在进行的对齐(alignment)工作联系起来 (Kirk等人，2023)。尽管如此，以及个性化在许多现实问题中的重要性，开发和评估 LLM 以产生个性化响应仍然相对缺乏研究。为弥合这一差距，本文强调了个性化在塑造 NLP 系统未来中的重要性，并通过引入 LaMP benchmark（Language Model Personalization） ——个性化文本分类和生成任务的全面和多样化基准，迈出了在大型语言模型背景下开发和评估个性化的第一步。

● 虽然现有许多知名 NLP 基准，如 GLUE(Wang et al ., 2018)，Super GLUE(Wang et al ., 2019)，KILT (Petroni et al ., 2021) 和 GEM (Gehrmann et al ., 2021) 促使了在各种 NLP 任务的重大进展，但他们往往采取 “一刀切(one-size-fits-all)” 的 NLP 方法来建模和评估，没带动发展模型以适应终端用户的具体需求，限制了对 NLP 任务中个性化的广泛研究。相比之下，LaMP 提供了一个全面的评估框架，包含需要个性化的各种语言任务。LaMP 由 3 个个性化文本分类任务组成：(1) 个性化引文识别(二分类)。(2) 个性化电影标注(15个标签的类别分类)。(3)个性化产品评分(电子商务产品从 1 星到 5 星的有序分类)。此外，LaMP 还包括 4 个文本生成数据集：(4)个性化新闻标题生成。(5)个性化学术标题生成。(6)个性化电子邮件主题生成。(7)个性化推文改写。对于这 4 个任务，本文探索了个性化中的两个主要设置：(a) 基于用户的数据拆分(data split)为新用户提供个性化。(b) 基于时间的数据拆分为现有用户未来的交互提供个性化。因此，LaMP 为开发个性化 NLP 模型提供了一个丰富的环境。为了促进这一领域的研究，我们发布了 LaMP 基准、数据构建、评估脚本和排行榜。

● 为了个性化语言模型能输出，一个简单的解决方案是将用户画像(user profile)合并到语言模型提示中。然而，用户画像通常很大，超过了大型语言模型的长度限制。即使这种限制随着技术的发展而放宽，处理大型输入序列的成本也是相当大的。为此，本文提出了两个用于 LLM 个性化的检索增强解决方案，其中对于每个测试输入，从用户画像中检索要包含在 LLM 提示中进行个性化的项目。第一种方法 使用内部提示增强(in-prompt augmentation, IPA) 实现个性化，第二种方法 是分别编码每个个人物品，并使用 Izacard 和 Grave(2021) 的解码器内融合模型(fusion-in-decoder model) 在解码器中集成它们。实验表明，使用这种方法，语言模型的性能在 LaMP 基准的所有数据集上都有所提高。基于这种检索增强解决方案，评估了不同的检索器的个性化提示构建，并为微调和零样本语言模型建立了基准结果。研究的实证结果表明，利用个性化增强技术对语言模型进行微调的过程在基准测试中产生了值得注意的相对平均增强 23.5%。即使在使用没有微调的现成的(off-the-shelf) LLM (例如FlanT5-XXL) 的零样本设置中，使用所提出的方法也会导致任务的相对平均提升 12.2%。最后，为开发先进的以用户为中心的 NLP 系统铺平了道路。

2 LaMP 基准(The LaMP Benchmark)

● 问题表述(Problem Formulation)：生成式语言模型通常接受输入 $x$ ，并预测 $x$ 之后最有可能的序列标记 $y$ 。个性化语言模型可以定义为将模型的输出条件化到用户 $u$ 上，由用户画像表示。在 LaMP 中，我们将用户画像定义为用户的历史数据，即用户产生或接受(approve)的过去的输入和个性化输出， $P_u = \{(x_{u1}, y_{u1})，(x_{u2}, y_{u2})，\cdots，(x_{um_u}, y_{um_u})\}$ 。因此，LaMP 基准中的每个数据条目都由三个组件组成：作为模型输入的输入序列 $x$ ，模型期望产生的目标输出 $y$ ，以及封装了所有可用于为用户而个性化的模型的辅助信息的画像信息 $P_u$ 。

● LaMP 的概述。鉴于上述问题表述，本文开发了 LaMP 基准，旨在评估 LLM 在基于输入 $x$ 和用户特定信息 $P_u$ 产生个性化输出 $y$ 的有效性。不同类型的输出 $y$ 产生了 7 个不同的任务，包括个性化文本分类和生成：

个性化文本分类：
(1) 个性化引文识别(Personalized Citation Identification)
(2) 个性化电影标注(Personalized Movie Tagging)
(3) 个性化产品评分(Personalized Product Rating)
个性化文本生成：
(4)个性化新闻标题生成(Personalized News Headline Generation)
(5)个性化学术标题生成(Personalized Scholarly Title Generation)
(6)个性化邮件主题生成(Personalized Email Subject Generation)
(7)个性化推文改写(Personalized Tweet Paraphrasing)

2.1 任务定义(Tasks Definitions)

● 接下来，我们概述 LaMP 中使用的每个任务，并在附录 A 中详细介绍数据构造。

2.1.1 LaMP-1: 个性化引文识别

● 研究人员的引文行为依赖于他们的兴趣，通常用于评估和开发个性化的论文推荐系统(Färber 和 Jatowt, 2020)。该任务将引文推荐重新转换为二分类任务，并评估了语言模型识别用户对引文偏好的能力。具体来说，如果用户 $u$ 写了一篇论文 $x$ ，语言模型必须确定 $u$ 将在 $x$ 中引用两篇候选论文中的哪一篇(见图 3)。

在这里插入图片描述

图 3：用于在 LaMP 中为每个任务创建数据样本的模板概述。每项任务都将电传文本替换为真实的数据。

● 为了生成数据样本，我们利用 Citation Network Dataset (V14) (Tang et al., 2008)，它包括科学论文、作者和引文的信息。对于这项任务，每个用户画像包含他们所撰写的所有论文。在用户的个人资料中，我们只保留每篇论文的标题和摘要。

2.1.2 LaMP-2: 个性化电影标签

● 众所周知，每位用户为电影和书籍等媒体添加标签的行为都是独特的，这取决于他们对标签的理解以及他们关注的该电影或书籍的各个方面。这激发了大量关于个性化标签的工作(Gupta et al., 2010)。用这项任务来评估语言模型根据用户的历史标记行为对电影进行标记分配的能力。具体来说，给定一个电影描述 $x$ 和用户的历史电影标签对，语言模型必须预测 $x$ 的 15 个标签中的一个。我们从 MovieLens 数据集获得标签分配 (Harper and Konstan, 2015)。此外，我们从 MovieDB 获取电影描述。

2.1.3 LaMP-3: 个性化产品评级

● 产品评论通常表达了一组用户对产品的细微偏好，进而决定了他们对产品的评级。在个性化情感预测任务中，基于用户评论预测评分已被广泛研究 (Mireshghallah et al., 2022)。虽然这通常被视为一个回归任务，但为了使用自回归语言模型，我们将其视为一个多分类任务。具体来说，给定用户 $u$ 的历史评论和评分对以及一个输入评论 $x$ ，模型必须从 1-5 预测一个整数评分。我们从亚马逊评论数据集构建了我们的数据集(Ni et al., 2019)。

2.1.4 LaMP-4: 个性化新闻标题生成

● 作者的写作表现出不同的风格元素，受个人和社会因素的影响(Zhu and Jurgens, 2021)。撰写标题的记者可能会在忠实地代表文章、吸引读者和保持自身身份之间取得平衡。这为个性化文本生成提供了一个有用的测试平台。本文评估了语言模型捕捉作者风格模式的能力，方法是给定作者历史文章标题对的用户画像，要求它为输入的新闻文章 $x$ 生成一个标题。为了创建一个数据集，我们使用了 Huffington Post 的文章集合(Misra, 2022; Misra and Grover, 2021)。

2.1.5 LaMP-5: 个性化学术标题生成

● 与 LaMP-4 一样，学术文章标题的生成为个性化文本生成提供了一个测试平台，但在文本领域有所不同。在这项任务中，我们要求语言模型为输入的文章 $x$ 生成标题，给定作者的历史文章-标题对的用户画像。在这里，只使用文章摘要。我们从 Citation Network Dataset (V14) (Tang et al.， 2008)创建数据集，该数据集也用于 LaMP-1。

2.1.6 LaMP-6: 个性化邮件主题生成

● 与 LaMP-4 和 LaMP-5 类似，生成电子邮件主题也为个性化文本生成提供了一个有价值的测试平台。众所周知，电子邮件辅助也是一项从个性化中显著受益的任务(Trajanovski et al., 2021)。在这里，我们要求语言模型为输入的电子邮件消息 $x$ 生成电子邮件主题，给定用户撰写的历史电子邮件主题对。对于这项任务，我们利用了一个私人电子邮件数据集 Avocado Research Email Collection(Oard, Douglas et al., 2015)。鉴于其隐私性质，这不太可能包含在预训练数据中，为语言模型提供了有意义的挑战。

2.1.7 LaMP-7: 个性化推文改写

● 社交媒体上的帖子强烈遵循作者的各种个人风格模式(Zhu and Jurgens, 2021)。本文构建了一个个性化的推文改写任务，要求模型在给定输入推文 $x$ 和该用户历史推文的用户画像的情况下，生成用户风格的推文。为了构建此任务，我们使用来自 Sentiment140 数据集的数据(Go et al., 2009)。图 3 提供了 LaMP 中的任务 1-7 的示例。

2.2 数据拆分(Data Splits)

● 为了能够在常见的个性化设置中进行评估，LaMP 提供了两种不同的数据拆分设置：(1)基于用户的拆分和 (2)基于时间的拆分。在基于用户的拆分(任务 $i$ 用 LaMP-iU 表示)中，训练/验证/测试的划分是通过跨用户进行的，确保在划分中没有共享的用户。该策略衡量了新用户的个性化。

● 在基于时间的划分(任务 $i$ 用 LaMP-iT 表示)中，训练集、验证集和测试集是按照时间顺序划分的。选择最近的用户项来创建输入输出对，旧的项作为用户画像。附录 A 包含了更多的细节，表 1 报告了数据集的大小。

在这里插入图片描述

表 1：LaMP 基准测试中任务的数据统计。LaMP 基准中的每个数据集都有两个评估设置：(a)基于用户的数据拆分，以测试新用户的个性化；(b)基于时间的数据拆分，以测试现有用户未来交互的个性化。

2.3 评估(Evaluation)

● 为了评估分类任务，我们使用 LaMP-1(平衡的二分类)的准确度(Accuracy)，LaMP-2(多分类) 的 Accuracy/F1，以及 LaMP-3(有序多分类)的MAE/RMSE。之前的工作 (Zhou和Bhat, 2021; Panthaplackel et al., 2022) 在文本生成方面，我们使用 Rouge-1/Rouge-L (Lin, 2004)作为文本生成任务的评估指标 (LaMP-4 到 LaMP-7)。

3 个性化 LLMs 的检索增强(Retrieval Augmentation for Personalizing LLMs)

● 为了使语言模型个性化，可以探索两种广泛的策略：(1)为每个用户微调语言模型。(2)用用户特定的输入或上下文提示共享语言模型。前一种方法需要大量的计算资源，特别是对较大的 LLMs 进行微调。此外，在包含数百万或数十亿用户的工业规模系统中为每个用户提供个性化 LLMs，需要大量的存储和服务容量。本文专注于开发通过用户特定输入进行个性化训练模型的策略。

● LaMP 中的每个任务、每个用户画像都包含一个潜在的大量数据点集合。鉴于许多 LLMs 固有的上下文长度约束和处理长序列的成本，纳入了这些数据点的一个子集作为输入提示。此外，并非用户画像中的所有条目都与手头的特定输入相关。为此，本文提出基于检索增强的解决方案(见图 1)。该框架有选择地从用户画像中提取与当前未见过的测试用例相关的相关信息，并以这些信息为条件生成模型预测。

在这里插入图片描述
图 1：用于个性化 LLMs 的检索增强方法概述。 $ϕ_q$ 和 $ϕ_p$ 表示查询和提示构造函数。

● 具体地说，对于一个给定的样本 $x_i, y_i)$ 用户 $u$ ，我们使用三个主要组件：(1)查询生成函数 $ϕ_q$ ，将输入 $x_i$ 转换为查询 $q$ ，用于从用户 $u$ 的画像中检索。(2)检索模型 $\mathcal R(q, P_u, k)$ 接受查询 $q$ ，用户画像 $P_u$ 和从用户画像中检索条目时 $k$ 个最密切相关的条目。(3)提示构造函数 $\phi_p$ ，它根据输入 $x_i$ 和检索到的条目为用户 $u$ 组装个性化提示。在检索增强方面，本文探索了两种策略：(1)内部提示增强(In-Prompt AugmentationI, IPA)。(2)解码器内融合(Fusion-in-Decoder, FiD) (Izacard and Grave, 2021)。这两种方法的输入都构造了输入框 $\overline x_i$ ，用 $\mathcal R$ 从用户画像 $P_u$ 中选择 $k$ 个物品：
$\hat x_i=\phi_p(x_i,\mathcal R(\phi_q(x_i),P_u,k)),\quad(1)$
其中，我们使用 $(\overline x_i,y_i)$ 来训练或评估语言模型。使用 FiD, LLMs 接收多个输入，每个输入都在其编码器中单独编码。这些单独的编码在解码器中合并在一起。在这里，输入的 $\{\overline x_{i1},\cdots,\overline x_{ik}\}$ 表示编码器，其表达式为：
$\overline x_{ij}=\phi_p(x_i,d_{ij})$
其中 $d_{ij}$ 是使用用户画像中的检索模型的第 $j$ 个检索项(即 $\mathcal R(ϕ_q(x_i), P_u, k)$ )。请注意，IPA 和 FiD 提供了不同的权衡(tradeoffs)。FiD 需要对语言模型进行训练，而 IPA 可能不需要训练就可以应用。此外，FiD 只能与编码器-解码器模型一起使用，而 IPA 可以跨体系结构使用。然而，FiD 允许我们将用户画像中的更多项目合并到 LLM 的输入中。

● 我们探索了检索模型 $\mathcal R$ 的各种选择。在实验中，我们研究了强词匹配模型 BM25 (Robertson et al., 1995)、SOTA 预训练密集检索模型，Contriever (Izacardrtal., 2022)，一种按降序返回最近的个人资料条目的检索模型(即Recency)，以及用户资料中随机的文档选择器。提示构造函数 $ϕ_p$ 连接了每个任务的指令、输入序列和用户画像。具体的提示如表 5 所示。对于 $ϕ_q$ 函数，我们使用每个任务的目标输入作为查询(参见图 3)。

在这里插入图片描述

表 5：用于将用户画像扩充 LM 输入的提示模板。Concat 是一个函数，它将第一个参数中的字符串放在它们之间的第二个参数中，从而连接第一个参数中的字符串。add_to_paper_title 是一个函数，用于在个性化引文识别任务中将第一个参数中的字符串添加到论文标题中。PPEP 是一个函数，它为检索到的画像条目中的每个条目创建提示。[INPUT] 是任务的输入。

4 实验(Experiments)

● 本节介绍我们在 LaMP 基准上的实验、结果和发现。

4.1 实验设置(Experimental Setup)

● 为了训练 FiD 和 IPA 中的生成模型，我们使用 AdamW (Loshchilov and Hutter, 2019)，学习率为 5×10⁻⁵，批处理大小为 64，并使用线性调度器设置总训练步骤的 5% 作为热身。权重衰减 10⁻⁴ 以防止过拟合。最大输入和输出长度分别设置为 512 和 128 个 token。分别训练了 10 和 20 个 epoch 的分类和生成模型。所有实验都使用 FlanT5-base (Chung et al., 2022)模型，除非另有明确说明(在使用 LLMs 的实验中，我们使用 FlanT5-XXL)。采用束搜索(beam search) (Freitag and Al-Onaizan, 2017)，束搜索的大小为 4。所有模型都用 Huggingface transformer 实现，并使用 evaluate 库进行评估。所有实验均在单个 Nvidia RTX8000 GPU 上进行，GPU 内存为 49GB, CPU内存为 128GB，每次实验最多 3 天。所有报告的结果都是基于一次运行。

4.2 用于个性化地微调检索增强语言模型(Fine-Tuning Retrieval Augmented LMs for Personalization)

● 在第一组实验中，我们为微调的语言模型建立了基线版的个性化结果。我们还研究了使用各种检索技术的影响，以及从用户画像中检索不同数量条目的效果。该分析旨在为个性化任务提供不同检索方法的有效性以及调整检索条目数量的潜在好处。

● 检索器对“检索-增强个性化模型”的影响。本文使用微调的 FlanT5-base 模型来研究 $\mathcal R$ 的不同实现，以生成个性化输出：(1)用户画像中的基线随机选择器。(2) BM25 (Robertson et al., 1995)。(3) Contriever4 (Izacard等人，2022)。(4) Recency，即根据时间在用户画像中选择最新的项目(仅用于基于时间的拆分设置)。BM25 是一种鲁棒的强词匹配检索模型，而 Contriever 是一种预训练的密集检索模型。

在这里插入图片描述

表 2：在基于用户设置的测试集上进行微调的 LM 的结果。用于个性化 LM 的检索文档数量用 k 表示。在验证集上调整配置文件的详细信息见附录 D 中的表6。

基于用户的拆分实验结果如表 2 所示，基于时间的拆分实验结果如表 3 所示。结果表明，个性化提高了 LaMP 基准测试中所有任务的性能。在大多数情况下，即使从用户画像中随机选择文档并创建个性化提示，与提供给 LM 的非个性化提示相比，也可以提高性能。请注意，非个性化提示可以在没有检索增强(无检索)的情况下实现，也可以通过从所有用户画像中随机选择一个项目来增强。更多非个性化基线的结果见附录 E。

在这里插入图片描述

表 3：基于时间设置的测试集上的微调 LM 的结果。用于个性化 LM 的检索文档数量用 k 表示。在验证集上调整配置文件的详细信息见附录 D 中的表 8。

当为每个用户检索一个文档以个性化语言模型的输出时，Contriver 对大多数分类任务 (即LaMP-1U、LaMP-2U、LaMP-3U、LaMP-1T 和LaMP-2T) 都显示了最佳性能。Recency 仅在 LaMP-3T 上优于 Contriever。注意，在搜索和推荐中，Recency 被认为是一个简单而强大的个性化信号(Fader et al., 2005; Reinartz and Kumar, 2000, 2003)。在文本生成方面，在基于用户的拆分设置下，Contriver 在个性化新闻标题生成 (LaMP-4U) 和个性化推文解释 (LaMP-7U) 方面表现最佳。对于电子邮件生成和学术标题生成任务 (LaMP-5U和LaMP-6U)， BM25 表现出卓越的性能。BM25 和 Contriever 在所有 LaMP 数据集上的表现都优于随机画像选择器。对于基于时间的拆分设置，Contriever 在除新闻标题生成 (LaMP-4T) 外的所有生成任务中都优于其他方法，其中 Recency 表现更好。

一般来说，结果表明，将用户画像中的任何信息纳入输入是不够的，而是选择最相关和/或最近的信息是至关重要的。这强调了在 LLM 提示中选择和合并相关用户画像元素时仔细考虑的重要性。在我们研究的检索模型中没有明确的赢家，未来应该研究 相关性 和 时间信号的集成 以实现个性化。

检索项数量 k 对 LLMs 个性化的影响。此基准测试中的每个示例由大量用户画像条目组成。因此，探索合并多个条目以增加语言模型输入的影响，可以为解决该基准带来的未解决的挑战提供有价值的见解。为了节省空间，我们专注于用于个性化的内部提示增强(IPA) 方法，并在图 2 中描述了模型在不同画像大小下的性能。这个实验使用了表 2 和表 3 中的最佳检索器进行不同的任务，同时改变了从用户画像中检索到的条目的数量。结果表明，增加检索项目的数量可以提高下游任务的性能。然而，有些任务的性能会下降。鉴于语言模型的上下文大小有限，探索从多个用户条目中生成统一提示的方法 可能是有前途的未来工作。

在这里插入图片描述

图 2：使用表 2 和表 3 中每个任务的最佳检索器对下游任务的性能，从用户画像中检索到的条目数量 k 不同。实验结果表明，对于大多数数据集，增加检索文档的数量可以获得更好的个性化性能。

● 调优检索器超参数的影响。基于每个数据集的验证集上的性能，我们调整了两个参数：(1) IPA 和 FiD 的检索模型 (BM25 vs. Contriver vs. Recency)，以及 IPA 的检索条目数(k)。我们在 FiD 中始终使用 16 个文档，因为我们没有观察到结果有太多差异。IPA 和 FiD 方法都使用 FlanT5-base。对于超参数调优，我们在开发集上使用了以下指标：LaMP-1 和 LaMP-2 的准确性，LaMP-3 的 MAE 和所有文本生成任务的 ROUGE-1。表 2 和表 3 的最后两列给出了调优后模型的结果。正如预期的那样，调优后的模型在所有数据集上都优于其他模型。对于文本分类任务，FiD 在除 LaMP-1T 外的所有数据集上的性能都超过了 IPA。相反，IPA 在所有文本生成数据集上都表现出卓越的性能。

4.3 LLMs 的零样本个性化结果(Zero-Shot Personalized Results for LLMs)

● 随着当代研究中广泛采用没有微调的 LLMs，在基准上对两个这样的模型进行了评估。特别地，我们利用了 GPT 3.5 (别名 GPT-3.5-turbo 或ChatGPT)和FlanT5-XXL (Chung et al., 2022)。FlanT5-XXL 包含 11B 个参数，然而 GPT-3.5 的大小是未知的(GPT3 包含 175B 个参数)。为了评估，为每个模型提供了与单个任务相对应的输入，并根据生成的输出评估其性能。在分类任务中，如果产生的输出不对应于有效的类，则依靠利用 BERTScore 计算每个类标签和生成的输出之间的相似性(Zhang* et al., 2020)。因此，我们将最相似的标签分配给生成的输出，作为给定输入的输出。对于 LaMP-1U、LaMP-1T、LaMP-2U、LaMP-2T、LaMP-3U 和 LaMP-3T 任务，GPT-3.5 在 8%、4%、6%、4%、2% 和 4% 的时间内产生了超出标签的预测。另一方面，FlanT5-XXL 的预测在被质疑的标签中一致。

注：如前所述，FiD 方法不能用于未经训练的模型。因此，本节所进行的实验只适用于 IPA 方法。

● 表 4 显示了在零样本场景下 LLMs 在此基准上的结果。结果表明，除了个性化推文转述任务外，将用户画像与 LLMs 一起使用可以在零样本设置下提高该基准的性能。

● 最后，重要的是要强调，观察到的结果表明 FlanT5-XXL 的性能优于 GPT-3.5，不应被解释为后者模型的固有缺陷。LLMs 的功效在很大程度上取决于输入提示的大小和构造。值得注意的是，对 LLMs 的性能起重要作用的提示工程(prompt engineering) 不是本研究的中心目标。因此，性能上的任何差异都必须根据上下文信息进行评估。

5 LaMP 支持的研究问题(Research Problems Enabled by LaMP)

● LaMP 可以促进几个领域的研究，包括但不限于：

个性化提示语言模型(Prompting Language Models for Personalization.)。可以使用硬提示(hard prompt)将用户画像集成到语言模型中，但其有限的上下文大小使其难以包括冗长的用户画像条目。探索不同的个性化提示可能很有趣。另一种解决方案是根据用户画像生成个性化提示，而不是依赖检索到的条目。此外，使用软提示(soft prompt)(Lester等人，2021)可以帮助个性化语言模型。
个性化文本生成评估(Evaluation of Personalized Text Generation)。文本生成的常用评价指标，是否基于语法(Lin, 2004; Banerjee and Lavie, 2005; Papineni et al., 2002)或语义(Zhang* et al., 2020)，都不会将用户纳入他们的评估过程。因此，这些指标可能并不完全适用于评估个性化文本生成问题。探索能够反映用户偏好的新的评估指标 可以使该领域的研究受益。
学习从用户配置文件中检索(Learning to Retrieve from User Profiles)。排序学习在各种检索场景中得到了广泛的探索。优化选择个性化条目以实现个性化文本分类和/或生成的排名模型 将是一个有潜在影响的研究方向。

6 相关工作

● 个性化在信息访问问题上已经得到了充分的研究，Netflix Challenge 的组织及其相关数据集是学术关注个性化的重要驱动力 (Konstan and Terveen, 2021)。它也代表了大规模行业推荐系统的一个重要元素 (Davidson et al., 2010; Das etal., 2007; Xu et al., 2022)，也被广泛研究用于搜索应用 (Bennett et al., 2012; Du ,2016; Croft et al., 2001; Tabrizi et al., 2018; Zeng et al., 2023)，从查询自动补全(Jaech and Ostendorf, 2018)到协同个性化搜索(Xue et al., 2009)。

● 对话智能体的个性化已被广泛研究(Wu et al., 2021; Zhang et al., 2018; Mazaré et al., 2018)。与其他 NLP 任务相比。这种关注可能源于为用户定制对话的重要性，以及对特定角色的生成话语进行条件反射。鉴于缺乏真实的对话数据，一些工作通过推动众包工作者到基于特定角色的作者对话(Zhang et al., 2018)，以及通过从 Reddit 中提取用户属性和话语(Mazaré et al., 2018; Wu et al., 2021)和微博(Zhong et al., 2022; Qian et al., 2021)。为了利用更真实的对话数据，Vincent 等人(2023) 最近的工作对具有叙事角色角色的电影对话数据集进行了标注，并假定使用 LLMs 进行以这些角色为条件的对话生成的潜力。其他工作还利用公开的评论和食谱来探索评论的个性化(Li and Tuzhilin, 2019)和食谱生成(Majumder et al., 2019)。Wuebker等人(2018) 探索了参数高效的个性化翻译模型。Ao等人(2021) 提出了一个基于微软新闻上真实用户交互数据构建的个性化标题生成数据集。这与 LaMP-4 任务密切相关，该任务侧重于作者的个性化，而不是读者的个性化。LaMP 提供了与基于对话的任务相比关注度较低的资源——扩展个性化文本分类/生成系统未被探索的空间(Flek, 2020; Dudy et al., 2021)。

● 虽然大量的工作集中在面向用户的应用程序上，但其他人则探索了语言建模中更基本问题的个性化。他们使用 Reddit (Welch et al., 2022)、Facebook、Twitter(Soni et al., 2022) 和其他博客网站(King and Cook, 2020)上公开可用的用户数据。除了对语言模型进行个性化预训练外，Soni等人(2022) 探索了在立场分类和人口统计学推断的下游任务中应用个性化语言模型。类似地，其他工作探索了公开可用的 Yelp 和 IMDB 数据上的个性化情感预测(Mireshghallah et al., 2022; Zhong et al., 2021)——这项工作与 LaMP-3 任务相似，并与推荐任务中探索的评分预测联系在一起。最后，Plepi 等人(2022) 研究了个性化方法在依赖于建模社会规范的分类任务中对标注者进行建模的应用——在个性化和适应自然语言处理中人类标签变化的新兴工作之间建立了重要联系(Rottger et al, 2022; Gordon et al., 2022; Plank, 2022)。

7 结论

● 提出了一种新的用于训练和评估个性化文本分类和生成语言模型的测试基准 LaMP。LaMP 由 7 个数据集组成：3 个分类数据集和 4 个生成数据集。我们提出了个性化 LLMs 的检索增强解决方案。值得注意的是，研究了两种增强方法：提示增强(IPA)和解码器内融合(FiD)。我们使用各种 LLMs 和检索技术进行了广泛的实验，以选择用户画像条目以产生个性化提示。证明了所提出的 LLMs 个性化方法在零样本设置下可以导致 12.2% 的跨数据集平均性能提升，在微调下可以带来 23.5% 的性能提升。强调了在当前由大型语言模型主导的时代，个性化的至关重要。我们坚信，自然语言处理系统的未来在于以用户为中心的方法，根据个人需求定制解决方案以获得最佳效果。