提升多跳问答中的语言模型知识编辑能力

news2025/7/4 6:21:27

人工智能咨询培训老师叶梓转载标明出处

大模型在静态知识库的更新上存在局限，特别是在面对需要多步骤推理的多跳问题时，难以提供准确和最新的回答。为了解决这一问题，来自美国佐治亚大学、纽约大学、莱斯大学、北卡罗来纳州立大学等机构的研究人员提出了一种名为“检索增强型知识编辑（Retrieval-Augmented model Editing, RAE）”的框架。图1展示了一个例子，说明了传统的基于相似度的搜索方法在检索用于语言模型编辑的正确事实时的不足，以及如何通过更复杂的检索策略来改进这一过程。

论文链接：https://arxiv.org/pdf/2403.19631

方法

检索增强型知识编辑框架旨在提升多跳问答中的语言模型性能，主要包含两个关键步骤：(1) 检索与问题相关的编辑过的事实（edited facts）；(2) 使用这些检索到的事实通过上下文学习（in-context learning）编辑语言模型。

简单的编辑方法可能会使用基于相似度的搜索来检索与目标问题相似的编辑过的事实。这些事实随后被整合到一个提示模板中，通过上下文学习进行编辑。例如，模板可以是“Given fact: {𝛿′}, {𝑞} ?”。然而，这种方法在检索需要回答𝑞的问题时编辑过的事实Δ𝑞时存在困难，因为这些事实通常包含与𝑞不同的实体，导致在大型事实库Δ中得到低相似度分数。

为了解决这个问题，研究者提出了编辑事实链提取的方法来获取。每个本质上形成了一个连接的知识图谱（KG）。这样的知识图谱可以通过从一个实体到另一个实体的迭代遍历来检索。

图2展示了检索增强型上下文模型编辑方法的总体框架。在这个框架中，可以看到从外部知识图谱到编辑记忆的步骤，然后通过互信息基于检索得到检索事实，最后通过上下文学习进行编辑。

研究者介绍了如何构建一个连接不同事实的知识图谱，并提出了给定输入问题时提取相关子图的目标：

为了有效地编辑，检索到的子图𝐺𝑆必须与问题共享相关信息。因此，定义子图检索的目标是最大化子图和需要编辑答案的问题集之间的互信息（MI）。互信息的公式化定义如下：

\text{max}_{𝐺𝑆} \𝐼(𝑄;𝐺𝑆) = 𝐻(𝑄) − 𝐻 (𝑄 | 𝐺 = 𝐺𝑆)

这里，𝐻(𝑄)是固定的问题集𝑄的香农熵，是常数。因此，最大化互信息𝐼(𝑄;𝐺𝑆)相当于最小化条件熵𝐻(𝑄 | 𝐺 = 𝐺𝑆)。

为了解决实际中计算𝑝(𝑞|𝐺 = 𝐺𝑆)的挑战，研究者提出了利用大型语言模型的下一词预测能力来计算概率。给定形成尾到头连接知识图谱的事实链，提取的子图𝐺𝑆可以表示为𝐺𝑆 =(ℎ1, 𝑟1, 𝑡1, ..., ℎ𝑛, 𝑟𝑛, 𝑡𝑛)，其中ℎ𝑖和𝑡𝑖是节点，𝑟𝑖是边，𝑛是检索到的三元组的数量。

为了减少检索到的子图中可能引入的不相关信息，研究者提出了一种剪枝方法，该方法利用模型输出的不确定性来消除冗余事实。通过实验验证了这种方法的有效性，实验中使用了不同的事实子集作为模型输入，并观察到当事实子集包含问题的全部事实链时，模型输出的熵显著降低。

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。9月22日晚，实战专家1小时讲解让您轻松上手，学习如何使用 Llama Factory 微调模型。

加助理微信提供直播链接：amliy007，29.9元即可参加线上直播分享，叶老师亲自指导，互动沟通，全面掌握Llama Factory，关注享粉丝福利，限时免费CSDN听直播后的录播讲解。

LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择，以及丰富的实验监控工具。开源特性和社区支持使其易于使用，适合各类用户快速提升模型性能。

实验

实验回答以下问题：

RAE在编辑LLM输出方面的效果如何？
他们的检索策略与其他检索方法相比表现如何？
他们提出的剪枝技术是否能够从检索到的事实中移除冗余信息？
RAE是否适用于专有的LLMs？

实验涉及多种不同大小和系列的语言模型，包括GPT-2 (1.5B), GPT-J (6B), Falcon (7B), Vicuna (7B), 和 Llama2-chat (7B)。这些模型中，GPT-2, GPT-J, 和 Falcon 是未经指令调整的预训练语言模型，而Vicuna 是 Llama1 的指令调整变体，Llama2-chat 是 Llama2 的指令调整版本。包括这两种类型的模型，以验证所提方法的有效性。

三种模型编辑方法进行比较：模型权重更新方法、辅助模型方法，以及基于RAG的方法。Subgraph Retriever (SR) 作为高级知识检索方法的基准。

在MQUAKE-CF 和 MQUAKE-T 数据集上评估了编辑方法。这些数据集包含不同跳数的问题的编辑实例。利用 MQUAKE-CF-9k 数据集中的相关案例来为基线和方法制作提示模板。