纠错检索增广生成论文

news2025/2/23 9:05:37

一、摘要

动机：RAG严重依赖于检索文档的相关性，如果检索出错，那么LLM的输出结果也会出现问题

解决方案：提出纠正性检索增强生成（CRAG）即设计一个轻量级的检索评估器，用来评估针对某个查询检索到的文档的整体质量，并返回一个置信度，基于此可以触发不同的知识检索操作。

由于从静态且有限的语料库中检索只能返回次优文档，因此我们利用大规模网络搜索作为扩展手段，以增强检索结果

还设计了一种分解-重组算法，用于对检索到的文档进行选择性聚焦，提取关键信息并过滤掉无关信息。

二、相关工作

1.LLM

因为内部信息过时、有可能错误等会导致输出幻觉

2.RAG

如果检索出错会怎样？因为引入检索的目的是确保生成式语言模型能够获取相关且准确的知识。如果检索到的文档不相关，检索系统甚至可能加剧语言模型产生的事实性错误。

3.高级RAG

Self-RAG（Asai等，2024）被提出，它能够选择性检索知识，并引入一个评判模型来决定是否进行检索。

Yoran等（2024）设计了一个自然语言推理（NLI）模型，用于识别无关上下文并提高鲁棒性。

SAIL（Luo等，2023）通过指令调优，在指令前插入检索到的文档。Toolformer（Schick等，2023）则通过预训练来调用诸如维基百科等API

Jiang等（2023）在生成长文本时主动预测未来内容，并决定何时检索以及检索什么内容。

总结：与近期与我们工作最相关的研究（Schick等，2023；Luo等，2023；Asai等，2024）相比这些方法的目标是将检索作为一种有用的工具来增强生成，或者判断检索是否必要，而本研究则特别关注检索器返回不准确结果的场景。

三、任务表述

RAG的表述：

X：输入

C={d1.....dN}：包含大量知识文档的语料库

Y：生成的结果

R：检索器

G：生成器

D={dr1....drk}：检索器根据输入检索到前k个相关文档

RAG的两个阶段：

1.检索阶段：P(D∣X)：

检索器 R 根据输入 X 计算每个文档 di 的相关性得分。
选择前 k 个最相关的文档组成集合 D。
P(D∣X) 表示在给定输入 X 的条件下，检索到文档集合 D 的概率

2.生成阶段：P(Y,D∣X)：

生成器 G 基于输入 X 和检索到的文档 D 生成结果 Y。
P(Y,D∣X) 表示在给定输入 X 的条件下，生成结果 Y 且检索到文档 D 的联合概率。

联合概率（Joint Probability）是概率论中的一个重要概念，用于描述多个事件同时发生的概率。具体来说，联合概率表示两个或多个随机变量在特定条件下同时取某些值的概率。

P(X=x,Y=y)

3. 整体生成概率：P(Y∣X)：

整体生成概率 P(Y∣X) 可以表示为检索阶段和生成阶段的联合概率：
P(Y∣X)=D∑P(D∣X)P(Y∣X,D)其中，P(Y∣X,D) 是在给定输入 X 和检索到的文档 D 的条件下生成结果 Y 的概率。

RAG可以表述为：P(Y|X) = P(D|X)P(Y, D|X).

这表明检索器和生成器是紧密耦合的，表现出较低的风险容忍度。任何检索失败都可能导致不理想的响应，即使生成器具备出色的能力。这也正是本文的重点，即提高生成的鲁棒性。

四、CRAG：校正性检索增强生成

1.模型推理概述

给定输入查询和从任意检索器检索到的文档，构建一个轻量级检索评估器来估计检索文档与输入查询的相关性得分（第 4.2 节）。

相关性得分被量化为三种置信度，并触发相应的操作：{正确、错误、模糊}（第 4.3 节）。如果触发“正确”操作，检索到的文档将被细化为更精确的知识片段。这一细化操作包括知识分解、过滤和重组（第 4.4 节）。如果触发“错误”操作，检索到的文档将被丢弃，转而依赖网络搜索作为补充知识源进行校正（第 4.5 节）。最终，当无法自信地做出正确或错误的判断时，会触发一种软性且平衡的“模糊”操作，该操作结合了前两者。

在优化检索结果后，可以采用任意生成模型。如图：