【大模型基础_毛玉仁】6.4 生成增强

news2026/4/25 14:18:45

6.4 生成增强

检索器得到相关信息后，将其传递给大语言模型以期增强模型的生成能力。利用这些信息进行生成增强是一个复杂的过程，不同的方式会显著影响 RAG 的性能。

如何优化增强过程围绕四个方面讨论：

何时增强，确定何时需要检索增强，以确保非必要不增强；
何处增强，确定在模型中的何处融入检索到的外部知识，以最大化检索的效用；
多次增强，如何对复杂查询与模糊查询进行多次迭代增强，以提升 RAG 在困难问题上的效果；
降本增效，如何进行知识压缩与缓存加速，以降低增强过程的计算成本。

6.4.1 何时增强

大语言模型在训练过程中掌握了大量知识，这些知识被称为内部知识（Self Knowledge）。对于内部知识可以解决的问题，我们可以不对该问题进行增强。

不对是否需要增强进行判断而盲目增强，可能引起生成效率和生成质量上的双下降。

判断是否需要增强的核心在于判断大语言模型是否具有内部知识。两种方法：

外部观测法，通过 Prompt 直接询问模型是否具备内部知识，或应用统计方法对是否具备内部知识进行估计，这种方法无需感知模型参数；
内部观测法，通过检测模型内部神经元的状态信息来判断模型是否存在内部知识，这种方法需要对模型参数进行侵入式的探测。

1）外部观测法

外部观测法：通过直接对大语言模型进行询问或者观测调查其训练数据来推断其是否具备内部知识。判断方法有：

Prompt 直接询问大语言模型是否含有相应的内部知识
反复询问大语言模型同一个问题观察模型多次回答的一致性。
翻看训练数据来判断其是否具备内部知识。
设计伪训练数据统计量来拟合真实训练数据的分布，间接评估模型对知识的学习情况。比如，由于模型对训练数据中低频出现的知识掌握不足，而对更“流行”（高频）的知识掌握更好，因此实体的流行度作可以作为伪训练数据统计量。

2）内部观测法

分析模型在生成时内部每一层的隐藏状态变化，比如注意力模块的输出、多层感知器 (MLP) 层的输出与激活值变化等，来进行评估其内部知识水平。

模型的中间层前馈网络在内部知识检索中起关键作用，通过训练线性分类器（探针）可区分问题是否属于模型“已知”或“未知”。研究针对注意力层输出、MLP层输出和隐层状态三种内部表示设计实验，结果表明大语言模型利用中间层隐藏状态进行分类时准确率较高，验证了中间层能有效反映模型对问题的知识储备。

6.4.2 何处增强

在确定大语言模型需要外部知识后，我们需要考虑在何处利用检索到的外部知识，即何处增强的问题。

输入端、中间层和输出端都可以进行知识融合操作:

在输入端，可将问题和检索到的外部知识拼接在 Prompt 中；
在中间层，可以采用交叉注意力将外部知识直接编码到模型的隐藏状态中；
在输出端，可以利用外部知识对生成的文本进行后矫正。

6.4.3 多次增强

实际应用中，用户对大语言模型的提问可能是复杂或模糊的。

处理复杂问题时，常采用分解式增强的方案。该方案将复杂问题分解为多个子问题，子问题间进行迭代检索增强，最终得到正确答案。
处理模糊问题时，常采用渐进式增强的方案。该方案将问题的不断细化，然后分别对细化的问题进行检索增强，力求给出全面的答案，以覆盖用户需要的答案。

图 6.24: DSP 流程示意图（分解式增强）
在这里插入图片描述

图 6.25: TOC 框架流程示意图（渐进式增强）
在这里插入图片描述

6.4.4 降本增效

检索出的外部知识通常包含大量原始文本。将其通过 Prompt 输入给大语言模型时，会大幅度增加输入 Token 的数量，从而增加了大语言模型的推理计算成本。

此问题可从去除冗余文本与复用计算结果两个角度进行解决。

1）去除冗余文本

去除冗余文本的方法通过对检索出的原始文本的词句进行过滤，从中选择出部分有益于增强生成的部分。

去除冗余文本的方法主要分为三类：

Token级别的方法：
子文本级别的方法；
全文本级别的方法。

（1）Token级别的压缩方法：

通过评估Token的困惑度来剔除冗余信息。困惑度低的Token表示信息量少，可能是冗余的；困惑度高的Token则包含更多信息。LongLLMLingua框架利用小模型计算困惑度，首先进行粗粒度压缩，通过文档的困惑度均值评估其重要性；然后进行细粒度压缩，逐个Token评估并删除低困惑度的Token。此外，该方法还引入了文档重排序、动态压缩比率和子序列恢复机制，以确保重要信息被有效保留。

（2）子文本级别方法通过：

评估子文本的有用性进行成片删除。FITRAG方法利用双标签子文档打分器，从事实性和模型偏好两个维度评估子文档。具体步骤为：滑动窗口分割文档，双标签打分器评分，最后删除低评分子文档以去除冗余。

（3）全文本级别方法：

通过训练信息提取器直接从文档中抽取出重要信息以去除冗余。PRCA方法分为两个阶段：