【AI论文精读4】RAG论文综述2（微软亚研院 2409）P2-问题定义

news2025/7/13 13:45:13

【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI大项目】【AI应用】

P1

二、问题定义

数据增强的大语言模型（LLM）应用可以采取多种形式，从常见的基于领域特定数据的问答机器人，到复杂数据管道中的语义处理操作，甚至是处理多代理系统中特定步骤的代理。然而，通常来说，数据增强的LLM应用可以表述为以下形式：

$Q^{D} \rightarrow A$

其中， $Q$ 、 $A$ 和 $D$ 分别代表用户的输入（查询）、期望的回答（答案）以及给定的数据。应用的任务 $f$ 是基于 $D$ 建立从 $Q$ 到 $A$ 的映射关系。

与仅依赖现有知识的独立LLM系统相比，数据增强的LLM应用的特点是依赖外部数据 $D$ 来准确处理所提出的查询 $Q$ 。外部数据 $D$ 的引入可以显著增强LLM的能力，使其能够利用当前的领域特定知识并理解专家的推理。查询的复杂性可以根据其使用外部数据的广度和方式进行分层，反映了应对查询时所需的深度和参与度。

2.1 查询分层（Stratification of Queries）

在数据增强的大语言模型（LLM）应用中，查询可以根据其复杂性和所需的数据交互深度进行分层。这种分层有助于理解LLM在生成准确和相关的响应时必须执行的不同认知处理水平。从简单的事实检索到对隐性知识的细致解读，每个层次都代表着LLM处理任务复杂程度的逐步提升。以下是这些层次的详细说明：

1. 一级查询：显性事实（Explicit Facts）

定义：这些查询涉及在给定数据中直接存在的显性事实，而不需要任何额外的推理。这是最简单的查询形式，模型的主要任务是定位并提取相关信息。
现实示例：“2024年夏季奥运会将在哪里举办？”。这一问题的答案直接包含在外部数据中，只需检索出答案即可（例如，奥运会举办地为巴黎）。

2. 二级查询：隐性事实（Implicit Facts）

定义：这些查询要求模型推断数据中不明显的事实，可能需要一定的常识推理或基本的逻辑推导。所需信息可能分布在多个片段中，模型需要将它们结合起来作出简单的推论。
现实示例：“堪培拉所在的国家现在的多数党是什么？”。这一问题需要将堪培拉位于澳大利亚的事实与澳大利亚现执政党信息相结合来回答。

3. 三级查询：可解释的推理（Interpretable Rationales）

定义：这类查询不仅需要掌握事实内容，还要求模型理解并应用数据上下文中特定领域的推理。通常，这些推理是外部资源提供的领域知识，在模型的预训练阶段可能没有遇到过。
现实示例：在制药领域，LLM需要解读FDA指南来评估特定药物申请是否符合监管要求。同样，在客户支持场景中，LLM必须理解预定义的工作流程，以有效处理用户查询。在医疗领域，许多诊断手册提供了权威的标准化诊断标准，例如急性胸痛的管理指南【14】。通过有效遵循这些已有的外部推理，可以开发出一个用于管理胸痛的专业LLM专家系统。

4. 四级查询：隐藏的推理（Hidden Rationales）

定义：这一类查询涉及更具挑战性的领域，在这里推理过程没有明确记录，但必须通过从外部数据中观察到的模式和结果进行推断。隐性推理不仅指隐含的推理链和逻辑关系，还包括识别和提取每个具体查询所需的外部推理的复杂任务。
现实示例：在IT运营场景中，模型可能需要从过去解决的事件中推断出成功的隐性策略。在软件开发中，模型可能需要从调试历史中提取隐含的原则，尽管每次调试决策的逐步推理过程可能没有系统记录。