RAG综述《Retrieval-Augmented Generation for Large Language Models: A Survey》笔记

文章目录

- 概述
- RAG 的定义
- RAG的框架
- - Naive RAG
  - Advanced RAG
  - - pre-retrieval process
    - Retrieval
    - post-retrieval process
  - Modular RAG
- Retrieval
- - Enhancing Semantic Representations
  - - chunk 优化
  - 微调向量模型
  - Aligning Queries and Documents
  - Aligning Retriever and LLM
- Generation
- Augmentation in RAG
- - RAG in Augmentation Stages
  - Augmentation Source
  - Augmentation Process
  - RAG vs Fine-Tuning
- RAG Evaluation
- - Evaluation Targets
  - Evaluation Aspects
  - Evaluation Benchmarks and Tools
- Llamaindex的cheet sheet
- 参考资料

RAG(Retrieval-Augmented Generation)综述 Retrieval-Augmented Generation for Large Language Models: A Survey 粗略笔记，笔记中的图片大部分来自论文。

概述

LLM令人赞叹的能力之外也面临着幻觉、过时的知识、不透明、无法回溯的推理过程等挑战，RAG(Retrieval-Augmented Generation，检索增强)在2023年以来是解决这些LLM面临的挑战的热门解决方法。

综述《Retrieval-Augmented Generation for Large Language Models: A Survey》对RAG的发展和相关技术作了全面的总结。作者们将RAG范式进展概括为三个部分：Naive RAG, the Advanced RAG, the Modular RAG。将RAG相关研究演变分为如下图的四个阶段，这四个阶段是伴随着大模型的能力来演进的，其共性都是为了让模型更好的利用知识。
在这里插入图片描述

作者总结的RAG生态图

在这里插入图片描述

RAG 的定义

下图的RAG使用案例展示了RAG的工作流程：

Indexing: 语料被切分成块，进行向量编码后建立索引
Retrieval: 检索与问句相似度高的相关文档
Generation: LLM基于检索到的上下文生成对应问题的回答

在这里插入图片描述

RAG关键问题：

what to retrieve，从simple token --> entity retrieval --> chunk --> knowledge graph 粒度逐渐变粗。
when to retrieve，从single --> adaptive --> multiple retrieval method检索频次增加。
how to use the retrieved information, 结合方式从 input–> intermedia --> output layers 发展

RAG的框架

Naive RAG

Naive RAG的三个主要流程Indexing、Retrieval、Generation如前一节所述。实际应用时它在Retrieval、Generation、Augmentation这三个地方面临着一些挑战：

检索质量面临的挑战：低精度可能会造成幻觉、低召回可能使LLM无法全面回答问题
生成质量可能产生幻觉
增强过程面临着如何有效结合检索到的上下文到生成任务的挑战，可能会生成杂乱无章和不一致的输出。此外还有信息冗余和重复的问题
如何区分多个检索文档的重要性和相关度，如何调和不同写作风格和语调确保输出的一致性
如何避免模型只是重复检索的内容而不提供有价值的信息

Advanced RAG

为了克服Naive RAG的缺点，对于检索质量，Advanced RAG采用了一些检索前(pre-retrieval)和检索后(post-retrieval)策略，对于索引使用了滑动窗口、细粒度分隔和metadata等。

pre-retrieval process

这一过程主要是优化数据索引，目的是为了提高被索引内容的质量，有五个主要策略：

增加数据粒度(Enhancing data granularity)：去掉不相关信息、消除实体和词项的模糊性、确认事实准确性、更新过期文档。
优化索引结构(Optimizing index structures): 调整分块chunk的大小、查询多个索引、利用图结构来捕捉相关信息
添加元数据信息(Adding metadata information)：添加相关元数据信息如日期、目的等用来过滤chunk，以及参考文献的章节和分段信息来提高检索效率。
对齐优化(Alignment optimization): 引入”假设问题“来对齐文档（HyDE)
混合检索

Retrieval

检索阶段主要是计算查询与chunk的相似性，而向量模型对这个过程很关键，优化向量模型的方法：

微调向量模型，使用大模型如GPT-3.5-turbo基于文档chunk来生成一些问题后组成的语料对可作为微调语料。
Dynamic Embedding，即相同的词对应到不同的上下文会有不同的向量表示。（对作者列的这一点有些疑问，现在主流的向量模型都是动态Embedding了，为啥要在这里单独列出来？）

post-retrieval process

如果直接将检索到的所有信息都喂给LLM，可能会超过LLM的上下文窗口限制，并且也可能会引入噪声使LLM不能专注在主要信息上。现在的检索后处理方法有：

Re-Ranking. 对检索到的信息进行重排序，可以使用bge-rerank、cohereAI rerank等，也可以使用LostInTheMiddleRanker(将最不重要的内容放在prompt的中间)、Diversity Ranker(按照片段多样性来排序)等策略
Prompt Compression. 压缩prompt中的不相关信息，相关研究有Selective Context、LLMLingua、Recomp、Context、Walking in the Memory Maze等

Modular RAG

在这里插入图片描述

作者所定义的RAG的三个范式概览如上图所示，虽然概念上有做区分，但是Modular RAG不是孤立的，Advanced RAG 是Modular RAG的特殊形式，Naive RAG 是Advanced RAG 的特殊形式。

modular RAG 包括的新模块：

搜索模块(Search)，除相似性检索外，还包括搜索引擎、数据库、知识图谱等
记忆模块(Memory)，利用LLM的记忆能力来辅助检索，代表工作如Selfmem
融合模块(Fusion)，将查询扩展为multi-query，代表工作如RAG-Fusion
路由模块(Routing)，对于用户请求决定接下来的行为，比如是否要搜索特定数据库、是否要进行摘要等等
预测模块(Predict)，使用LLM来生成上下文，而不是直接先去检索
任务适配模块(Task Apapter)，使RAG适应不同的下游任务，相关工作有UPRISE和 PROMPTAGATOR 。

相比于Naive RAG 和Advanced RAG由固定的一些模块组成，modular RAG的模式更多样和灵活，目前的研究主要分两块：Adding or Replacing Modules和Adjusting the Flow between Modules.

RAG的Pipeline涉及到的优化工作：

Hybrid Search Exploration，应用不同的检索技术：keyword-based search, semantic search, vector search
Recursive Retrieval and Query Engine，既检索小chunk，也检索更大chunk
StepBack-prompt，鼓励LLM考虑更大的概念
Sub-Queries，不同的查询策略如树查询、向量查询、chunk的依次查询
Hypothetical Document Embeddings，HyDE(使用LLM根据查询语句生成假设的问句，使用假设问句来进行相似度检索）

Retrieval

创建有效的检索器设计到的三个基础问题：1. 怎么得到有效的语义表征？2. 哪些方法可对齐查询和文档的语义空间？3.怎么使检索器的输出对齐大模型的偏好？

Enhancing Semantic Representations

chunk 优化

chunk太大或者太小都可能会造成次优结果，所以选择合适chunk大小很重要，选择合适的chunk大小要考虑以下因素：

索引内容的特性
向量模型和其最佳编码长度，比如sentence-transformer更适合句子编码，而text-embedding-ada-002更适合大小为256或512个token的文本块
用户查询请求的长度和复杂性
检索结果的应用场景，比如语义搜索或问答
所使用的LLM的上下文窗口大小

目前RAG相关的块优化方法：

滑动窗口技术，使得可以合并多个检索过程的相关结果
small2big，在初始检索阶段使用小的文本块，接着将相关的更大的文本块喂给LLM处理
abstract embedding technique，排序基于文档摘要的top K 个检索结果，提供了对文档更综合的理解
基于metadata的文档过滤
图索引技术，将实体与关系转变成节点和连接，可提升相关度，特别是对于多跳问题很有帮助。

微调向量模型

现在的向量模型性能已经比以前更强，但是对于专业领域内的应用仍有力不从心的情况，并且微调向量模型之后可以使得模型更好的理解用户请求。微调向量模型的两种方法：

Domain Knowledge Fine-tuning，重要的是构建一个涵盖领域相关的数据集，数据集包括：queries、a corpus、relevant documents.
Fine-tuning for Downstream Tasks，代表工作如 PROMPTAGATOR、LLM-Embedder。

Aligning Queries and Documents

Query Rewriting ，Query2Doc和ITER-RETGEN将原查询添加额外的指引语句后使用LLM生成伪文档；HyDE生成假设文档；RRR引入一个反转传统检索和阅读顺序的框架。STEP-BACKPROMPTING基于概念使LLM进行抽象的推理和检索。
Embedding Transformation，使用一些技巧来转变向量，比如LlamaIndex里演示在query encoder后面添加一个adapter，SANTA也尝试去对齐查询和结构化文档

Aligning Retriever and LLM

Fine-tuning Retrievers，利用LLM的反馈来优化检索模型，相关工作有AAR、REPLUG、UPRISE、Atlas等
Apapter，训练一个外部adapter来对齐Retriever和LLM，相关工作有PRCA、RECOMP、PKG等

Generation

Post-retrieval with Frozen LLM，对检索到的相关文档进行处理，提高检索结果的质量。
- Information Compression，相关工作有PRCA、RECOMP等
- Reranking，
对LLM进行微调

Augmentation in RAG

关于Augmentation的想法，它不是RAG的流程中具体的一个部分，而是RAG如何去增强LLM，所以在RAG中各个流程中都有所涉及，在内容上看起来也跟前面介绍的一些内容会有重复之处

在这里插入图片描述

RAG in Augmentation Stages

Pre-training Stage，在大模型的预训练阶段进行知识增强，相关工作有REALM、RETRO、Atlas、COG、RETRO++等
Fine-tuning Stage，在大模型的微调阶段进行知识增强
Inference Stage，在大模型的推理阶段进行知识增强

Augmentation Source

增强的数据来源被分为：

Unstructured Data
Structured Data
LLMs-Generated Content

下图是使用不同数据来源的RAG相关研究的示意（不同的颜色表示不同类别的数据源）
在这里插入图片描述

Augmentation Process

对于检索方式，一次检索的效率可能不够高，所以衍生除了如下三种检索方式（上面图片叶子边框示意了不同类型的检索方式）：

Iterative Retrieval
Recursive Retrieval
Adaptive Retrieval

RAG vs Fine-Tuning

在这里插入图片描述

RAG像是给模型一本教科书、而微调像一个学生在不断去内化知识。两者不是互相排斥的而是互补的，在不同的层次上增强大模型的能力。

在这里插入图片描述

RAG Evaluation

Evaluation Targets

RAG的评估主要涉及检索和生成两个关键模块，因此主要评估：

Retrieval Quality，评估指标有Hit Rate，MRR、NDGG
Generation Quality，分为未标注内容和标注内容两类，对于未标注内容包括：faithfulness, relevance, non-harmfulness of the generated answers。对于标注内容主要是信息的准确度。

Evaluation Aspects

Quality Scores
- context relevance
- answer faithfulness
- answer relevance
Required Abilities
- noise robustness
- negative rejection
- information integration
- counterfactual robustness

Context relevance和noise robustness对评估检索质量很重要，answer faithfulness, answer relevance, negative rejection, information integration, counterfactual robustness 对评估生成质量很重要。

在这里插入图片描述

Evaluation Benchmarks and Tools

评估基准和框架总结如下图

在这里插入图片描述

Llamaindex的cheet sheet

Llamaindex 针对这篇综述整理了一个Llamaindex 使用的cheet sheet（下面两张图片来自链接网页）
在这里插入图片描述

在这里插入图片描述

参考资料

Gao, Yunfan, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, and Haofen Wang. n.d. “Retrieval-Augmented Generation for Large Language Models: A Survey.” 本笔记中大部分图片来自于论文。
论文对应的github
llama index 针对此篇综述整理的cheet sheet