干货：落地企业级RAG的实践指南

news2025/7/3 18:36:18

1. 什么是RAG？

检索增强生成（Retrieval-Augmented Generation，简称 RAG）通过结合大型语言模型（LLM）和信息检索系统来提高生成文本的准确性和相关性.这种方法允许模型在生成回答之前，先从权威知识库中检索相关信息，从而确保输出内容的时效性和专业性，无需对模型本身进行重新训练.

RAG技术之所以重要，是因为它解决了LLM面临的一些关键挑战，例如虚假信息的提供、过时信息的生成、非权威来源的依赖以及由于术语混淆导致的不准确响应.通过引入RAG，可以从权威且预先确定的知识来源中检索信息，增强了对生成文本的控制，同时提高了用户对AI解决方案的信任度.

请添加图片描述

2.企业级RAG落地难点

对于企业级数据，很多来自多种文档类型，例如 PDF、Word 文档、电子邮件和网页, 我们需要关注以下两个阶段：

Load & Process，即上图中的A，是指加载数据的过程.在实际应用中，数据的格式和结构各不相同.因此，如何高效地加载和处理这些数据是一个非常具有挑战性的问题.
Split/Chunking，即上图中的B，是指将数据分割成多个部分的过程.在实际应用中，数据通常是非结构化的，需要进行小心的分割和处理，以便模型能够更好地理解和处理.

3. 需要load的数据信息

除了获取文档上的文字信息，其它的信息如文件名，页码等都是重要的结构信息.在RAG的实践中，我们需要将这些信息都提取出来，以便更好地理解和处理数据.

文档元素：指文档的基本构成要素,可用于各种 RAG 任务，例如过滤和分块:

标题
叙述文本
列表项
表格
图像

元素元数据: 有关元素的附加信息,可用于在混合搜索中进行筛选以及识别回答来源:

文件名
文件类型
页码
章节

注：如果你不明白什么是混合搜索，没关系，我们后面会详细介绍.

4. 对数据的处理

对数据进行处理是必要但困难的，主要因为：

内容提示：不同的文档类型对元素类型（视觉、markdown）有不同的提示；
标准化需求：要处理来自不同文档类型的内容，需要对其进行标准化；
提取方式不一样：不同的文档格式可能需要不同的提取方法；
元数据洞察：在许多情况下，提取元数据需要了解文档结构

我们需要把不同的文档类型（PDF,Word,EPUB,MarkDown等）转换成统一的格式，以便模型能够更好地理解和处理.一个简单有效的方式是将其转化为Json格式.

Json格式有如下的特点：

结构常见且易于理解
是标准的 HTTP 响应
能够用于多种编程语言
可以转换为 JSONL 用于流式传输用例

下面提供一个转化好的Json示例：

[
    {
        "element_id":"bff1fd0ec25e78f1224ad7309a1e79c4",
        "metadata":{
        "filename": "CoT.pdf",
        "filetype":"application/pdf",
        "languages":[
            "eng"
        ],
        "page_number":1,
        },
        "text":"B All Experimental Results",
        "type": "Title"
    },
    {
        "element_id":"ebf8dfb149bcbbd8c4b7f9a7046900a9",
        "metadata":{
        "filename": "CoT.pdf",
        "filetype":"application/pdf",
        "languages":[
            "eng"
        ],
        "page_number":1,
        },
        "text": "This section contains tables for experimental results for varying models and model sizes, on all benchmarks, for standard prompting vs. chain-of-thought prompting.",
        "type": "NarrativeText"
    }
]

对于开发者而言，就是需要找到一个框架，能够处理不同的文档类型，将其转化为Json格式.
一些文档类型（例如 HTML、Word Docs 和 Markdown）包含格式信息，可以使用基于规则的解析器进行预处理；但是对于 PDF 或者图像文档，需要使用其它技术进行处理.这些技术一般不是开源的，需要购买或者自己开发.