【DeepSeek-R1背后的技术】系列十一：RAG原理介绍和本地部署（DeepSeekR1+RAGFlow构建个人知识库）

【DeepSeek-R1背后的技术】系列博文：
第1篇：混合专家模型（MoE）
第2篇：大模型知识蒸馏（Knowledge Distillation）
第3篇：强化学习（Reinforcement Learning, RL）
第4篇：本地部署DeepSeek，断网也能畅聊！
第5篇：DeepSeek-R1微调指南
第6篇：思维链（CoT）
第7篇：冷启动
第8篇：位置编码介绍（绝对位置编码、RoPE、ALiBi、YaRN）
第9篇：MLA（Multi-Head Latent Attention，多头潜在注意力）
第10篇：PEFT（参数高效微调——Adapter、Prefix Tuning、LoRA）
第11篇：RAG原理介绍和本地部署（DeepSeek+RAGFlow构建个人知识库）

1 前言
2 方法
3 RAG和SFT的区别
- 3.1 核心目标不同
- 3.2 数据使用方式
- 3.3 实时性对比
- 3.4 资源消耗
- 3.5 可解释性
- 3.6 典型应用场景
- 3.7 协同使用策略
- 3.8 选择建议
4 本地部署（DeepSeek+RAGFlow构建个人知识库）
- 4.1 Embedding模型
- 4.2 Ollama部署DeepSeek-R1模型
- - 4.2.1 安装和部署
  - 4.2.2 配置环境变量
- 4.3 部署RAGFlow
- - 4.3.1 安装Docker
  - 4.3.2 安装RAGFlow
  - 4.3.3 注册登录
- 4.4 构建个人知识库并实现对话问答
- - 4.4.1 配置模型
  - 4.4.2 创建知识库
  - 4.4.3 创建聊天助理
5 本地部署RAGFlow+调用API

1 前言

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合了信息检索技术与语言生成模型的人工智能技术，该技术通过从外部知识库中检索相关信息，并将其作为提示（Prompt）输入给大型语言模型（LLMs），以增强模型处理知识密集型任务的能力，如问答、文本摘要、内容生成等。

RAG模型由Facebook AI Research（FAIR）团队于2020年首次提出，并迅速成为大模型应用中的热门方案。

大型语言模型（LLM）通常面临两个问题：

知识截止：每个基础模型都有知识截止，这意味着其知识仅限于训练时可用的数据。
幻觉：当模型自信地做出错误反应时，就会发生幻觉。

RAG)摆脱了知识限制，整合了外部数据，从外部知识库中检索相关信息，增强模型的生成能力。

顾名思义，RAG的主要包括检索、增强和生成这三个步骤：

检索：检索是RAG流程的第一步，从预先建立的知识库中检索与问题相关的信息。这一步的目的是为后续的生成过程提供有用的上下文信息和知识支撑。
增强：RAG中增强是将检索到的信息用作生成模型（即大语言模型）的上下文输入，以增强模型对特定问题的理解和回答能力。这一步的目的是将外部知识融入生成过程中，使生成的文本内容更加丰富、准确和符合用户需求。通过增强步骤，LLM模型能够充分利用外部知识库中的信息。
生成：生成是RAG流程的最后一步，这一步的目的是结合LLM生成符合用户需求的回答。生成器会利用检索到的信息作为上下文输入，并结合大语言模型来生成文本内容。

简而言之，就是从知识库中检索到的问答对，增强了LLM的提示词（prompt），LLM拿着增强后的Prompt生成了问题答案。

2 方法

用RAG搭建知识库的流程如下：

数据准备与知识库构建

收集数据：首先，需要收集与问答系统相关的各种数据，这些数据可以来自文档、网页、数据库等多种来源。
数据清洗：对收集到的数据进行清洗，去除噪声、重复项和无关信息，确保数据的质量和准确性。
知识库构建：将清洗后的数据构建成知识库。这通常包括将文本分割成较小的片段（chunks），使用文本嵌入模型（如GLM）将这些片段转换成向量，并将这些向量存储在向量数据库（如FAISS、Milvus等）中。

检索模块设计

问题向量化：当用户输入查询问题时，使用相同的文本嵌入模型将问题转换成向量。
相似度检索：在向量数据库中检索与问题向量最相似的知识库片段（chunks）。这通常通过计算向量之间的相似度（如余弦相似度）来实现。
结果排序：根据相似度得分对检索到的结果进行排序，选择最相关的片段作为后续生成的输入。

生成模块设计

上下文融合：将检索到的相关片段与原始问题合并，形成更丰富的上下文信息。
大语言模型生成：使用大语言模型（如DeepSeek-R1）基于上述上下文信息生成回答。大语言模型会学习如何根据检索到的信息来生成准确、有用的回答。

3 RAG和SFT的区别

检索增强生成（RAG）和监督微调（SFT）是两种提升大模型性能的主流技术，但核心思路和应用场景存在显著差异。

3.1 核心目标不同

RAG
通过动态检索外部知识库增强生成能力，解决模型「知识固化」问题。适用于需要实时性、事实性准确或超出训练数据范围的场景（如最新事件、私有数据查询）。
示例：用企业内部文档实时回答业务问题。
SFT
通过调整模型参数使其适配特定任务格式或领域知识。旨在提升模型对特定任务（如法律文书生成、医疗问答）的指令遵循能力和专业性，但无法突破训练数据的时间或知识范围。
示例：微调模型生成符合法律规范的合同文本。

3.2 数据使用方式

RAG
- 推理阶段动态检索：每次生成时从外部数据库/文档中实时检索相关内容。
- 知识可更新：仅需更新检索库即可扩展模型知识，无需重新训练模型。
SFT
- 训练阶段静态学习：使用标注数据调整模型权重，学习固定知识或任务模式。
- 知识固化：模型学到的知识截止于训练数据时间点，更新需重新微调。

3.3 实时性对比

RAG
优势在于零延迟知识更新。例如接入新闻API后，可立即回答当天事件。
SFT
依赖训练数据时效性。若数据过时（如用2022年数据微调），模型无法感知新信息。

3.4 资源消耗

RAG
- 推理成本较高：需维护检索系统（如向量数据库），且每次生成需检索+生成两步计算。
- 训练成本低：通常直接使用预训练模型，无需额外训练。
SFT
- 训练成本高：需准备标注数据并进行微调（GPU资源消耗大）。
- 推理成本低：微调后模型可直接生成结果，无需额外系统。

3.5 可解释性

RAG
生成结果可追溯检索到的文档，方便验证信息来源（如显示引用文献）。
SFT
生成过程为黑箱，难以直接追踪知识来源。

3.6 典型应用场景

技术	适用场景	典型案例
RAG	实时问答、私有数据查询、事实核查	客服系统接入产品手册回答用户问题
SFT	垂直领域深度适配、复杂指令遵循	微调模型生成符合金融规范的财报分析

3.7 协同使用策略

实际应用中常将二者结合：

SFT微调模型：使其掌握领域术语和任务格式（如生成结构化报告）。
RAG增强知识：动态补充最新或私有数据，提升回答准确性。

示例：医疗问答系统中，先微调模型理解医学术语，再通过RAG接入最新医学论文库。

3.8 选择建议

选RAG 若：需处理动态知识、响应实时查询、或无法获取足够微调数据。
选SFT 若：任务高度专业化（如代码生成）、或需严格遵循特定输出格式。
最佳实践：RAG+SFT联合使用，兼顾知识更新与任务适配性。

4 本地部署（DeepSeek+RAGFlow构建个人知识库）

接下来我们本地化部署DeepSeek-R1和RAGFlow，搭建个人知识库。

4.1 Embedding模型

什么是Embedding？为什么需要Embedding模型？

我们准备好外部知识库（可能来自本地的文件、搜索引擎结果、API等等）之后，需要通过Embedding（嵌入）模型，对知识库文件进行解析：Embedding的主要作用是将自然语言转化为机器可以理解的高维向量，并且通过这一过程捕获到文本背后的语义信息（例如不同文本之间的相似度关系等）。

此外，我们也需要通过Embedding模型，对用户的提问进行处理：用户的输入同样会经过Embedding处理，生成一个高维向量。

然后，拿用户的提问去匹配本地知识库：使用用户输入生成的高维向量，去查询知识库中相关的文档片段，在这个过程中，系统会利用某些相似度度量（如余弦相似度）去判断相似度。

简而言之，Embedding模型是用来对你上传的附件进行解析的。

在Ollama网站上，我们可以在Models页面看到不同的Chat模型和Embedding模型。

Ollama

接下来我们开始本地部署。

4.2 Ollama部署DeepSeek-R1模型

首先，我们需要通过Ollama将DeepSeek-R1模型部署到本地运行。

4.2.1 安装和部署

详细的部署步骤请参考这篇博文：【DeepSeek-R1背后的技术】系列四：本地部署DeepSeek-R1，断网也能畅聊！

操作起来还是很方便的。

4.2.2 配置环境变量

OLLAMA_HOST - 0.0.0.0:11434

作用：让虚拟机里的RAGFlow能够访问本机上的Ollama；
如果配置后虚拟机无法访问，可能是本机防火墙拦截了端口11434；
不想直接暴露11434端口的话，可以通过SSH端口转发来实现；
更新完两个环境变量后记得重启电脑。

环境变量配置方法：系统→系统信息→高级系统设置→环境变量

配置系统变量：
环境变量

OLLAMA_MODELS - 自定义模型存放位置

作用：Ollama会默认把模型下载到C盘，如果希望下载到其他盘需要进行配置。

重启电脑。

运行DeepSeek-R1 1.5B模型：（有时候会对话失败，退出对话，重新运行模型之后就正常了）

部署成功

4.3 部署RAGFlow

接着，我们需要下载RAGFlow源代码和Docker镜像，通过Docker来本地部署RAGFlow。

硬件要求：

CPU >= 4 cores
RAM >= 16 GB
Disk >= 50 GB
Docker >= 24.0.0 & Docker Compose >= v2.26.1

4.3.1 安装Docker

对于Windows系统，我们需要先安装Docker。通过Docker页面下载安装包安装即可。

安装Docker

双击后，点击确认安装即可，安装后需要重启电脑。

首次打开Docker Desktop时，需要登录账号，配置时可能会报以下错误

wsl

需要在终端输入以下命令更新wsl。

wsl --update

打开Docker

4.3.2 安装RAGFlow

将RAGFlow clone到本地

git clone https://github.com/infiniflow/ragflow.git

启动Docker服务器

Docker镜像是一个封装好的环境，包含了所有运行RAGFlow所需的依赖、库和配置。

我们需要先进入./docker文件夹，修改.env文件，因为默认的配置是轻量版的，没有Embedding模型。

注释掉84行，取消注释87行，修改后记得保存文件：

env

运行：

cd ragflow/docker
docker compose -f docker-compose.yml up -d

会帮我们自动下载RAGFlow镜像并启动服务。

注意：在下载镜像的时候，其中的minio和ragflow可能会下载很慢或者失败，需要配置Docker镜像源，打开配置文件：C:\Program Files\Docker\Docker\resources\windows-daemon-options.json，修改镜像源如下：

"registry-mirrors": [
        "registry|redacted",
        "https://docker.hpcloud.cloud",
        "https://docker.m.daocloud.io",
        "https://docker.unsee.tech",
        "https://docker.1panel.live",
        "http://mirrors.ustc.edu.cn",
        "https://docker.chenby.cn",
        "http://mirror.azure.cn",
        "https://dockerpull.org",
        "https://dockerhub.icu",
        "https://hub.rat.dev",
        "https://docker.registry.cyou",
        "https://docker-cf.registry.cyou",
        "https://dockercf.jsdelivr.fyi",
        "https://docker.jsdelivr.fyi",
        "https://dockertest.jsdelivr.fyi",
        "https://mirror.aliyuncs.com",
        "https://dockerproxy.com",
        "https://mirror.baidubce.com",
        "https://docker.m.daocloud.io",
        "https://docker.nju.edu.cn",
        "https://docker.mirrors.sjtug.sjtu.edu.cn",
        "https://docker.mirrors.ustc.edu.cn",
        "https://mirror.iscas.ac.cn"
    ],
    "insecure-registries" : [
        "registry.docker-cn.com",
        "docker.mirrors.ustc.edu.cn"
        ],