RAG:让大语言模型拥有特定的专属知识

news2025/1/12 6:02:35

作为一个在Chatbot领域摸爬滚打了7年的从业者,笔者可以诚实地说,在大语言模型的推动下,检索增强生成(Retrieval Augmented Generation,RAG)技术正在快速崛起。
RAG的搜索请求和生成式AI技术,为搜索请求和信息检索领域带来了革命性的改变。RAG能够帮助大语言模型根据可靠的数据直接给出答案。

本文就来介绍一下RAG的技术原理,并和Fine-tuning(微调)进行对比,同时介绍RAG的周边要素——向量数据库。

值得一提的是,RAG原本属于Chatbot系统搭建中的重要一环,笔者把RAG提前到生命周期部分中来讲述的原因是在数据处理和Prompt撰写的过程中,需要对 RAG 有基础的了解。

为什么有了大语言模型还需要RAG

ChatGPT的出现,使越来越多的开发者开始深入探索大语言模型在实际生产中的应用效果,尤其关注如何搭建一个拥有专属知识的大语言模型应用。

在开始RAG的介绍前,笔者先介绍大语言模型在当下的能力边界。

  1. 大语言模型的能力

(2)逻辑推理的能力:大语言模型具有一定的逻辑推理能力,无须额外增加任何特殊提示词,就能做出简单的推理,并挖掘出问题的深层内容。在补充了一定的提示词后,大语言模型能展现更强的推理能力。

(3)尝试回答所有问题的能力:特别是对话类型的大语言模型,如GPT-3.5、GPT-4,会尝试以对话形式回答用户的所有问题。大语言模型面对无法准确回答的问题,就算回答“我不能回答这个信息”,也会努力给出答案。

(4)通用知识的能力:大语言模型本身拥有海量的通用知识,这些通用知识的准确度较高,覆盖范围广泛。

(5)多轮对话的能力:大语言模型可以根据设定好的角色,理解不同角色之间的多次对话的含义,这意味着可以在对话中采用追问的形式,而不是每一次对话都要把之前所有的关键信息重复一遍。

  1. 大语言模型的限制

(1)被动触发:大语言模型是被动触发的,即需要用户输入或给出一段内容,大语言模型才会回应。大语言模型无法主动发起交互。

(2)知识过期:特指GPT-3.5和GPT-4,二者的训练数据都截至2021年9月,意味着大语言模型不知道之后的知识。

(3)细分领域的幻觉:虽然大语言模型在通用知识部分表现优秀,但在特定知识领域(如垂直的医药行业),大语言模型的回答往往存在错误,无法直接采信。

(4)对话长度:如果给大语言模型提供的内容过多,超过模型字符长度的限制,则该轮对话会失败。

  1. 用户的常见需求

希望搭建Chatbot的企业,通常期望用大语言模型实现以下功能。

采取多轮对话的形式,理解用户的提问并回答。

要求准确地回答关于企业的专属知识。

不能回答与企业专属领域知识无关的内容。

可以发现,虽然大语言模型有上下文推理能力,但由于大语言模型存在“知识过期”和“细分领域的幻觉”这两个限制,且它会尽可能地尝试回答所有的问题,因此只是单纯地使用大语言模型是没有办法解决所有问题的,RAG正是在这个背景下应运而生的。

RAG的技术原理

在RAG出现之前,早期的问答系统主要依赖预定义的规则和模板,以及简单的关键词匹配技术。知识图谱的出现,为问答系统带来了一定的改进,但这些系统仍然依赖固定的数据结构和知识库,限制了系统处理复杂问题的能力发展。

大语言模型出现后,尤其是ChatGPT的出现,显著提高了机器对自然语言的理解能力,大语言模型在大量文本上进行预训练后,能够生成更自然、更准确的语言。

RAG结合了信息检索和文本生成两种方法,旨在突破传统问答系统的局限。通过将外部数据检索的相关信息输入大语言模型,大语言模型能够基于这些信息生成回答,进而增强答案生成的能力。RAG能够处理更广泛、更复杂的问题。

使用RAG后可以有效解决大语言模型细分领域的幻觉和知识过期的问题。通过预检索模块,无需一次性向大语言模型输入过多的知识,大部分知识都可以用外部数据库承载,解决了当前大语言模型对话长度受 Token限制的问题。

值得注意的是,在生成回答时,RAG 系统不是简单地复制检索到的信息,而是在综合并加工这些信息,这使最终的回答既准确又具有一定的原创性。这一点是RAG区别于其他简单问答系统的关键。

  1. RAG的核心组件

RAG主要有两个核心组件:信息检索和文本生成。

信息检索

信息检索(Retrieve)的主要任务是在一个大型的知识库或文档集合中搜索与用户提出的问题相关的信息。这个过程类似人在图书馆中查找相关书籍以回答某个问题。通常,这一步骤依赖传统的信息检索技术,如倒排索引、TF-IDF评分、BM25算法等,或者采用更现代的基于向量的搜索方法。

虽然让大语言模型拥有特定领域的知识就要外挂向量数据库已经成为业内共识,但其实不只是向量数据库,所有外部存储的内容都可以被检索,再进行二次生成。

文本生成

文本生成(Generate)的职责是根据检索到的信息生成一个连贯、准确的回答。这个过程可以看作根据收集到的材料撰写一篇简短的文章或回答。

这个功能通常采用预训练的生成式语言模型来实现,如GPT系列。这些模型在大量文本上进行预训练,能够生成流畅且语义连贯的文本。

信息检索和文本生成两个组件的紧密结合至关重要。信息检索为文本生成提供了必要的原料,而文本生成则将这些原料转化为易于理解和有用的信息。这种结合使得RAG能够处理更复杂的查询,并生成更准确、更丰富的回答。

值得注意的是,在进行检索之前,对数据的处理也非常重要。通常,外部数据不仅存储在数据库中,也可能存储在外部文档(PDF、Markdown、Word、Excel等)或网页中。这时,需要对所有外部数据进行清洗和处理,同时需要提取一些元数据,包括文件名、时间、章节、图片等。

另外,仅加载外部文件是不够的。通常,外部文件非常大,而且Embedding模型和大语言模型都有长度限制,这时就需要将文件进一步切割成文本块(Chunk),才能精准地进行检索和生成。根据索引方式的不同、模型选择的不同,以及问答文本长度和复杂度的不同,切割的方法也有不同,简单的数据处理的流程如图1所示。笔者会在第10章对数据处理进行更详细的介绍。

在这里插入图片描述

图1

  1. RAG的工作流程

首先,通过检索系统引导大语言模型从外界数据库中查找与问题相关的文档或段落;然后,重新构建输入大语言模型的内容。最后,使用大语言模型在此基础上生成符合检索系统规定格式的答案。简而言之,RAG被视为模型的“外挂数据库”,以优化其回复。

为了让读者有完整的结构概览,结合数据处理流程和RAG流程,可以将RAG的工作流程简化为图2所示的形式。接下来将重点介绍RAG的工作流程。

在这里插入图片描述

图2

最基础的RAG

最基础的RAG流程如图3所示。

在这里插入图片描述

图3

(1)接收查询:系统收到用户的问题或查询。

(2)检索相关信息:系统查询一个或多个外部知识库,查找与该问题相关的信息或文档。

(4)提供回应:系统将生成的回答呈现给用户。

增加预处理查询的RAG

在用户提问环节,可以对问题进行进一步的预处理和理解查询,具体流程如图4所示。

(1)问题预处理:系统先对用户输入进行预处理,如文本清洗、标准化等,确保输入数据的质量。

(2)理解查询:系统运用自然语言处理技术理解查询的内容和意图。这个环节可以利用传统自然语言处理技术中的知识领域和意图识别,即根据用户的提问选择不同数据库中的内容,甚至可以对应不同匹配阈值及操作,具体细节本节不再详述。

在这里插入图片描述

图4

带有聊天历史的RAG

在实际对话中,用户和Chatbot的交流往往不是一句话,而是多句话,且上下文之间有指代关系。例如,用户说了两句话:

李佳芮是句子互动的创始人。

她今年多大了?

如果系统逐句处理接收的信息,则无法确定句子中的“她”指的是谁。系统需要将两句话结合起来,才能正确理解用户的提问是“李佳芮多大了”。

在这个例子中,除了对问题进行基础的预处理,还有一步重要的操作就是把之前的历史记录输入系统。通用的做法之一是让大语言模型将当前的问题和先前的问题结合,使用Prompt 引导大语言模型重写用户的问题,这样做可以有效地解决指代消除的问题。具体流程如图5所示。

在这里插入图片描述

图5

增加自动排序的RAG

尽管增加了聊天的历史记录,但由于在数据处理环节中系统内切割成的块数量很多,系统检索的维度不一定是最有效的,因此一次检索的结果在相关性上并不理想。这时,需要一些策略对检索的结果进行重新排序,或者重新调整组合相关度、匹配度等因素,使其更适合业务的场景。

对此,通常会设置内部触发器进行自动评审,触发自动重排序的逻辑,具体流程如图6所示。

在这里插入图片描述

图6

上述几个案例只是简单的RAG扩展说明,系统搭建章节会展示一个完整的案例。需要注意的是,在很多中间环节都可以根据具体场景加入各种工程化实现,满足真实的应用场景。在某些应用中,即使在最后的环节也不代表RAG技术的完成。用户的反馈可以进一步优化RAG的性能,例如用户评价回答质量的信息可以用来训练和改进模型。

RAG在Chatbot中的应用

RAG 技术在 Chatbot 应用中有非常重要的作用,尤其是在提高回应的相关性和准确性、处理复杂查询及增强个性化和上下文理解能力方面。

  1. 提高回应的相关性和准确性

(1)基于检索的信息丰富性:RAG 技术的检索组件可以从大量的知识库中检索与用户提问相关的信息。这意味着Chatbot可以访问更多的数据点,从而提供更丰富、更准确的回答。例如,当用户询问关于某个历史事件的细节时,RAG 技术能够从多个来源中检索相关信息,确保回答的全面性和准确性。

(2)文本生成组件的语境适应能力:RAG 的文本生成组件不仅是简单地重复检索到的信息,还能根据上下文生成适当的回答。这意味着即使利用同样的信息源,对不同的问题,生成的回答也会有所不同,这能确保回应与用户的查询高度相关。

(3)数据质量和过滤机制:Chatbot 中的 RAG 技术通常配备高质量的数据源,并使用过滤机制来确保检索到的信息是可信和准确的。这降低了生成错误信息的风险,提高了回应的准确性。

  1. 处理复杂查询

(1)信息聚合能力:对于复杂的查询,RAG 技术能够从不同的信息源中聚合数据。这意味着它可以综合多个观点或信息片段,提供一个全面的回答。例如,回答关于气候变化影响的复杂问题时,RAG能够综合科学研究、统计数据和专家意见等多方面的信息。

(2)上下文感知和连续对话能力:RAG技术在处理复杂查询时还具备上下文感知的能力。这意味着它可以理解并利用对话的历史和上下文信息,更好地处理多轮对话中的复杂查询。

  1. 增强个性化和上下文理解能力

(1)个性化回答:RAG技术能够根据用户的历史交互和偏好提供个性化的回答。例如,如果系统知道用户对某个特定主题有深入的了解,则可以提供有关该主题的更深入的回答。

(2)上下文追踪能力和长期记忆:Chatbot中的RAG系统通常具有上下文追踪能力和一定程度的长期记忆。这意味着它们能够记住用户过去的提问和回答,以便在未来的交互中提供更相关和连贯的回答。

(3)情感识别:RAG 技术可以整合情感识别功能,使 Chatbot 能够根据用户的情绪调整其回答的风格和内容。这增加了交互的个性化,使其更人性。

RAG技术在Chatbot中的应用极大地提高了回应的相关性和准确性,使得处理复杂查询成为可能,并显著增强了个性化与上下文理解的能力,为用户提供了更丰富、更自然、更个性化的交互体验,推动了Chatbot技术的发展。

RAG面临的挑战

当然,RAG并非无所不能,当前仍然有以下技术难点需要持续优化。

(1)检索与生成的协同工作:检索到的内容与生成的内容能否紧密结合是一个关键问题。

(2)计算效率:执行检索和生成这两个步骤可能导致系统响应延迟,使整个系统的运行速度变慢,因此对时间敏感的应用而言,RAG可能不太适用。

(3)数据噪声:外部检索的数据可能带有噪声,这会影响生成内容的准确性。

未来,RAG会在法律、教育、商业等方向上有非常多的应用。值得一提的是,在某一特定语言风格(如鲁迅的语言风格)、模型本身的价值观倾向等方面,还需要类似 Fine-tuning的技术来优化大语言模型。

更多关于RAG及大模型时代下从0到1构建Chatbot的内容,欢迎阅读《Chatbot从0到1(第2版):对话式交互实践指南》一书!

↑限时五折优惠↑

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1371623.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【数据库原理】期末突击(2)

有不会的题可以后台问我的哦,看见了就会回。祝大家期末心想事成。 数据库大题显而易见就只有几类,大家可以根据老师平时讲解的例题对应去解决一类型的题目。 前提知识; 候选码候选键关键字键码 关系代数:(1)传统&…

echarts使用之柱状图

一、引入Echarts npm install eacharts --save 二、选择一个Echarts图 选择创建一个柱状图 option { // x轴参数的基本配置xAxis: {type: category,data: [Mon, Tue, Wed, Thu, Fri, Sat, Sun] //X轴数据}, // y轴参数的基本配置yAxis: {type: value}, // series:[{data: …

MySQL连接池、C3P0、Druid德鲁伊连接池技术

MySQL连接池 连接池C3P0Druid 连接池 概念:其实就是一个容器(集合),存放数据库连接的容器。当系统初始化好后,容器被创建,容器中会申请一些连接对象,当用户来访问数据库时,从容器中获取连接对象&#xff0…

怎么样检查自己系统上的Python环境中是否有某个包(扩展库)?

比如我们这里想看下有没有库pytz 很简单,进入Python的命令行,然后输入下面的命令: import pytz如果有这个库,则不会报错,否则会报错。 Windows的测试结果如下: Centos的测试结果如下:

Linux中vim查看文件某内容

一、编辑文件命令 [rootyinheqilin ~]# vim test.txt 1,在编辑的文件中连续按2次键盘的【g】键,光标会移动到文档开头第一行 2,输入一个大写 G,光标会跳转到文件的最后一行第一列(末行) 二、查看文件内容命令 gre…

改善制造业客户体验的实用技巧与策略

制造业是一个关键行业,在经济中发挥着至关重要的作用。它负责为我们的日常生活生产必需品和服务。然而近年来,该行业发生了重大变化,企业现在面临着日益激烈的竞争和满足消费者需求的压力。为了保持竞争力,制造商必须专注于打造更…

算法通关村番外篇-LeetCode编程从0到1系列二

大家好我是苏麟 , 今天来说LeetCode编程从0到1系列二 . 内置函数 最后一个单词的长度 描述 : 给你一个字符串 s,由若干单词组成,单词前后用一些空格字符隔开。返回字符串中 最后一个 单词的长度。 单词 是指仅由字母组成、不包含任何空格字符的最大子…

PHP大型企业人才招聘网站源码带文字安装教程

PHP大型企业人才招聘网站源码带文字安装教程 运行环境 服务器宝塔面板 PHP 5.6 Mysql 5.5及以上版本 Linux Centos7以上 功能说明: 会员模块包括企业管理、职位管理、名企管理、企业认证审核、 企业设置。内容模块包括新闻管理、新闻类别、新闻属性、添加新闻。 运营…

海外云手机:一机多用,引领跨境电商新潮流

如今,跨境卖家除了经营跨境平台外,还需抓住短视频和社交媒体的机遇。在社交媒体上实现引流,将流量导向自己的跨境平台或独立站,吸引用户购买,完成流量变现,已成为跨境电商的一项关键策略。本文将介绍如何用…

获取深层次字段报错TypeError: Cannot read properties of undefined (reading ‘title‘)

动态生成菜单时报错,不能多层获取路由meta下面的title字段 <template><p>{{ meneList }}</p><template v-for"item in meneList" :key"item.path"><el-menu-item v-if"!item.children"><template #title>{…

【Tomcat】在一台计算机上运行两个Tomcat服务

首先把Tomcat整个文件复制一份放在其他文件夹路径中 1.修改环境变量 添加环境变量在系统变量里面 “CATALINA_HOME” 指向一个Tomcat文件夹路径 “CATALINA_HOME1” 指另一个Tomcat文件夹路径 2.修改startup里面的环境变量&#xff0c;全部修改 分别修改两个apache-tomcat…

教你用SadTalker一键整合包轻松制作专属数字人

数字人的效果&#xff1a; &#x1f3b5;我用SadTalker制作了专属虚拟数字人&#xff0c;还会唱歌哦&#xff0c;多多点赞关注就出教程呦&#x1f497; SadTalker有独立离线版Ai数字人&#xff0c;也可以在Stable Diffusion以插件的形式使用&#xff0c;但是如果显卡小的话还是…

水经微图安卓版APP正式上线!

在水经微图APP&#xff08;简称“微图APP”&#xff09;安卓版已正式上线&#xff01; 在随着IOS版上线约一周之后&#xff0c;安卓版终于紧随其后发布了。 微图安卓版APP下载安装 自从IOS版发布之后&#xff0c;就有用户一直在问安卓版什么时候发布&#xff0c;这里非常感谢…

PHP Web应用程序中常见漏洞

一淘模板&#xff08;56admin.com)发现PHP 是一种流行的服务器端脚本语言&#xff0c;用于开发动态 Web 应用程序。但是&#xff0c;与任何其他软件一样&#xff0c;PHP Web 应用程序也可能遭受安全攻击。 在本文中&#xff0c;我们将讨论 PHP Web 应用程序中一些最常见的漏洞…

计算机网络——应用层(2)

计算机网络——应用层&#xff08;2&#xff09; 小程一言专栏链接: [link](http://t.csdnimg.cn/ZUTXU) Web和HTTP概念解读HTTPHTTP请求和响应包含内容常见的请求方法Web缓存优点缺点 总结 DNS提供的服务 小程一言 我的计算机网络专栏&#xff0c;是自己在计算机网络学习过程…

std::numeric_limits::max()编译错误问题解决

在使用numeric_limits的max最大值时&#xff0c;报 替换成下面就可以了 (numeric_limits::max)()

IPv6路由协议---IPv6动态路由(OSPFv3-6)

OSPFv3链路状态通告类型 Link-LSA(8类LSA) Link-LSA每个连接的链路都产生一条Link LSA,该LSA的泛洪范围只在链路范围内。 Link-LSA的作用: 向该链路上其他路由器通知本地的link-local地址,即到本地的下一跳地址。 收集本路由器在该链路上配置的所有的IPv6前缀,并通知该…

element的Table表格组件树形数据与懒加载简单使用

目录 1. 代码实现2. 效果图3. 解决新增、删除、修改之后树节点不刷新问题。&#xff08;[参考文章](https://blog.csdn.net/weixin_41549971/article/details/135504471)&#xff09; 1. 代码实现 <template><div><!-- lazy 是否懒加载子节点数据 --><!-…

anaconda创建虚拟环境启动jupyter notebook

1.进入虚拟环境 &#xff08;以环境名为py37_pytorch1.9为例&#xff09; 创建虚拟环境: conda create -n py37_pytorch1.9 python3.7 查看已经创建的虚拟环境&#xff1a; ​​​​​​​conda env list 切换/进入环境&#xff1a; conda activate py37_pytorch1.9 删除环…

Verifiable Credentials可验证证书 2023 终极指南

1. 引言 Dock公司为去中心化数字身份领域的先驱者&#xff0c;其自2017年以来&#xff0c;已知专注于构建前沿的可验证证书&#xff08;Verifiable Credentials&#xff09;技术。本文将阐述何为电子证书、电子证书工作原理、以及其对组合和个人的重要性。 伪造实物证书和数字…