一文梳理RAG(检索增强生成)的现状与挑战

news2024/11/15 6:40:57

一 RAG简介

大模型相较于过去的语言模型具备更加强大的能力,但在实际应用中,例如在准确性、知识更新速度和答案透明度方面,仍存在不少问题,比如典型的幻觉现象。因此,检索增强生成 (Retrieval-Augmented Generation, RAG) 被当作于大模型应用开发的一种新范式。RAG是指在利用大语言模型回答问题之前,先从外部知识库检索相关信息,然后再让模型根据这些信息进行总结归纳,这样便能确保模型不会胡说八道,并且回答的内容是有所依据的。
尽管这几年大模型发展迅速,但至少还存在以下问题:
● 准确性: LLM是自回归模型,基于前一个词来推测下一个词,这种概率不可避免会产生错误的信息。
● 知识更新速度: LLM训练数据总是有限的,这可能导致模型的知识更新滞后,因此产生过时回答。
● 答案透明度: LLM 生成的内容往往缺乏明确的信息来源,影响内容的可信度。
● 领域专业知识能力欠缺: LLM在预训练阶段是由各种领域的数据训练得到,这些数据一般分布都比较均匀,没有哪个领域的数据占据了绝对优势,因此在处理特定领域的专业知识时,效果往往不会太好。

二 RAG与微调效果对比

性能对比RAG微调
知识更新速度直接更新知识库内容即可,无需重新训练,更新成本低需要重新训练来保持知识和数据的更新,更新成本高
专业性取决于知识库中的数据,无明显专业性倾向针对某一领域数据微调后,可以具备一定的专业性
可解释性可以追溯到具体的数据来源,有较好的可解释性可解释性相对较低,回答质量取决于预训练的数据质量
计算资源需要额外的资源来支持检索机制和数据库的维护,如向量化模型和向量知识库。对计算资源的要求较高,取决于微调的数据量
推理延迟增加了输入向量化和检索步骤的耗时普通 LLM 推理耗时
降低幻觉通过检索到的真实信息生成回答,降低了产生幻觉的概率模型学习特定领域的数据有助于减少幻觉,但面对未见过的输入时仍可能出现幻觉

三、RAG 的工作流程

不同学者对RAG的定义略有不同,但公认一般至少包含如下两个阶段。

检索阶段

根据用户的输入,使用向量模型将查询内容转换为向量,计算查询向量与知识库中文档块向量之间的相似性,并根据相似度水平选出最相关的前 K 个文档块作为当前问题的补充信息。

在这里插入图片描述

生成阶段

将给定的问题与检索到的补充信息合并,构造出一个新的Prompt,让大模型根据提供的信息来回答问题的任务。
在这里插入图片描述

四、RAG的局限性

检索过程

RAG的检索质量受到多个指标的影响。首要是低精确率(precision),即检索到的文档块中有些与查询并不直接相关,可能导致生成的回答包含不准确的信息。其次是召回率(recall)低的问题,即未能检索到所有相关的文档块,限制了生成模型获取足够的背景信息来构造完整的答案。此外,数据的过时性也是一个重要挑战,如何知识库更新频率非常高,那么知识库中可能会存在大量过时的信息,这些过时数据可能会误导模型,产生不准确的响应。

生成过程

RAG在生成过程同样面临多个问题。当检索到的信息不足时(即前面提到的召回不足),模型有可能虚构信息,根据已有的上下文生成不正确内容。另一个常见问题是不相关回答,即模型生成的答案未能准确回应用户的查询,这是因为模型无法理解检索到的知识内容与用户查询是否有关系导致。

构造prompt过程

假设已经检索到相关的知识内容,并且不存在低精确率和低召回情况,如何根据这些知识内容构造合适的prompt来引导模型回答又是另一个难点。有研究表明,根据知识内容的相关性进行间隔排序可能效果最好,即:chunk1,chunk3,chunk5,chunk4,chunk2。按照用户查询与知识内容的相关性排序为:chunk1>chunk2>chunk3>chunk4>chunk5。这种情况下只有5个知识内容,模型可能还能全部理解,当知识内容更多的时候,就无法保证召回的知识内容都能学习到。此外,当多个检索到的知识内容包含相似信息时,容易出现冗余和重复的问题,导致生成内容的重复和冗长,可能还会降低模型的回答效果。

知识库检索和维护

RAG在应用中涉及到多次检索和生成过程,通常对服务器计算资源和网络响应有较高要求,如果RAG涉及到多个智能体协同,可能还会进一步增加服务器的压力。此外,为了确保检索的准确性,知识库需要定期更新和清理。如果知识库不够完善或更新不及时,RAG生成的结果可能会基于过时或无关的信息。因此,在设计实际可用的RAG时,需要考虑如何简化知识库更新的操作。

五 RAG性能提升思路

提高检索质量

在建库阶段,可以通过调整块大小和补充额外的元信息来增加知识内容的信息丰富度,并且可以通过微调向量模型来提升模型对知识库的表示能力。在检索时,可以通过增加Rerank模型来对召回的知识内容进行筛选和排序,增强用户查询和知识内容的关联性。

提升生成质量

让模型对知识内容进行判断和筛选,过滤掉无关的知识内容,并且对相关性较高的知识内容进行排序,从而提升回答质量。

其他

减少实时的计算耗时可以采用模型蒸馏,训练更轻量级的模型来加快推理速度,减少计算资源消耗。同时可以采用离线检索或缓存机制,对于高频问题的答案进行预计算和缓存。对于知识库的日常维护,则可以引入自动化的数据更新流程,定期清理过时信息、更新领域知识库,使RAG能够处理最新的领域信息和数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2113848.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Learn ComputeShader 09 Night version lenses

这次将要制作一个类似夜视仪的效果 第一步就是要降低图像的分辨率, 这只需要将id.xy除上一个数字然后再乘上这个数字 可以根据下图理解,很明显通过这个操作在多个像素显示了相同的颜色,并且很多像素颜色被丢失了,自然就会有降低分…

Open-Sora代码详细解读(1):解读DiT结构

Diffusion Models专栏文章汇总:入门与实战 前言:目前开源的DiT视频生成模型不是很多,Open-Sora是开发者生态最好的一个,涵盖了DiT、时空DiT、3D VAE、Rectified Flow、因果卷积等Diffusion视频生成的经典知识点。本篇博客从Open-S…

攻防世界 Web_php_unserialize

Web_php_unserialize PHP反序列化 看看代码 <?php class Demo { private $file index.php;public function __construct($file) { $this->file $file; }function __destruct() { echo highlight_file($this->file, true); }function __wakeup() { if ($this->…

软件测试 | 性能测试

性能测试的概念 为了 发现系统性能问题 或 获取系统性能相关指标 而进行的测试。 常见性能测试指标 并发数 即并发用户数。 从业务层面看&#xff0c;并发用户数指的是 实际使用系统的用户总数。从后端服务器层面看&#xff0c;指的是 web服务器在一段时间内处理浏览器请求而建…

服务器环境搭建-5 Nexus搭建与使用介绍

背景 本文介绍nexus的安装、配置和使用&#xff0c;之后通过案例的方式演示使用过程。 1.下载和安装 本文使用Nexus 3.x版本进行演示 下载地址&#xff1a;Download Nexus Repository OSS | Sonatype 国外网站下载速度较慢&#xff0c;也可以通过百度网盘下载(提取码:9999): …

爆改YOLOv8|利用图像分割网络UNetV2改进yolov8主干-即插即用

1&#xff0c;本文介绍 U-Net v2 通过引入创新的跳跃连接设计来提升医学图像分割的精度。这一版本专注于更有效地融合不同层级的特征&#xff0c;包括高级特征中的语义信息和低级特征中的细节信息。通过这种优化&#xff0c;U-Net v2 能够在低级特征中注入丰富的语义&#xff…

wireshark安装及抓包新手使用教程

Wireshark是非常流行的网络封包分析软件&#xff0c;可以截取各种网络数据包&#xff0c;并显示数据包详细信息。常用于开发测试过程各种问题定位。本文主要内容包括&#xff1a; 1、Wireshark软件下载和安装以及Wireshark主界面介绍。 2、WireShark简单抓包示例。通过该例子学…

JetBrains Aqua安装步骤和基本配置

一、安装步骤 下载链接&#xff1a;https://www.jetbrains.com.cn/aqua/ 1、点击下载按钮。 2、点击下载IDE&#xff0c;浏览器下载.exe。&#xff08;如果是mac或linux可选择对应的下载安装包&#xff09; 3、双击.exe文件&#xff0c;点击下一步。 4、可点击【浏览】选择安装…

在Webmin上默认状态无法正常显示 Mariadb V11.02及以上版本

OS: Armbian OS 24.5.0 Bookworm Mariadb V11.02及以上版本 Webmin&#xff1a;V2.202 小众问题&#xff0c;主要是记录一下。 如题 Webmin 默认无法 Mariadb V11.02及以上版本 如果对 /etc/webmin/mysql/config 文件作相应调整就可以再现Mariadb管理界面。 路径文件&#xff…

风格控制水平创新高!南理工InstantX小红书发布CSGO:简单高效的端到端风格迁移框架

论文链接&#xff1a;https://arxiv.org/pdf/2408.16766 项目链接&#xff1a;https://csgo-gen.github.io/ 亮点直击 构建了一个专门用于风格迁移的数据集设计了一个简单但有效的端到端训练的风格迁移框架CSGO框架&#xff0c;以验证这个大规模数据集在风格迁移中的有益效果。…

2024年,女生到底适合转行ui设计还是软件测试?

作为2024年的就业选择来说&#xff0c;软件测试和UI设计发展都挺不错的 选择这两个方向转行的女生很多。但具体选择测试还是UI设计&#xff0c;最好还是根据你个人的兴趣爱好以及长期的发展路径去选择 比如&#xff1a;薪资、工作稳定性、后续晋升空间、学习难度等等方面~ 如…

HCIP:一次性搞定OSPF基础

OSPF 一&#xff0c; OSPF基础1. 技术背景&#xff08;RIP中存在的问题&#xff09;OSPF协议特点OSPF三张表OSPF数据表头部数据包内容&#xff1a;helloDBD&#xff08;数据库描述报文&#xff09;LSRLSULSack OSPF工作过程1. 确认可达性&#xff0c;建立邻居2-way前&#xff0…

掌握Hive函数[2]:从基础到高级应用

目录 高级聚合函数 多进一出 1. 普通聚合 count/sum... 2. collect_list 收集并形成list集合&#xff0c;结果不去重 3. collect_set 收集并形成set集合&#xff0c;结果去重 案例演示 1. 每个月的入职人数以及姓名 炸裂函数 概述 案例演示 1. 数据准备 1&#xff09;表…

接口自动化三大经典难题

目录 一、接口项目不生成token怎么解决关联问题 1. Session机制 2. 基于IP或设备ID的绑定 3. 使用OAuth或第三方认证 4. 利用隐式传递的参数 5. 基于时间戳的签名验证 二、接口测试中网络问题导致无法通过怎么办 1. 重试机制 2. 设置超时时间 3. 使用模拟数据 4. 网…

nmon服务器监控工具使用

nmon&#xff1a;是一个分析linux服务器性能的免费工具&#xff0c;可以用来帮助我们整体性的分析服务端的CPU&#xff0c;内存&#xff0c;网络&#xff0c;IO&#xff0c;虚拟内存等指标 下载nmon.jar包及分析文件&#xff1a;百度网盘 链接: 提取码: 0000 一、nmon配置及使…

JavaScript (变量,var,Let,Const)

目录 JavaScript 变量 JavaScript 变量 JavaScript 标识符 声明&#xff08;创建&#xff09; JavaScript 变量 JavaScript Let 全局作用域 函数作用域 块作用域&#xff08;Let) 重新声明变量 JavaScript Const 在声明时赋值 JavaScript 变量 JavaScript 变量 Jav…

2024 年高教社杯全国大学生数学建模竞赛题目【A/B/C/D/E题】完整论文+代码结果

2024国赛C题参考论文https://download.csdn.net/download/qq_52590045/89718370网盘链接形式&#xff0c;在里更新 2024国赛A题参考论文https://download.csdn.net/download/qq_52590045/89718367 网盘链接形式&#xff0c;在里更新 2024国赛D题参考论文https://download.…

数据库面试题学习

B树和B树 B树 排好序的 节点内部有多个元素 B树 排好序的 节点内多个元素 叶子节点有指针&#xff08;双向指针&#xff09; 非叶子节点冗余了一份在叶子节点 mysql定义B树 InnoDB B树是B树的升级版~ InnoDB b树是怎么产生的 mysql 页 目录 16KB 自增id uuid 一页最多可以存储…

PPPoE配置学习笔记

企业内网和运营商网络如上图所示&#xff0c;中间交换机模拟运营商传输设备。公网IP段&#xff1a;12.1.1.0/24。内网IP段&#xff1a;192.168.1.0/24。PPPoE拨号采用CHAP认证&#xff0c;用户名&#xff1a;admin 密码&#xff1a;admin123 实验要求&#xff1a; 将R1设置为…

基于STM32的多功能车位锁设计

本设计基于STM32的多功能车位锁&#xff0c;该系统主要包括&#xff1a;测距模块、光强采集模块、主控芯片模块、显示模块、摄像模组等。系统以STM32单片机作为主控芯片用来对系统中的外设进行控制并且对传输过来的数据进行处理。通过K210模块来实现图像识别的功能检测车牌是否…