【RAG】HiQA:一种用于多文档问答的层次化上下文增强RAG

news2024/11/28 7:01:56

前言

文档领域的RAG,之前的工作如ChatPDF等很多的RAG框架,文档数量一旦增加,将导致响应准确性下降,如下图;现有RAG方法在处理具有相似内容(在面对大量难以区分的文档时)和结构的文档时表现不佳;用户查询常常涉及元信息,还增加了检索和生成的复杂性,导致检索的准确性会下降,本文介绍的方法-HiQA,一种用于主要解决多文档问答(MDQA)中的检索增强生成方法。

数量多文档RAG对着文档数量的性能变化

方法

提出了HiQA框架,用于解决多文档问答中的检索准确性问题。该框架主要由Markdown格式化器(Markdown Formatter)、分层上下文增强器(Hierarchical Contextual Augmentor, HCA)、多路径检索器(Multi-Route Retriever, MRR)三部分组成。

Markdown格式化器(Markdown Formatter)

该部分主要是使用大模型的方式指导文档解析生成markdown的过程,这样的比较耗费时间,可以考虑替换成一些轻量的解析方法,常见的过程可以参考以往的一些文档《【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路》

下面看看这篇文章介绍的过程:
Markdown格式化器。该图展示了从长文档中提取章节元数据和相关内容的过程,并确保在滑动
窗口处理下的对齐

首先,使用LLM将源文档转换为Markdown格式的文档,每个章节对应一个自然段落,包含章节元数据和内容。LLM的处理过程如下:

其中, D I D_I DI是输入的PDF文档, D M D_M DM是输出的Markdown文档, M c M_c Mc是语言模型, D M ( t ) D^{(t)}_M DM(t)是第 t t t个时间步的输出。

对于图片引用
利用一个名为PDFImageSearcher的开源工具,用于从文档中提取位图和SVG矢量图
像,以及一个API来检索图像。它利用图像周围的文本、图像标题和一个可选的视觉语言模型,为每个图像生成一个描述性文件。

对表格增强:表格的语义值源自其定义,包括整体描述、标题和行/列标签,因此,在嵌入表格时,仅关注这些语义元素,将表格视为类似文本知识。

表格嵌入。为了在嵌入过程中减少噪声,省略了数据字段。但是,如果检索到这些数据字段,它们将被保留以提供LLM的上下文

对图片增强:利用视觉语言生成模型来创建描述性标题,这些标题包含了图像的显著特征。然后对这些标题进行嵌入。

应用视觉-语言模型生成图像语义的文本描述,然后将其纳入片段中

总之,为了得到高质量的文档处理结果,使用指令进行生成markdown核心思想如下:

  • 将文档中的每一章,无论其级别如何,都视为Markdown中的一级标题,并附上数字标识符。将每章视为一个知识片段,而不是固定大小的块。
  • 设置正确的章节编号,后面跟着章节标题。
  • 通过Markdown语法生成表格并记录表格标题。

分层上下文增强器(Hierarchical Contextual Augmentor, HCA)

使用级联文档结构在数据处理过程中进行文本增强:

从Markdown文件中提取层次结构元数据,并将其级联到每个章节,形成增强的段落。具体步骤包括:

  • 使用深度优先搜索遍历章节树,连接和传递元数据。
  • 对文本、表格和图像等不同类型的段落进行不同的处理。

多路径检索器(Multi-Route Retriever, MRR)

最后,采用多路径检索方法来找到最适合的段落,并将其作为上下文输入到语言模型中。具体方法包括:

  • 向量相似性匹配:使用Elasticsearch和BM25。
  • 关键词匹配:使用预训练的关键实体检测模型提取关键词。
  • 补偿向量相似性限制:结合基于频率的检索技术和关键词排名策略。

HiQA框架
综合以上三个组件,形成了HiQA框架。公式如下:

其中, α α α β β β是超参数,分别平衡向量相似性和信息检索得分的贡献, ∣ C ∣ |C| C表示匹配的关键词数量。

实验效果

总结

本文介绍了HiQA,这是一个专门为了解决现有RAG在多文档问答(MDQA)环境中的局限性而设计的新型框架,特别是在处理无法区分的多文档时。利用文档的结构元数据有效地进行块分割和嵌入增强,并辅以多路检索机制以提高检索效率。

参考文献

  • HiQA: A Hierarchical Contextual Augmentation RAG for Multi-Documents QA,https://arxiv.org/pdf/2402.01767v2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2197073.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

人才画像系统是什么?有哪些功能和作用?

人才画像系统是一种先进的人力资源管理工具,它运用大数据和人工智能技术对员工的多方面特征进行深度分析。系统通过汇聚个人的教育背景、工作经验、技能掌握、性格特质及行为数据等信息,结合数据挖掘和机器学习算法,构建出每位员工的数字化“…

openEuler 22.03 (LTS-SP3)上安装mysql8单机版

一、目标 在openEuler 22.03 (LTS-SP3) 上安装 mysql 8.0.23 单机版 二、安装 1、下载二进制包 MySQL :: Download MySQL Community Server (Archived Versions) 下载页面 下载链接 https://downloads.mysql.com/archives/get/p/23/file/mysql-8.0.23-linux-glibc2.12-x86…

新生培训 day1 C语言基础 顺序 分支 循环 数组 字符串 函数

比赛地址 b牛客竞赛_ACM/NOI/CSP/CCPC/ICPC算法编程高难度练习赛_牛客竞赛OJ C语言数据类型 字符 整型数 int 2e9 long long 9e18 浮点数 代码示例 /** Author: Dduo * Date: 2024-10-8* Description: 新生培训day1 */ #include <stdio.h>int main() {// 定义变量in…

【2024.10.8练习】宝石组合

题目描述 题目分析 由于是求最值&#xff0c;原本考虑贪心&#xff0c;但由于算式过于复杂&#xff0c;首先考虑对算式化简。 进行质因数分解&#xff1a; 因此: 不妨设对于每个&#xff0c;&#xff0c;则上式可化简为&#xff1a; 即 用Vene图也可以求出同样结果。 可是以…

DepthB2R靶机打靶记录

一、靶机介绍 下载地址&#xff1a;https://download.vulnhub.com/depth/DepthB2R.ova 二、信息收集 根据靶机主页显示&#xff0c;确认靶机ip为192.168.242.132 端口扫描 nmap -p- -A 192.168.242.132 发现只开放了8080端口 用dirsearch扫个目录 apt-get update apt-get …

胤娲科技:机械臂「叛逃」记——自由游走,再悄然合体

夜深人静&#xff0c;你正沉浸在梦乡的前奏&#xff0c;突然意识到房间的灯还亮着。此刻的你&#xff0c;是否幻想过有一只无形的手&#xff0c;轻盈地飘过&#xff0c;帮你熄灭那盏碍眼的灯&#xff1f; 又或者&#xff0c;你正窝在沙发上&#xff0c;享受电视剧的紧张刺激&am…

RKMEDIA画面质量调节-QP调节

QP是在视频采集编码过程中的量化参数&#xff0c;其值与画面质量成反比&#xff0c;即QP值越大画面质量越小&#xff0c;其具体调整方法如下&#xff1a; typedef struct rkVENC_RC_PARAM_S {RK_U32 u32ThrdI[RC_TEXTURE_THR_SIZE]; // [0, 255]RK_U32 u32ThrdP[RC_TEXTURE_TH…

一致性哈希算法解析

1. 哈希算法 想象我们的网络世界是一个巨大的环形摩天轮&#xff0c;上面有无数的座位&#xff0c;每个座位都代表了一个存储空间。现在&#xff0c;我们需要将三万张照片安排到这个摩天轮的三台机器上。这些机器我们可以想象成三个大车厢&#xff0c;每个车厢可以装载一部分照…

GIS专业的就业前景

地理信息系统&#xff08;GIS&#xff09;作为一门跨学科的领域&#xff0c;随着技术的发展和应用领域的拓宽&#xff0c;其就业前景日益广阔。GIS专业毕业生可以在多个行业中找到合适的职位&#xff0c;并且随着经验的积累&#xff0c;薪资和职业发展空间都相当可观。 1. 就业…

怎么把图片压缩小一点?几个小技巧帮助你轻松压缩图片大小

怎么把图片压缩小一点&#xff1f;几个小技巧帮助你轻松压缩图片大小 压缩图片大小是许多用户在处理照片时的常见需求&#xff0c;特别是在需要上传图片到网页、发送电子邮件或储存时&#xff0c;减小文件大小可以大大提高效率。以下是五款可以帮助你轻松压缩图片大小的软件&a…

能不能给我讲讲redis中的列表

写在文章开头 本文将从redis源码的角度直接分析列表操作指令,因为大部分指令操作细节区别不是很大,同时为了更专注于列表逻辑的分析,所以本文笔者将以双向链表这个数据结构为核心对lrange、lindex、llen、rpush、lpop几个操作展开介绍,希望对你有帮助。 Hi,我是 sharkChi…

泛微OA设置多个人力资源审批人员

泛微OA设置节点审批人员在不同条件下必须都审批才能过流程 在泛微OA中设置审批人员可以有多个设置方式&#xff0c;大部分情况可以根据会签和非会签控制是否需要所有人都审批&#xff0c;例如&#xff1a; 这里选择的会签就是需要这四个人都必须审批流程&#xff0c;这个流程…

台灯哪种灯光对眼睛好?保护眼睛要选央视公认最好的护眼灯

根据最新的文献当中的近视人群的数据我们发现&#xff0c;亚洲人的近视患病率更高&#xff0c;为70-90%&#xff0c;而美国人和欧洲人的近视患病率为30-40%&#xff0c;也就是说&#xff0c;近视的发病率与种族有关。其次跟近视相关的环境因素有很多&#xff0c;主要有近距离工…

微服务架构Gin-etcd-gRPC接合的入门实践

最近在学习微服务&#xff0c;先后学习gRPC、etcd。学习过这两个技术之后&#xff0c;结合Gin框架&#xff0c;简单实现了一个微服务的小demo了。 以下是各技术在微服务架构中的功能。 Gin框架作为网关&#xff0c;外部请求的统一出口。负责将外部的HTTP请求转化为RPC请求&…

伦敦金实时行情决策辅助!

在伦敦金实时交易的过程中&#xff0c;投资者主要依赖技术分析来辅助自己的投资决策。与基本面分析不同&#xff0c;技术分析侧重于研究金价的走势和市场行为&#xff0c;通过图表和技术指标来预测未来的市场走势。常用的技术分析方法包括&#xff1a; 趋势线和支撑阻力位&…

使用AutoDL安装Mamba官方代码

使用AutoDL安装Mamba 租界的云服务器使用环境ubuntu22.04, cuda 11.8, cudnn8.9 python 3.10 torch2.10 远程连接验证安装条件 使用Pycharm连接远程的云GPU服务器 使用nvidia-smi 和 nvcc -V python conda info-e来验证云主机是否具有安装的条件。 conda创建虚拟环境并安装pyt…

MATLAB - 浮动基座机器人的逆运动学

系列文章目录 前言 本例演示如何解决以浮动底座为模型的机器人的逆运动学问题。浮动底座机器人可以在空间中自由平移和旋转&#xff0c;具有六个自由度。浮动基座机器人的逆运动学问题适用于空间应用&#xff0c;即使用安装在浮动和致动基座上的机械臂在空间操纵物体&#xff0…

鸿蒙开发之ArkUI 界面篇 二十二 层叠布局 Stack

Stack语法格式如下&#xff0c;其实鸿蒙的容器组件的语法都是一样的&#xff0c;只是实现效果和和容器组件的名字不一样而已。 与绝对定位相比&#xff0c;实现更简单些&#xff0c;绝地定位更灵活&#xff0c;如果需要调整子组件的对其方式&#xff0c;需要这样添 加&#xf…

如何使用 WSL 在 Windows 上安装 Linux

如何使用 WSL 在 Windows 上安装 Linux 文章目录 如何使用 WSL 在 Windows 上安装 Linux前言安装WSL命令修改DNS网络右键打开网络和internet设置更改适配器选项属性 前言 在Windows计算机上同时访问Windows和Linux系统的功能&#xff0c;有利于大家学习Linux系统。 版本要求Wi…

Rethinking the Localization in Weakly Supervised ObjectLocalization

论文名称&#xff1a;Rethinking the Localization in Weakly Supervised Object Localization 论文地址&#xff1a;Rethinking the Localization in Weakly Supervised Object Localization (arxiv.org) 1.背景 最近&#xff0c;将WSOL分成两部分(与类无关的对象定位和对象…