再看开源多模态RAG的视觉文档(OCR-Free)检索增强生成方案-VDocRAG

news2025/4/24 3:42:26

前期几个工作提到,基于OCR的文档解析+RAG的方式进行知识库问答,受限文档结构复杂多样,各个环节的解析泛化能力较差,无法完美的对文档进行解析。因此出现了一些基于多模态大模型的RAG方案。如下:

  • 【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索

  • 【多模态&RAG】多模态RAG ColPali实践

  • 【RAG&多模态】多模态RAG-VisRAG:基于视觉的检索增强生成在多模态文档上的应用

  • 【RAG&多模态】再看多模态RAG进行文档问答的方案-M3DOCRAG

  • 【RAG&多模态】mR^2AG:基于知识的多模态检索-反思增强生成方法浅尝

下面再来看一个新的RAG框架VDocRAG,用于解决视觉文档问答问题。

视觉文档问答概述

OpenDocVQA任务的目标是给定一个文档图像集合和一个问题,通过找到相关的文档图像来输出答案。任务分为两个阶段:

  1. 视觉文档检索(Visual Document Retrieval)

    • 输入:一个查询问题 Q Q Q 和一个文档图像集合 I \mathcal{I} I
    • 输出:从集合中检索出与问题相关的 k k k 个文档图像 I ^ \hat{\mathcal{I}} I^,其中 k ≪ N k \ll N kN(即 k k k 远小于文档集合的大小)。
    • 目标:通过检索相关的文档图像来帮助生成答案。
  2. 文档视觉问答(DocumentVQA)

    • 输入:查询问题 Q Q Q 和检索到的文档图像 I ^ \hat{\mathcal{I}} I^
    • 输出:生成一个答案 A A A
    • 目标:利用检索到的文档图像来生成准确的答案。

方法架构

VDocRAG由两个主要组件组成:VDocRetriever和VDocGenerator,下面来看看这两个组件。

VDocRetriever(检索器)

VDocRetriever基于LVLM的双编码器架构,用于检索与查询问题相关的文档图像。

  1. 动态高分辨率图像编码:使用动态裁剪将高分辨率图像分割成较小的patch,每个patch大小为 336 × 336 336 \times 336 336×336 像素。将这些patch作为单独的输入传递给图像编码器,并将其转换为视觉文档特征 z d z_d zd

  2. 编码过程:在VDocRetriever中,问题和视觉文档特征被独立编码。在问题的末尾添加一个 ⟨ E O S ⟩ \langle EOS \rangle EOS(End of Sequence)标记,并将其与视觉文档特征一起输入到LVLM中。通过取最后一个 ⟨ E O S ⟩ \langle EOS \rangle EOS 向量来获得问题和视觉文档的嵌入 h q h_q hq h d h_d hd

  3. 相似度计算:使用最大内积搜索计算问题和视觉文档嵌入之间的相似度分数:
    SIM ⁡ ( h q , h d ) = h q ⊤ h d ∥ h q ∥ ∥ h d ∥ \operatorname{SIM}(h_q, h_d) = \frac{h_q^{\top} h_d}{\|h_q\| \|h_d\|} SIM(hq,hd)=hq∥∥hdhqhd

  4. 检索过程:根据相似度分数检索与问题最相关的 k k k 个文档。

VDocGenerator(生成器)

VDocGenerator使用VDocRetriever检索到的文档图像来生成答案。

  1. 编码过程:编码检索结果后,将问题和编码后的结果连接起来,并将其输入到LVLM中。

  2. 生成过程:LVLM根据输入生成答案。

自监督预训练

预训练的目标是迁移 LVLM 强大的理解和生成能力,以促进其在视觉文档检索中的应用。为此,提出了两个新的自监督预训练任务,将整个图像表示压缩为输入图像末尾的 EOS 令牌。我们的预训练过程传递文档图像,并将其提取的 OCR 文本用作伪目标。完整的预训练目标定义为损失之和,如下所示。

通过检索进行表示压缩 (RCR)

使用对比学习任务通过检索与OCR文本相关的图像来压缩图像表示。构建正样本OCR文本-图像对,并使用InfoNCE损失函数计算对比损失:

L R C R = − log ⁡ exp ⁡ ( SIM ⁡ ( h o , h d + ) / τ ) ∑ i ∈ B exp ⁡ ( SIM ⁡ ( h o , h d i ) / τ ) \mathcal{L}_{RCR} = -\log \frac{\exp(\operatorname{SIM}(h_o, h_{d^{+}}) / \tau)}{\sum_{i \in \mathcal{B}} \exp(\operatorname{SIM}(h_o, h_{d_i}) / \tau)} LRCR=logiBexp(SIM(ho,hdi)/τ)exp(SIM(ho,hd+)/τ)
其中 τ \tau τ 是一个温度超参数, B \mathcal{B} B 表示批量大小。

通过生成进行表示压缩 (RCG)

使用自定义的注意力掩码矩阵来利用LVLM的生成能力。对图像标记的表示进行掩码,仅允许 ⟨ E O S ⟩ \langle EOS \rangle EOS 标记和前面的OCR标记的注意力。通过标准自回归过程获取图像标记的表示,并将它们压缩到 ⟨ E O S ⟩ \langle EOS \rangle EOS 标记中。定义损失函数:

其中 y i y_i yi 表示OCR的第 i i i 个标记。

实验表现

检索结果

VDocRetriever 在未见数据集 ChartQA 和 SlideVQA 上表现出卓越的零样本泛化能力,优于现成的文本检索器和最先进的视觉文档检索模型。

RAG 结果

即使所有模型都采用相同的初始化,VDocRAG 在 DocumentVQA 任务上的表现也明显优于闭卷 LLM 和基于文本的 RAG。

VDocRAG 在理解布局和可视化内容(例如表格、图表、图形和示意图)方面展现出显著的性能优势。这些发现凸显了将文档表示为图像对于提升 RAG 框架性能的关键作用。

参考文献:https://arxiv.org/abs/2504.09795,VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents

code:https://github.com/nttmdlab-nlp/VDocRAG

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2341190.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深入浅出 NVIDIA CUDA 架构与并行计算技术

🐇明明跟你说过:个人主页 🏅个人专栏:《深度探秘:AI界的007》 🏅 🔖行路有良友,便是天堂🔖 目录 一、引言 1、CUDA为何重要:并行计算的时代 2、NVIDIA在…

FPGA系列之DDS信号发生器设计(DE2-115开发板)

一、IP核 IP(Intellectual Property)原指知识产权、著作权等,在IC设计领域通常被理解为实现某种功能的设计。IP模块则是完成某种比较复杂算法或功能(如FIR滤波器、FFT、SDRAM控制器、PCIe接口、CPU核等)并且参数可修改的电路模块&#xff0c…

【Dv3Admin】从零搭建Git项目安装·配置·初始化

项目采用 Django 与 Vue3 技术栈构建,具备强大的后端扩展能力与现代前端交互体验。完整实现了权限管理、任务队列、WebSocket 通信、系统配置等功能,适用于构建中后台管理系统与多租户平台。 本文章内容涵盖环境搭建、虚拟环境配置、前后端部署、项目结…

P3416-图论-法1.BFS / 法2.Floyd

这道题虽然标签有floyd但是直接bfs也能过 其实事实证明还是bfs快,因为bfs只需要遍历特定的点,但是floyd需要考虑遍历所有可能的中介点 法1.BFS 用字典存储每个点所能普及的范围,然后用对每个点bfs进行拓展 nint(input())temp[]#xmax0;yma…

极狐GitLab 议题和史诗创建的速率限制如何设置?

极狐GitLab 是 GitLab 在中国的发行版,关于中文参考文档和资料有: 极狐GitLab 中文文档极狐GitLab 中文论坛极狐GitLab 官网 议题和史诗创建的速率限制 (BASIC SELF) 速率限制是为了控制新史诗和议题的创建速度。例如,如果您将限制设置为 …

提交到Gitee仓库

文章目录 注册配置公钥创建空白的码云仓库把本地项目上传到码云对应的空白仓库中 注册 注册并激活码云账号( 注册页面地址:https://gitee.com/signup ) 可以在自己C盘/用户/用户名/.ssh 可以看到 有id_rsa.pub 以前在GitHub注册时搞过&…

oracle中错误总结

oracle中给表起别名不能用as,用as报错 在 Oracle 数据库中,​​WITH 子句(即 CTE,公共表表达式)允许后续定义的子查询引用前面已经定义的 CTE​​,但 ​​前面的 CTE 无法引用后面的 CTE​​。这种设计类似…

纽约大学具身智能体在城市空间中的视觉导航之旅!CityWalker:从海量网络视频中学习城市导航

作者:Xinhao Liu, Jintong Li, Yicheng Jiang, Niranjan Sujay, Zhicheng Yang, Juexiao Zhang, John Abanes, Jing Zhang, Chen Feng单位:纽约大学论文标题:CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos论文链接&…

OpenCV颜色变换cvtColor

OpenCV计算机视觉开发实践:基于Qt C - 商品搜索 - 京东 颜色变换是imgproc模块中一个常用的功能。我们生活中看到的大多数彩色图片都是RGB类型的,但是在进行图像处理时需要用到灰度图、二值图、HSV(六角锥体模型,这个模型中颜色的…

Manus技术架构、实现内幕及分布式智能体项目实战

Manus技术架构、实现内幕及分布式智能体项目实战 模块一: 剖析Manus分布式多智能体全生命周期、九大核心模块及MCP协议,构建低幻觉、高效且具备动态失败处理能力的Manus系统。 模块二: 解析Manus大模型Agent操作电脑的原理与关键API&#xf…

下载油管视频 - yt-dlp

文章目录 1. yt-dlp与you-get介绍1.1 主要功能对比1.2 使用场景1.3 安装 2. 基本命令介绍2.1 默认下载视频2.2 指定画质和格式规则2.3 下载播放列表2.4 备注 3. 参考资料 之前只使用you-get下载b站视频,当时了解you-get也可下载油管视频,但之前无此需求&…

济南通过首个备案生活服务大模型,打造行业新标杆

近日,一则振奋人心的消息在人工智能领域传开:济南本土企业丽阳神州智能科技有限公司自主研发的 “丽阳雨露” 大模型成功通过国家网信办的备案。这一成果不仅是济南企业在科技创新道路上的重大突破,更标志着我国在生活服务领域的人工智能应用…

第6次课 贪心算法 A

向日葵朝着太阳转动,时刻追求自身成长的最大可能。 贪心策略在一轮轮的简单选择中,逐步导向最佳答案。 课堂学习 引入 贪心算法(英语:greedy algorithm),是用计算机来模拟一个「贪心」的人做出决策的过程…

Hexo+Github+gitee图床零成本搭建自己的专属博客

一个详细、完善的 Hexo 博客部署教程,不仅涵盖了基本的安装、配置、生成与部署步骤,还增加了常见问题的解决、主题设置、图片上传等 在开始之前可以看看我最终搭建出来的成果:https://liangjh.blog 1.安装git和nodejs 在Windows上使用Git&a…

数字信号处理技术架构与功能演进

数字信号处理(DSP)是通过数字运算实现信号分析、变换、滤波及调制解调的技术领域,其发展过程与技术应用如下: 一、定义与核心功能 技术定义:通过算法将模拟信号转换为数字形式进行处理,具有高精度、可编程…

深入理解 Android Handler

一、引言 Handler 在安卓中的地位是不言而喻的,几乎维系着整个安卓程序运行的生命周期,但是这么重要的一个东西,我们真的了解它吗?下面跟随着我的脚步,慢慢揭开Hanler的神秘面纱吧! 本文将介绍Handler 的运…

C++ 什么是隐式类型转换,什么是显式类型转换

在 C 中,​​类型转换​​是将一种数据类型的值转换为另一种数据类型的过程,分为 ​​隐式类型转换​​(由编译器自动完成)和 ​​显式类型转换​​(由程序员手动指定)。以下是它们的区别和示例&#xff1a…

NVIDIA 自动驾驶技术见解

前言 参与 NVIDIA自动驾驶开发者实验室 活动,以及解读了 NVIDIA 安全报告 自动驾驶 白皮书,本文是我的一些思考和见解。自动驾驶技术的目标是为了改善道理安全、减少交通堵塞,重塑更安全、高效、包容的交通生态。在这一领域,NVI…

【Flask】Explore-Flask:早期 Flask 生态的实用指南

开源项目:explore-flask/README.rst at master rpicard/explore-flask (github.com) 一、Coding conventions Summary Try to follow the coding style conventions laid out in PEP 8. Try to document your app with docstrings as defined in PEP 257. def…

【论文阅读21】-PSOSVM-CNN-GRU-Attention-滑坡预测(2024-12)

这篇论文主要提出并验证了一种新型的混合智能模型(PSOSVM-CNN-GRU-Attention),用于准确预测滑坡的点位移,并构建可靠的位移预测区间。通过对Baishuihe滑坡和Shuping滑坡的案例分析,展示了该模型的出色性能。 [1] Zai D…