再看开源多模态RAG的视觉文档(OCR-Free)检索增强生成方案-VDocRAG

news2025/4/24 3:42:26

前期几个工作提到，基于OCR的文档解析+RAG的方式进行知识库问答，受限文档结构复杂多样，各个环节的解析泛化能力较差，无法完美的对文档进行解析。因此出现了一些基于多模态大模型的RAG方案。如下：

【RAG&多模态】多模态RAG-ColPali：使用视觉语言模型实现高效的文档检索
【多模态&RAG】多模态RAG ColPali实践
【RAG&多模态】多模态RAG-VisRAG：基于视觉的检索增强生成在多模态文档上的应用
【RAG&多模态】再看多模态RAG进行文档问答的方案-M3DOCRAG
【RAG&多模态】mR^2AG：基于知识的多模态检索-反思增强生成方法浅尝

下面再来看一个新的RAG框架VDocRAG，用于解决视觉文档问答问题。

视觉文档问答概述

OpenDocVQA任务的目标是给定一个文档图像集合和一个问题，通过找到相关的文档图像来输出答案。任务分为两个阶段：

视觉文档检索（Visual Document Retrieval）：
- 输入：一个查询问题 $Q$ 和一个文档图像集合 $\mathcal{I}$ 。
- 输出：从集合中检索出与问题相关的 $k$ 个文档图像 $\hat{\mathcal{I}}$ ，其中 $\ll N$ （即 $k$ 远小于文档集合的大小）。
- 目标：通过检索相关的文档图像来帮助生成答案。
文档视觉问答（DocumentVQA）：
- 输入：查询问题 $Q$ 和检索到的文档图像 $\hat{\mathcal{I}}$ 。
- 输出：生成一个答案 $A$ 。
- 目标：利用检索到的文档图像来生成准确的答案。

方法架构

VDocRAG由两个主要组件组成：VDocRetriever和VDocGenerator，下面来看看这两个组件。

VDocRetriever（检索器）

VDocRetriever基于LVLM的双编码器架构，用于检索与查询问题相关的文档图像。

动态高分辨率图像编码：使用动态裁剪将高分辨率图像分割成较小的patch，每个patch大小为 $336 \times 336$ 像素。将这些patch作为单独的输入传递给图像编码器，并将其转换为视觉文档特征 $z_d$ 。
编码过程：在VDocRetriever中，问题和视觉文档特征被独立编码。在问题的末尾添加一个 $\langle EOS \rangle$ （End of Sequence）标记，并将其与视觉文档特征一起输入到LVLM中。通过取最后一个 $\langle EOS \rangle$ 向量来获得问题和视觉文档的嵌入 $h_q$ 和 $h_d$ 。
相似度计算：使用最大内积搜索计算问题和视觉文档嵌入之间的相似度分数：
$\operatorname{SIM}(h_q, h_d) = \frac{h_q^{\top} h_d}{\|h_q\| \|h_d\|}$
检索过程：根据相似度分数检索与问题最相关的 $k$ 个文档。

VDocGenerator（生成器）

VDocGenerator使用VDocRetriever检索到的文档图像来生成答案。

编码过程：编码检索结果后，将问题和编码后的结果连接起来，并将其输入到LVLM中。
生成过程：LVLM根据输入生成答案。

自监督预训练

预训练的目标是迁移 LVLM 强大的理解和生成能力，以促进其在视觉文档检索中的应用。为此，提出了两个新的自监督预训练任务，将整个图像表示压缩为输入图像末尾的 EOS 令牌。我们的预训练过程传递文档图像，并将其提取的 OCR 文本用作伪目标。完整的预训练目标定义为损失之和，如下所示。

通过检索进行表示压缩 (RCR)

使用对比学习任务通过检索与OCR文本相关的图像来压缩图像表示。构建正样本OCR文本-图像对，并使用InfoNCE损失函数计算对比损失：

$\mathcal{L}_{RCR} = -\log \frac{\exp(\operatorname{SIM}(h_o, h_{d^{+}}) / \tau)}{\sum_{i \in \mathcal{B}} \exp(\operatorname{SIM}(h_o, h_{d_i}) / \tau)}$
其中 $\tau$ 是一个温度超参数， $\mathcal{B}$ 表示批量大小。