一篇论文分享，以多模态的形式来做RAG的研究

news2026/2/14 2:20:34

这篇论文，给我很强的割裂感和冲击感。非常值得阅读。我是做RAG相关研究工作的，过去一年在做传统的RAG，就是标准的文档解析，chunk，召回，排序，模型生成答案这条路。深谙RAG的复杂，中间要优化的环节太多了。中间要翻的大山太多了，其中文档解析，文件理解，再到去定义M+1个召回策略，很复杂。这篇论文直击痛点，让我觉得很哇塞。

这篇论文给很大的冲击感，颠覆了传统的路线，让我觉得如沐春风。论文提出使用依靠多模态模型，来做RAG，这样只需要使用文档的截图就可以了。这个思路的提出，直接省去传统RAG的很多个中间处理环节。

https://arxiv.org/pdf/2407.01449v2

解决的核心问题

这篇论文介绍了一种名为ColPali的新型文档检索模型，它利用最新的视觉语言模型（Vision Language Models，简称VLMs）来从文档页面的图像中生成高质量的上下文嵌入（contextualized embeddings）。ColPali结合了一种称为“late interaction”的匹配机制，显著提高了检索性能，并且具有更快的处理速度和端到端的训练能力。

利用视觉语言模型，来解决传统RAG的痛点问题：RAG的链路太长了，中间的环节特别多，光是在文档解析上就要花费非常多精力，来做文件理解的内容。中间每个环节损失百分之十，最终可能就只剩下 0.9 * 0.9* .. (n-1)*0.9 。损失是叠加的，这是非常恐怖的，所以对每个环节的要求都极高。这很困难，也很痛苦。

此外，传统RAG主要关注文本内容，而忽略了文档的视觉元素，这在需要同时理解文本和视觉信息的场景中（如检索增强生成RAG）导致性能受限。现代文档检索系统在文本匹配方面表现出色，但它们在有效利用文档的视觉线索（如表格、图形、页面布局或字体）方面存在不足，这限制了它们在实际文档检索应用中的性能。表格的处理，图像的处理，都是需要额外的精力。

这条路如果真的可行，那真的对RAG从业者来说，是一个福音。

泼个凉水

这个论文的确给我们提供了一条新的路线。但是它还不成熟。我想我们已经在传统的RAG上已经做了那么多的雕花的工作，新的思路一时还无法替代。学术界的东西在工业界落地，可能还需要很长的时间。

在这个思路上，想要去提升效果，只有一条路可以走，那就是训练模型。无法通过策略来做提升。

主要贡献如下

ViDoRe基准测试：提供了测试数据集。作者创建并公开发布了一个名为ViDoRe（Visual Document Retrieval Benchmark）的全面基准测试，用于评估系统在页面级别文档检索上的性能。这个基准测试覆盖了多个领域、视觉元素和语言。
ColPali模型架构：提出了一种基于视觉语言模型的新模型架构和训练策略，可以直接从文档的视觉特征中高效地索引文档，允许后续使用late interaction机制进行快速查询匹配。
性能评估：ColPali在ViDoRe基准测试中的性能超过了现有的所有文档检索系统，同时保持了查询的低延迟和索引的高吞吐量。
资源发布：作者公开了所有项目工件，包括模型和代码，以促进进一步的开发和研究。