这篇论文,给我很强的割裂感和冲击感。非常值得阅读。我是做RAG相关研究工作的 ,过去一年在做传统的RAG,就是标准的文档解析,chunk,召回,排序,模型生成答案这条路。深谙RAG的复杂,中间要优化的环节太多了。中间要翻的大山太多了,其中文档解析,文件理解,再到去定义M+1个召回策略,很复杂。这篇论文直击痛点,让我觉得很哇塞。
这篇论文给很大的冲击感,颠覆了传统的路线,让我觉得如沐春风。论文提出使用依靠多模态模型,来做RAG,这样只需要使用文档的截图就可以了。这个思路的提出,直接省去传统RAG的很多个中间处理环节。
https://arxiv.org/pdf/2407.01449v2
解决的核心问题
这篇论文介绍了一种名为ColPali的新型文档检索模型,它利用最新的视觉语言模型(Vision Language Models,简称VLMs)来从文档页面的图像中生成高质量的上下文嵌入(contextualized embeddings)。ColPali结合了一种称为“late interaction”的匹配机制,显著提高了检索性能,并且具有更快的处理速度和端到端的训练能力。
利用视觉语言模型,来解决传统RAG的痛点问题:RAG的链路太长了,中间的环节特别多,光是在文档解析上就要花费非常多精力,来做文件理解的内容。中间每个环节损失百分之十,最终可能就只剩下 0.9 * 0.9* .. (n-1)*0.9 。损失是叠加的,这是非常恐怖的,所以对每个 环节的要求都极高。这很困难,也很痛苦。
此外,传统RAG主要关注文本内容,而忽略了文档的视觉元素,这在需要同时理解文本和视觉信息的场景中(如检索增强生成RAG)导致性能受限。现代文档检索系统在文本匹配方面表现出色,但它们在有效利用文档的视觉线索(如表格、图形、页面布局或字体)方面存在不足,这限制了它们在实际文档检索应用中的性能。表格的处理,图像的处理,都是需要额外的精力。
这条路如果真的可行,那真的对RAG从业者来说,是一个福音。
泼个凉水
这个论文的确给我们提供了一条新的路线。但是它还不成熟。我想我们已经在传统的RAG上已经做了那么多的雕花的工作,新的思路一时还无法替代。学术界的东西在工业界落地,可能还需要很长的时间。
在这个思路上,想要去提升效果,只有一条路可以走,那就是训练模型。无法通过策略来做提升。
主要贡献如下
-
ViDoRe基准测试:提供了测试数据集。作者创建并公开发布了一个名为ViDoRe(Visual Document Retrieval Benchmark)的全面基准测试,用于评估系统在页面级别文档检索上的性能。这个基准测试覆盖了多个领域、视觉元素和语言。
-
ColPali模型架构:提出了一种基于视觉语言模型的新模型架构和训练策略,可以直接从文档的视觉特征中高效地索引文档,允许后续使用late interaction机制进行快速查询匹配。
-
性能评估:ColPali在ViDoRe基准测试中的性能超过了现有的所有文档检索系统,同时保持了查询的低延迟和索引的高吞吐量。
-
资源发布:作者公开了所有项目工件,包括模型和代码,以促进进一步的开发和研究。
ViDoRe基准测试
已有的测试数据集,有的只是测视觉的,有的只是测文本召回的。测试侧重于各种模式-文本、图形、信息图形、表格。涉及的领域主要是医学、商业、科学、行政。覆盖的语言主要是英语和法语
评估结果展示
论文中结果展示,这种方式取得了非常好效果。但是我还是有点质疑,根据我们的生产经验,向量的相关性会比BM25好一些,但是这个结果里边并不是,这让我不得不怀疑专业性。