【AAAI 2024】M2Doc：文档版面分析的可插拔多模态融合方法

news2025/7/4 17:48:47

一、文章介绍

文档版面分析任务是文档智能的一个关键任务。然而，现有的很多文档版面分析研究方法都基于通用目标检测方法，忽视了文档的文本特征而仅仅只关注于视觉特征。近年来，基于预训练的文档智能模型在很多文档下游任务中都取得了成功，然而在具体的文档版面分析任务上同样也只是简单将预训练的参数迁移到纯视觉的目标检测器中进行fintune。基于此，本文设计了可插拔的多模态融合方法M2Doc，可以赋予纯视觉的目标检测器感受多模态的能力。M2Doc包含两个融合模块，Early-Fusion和Late-Fusion模块。其中Early-Fusion模块使用一个类似Gate的机制去融合主干网络提取出的视觉和文本的模态特征，Late-Fusion模块使用简单的加和操作去融合框级别的文本和视觉特征。得益于M2Doc简洁且有效的模型结构，它可以很容易地应用到多种目标检测器上。我们的实验结果也显示使用M2Doc的目标检测器可以在DocLayNet和M6Doc版面分析数据集上得到显著的提升，值得一提的是DINO目标检测器搭配M2Doc可以在多个数据集上取得SOTA的结果。

二、出发点

版面分析任务与目标检测任务最大的不同在于它们面向的场景不同，版面分析任务的检测目标大多都是文本区域，也即天然就具有视觉和文本两个属性，故而使用多模态的建模方法去解决这个问题应该更符合任务的特点。
版面分析任务的多数实例都具有语义的连接关系，例如存在上下文联系的两个实例大概率属于同一个类别，故而将语义信息考虑到文档版面分析任务中应该是更符合直觉的建模方式。
现有的文档版面分析方法大多都是基于通用目标检测器改进的，它们在相对简单的物理版面分析数据集上能取得不错的成绩，但是在更复杂的逻辑版面分析场景中表现不佳。现有的多模态版面分析方法比较少，且也存在效果不好参数量过大等问题。

基于上述三点，本文为单模态的检测器设计了通用可插拔的多模态融合方法M2Doc，从而赋予它们在复杂逻辑版面分析场景中能感知文本内容和语义的能力。

三、M2Doc框架

M2Doc的总体框架如图3(a)所示。整个网络包含四个阶段：文本表征阶段、特征提取阶段、Early-Fusion阶段和Late-Fusion阶段。其中两个融合模块都是可插拔的，可以轻松应用到其他的单模态目标检测器中。（1）文本Grid表征阶段：给定一张文档的图片，文档图片中包含多个单词，我们处理的场景都提供OCR结果和对应的检测框。为了能够得到每个单词对应的特征表示，我们将各个单词按阅读顺序排布之后送入到预训练语言模型BERT得到对应每个单词的Embedding。然后我们利用OCR检测框，将每个单词的Embedding填回到其OCR框中。最终我们就得到了和原图像高宽一致，只是通道维度不同的文本Grid输入。这样的表征方式使得我们能够最大限度地保留了文本模态的版面格式，同时又使得两种模态的输入能够在像素级别上对齐，方便后面的特征融合。（2）特征提取阶段：因为在前面我们提到两种模态的输入其实在像素级别上是对齐的，于是我们仅使用单个主干网络去提取文本和视觉特征。我们使用ResNet网络作为我们的主干网络，经过主干网络之后我们得到了四个不同尺度的文本和视觉特征。（3）Early-Fusion阶段：在传统的单模态网络中，主干网络提取出的特征需要被用来生成候选框，以及作为候选框的视觉特征表达，所以我们需要在得到候选框之前就将两个模态的特征进行有效的融合。我们参照了指代分割领域的LAVT的做法，使用一个类似于Gate的机制来融合两个模态对应尺度的特征。在融合之后，考虑到在第一个阶段中没有文本的地方表征为0，于是我们使用LayerNorm去归一化融合后的特征。（4）Late-Fusion阶段：我们把第一次融合后的特征送入到候选框生成模块之后，得到了一系列的候选框。于是我们可以用一个简单的IoU的操作为每个候选框分配合适的文本特征。并且将每个候选框对应的视觉和文本特征进行二次融合。我们发现其实一个简单的带权重的加法融合的策略就已经能够比较好的将两个特征进行融合。

四、实验

a) 主实验

从三个版面分析数据集的结果来看，Cascade Mask R-CNN和DINO加上M2Doc在DocLayNet、M6Doc数据集上都取得了SOTA的结果，证明了其有效性。
M2Doc相比于原有Baseline取得了很大的提升，并且VSR作为唯一一个多模态方法，它依然在DocLayNet数据集上和我们的方法相差较大，证明了M2Doc作为一个可插拔方法的有效性。
PubLayNet是一个比较简单的物理版面分析数据集，并且只区分五个和文本内容关系不大的基本元素，所以一个好的单模态检测器就已经能够在此数据集就已经能够取得不错的效果。并且和我们对比的方法大多都是用更大的主干网络(ViT、X101等)，我们也在主干网络不占优的情况下达到了一个Comparable的结果。

b) 可插拔实验