LayoutLMv3 ：基于统一文本和带Masking图像的文档AI预训练【论文翻译】

文章目录

专业名词统计
文档智能多模态预训练模型LayoutLMv3：兼具通用性与优越性
LayoutLMv3 ：基于统一文本和带Masking图像的文档AI预训练
- ABSTRACT
- 1 INTRODUCTION
- 2 LAYOUTLMV3
- - 2.1 Model Architecture（模型架构）
  - 2.2 Pre-training Objectives（预训练目标）
- 3 EXPERIMENTS
- - 3.1 Model Configurations
  - 3.2 Pre-training LayoutLMv3
  - 3.3 Fine-tuning on Multimodal Tasks
  - 3.4 Fine-tuning on a Vision Task
  - 3.5 Ablation Study
- 4 RELATED WORK
- 5 总结展望
- 📙 预祝各位前途似锦、可摘星辰

专业名词统计

“masked language modeling” (MLM)
masked image modeling（MIM）
Word-Patch Alignment (WPA)

文档理解

文档理解是文档处理和提取中最重要的步骤。这是从非结构化或半结构化文档中提取信息并将其转换为结构化形式的过程。提取后的结构化表示可以支持各种下游任务，例如信息检索，汇总，分类等。有许多不同的方法可以理解文档，但它们都有一个共同的目标:创建文档内容的结构化表示，以便用于进一步的处理。

对于半结构化文档，例如发票，收款或合同，Microsoft的Layoutlm系列模型能够较好的帮助我们理解和获取这类数据的信息；

LayoutLM v3

LayoutLM v3相对于其前两个版本的主要优势是多模态transformer 架构，它以统一的方式将文本和图像嵌入结合起来。文档图像不依赖CNN进行处理，而是将图像补丁块表示为线性投影，然后线性嵌入与文本标记对齐，如下图所示。这种方法的主要优点是减少了所需的参数和整体计算量。

文档智能多模态预训练模型LayoutLMv3：兼具通用性与优越性

LayoutLMv3 解读推荐参考

文档智能多模态预训练模型LayoutLMv3：兼具通用性与优越性

其他翻译

LayoutLM【论文翻译】
LayoutLMv2:多模态预训练用于富含视觉元素的文档理解【论文翻译】

LayoutLMv3 ：基于统一文本和带Masking图像的文档AI预训练

1-0

ABSTRACT

自我监督的预训练技术在文档智能领域取得了显著进展。大多数多模态预训练模型使用了遮蔽语言建模目标来学习文本模态上的双向representation，但它们在图像模态的预训练目标上存在差异。这种差异增加了多模态representation学习的难度。在本文中，我们提出了LayoutLMv3，用于文档智能的多模态Transformer的统一文本和图像遮蔽预训练。此外，LayoutLMv3还通过一个单词-图像块对齐目标进行预训练，通过预测文本词的相应图像块是否被遮蔽来学习跨模态对齐。简单的统一架构和训练目标使LayoutLMv3成为适用于以文本为中心和以图像为中心的文档智能任务的通用预训练模型。实验结果表明，LayoutLMv3不仅在以文本为中心的任务（包括表格理解、收据理解和文档视觉问答）中取得了最先进的性能，还在以图像为中心的任务，如文档图像分类和文档布局分析中表现出色。The code
and models are publicly available at https://aka.ms/layoutlmv3.

1-1

1-2

1 INTRODUCTION

近年来，预训练技术在文档智能领域取得了显著进展，对文档理解任务产生了重大影响。如图1所示，预训练的文档智能模型可以解析布局并提取各种文档的关键信息，例如扫描表格和学术论文，这对工业应用和学术研究非常重要。
1-4

1-5

自我监督的预训练技术在representation学习领域取得了快速进展，因为它们成功应用了重建性的预训练目标。在自然语言处理（NLP）研究中，BERT首次提出了“遮蔽语言建模”（MLM），通过根据上下文预测随机遮蔽的单词标记的原始词汇ID，从而学习双向representation[9]。尽管大多数性能良好的多模态预训练文档AI模型使用了BERT提出的MLM来处理文本模态，但它们在图像模态的预训练目标上存在差异，如图2所示。例如，DocFormer通过CNN解码器学习重构图像像素[2]，这往往学习到嘈杂的细节而不是高级结构，如文档布局[43, 45]。SelfDoc提出通过回归遮蔽区域特征[31]，这比在较小词汇表中对离散特征进行分类更嘈杂且更难学习[6, 18]。图像（例如，密集图像像素或连续区域特征）和文本（即离散标记）目标的不同粒度进一步增加了跨模态对齐学习的难度，而这对于多模态representation学习至关重要。

为了克服文本和图像模态预训练目标的差异，并促进多模态representation学习，我们提出了LayoutLMv3，用于文档智能的多模态Transformer的统一文本和图像遮蔽目标MLM和MIM预训练。如图3所示，LayoutLMv3学习重构文本模态的遮蔽单词标记和对称重构图像模态的遮蔽图像块标记。受DALL-E [43]和BEiT [3]的启发，我们从离散VAE的潜在编码中获取目标图像标记。对于文档，每个文本单词对应于一个图像块。为了学习这种跨模态对齐，我们提出了一个Word-Patch Alignment (WPA)目标，用于预测文本单词的相应图像块是否被遮蔽。

受到ViT [11] 和 ViLT [22] 的启发，LayoutLMv3 直接利用文档图像中的原始图像块，无需复杂的预处理步骤，如页面对象检测。LayoutLMv3 在一个Transformer模型中，统一使用MLM、MIM 和 WPA 目标来共同学习图像、文本和多模态representation。这使得LayoutLMv3 成为第一个多模态的预训练文档智能模型，无需使用CNN来进行图像特征提取，这显著节省了参数并消除了区域注释的需要。简单的统一架构和目标使LayoutLMv3 成为适用于文本为中心任务和以图像为中心的文档智能任务的通用预训练模型。

我们在五个公共基准测试上评估了预训练的LayoutLMv3模型，包括以文本为中心的基准测试：用于表单理解的FUNSD [20]，用于收据理解的CORD [39]，用于文档视觉问答的DocVQA [38]，以及以图像为中心的基准测试：用于文档图像分类的RVL-CDIP [16]，用于文档布局分析的PubLayNet [59]。实验结果表明，LayoutLMv3 在这些基准测试中取得了具有参数效率的最先进性能。此外，LayoutLMv3 的简单且整洁的架构和预训练目标使其易于复现。

我们的贡献总结如下：

LayoutLMv3 是文档智能领域中第一个不依赖于预训练的CNN或Faster R-CNN骨干来提取视觉特征的多模态模型，这显著节省了参数并消除了区域注释的需要。
LayoutLMv3 通过统一的离散标记重构目标 MLM 和 MIM 减轻了文本和图像多模态representation学习之间的差异。我们进一步提出了一个词-块对齐（WPA）目标，以促进跨模态对齐学习。
LayoutLMv3 是一个通用模型，适用于文本为中心和以图像为中心的文档智能任务。我们首次展示了多模态Transformer在文档智能的视觉任务中的通用性。
实验结果表明，LayoutLMv3 在文档智能的文本为中心任务和以图像为中心任务中均取得了最先进的性能。The code and models are publicly available at https://aka.ms/layoutlmv3.

2 LAYOUTLMV3

Figure 3 gives an overview of the LayoutLMv3.

1-5

LayoutLMv3的架构和预训练目标。LayoutLMv3是用于文档智能的预训练多模态Transformer模型，具有统一的文本和图像掩码目标。给定输入文档图像及其相应的文本和布局位置信息，该模型接受线性投影的图像块和单词标记作为输入，并将它们编码为上下文向量表示。LayoutLMv3通过掩码语言建模（MLM）和掩码图像建模（MIM）的离散标记重构目标进行预训练。此外，LayoutLMv3还通过Word-Patch Alignment (WPA) 目标进行预训练，以通过预测文本词的相应图像块是否被掩码来学习跨模态对齐。其中，“Seg”表示分段级别的位置，“[CLS]”、“[MASK]”、“[SEP]”和“[SPE]”是特殊标记。

2.1 Model Architecture（模型架构）

LayoutLMv3采用了一个统一的文本-图像多模态Transformer来学习跨模态表示。Transformer具有多层架构，每一层主要由多头自注意力和位置感知的全连接前馈网络组成[49]。Transformer的输入是 text embedding Y = y1:𝐿 和 image embedding X = x1:𝑀序列的串联，其中𝐿和𝑀分别是文本和图像的序列长度。通过Transformer，最后一层输出文本和图像的上下文表示。

Text Embedding. 是词embedding和位置embedding的组合。我们使用现成的OCR工具对文档图像进行预处理，以获取文本内容和相应的2D位置信息。我们使用来自预训练模型RoBERTa [36]的词embedding矩阵来初始化词embedding。位置embedding包括1D位置和2D布局位置embedding，其中1D位置指的是文本序列中的标记索引，而2D布局位置指的是文本序列的边界框坐标。与LayoutLM相似，我们通过图像大小来归一化所有坐标，并使用embedding层分别嵌入x轴、y轴、宽度和高度特征[54]。LayoutLM和LayoutLMv2采用了基于单词的布局位置，其中每个单词都有其位置。相反，我们采用基于段落的布局位置，段落中的单词共享相同的2D位置，因为这些单词通常表达相同的语义含义[28]。

Image Embedding. 文档AI中现有的多模态模型要么提取CNN网格特征[2, 56]，要么依赖于对象检测器如Faster R-CNN [44]来提取image embedding的区域特征[14, 31, 40, 54]，这导致了计算瓶颈或需要区域监督。受到ViT [11]和ViLT [22]的启发，我们使用图像块的线性投影特征来表示文档图像，然后将它们馈送到多模态Transformer中。具体而言，我们将文档图像调整大小为𝐻×𝑊，并用I ∈ R 𝐶×𝐻×𝑊表示图像，其中𝐶、𝐻和𝑊分别是图像的通道大小、宽度和高度。然后，我们将图像分割成一系列均匀的𝑃×𝑃块，线性投影图像块到𝐷维度并将它们展平成向量序列，其长度为𝑀 = 𝐻𝑊 /𝑃2。然后，我们为每个图像块添加可学习的1D位置嵌入，因为在初步实验中，我们没有观察到使用2D位置嵌入会带来改进。LayoutLMv3是文档AI中第一个不依赖于CNN来提取图像特征的多模态模型，这对于文档AI模型来说非常重要，可以减少参数或删除复杂的预处理步骤。

我们在文本和图像模态的自注意网络中插入语义1D相对位置和空间2D相对位置作为偏置项，这是根据LayoutLMv2[56]的做法。

2.2 Pre-training Objectives（预训练目标）

2-00

2-0

2-1
2-2

3 EXPERIMENTS

3.1 Model Configurations

The network architecture of LayoutLMv3 follows that of LayoutLM [54] and LayoutLMv2 [56] for a fair comparison. We use base and large model sizes for LayoutLMv3. LayoutLMv3BASE adopts a 12-layer

3-00

我们采用分布式和混合精度训练来降低内存成本并加速训练过程。我们还使用了梯度累积机制，将样本批次拆分成多个小批次，以克服大批量大小的内存限制。此外，我们还使用了梯度检查点技术来减少文档布局分析的内存成本。为了稳定训练，我们遵循了CogView [10]的方法，改变了注意力计算中的softmax计算方式，如下：

3-01

3.2 Pre-training LayoutLMv3

为了学习各种文档任务的通用表示，我们在大规模的IIT-CDIP数据集上对LayoutLMv3进行了预训练。IIT-CDIP测试集1.0是一个大规模的扫描文档图像数据集，包含约1100万个文档图像，可分为4200万页 [26]。我们仅使用其中的1100万页来训练LayoutLMv3。我们没有像LayoutLM模型 [54, 56] 那样进行图像增强。对于多模态Transformer编码器以及 text embedding 层，LayoutLMv3是从RoBERTa [36]的预训练权重初始化的。我们的图像标记器是从DiT中的一个自监督预训练文档图像Transformer模型 [30] 中的预训练图像标记器初始化的。图像标记器的词汇量大小为8,192。其余的模型参数是随机初始化的。我们使用Adam优化器 [23] 对LayoutLMv3进行了预训练，批量大小为2,048，共进行了500,000步。我们使用了1𝑒 − 2的权重衰减，以及 (𝛽1, 𝛽2) = (0.9, 0.98)。对于LayoutLMv3BASE模型，我们使用了学习率为1𝑒 −4，并在前4.8%的步骤内线性热身学习率。对于LayoutLMv3LARGE，学习率和预热比率分别为5𝑒 − 5和10%。

3.3 Fine-tuning on Multimodal Tasks

我们将LayoutLMv3与典型的自监督预训练方法进行比较，并根据它们的预训练模态进行分类。

[T] 文本模态：BERT [9] 和 RoBERTa [36] 是典型的预训练语言模型，只使用文本信息，并采用Transformer架构。我们使用了LayoutLM [54] 中的RoBERTa的FUNSD和RVL-CDIP结果以及LayoutLMv2 [56] 中的BERT的结果。我们复现并报告了RoBERTa在CORD和DocVQA任务上的结果。

[T+L] 文本和布局模态：LayoutLM通过在BERT的embedding中添加单词级别的空间embedding来包含布局信息 [54]。StructuralLM利用段级别的布局信息 [28]。BROS编码了相对布局位置 [17]。LILT使用了不同语言的预训练文本模型进行微调 [50]。FormNet利用表单中标记之间的空间关系 [25]。

[T+L+I ( R)] 文本、布局和图像模态，具有Faster R-CNN区域特征：这一系列工作从Faster R-CNN模型的RoI头中提取图像区域特征 [44]。其中，LayoutLM [54] 和TILT [40] 使用OCR单词的边界框作为区域建议，并将区域特征添加到相应的 text embedding中。SelfDoc [31] 和UDoc [14] 使用文档对象建议，并将区域特征与 text embedding进行级联。

[T+L+I ( G)] 文本、布局和图像模态，具有CNN网格特征：LayoutLMv2 [56] 和DocFormer [2] 使用CNN骨干提取图像网格特征，而无需进行对象检测。XYLayoutLM [15] 采用了LayoutLMv2的架构，并改进了布局表示。

[T+L+I ( P)] 文本、布局和图像模态，具有线性块特征：LayoutLMv3用简单的线性embedding替换了CNN骨干，以编码图像块。

4-01

任务一：表格与收据理解。 表格和收据理解任务要求提取和构建表格和收据的文本内容。这些任务是一个序列标记问题，旨在为每个单词分配一个标签。对于表格和收据理解任务，我们分别使用线性层和MLP分类器来预测每个文本标记的标签。我们在FUNSD数据集和CORD数据集上进行实验。

FUNSD [20]是从RVL-CDIP数据集 [16] 中抽样的具有噪声的扫描表格理解数据集。FUNSD数据集包含199份文档，涵盖了9,707个语义实体的全面注释。我们关注FUNSD数据集上的语义实体标记任务，为每个语义实体分配一个标签，包括“问题”、“答案”、“标题”或“其他”。训练集和测试集分别包含149个和50个样本。

CORD [39]是一个包含30个语义标签的收据关键信息提取数据集，分为4个类别。它包含1,000个收据，其中包括800个训练示例、100个验证示例和100个测试示例。我们使用官方提供的图像和OCR注释。我们针对FUNSD数据集使用批量大小为16和学习速率为1𝑒−5进行了1,000步的微调，而对于CORD数据集，使用批量大小为64和学习速率为5𝑒−5进行了1,000步的微调。

我们针对这一任务报告了F1分数。对于大型模型，LayoutLMv3在FUNSD数据集上获得了92.08的F1分数，明显优于由StructuralLM [28]提供的85.14的SOTA结果。需要注意的是，LayoutLMv3和StructuralLM使用了段级别的布局位置，而其他模型使用了单词级别的布局位置。使用段级别的位置可能有益于FUNSD的语义实体标记任务 [28]，因此这两种类型的工作不容易进行直接比较。LayoutLMv3还在CORD数据集上实现了基础和大型模型大小的SOTA F1分数。这些结果表明，LayoutLMv3可以显著提高文本中心的表格和收据理解任务的性能。

任务二：文档图像分类。 文档图像分类任务旨在预测文档图像的类别。我们将特殊分类令牌（[CLS]）的输出隐藏状态输入到MLP分类器中，以预测类别标签。

我们在RVL-CDIP数据集上进行了实验。它是IIT-CDIP集合的一个子集，包含16个类别的标签 [16]。RVL-CDIP数据集包含400,000个文档图像，其中320,000个是训练图像，40,000个是验证图像，40,000个是测试图像。我们使用Microsoft Read API提取文本和布局信息。我们使用批量大小为64和学习速率为2𝑒−5对LayoutLMv3进行了20,000步的微调。

评估指标是总体分类准确性。与以前的工作相比，LayoutLMv3在更小的模型尺寸下取得了更好或相媲美的结果。例如，与LayoutLMv2相比，LayoutLMv3在基础模型和大型模型尺寸上分别取得了0.19%和0.29%的绝对改善，而使用了更简单的 image embeddings (i.e., Linear vs. ResNeXt101-FPN).。这些结果表明，我们的简单 image embeddings 可以在以图像为中心的任务上实现理想的结果。

任务三：文档视觉问答。 文档视觉问答要求模型接收文档图像和问题作为输入，并输出一个答案 [38]。我们将这个任务形式化为一个提取性问答问题，其中模型通过使用二元分类器对每个文本标记的最后隐藏状态来预测开始和结束位置。

我们在DocVQA数据集上进行实验，这是一个用于文档图像的视觉问答的标准数据集 [38]。官方的DocVQA数据集包括10,194/1,286/1,287张图像和39,463/5,349/5,188个问题，分别用于训练/验证/测试集。我们在训练集上训练我们的模型，然后在测试集上评估模型，并通过提交官方评估网站上的结果来报告成绩。我们使用Microsoft Read API从图像中提取文本和边界框，并使用启发式方法在提取的文本中找到给定的答案，就像在LayoutLMv2中一样。

我们对LayoutLMv3BASE进行了100,000步的微调，批量大小为128，学习速率为3𝑒−5，热身比例为0.048。对于LayoutLMv3LARGE，步骤数、批量大小、学习速率和热身比例分别为200,000，32，1𝑒−5和0.1。

我们报告了常用的基于编辑距离的指标ANLS（也称为平均标准化Levenshtein相似度）。LayoutLMv3BASE将LayoutLMv2BASE的ANLS分数从78.08提高到78.76，尽管使用了更简单的image embedding（即从ResNeXt101-FPN到线性embedding）。而LayoutLMv3LARGE在LayoutLMv3BASE的基础上进一步获得了4.61的ANLS分数。这些结果表明LayoutLMv3对于文档视觉问答任务是有效的。

3.4 Fine-tuning on a Vision Task

为了展示LayoutLMv3从多模态领域到视觉领域的通用性，我们将LayoutLMv3应用于文档布局分析任务。这个任务涉及检测非结构化数字文档的布局，提供边界框和类别，如表格、图形、文本等。该任务有助于将文档解析成机器可读的格式，以供下游应用程序使用。我们将这个任务建模为一个无需 text embedding的目标检测问题，这在现有工作中非常有效。

我们将LayoutLMv3作为特征主干集成到Cascade R-CNN检测器中，使用了Detectron2实现的FPN。我们采用标准做法从不同的Transformer层中提取单一尺度特征，如LayoutLMv3基础模型的4、6、8和12层。我们使用分辨率修改模块将单一尺度特征转换成多尺度FPN特征。

我们在PubLayNet数据集上进行实验。该数据集包含带有边界框和多边形分割的研究论文图像，涵盖了五个文档布局类别：文本、标题、列表、图形和表格。官方数据集包含335,703个训练图像、11,245个验证图像和11,405个测试图像。我们在训练集上训练我们的模型，并在验证集上评估模型，遵循标准做法。我们使用AdamW优化器进行了60,000步的模型训练，其中包括1,000个热身步骤和0.05的权重衰减，这是根据DiT的做法来的。由于LayoutLMv3是使用来自视觉和语言两个模态的输入进行预训练的，我们经验性地使用了更大的批处理大小32和更低的学习率2𝑒−4。我们在微调阶段不使用翻转或裁剪增强策略，以与预训练阶段保持一致。我们在自注意网络中不使用相对位置，与DiT一致。

4-002

我们使用平均精度（MAP）@边界框交并比（IOU）[0.50:0.95]来衡量性能，并在表2中报告结果。我们与ResNets和同时进行的Vision Transformer模型进行比较。LayoutLMv3在所有指标上均优于其他模型，获得了总体mAP分数为95.1。LayoutLMv3在“标题”类别中取得了很大的提升。由于标题通常比其他类别要小得多，并且可以通过其文本内容来识别，我们将这一改进归因于在LayoutLMv3的预训练中融入了语言模态。这些结果表明了LayoutLMv3的通用性和优越性。

3.5 Ablation Study

4-0034

在表3中，我们研究了我们的image embedding和预训练目标的影响。首先，我们建立了一个使用文本和布局信息的基线模型#1，使用MLM目标进行预训练。然后，我们将线性投影的图像块用作基线模型的image embedding，表示为模型#2。我们进一步分步预训练模型#2，使用MIM和WPA目标，并分别表示新模型为#3和#4。
4-0044

在图4中，我们可视化了模型#2、#3和#4在PubLayNet数据集上微调时的损失，批处理大小为16，学习率为2𝑒−4。我们尝试使用{1𝑒−4，2𝑒−4，4𝑒−4}的学习率和{16，32}的批处理大小来训练模型#2，但模型#2的损失没有收敛，而在PubLayNet上的mAP分数接近零。

Effect of Linear Image Embedding. 我们观察到没有image embedding的模型#1在某些任务上取得了不错的结果。这表明语言模态，包括文本和布局信息，在文档理解中起着关键作用。然而，结果仍然令人不满意。此外，模型#1在没有视觉模态的情况下无法执行一些以图像为中心的文档分析任务。例如，对于PubLayNet上的文档布局分析任务，视觉模态至关重要，因为边界框与图像紧密集成在一起。我们的简单设计，即线性image embedding结合适当的预训练目标，可以持续改进不仅图像为中心的任务，还可以进一步改进一些以文本为中心的任务。

Effect of MIM pre-training objective. 简单地将线性image embedding与 text embedding 连接作为模型#2的输入，会导致CORD和RVL-CDIP上的性能下降，而在PubLayNet上的损失会发散。我们推测，在没有与图像模态相关的任何预训练目标的情况下，模型未能学习到有意义的视觉表示在线性块embedding上。MIM目标通过在输出中随机屏蔽部分输入图像块并在输出中重构它们，将图像信息保留到模型的最后一层，从而缓解了这个问题。比较模型#3和模型#2的结果，MIM目标对CORD和RVL-CDIP有益。由于简单地使用线性image embedding已经改善了FUNSD，MIM不会进一步提高FUNSD的性能。通过在训练中加入MIM目标，如图4所示，损失在微调PubLayNet时趋于收敛，并且我们获得了令人满意的mAP分数。结果表明，MIM可以帮助规范训练。因此，对于像PubLayNet上的文档布局分析等视觉任务，MIM至关重要。

Effect of WPA pre-training objective 通过比较表3中的模型#3和模型#4，我们观察到WPA目标始终改善所有任务。此外，图4中PubLayNet上的视觉任务损失减小了。这些结果确认了WPA不仅在跨模态表示学习中有效，而且在图像表示学习中也有效。

Parameter Comparisons. 表格显示，将image embedding引入16×16块投影（#1 → #2）仅引入了0.6M参数。与CNN主干（例如，ResNet-101的44M参数）的参数相比，这些参数可以忽略不计。在预训练阶段，MIM头和WPA头引入了6.9M和0.6M参数。与MLM头相比，由image embedding引入的参数开销微不足道，MLM头对于文本词汇量为50,265的情况下有39.2M参数。在计算参数时，我们没有考虑图像分词器，因为分词器是一个独立的模块，用于生成MIM的标签，但没有集成到Transformer主干中。

4 RELATED WORK

多模态自监督预训练技术在文档智能领域取得了迅速的进展，这是因为它成功应用于文档布局和图像表示学习 [2, 13–15, 17, 25, 28, 31, 32, 40, 41, 50, 52, 54–56]。LayoutLM及其后续工作通过编码文本的空间坐标来联合学习布局表示 [17, 25, 28, 54]。随后，各种工作通过将CNN与Transformer [49]的自注意网络结合起来，联合学习图像表示。这些工作要么提取CNN网格特征 [2, 56]，要么依赖对象检测器提取区域特征 [14, 31, 40, 54]，这导致了重大计算瓶颈或需要区域监督。在自然图像视觉与语言预训练（VLP）领域，研究工作已经从区域特征 [5, 47, 48] 转向网格特征 [19]，以克服预定义对象类别和区域监督的限制。受到视觉Transformer（ViT）[11]的启发，最近在VLP领域也有了努力，试图摆脱CNN的弱点。然而，大多数方法仍依赖于单独的自注意网络来学习视觉特征；因此，它们的计算成本并未降低 [12, 29, 57]。一个例外是ViLT，它通过轻量级线性层学习视觉特征，显著减小了模型大小和运行时间 [22]。受到ViLT的启发，我们的LayoutLMv3是文档智能领域中首个利用image embedding而不使用CNN的多模态模型。

重构性的预训练目标彻底改变了表示学习。在自然语言处理研究中，BERT首次提出了“掩码语言建模”（MLM），以学习双向表示，并在广泛的语言理解任务上推进了最前沿的研究 [9]。在计算机视觉领域，掩码图像建模（MIM）旨在通过预测可见上下文中的掩码内容来学习丰富的视觉表示。例如，ViT通过重构被掩码的图像块的平均颜色，提高了在ImageNet分类任务中的性能 [11]。BEiT通过重构由离散VAE学习的视觉标记，实现了在图像分类和语义分割方面的竞争性结果 [3]。DiT将BEiT扩展到文档图像，用于文档布局分析 [30]。

受到MLM和MIM的启发，视觉与语言领域的研究人员探索了多模态表示学习的重构目标。尽管大多数表现出色的视觉与语言预训练（VLP）模型在文本模态上使用了BERT提出的MLM，但它们在图像模态的预训练目标方面存在差异。有三种不同的MIM变体，对应于不同的图像embedding方式：掩码区域建模（MRM）、掩码网格建模（MGM）和掩码块建模（MPM）。MRM已被证明在回归原始区域特征 [5, 31, 48] 或为被掩码区域分类对象标签 [5, 37, 48] 上是有效的。MGM也在SOHO中得到了探索，其目标是预测被掩码的网格特征在视觉词典中的映射索引 [19]。对于基于块的图像embedding，Visual Parsing [57] 提出根据自注意力图像编码器中的注意力权重掩码视觉标记，但这不适用于简单的线性图像编码器。ViLT [22] 和METER [12] 尝试借鉴MPM，类似于ViT [11] 和BEiT [3]，分别重构图像块的平均颜色和视觉词汇中的离散标记，但结果降低了下游任务的性能。我们的LayoutLMv3首次证明了MIM对于线性图像块embedding的有效性。

各种跨模态目标进一步发展用于多模态模型中的视觉和语言（VL）对齐学习。图像文本匹配广泛用于学习粗粒度的VL对齐 [2, 5, 19, 22, 56]。为了学习细粒度的VL对齐，UNITER提出了基于最优传输的单词-区域对齐目标，该目标计算将上下文图像embedding传输到单词embedding的最小成本 [5]。ViLT将此目标扩展到了块级图像embedding [22]。与自然图像不同，文档图像暗示了文本单词和图像区域之间的明确细粒度对齐关系。利用这种关系，UDoc 使用对比学习和相似性蒸馏来对齐属于同一区域的图像和文本 [14]。LayoutLMv2 覆盖了原始图像中的一些文本行，并预测每个文本标记是否被覆盖 [56]。相比之下，我们自然地利用了MIM中的掩码操作，以一种有效和统一的方式构建了对齐/不对齐对。

5 总结展望

在本文中，我们提出了 LayoutLMv3 来为文档智能领域预训练多模态 Transformer 模型，重新设计了 LayoutLM 的模型架构和预训练目标。与文档智能领域现有的多模态模型不同，LayoutLMv3 不依赖于预训练的 CNN 或 Faster R-CNN 骨干来提取视觉特征，从而显著减少了参数数量并消除了区域注释的需求。我们使用统一的文本和图像遮罩预训练目标：masked language modeling, masked image modeling, and word-patch alignment, to learn multimodal representations 。大量的实验结果已经证明了 LayoutLMv3 在文本中心和图像中心的文档智能任务中具有广泛的适用性和卓越性能，同时还具有简单的架构和统一的目标。在未来的研究中，我们将研究如何扩大预训练模型的规模，以便这些模型可以利用更多的训练数据进一步提高性能。此外，我们还将探索少样本学习和零样本学习能力，以促进文档智能领域的更多实际业务场景应用。