Learning From Documents in the Wild to Improve Document Unwarping论文学习笔记

news2026/3/26 16:46:37

1 广告

论文2022年发表在SIGGRAPH顶会上。
预训练出来的模型有139M。
对文档的去扭曲变形效果在我们调研的深度学习模型里面算是最好的。
在这里插入图片描述

2 摘要

文档图像去扭曲是文档数字化和分析的重要内容。最先进的方法依靠纯合成数据来训练深度网络进行去扭曲。因此，经过训练的网络在测试真实世界的图像时具有泛化的局限性，经常产生不令人满意的结果。在这项工作中，我们建议通过在训练中加入真实世界的图像来提高文档的去扭曲性能。我们收集的野外文档(DIW)数据集包含5000个捕获的文档图像，在内容、形状和捕获环境方面有很大的差异。我们对所有DIW图像的边界进行注释，并使用它们进行弱监督学习。我们提出了一种新的网络架构，PaperEdge，用来训练合成和真实文档图像的混合。此外，我们识别和分析了用于文档去扭曲的常用评估指标，如MS-SSIM和局部失真(LD)的缺陷，并提出了一个更健壮和可靠的误差指标，称为对齐失真(AD)。结合合成和真实文档图像进行训练，通过综合定量评估和消融研究，我们在流行基准上展示了最先进的性能。

3 引言

与传统的纸质文档相比，数字文档更容易归档、编辑、签名和共享。如今，为了高效的工作流程，越来越多的物理文档被数字化。在2019冠状病毒病大流行期间，由于身体接触受到限制，数字文件对企业也发挥了至关重要的作用。无处不在的智能手机配备了高质量的相机，这使得为文件拍照成为数字化的标准方式。然而，由于纸张几何形状和拍摄条件的不控制，这些照片中的文件往往会失真。这些扭曲阻碍了从这些文档中提取信息，降低了可读性，并破坏了下游自动文档分析管道，如布局提取和光学字符识别(OCR)，这些管道是为只处理文档扫描而构建的。
提出了模型驱动和数据驱动两种方法来解决文档修正问题。模型驱动方法利用显式几何模型来拟合变形的文档表面。它们通常涉及缓慢的优化步骤，以获得未扭曲的结果，这不适用于实时应用。最近，数据驱动的方法越来越受欢迎。这些方法训练一个无扭曲神经网络映射一个任意的文档图像到一个变形场，该变形场将变形的输入扭曲成一个矫正的，类似扫描的结果。这样的网络可以实现实时性能。
在数据驱动的环境中，训练数据在构建可重构的无扭曲网络方面发挥着核心作用。理想情况下，人们会希望为监督学习收集足够的现实世界训练数据:捕获的扭曲文档图像和基本真实变形(通常由一些图像扭曲函数表示)。然而，由于野外大规模精确三维重建和密集配准的困难，这类数据很难获得。以前的工作[Das et al. 2019;Ma等人。2018]利用真实扭曲场对合成文档图像进行训练。现有的数据合成方案可以形成一个具有已知扭曲场的平面文档。然后训练一个网络来从变形的图像中还原扭曲场，随后用于将图像“反扭曲”为平面文档。然而，由于几何和材料建模的复杂性，合成超逼真的弯曲、折痕和皱褶的文档纸是非常具有挑战性的。来自最先进的合成文档数据集的图像[Das et al. 2019]与真实世界的图像明显不同。事实上，我们还在补充材料中证明了合成数据集中存在数据冗余。更具体地说，在使用32,000个合成图像(整个数据集的32%)进行训练后，来自额外合成训练数据的性能改进变得微不足道。
我们建议通过引入PaperEdge来改进文档的去扭曲，这是第一个可以用真实文档图像训练的去扭曲模型。在之前的监督学习方法中融入真实图像并非易事[Li等人，2019;Markovitz et al. 2020]，因为缺乏真实变形，这是很难获得现实世界的文档。PaperEdge支持从合成和真实世界的训练图像中学习:对于合成数据，我们使用真实变形以有监督的方式进行训练。对于没有真实变形的图像，我们利用文档边缘[Gumerov et al. 2004;Tsoi和Brown 2007]作为弱监督。文档边缘反映全局矩形形状变形;因此，可以作为训练信号。它们也可以直接使用现成的图像分割工具进行注释[Rother et al. 2004]。为了促进提出的训练方案，我们收集了野生文档(DIW)数据集，其中包含5000张文档照片及其边缘注释。
此外，我们还引入了一种基于纹理的扭曲模型来进一步提高结果。文档图像纹理为去扭曲提供了有价值的线索，因为文档内容通常是结构化的。由于边缘是有效的全局图像去扭曲，纹理是有效的恢复局部失真。我们提出了一种自我监督学习策略[Gidaris等人，2018;Zhang等人。2019]训练纹理感知组件。在实际操作中，我们用随机产生的变形扰动对每个训练样本进行增强，形成一个训练图像对。之后，我们使用这些对以连体方式训练网络[Koch et al. 2015]。
我们还证明了流行的定量评价标准，如MS-SSIM和局部失真(LD)并不是理想的评价文档图像的平直。我们证明(1)MS-SSIM对感知上可忽略的扰动非常敏感，(2)LD计算在无纹理区域上占了大量不重要的误差。为了解决这个问题，我们引入了对齐失真(Aligned Distortion, AD)，这是一种用于评估文档去扭曲性能的更健壮的量化度量方法。
我们总结了以下研究成果:(1)提出了一种新的学习文档去扭曲的网络体系结构。该方法是第一种可以同时训练合成文档图像和相机捕获的随机文档图像的方法;(2)提出了一种鲁棒的文档解曲评价指标——对齐失真(Aligned Distortion, AD);(3)贡献了一个包含5000张野外文档图像及其边缘注释的文档数据集;(4)在所有评价标准下，我们在基准上实现了最先进的性能[Ma et al. 2018]。