RoDLA: Benchmarking the Robustness of Document Layout Analysis Models
相关链接:arxiv
关键字:Document Layout Analysis、Robustness Benchmarking、Perturbation Taxonomy、Mean Perturbation Effect、Mean Robustness Degradation
摘要
在现实世界的应用中开发文档布局分析(DLA)模型之前,进行全面的鲁棒性测试是必不可少的。然而,DLA模型的鲁棒性在文献中尚未被充分探索。为了解决这个问题,我们首次引入一个DLA模型的鲁棒性基准测试,它包括三个数据集的450K文档图像。为了涵盖现实中的文档损坏情况,我们提出了一个包含36种常见文档损坏的扰动分类法,灵感来源于现实世界的文档处理。此外,为了更好地理解文档扰动的影响,我们提出了两个新的度量方法,分别是平均扰动效应(mPE)和平均鲁棒性降级(mRD)。我们还介绍了一个名为Robust Document Layout Analyzer (RoDLA)的模型,该模型改进了注意力机制以提取更鲁棒的特征。在所提出的基准测试(PubLayNet-P, DocLayNet-P, 和 M^6Doc-P)上的实验表明,RoDLA分别获得了115.7、135.4和150.4的最先进的mRD分数。与之前的方法相比,RoDLA在mAP上分别提高了+3.8%、+7.1%和+12.1%。
核心方法
- Robustness Benchmark for DLA Models: 为DLA模型引入了鲁棒性基准测试,包含三个数据集的450K文档图像。
- Perturbation Taxonomy: 提出了一个根据现实世界文档处理场景启发的36种常见文档损坏扰动分类法。
- Mean Perturbation Effect (mPE): 提出一个度量文档扰动影响的新方法。
- Mean Robustness Degradation (mRD): 提出了一个新的鲁棒性评估方法。
- Robust Document Layout Analyzer (RoDLA): 介绍了一个新模型,它改进了注意力机制以提取更鲁棒的特征。
实验说明
实验在新提出的基准测试(PubLayNet-P, DocLayNet-P, 和 M^6Doc-P)上进行,并展示了RoDLA在mRD得分上获得了最先进的结果,分别为115.7、135.4和150.4。通过比较,RoDLA的mAP较之前的方法分别提高了+3.8%、+7.1%和+12.1%。
结论
RoDLA模型在提取文档布局方面展现了出色的鲁棒性,实验基准测试结果卓越,不仅表明了对常见扰动的抵抗力,而且也在重要的mAP评价指标上取得了显著的提升。这项研究给出了一种量化DLA模型鲁棒性的有效方式,并为进一步研究提供了强有力的基础。