RoDLA: Benchmarking the Robustness of Document Layout Analysis Models

RoDLA: Benchmarking the Robustness of Document Layout Analysis Models

news2025/7/8 4:38:06

RoDLA: Benchmarking the Robustness of Document Layout Analysis Models

相关链接：arxiv
关键字：Document Layout Analysis、Robustness Benchmarking、Perturbation Taxonomy、Mean Perturbation Effect、Mean Robustness Degradation

摘要

在现实世界的应用中开发文档布局分析(DLA)模型之前，进行全面的鲁棒性测试是必不可少的。然而，DLA模型的鲁棒性在文献中尚未被充分探索。为了解决这个问题，我们首次引入一个DLA模型的鲁棒性基准测试，它包括三个数据集的450K文档图像。为了涵盖现实中的文档损坏情况，我们提出了一个包含36种常见文档损坏的扰动分类法，灵感来源于现实世界的文档处理。此外，为了更好地理解文档扰动的影响，我们提出了两个新的度量方法，分别是平均扰动效应(mPE)和平均鲁棒性降级(mRD)。我们还介绍了一个名为Robust Document Layout Analyzer (RoDLA)的模型，该模型改进了注意力机制以提取更鲁棒的特征。在所提出的基准测试(PubLayNet-P, DocLayNet-P, 和 M^6Doc-P)上的实验表明，RoDLA分别获得了115.7、135.4和150.4的最先进的mRD分数。与之前的方法相比，RoDLA在mAP上分别提高了+3.8%、+7.1%和+12.1%。

核心方法

在这里插入图片描述

Robustness Benchmark for DLA Models: 为DLA模型引入了鲁棒性基准测试，包含三个数据集的450K文档图像。
Perturbation Taxonomy: 提出了一个根据现实世界文档处理场景启发的36种常见文档损坏扰动分类法。
Mean Perturbation Effect (mPE): 提出一个度量文档扰动影响的新方法。
Mean Robustness Degradation (mRD): 提出了一个新的鲁棒性评估方法。
Robust Document Layout Analyzer (RoDLA): 介绍了一个新模型，它改进了注意力机制以提取更鲁棒的特征。

实验说明

实验在新提出的基准测试(PubLayNet-P, DocLayNet-P, 和 M^6Doc-P)上进行，并展示了RoDLA在mRD得分上获得了最先进的结果，分别为115.7、135.4和150.4。通过比较，RoDLA的mAP较之前的方法分别提高了+3.8%、+7.1%和+12.1%。

结论

RoDLA模型在提取文档布局方面展现了出色的鲁棒性，实验基准测试结果卓越，不仅表明了对常见扰动的抵抗力，而且也在重要的mAP评价指标上取得了显著的提升。这项研究给出了一种量化DLA模型鲁棒性的有效方式，并为进一步研究提供了强有力的基础。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1545773.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

java反编译luyten使用，以及中文乱码，如何解决

java反编译luyten使用，以及中文乱码，如何解决

第一步：打开软件，点击file，可以选择.class文件，也可以选择jar包 2.点击save保存.java文件 3.解决中文乱码问题，设置下面两个参数，中文乱码解决下载地址：https://github.com/deathmarine/Luyten…

阅读更多...

MySQL进阶-----索引的结构与分类

MySQL进阶-----索引的结构与分类

目录前言一、认识索引二、索引结构 1.概述 2. 二叉树 3 .B-Tree 4.BTree 5.Hash 三、索引的分类 1 .索引分类 2 .聚集索引&二级索引前言索引（index）是帮助MySQL高效获取数据的数据结构(有序)。在数据之外，数据库系统还维…

阅读更多...

基于Spring Boot的云上水果超市的设计与实现

基于Spring Boot的云上水果超市的设计与实现

摘要伴随着我国社会的发展，人民生活质量日益提高。于是对云上水果超市进行规范而严格是十分有必要的，所以许许多多的信息管理系统应运而生。此时单靠人力应对这些事务就显得有些力不从心了。所以本论文将设计一套云上水果超市，帮助商家进行…

阅读更多...

golang+vue微服务电商系统

golang+vue微服务电商系统

golangvue微服务电商系统文章目录 golangvue微服务电商系统一、项目前置准备二、项目简介三、代码GItee地址 golang、vue redis、mysql、gin、nacos、es、kibana、jwt 一、项目前置准备环境的搭建官方go开发工程师参考地址：https://blog.csdn.net/qq23001186/cat…

阅读更多...

MySQL数据库高阶语句①

MySQL数据库高阶语句①

目录一.按关键字排序 1.单字段排序 （1）按分数排序 （2）结合where进行条件筛选 2.多字段排序 （1）查询学生信息先按兴趣id升序排序，再按id升序排序 （2）查询信息按兴…

阅读更多...

python 中判断文件、目录是否存在的方法

python 中判断文件、目录是否存在的方法

判断目录是否存在并创建目录一、实现上传文件功能二、判断目录是否存在的办法2.1、使用os模块2.1.1、判断目录是否存在2.1.2、os.makedirs()：递归创建目录 2.2、使用pathlib模块2.2.1、path.exist()判断目录是否存在2.2.1、path.mkdir()：创建目录 2.3、…

阅读更多...

【优质】「web开发网页制作」html+css+js导盲犬网页制作（5页面）

【优质】「web开发网页制作」html+css+js导盲犬网页制作（5页面）

导盲犬网页目录涉及知识写在前面一、网页主题二、网页效果Page1、首页Page2、关于导盲犬Page3、阶段Page4、宣传视频Page5、登录三、网页架构与技术3.1 脑海构思3.2 整体布局3.3 技术说明书四、网页源码HtmlCSSJS 五、源码获取5.1 获取源码包作者寄语涉及知识导盲犬介绍…

阅读更多...

C++ primer 第十五章

C++ primer 第十五章

1.OPP:概述面向对象程序设计的核心思想是数据抽象、继承和动态绑定。通过继承联系在一起的类构成一种层次关系，在层次关系的根部的是基类，基类下面的类是派生类基类负责定义在层次关系中所有类共同拥有的成员，而每个派生类定义各自特有…

阅读更多...

RAG笔记：常见问题以及解决方法

RAG笔记：常见问题以及解决方法

1 内容缺失知识库中缺少必要的上下文信息。当知识库没有包含正确答案时，RAG 系统可能会给出一个貌似合理但实际上错误的回答，而不是明确表示它不知道答案。 1.1 解决方法 1.1.1 设置阈值在回答问题前先设定一个质量标准。如果召回内容达不到标准或…

阅读更多...

javaWeb项目-快捷酒店信息管理系统功能介绍

javaWeb项目-快捷酒店信息管理系统功能介绍

开发工具：IDEA 、Eclipse 编程语言: Java 数据库: MySQL5.7 框架：ssm、Springboot 前端：Vue、ElementUI 关键技术：springboot、SSM、vue、MYSQL、MAVEN 数据库工具：Navicat、SQLyog 项目关键技术 1、JSP技术 JSP(Java…

阅读更多...

【数据结构与算法】直接插入排序和希尔排序

【数据结构与算法】直接插入排序和希尔排序

引言进入了初阶数据结构的一个新的主题——排序。所谓排序，就是一串记录，按照其中的某几个或某些关键字的大小（一定的规则），递增或递减排列起来的操作。排序的稳定性：在一定的规则下，两个值…

阅读更多...

k8s入门到实战（四）—— k8s核心概念以及基本操作命令详细介绍

k8s入门到实战（四）—— k8s核心概念以及基本操作命令详细介绍

k8s 核心概念及操作命令 namespace（命名空间，简称 ns） k8s 资源创建的两种方式：使用命令行创建、使用 yaml 文件创建什么是 ns 在 k8s 中，ns 是一种用于对集群资源进行逻辑分组和隔离的机制。它允许将 k8s 集群划…

阅读更多...

鸿蒙开发实战：快速上手【万能卡片】

鸿蒙开发实战：快速上手【万能卡片】

（一）练习准备本案例使用HUAWEI DevEco Studio 3.0.0.800，API4-API7都可以体验，由于IDE版本与API不断升级与兼容性等问题，大家练习时可能会遇到一些细节上的差异，整体流程是一致的。 （二&…

阅读更多...

实现Redis缓存预热的技巧与方法

实现Redis缓存预热的技巧与方法

🍎个人博客：个人主页 🏆个人专栏：Linux ⛳️ 功不唐捐，玉汝于成目录前言正文什么是缓存预热？ 缓存预热的作用如何实现Redis缓存预热？ 结语我的其他博客前言在实际的软件开发中…

阅读更多...

Retrieval Augmented Thoughts(RAT)：检索增强思维，实现长视野生成中的上下文感知推理

Retrieval Augmented Thoughts(RAT)：检索增强思维，实现长视野生成中的上下文感知推理

论文地址：https://arxiv.org/pdf/2403.05313.pdf 原文地址：rat-retrieval-augmented-thoughts Github：Implementation of RAT 2024 年 3 月 14 日介绍让我首先从一些一般性观察开始...... 在生成式人工智能应用程序中实现效率与生成响应…

阅读更多...

一文看懂，如何精细化地进行跨域文件管控

一文看懂，如何精细化地进行跨域文件管控

随着企业规模的扩大和分支机构的增多，会出现不同地理位置、组织机构或网络安全域之间进行文件交换的场景。像很多金融机构在全国或全球范围内会设立不同的分支机构和办事处，因此会存在不同组织机构之间的数据流转，即跨域文件传输。跨域文件传…

阅读更多...

Unity Mobile Notifications推送问题

Unity Mobile Notifications推送问题

1.在部分机型点击通知弹窗进不去游戏把这里改成自己的Activity 2.推送的时候没有横幅跟icon红点主要是第一句话注册的时候选项可以选择 defaultNotificationChannel new AndroidNotificationChannel(“default_channel”, “Default Channel”, “For Generic notifica…

阅读更多...

Java学习笔记（21）

Java学习笔记（21）

IO流字节流字符流纯文本文件 Fileoutputstream 注意点如果不释放资源，java会一直占用该文件，外部无法删除掉该文件写数据换行写用字符串的getBytes（）得到字符数组 \r\n 续写 Fileinputstream Read 一次只读一个字符&am…

阅读更多...

深入解析ECC（椭圆曲线密码学）加解密算法

深入解析ECC（椭圆曲线密码学）加解密算法

码到三十五 ： 个人主页心中有诗画，指尖舞代码，目光览世界，步履越千山，人间尽值得 ! 本文将详细介绍ECC（椭圆曲线密码学）加解密算法的原理、特点及应用。ECC作为一种新型的公钥密码体制&#…

阅读更多...

低压扫描电镜（LVSEM）为主流低压电子显微镜产品未来需向多功能方向发展

低压扫描电镜（LVSEM）为主流低压电子显微镜产品未来需向多功能方向发展

低压扫描电镜（LVSEM）为主流低压电子显微镜产品未来需向多功能方向发展低压扫描电子显微镜，简称低压扫描电镜，英文简称LVSEM，是一种在较小加速电压条件下工作的、利用低能电子束扫描样品进行成像的电子显微镜。低压扫…

阅读更多...

推荐文章

最新文章