DLAFormer:微软提出多任务统一的端到端文本分析Transformer模型 | ICDAR 2024

news2025/1/22 16:46:07

论文提出新颖的基于Transformer的端到端方法DLAFormer,在统一的模型中集成多个文档布局分析任务,包括图形页面对象检测、文本区域检测、逻辑角色分类和阅读顺序预测。为了实现这一目标,将各种DLA子任务视为关系预测问题并提出了统一标签空间方法,使得统一关系预测模块能够有效而高效地同时处理这些任务

来源:晓飞的算法工程笔记 公众号

论文: DLAFormer: An End-to-End Transformer For Document Layout Analysis

  • 论文地址:https://arxiv.org/abs/2405.11757

Introduction


  文档布局分析(DLA)是从文档图像中恢复文档的物理结构和逻辑结构的过程,包括物理布局分析和逻辑结构分析。在给定输入文档图像的情况下,物理布局分析旨在识别感兴趣的物理同质区域(也称为页面对象),如表格、图形对象、数学公式和不同类型的文本区域。逻辑结构分析旨在为每个识别出的区域分配逻辑角色(例如标题、章节标题、页眉、页脚、段落等),并确定它们之间的逻辑关系(例如阅读顺序关系)。文档布局分析在推动对文档内容进行理解方面发挥着至关重要的作用,实现了各种应用,如文档数字化、转换、存档和检索。然而,由于文档布局中固有复杂多样的内容和错综复杂性,使得该问题具有极大挑战性。

  文档布局分析包括许多复杂的子任务,如图形页面对象检测、文本区域检测、逻辑角色分类、阅读顺序预测等。虽然先前的研究主要集中在利用专门的模型来解决这些单独的子任务,但将这些子任务整合起来的兴趣与日俱增,将DLA子任务集成到一个连贯框架中是提高效率和有效性的有前途的途径。为了实现这一愿景,最近的一些倡议已经开始采用更全面的方法,设计了多分支或多阶段框架,能够同时处理几个子任务。虽然这些方法在某些DLA基准测试中表现不错,多分支或多阶段框架可能会在解决这些DLA子问题时引入级联错误,也会带来可扩展性挑战并且难以容纳额外任务。

  论文提出了DLAFormer,一种基于Transformer的端到端方法用于文档布局分析。与通常采用多分支或多阶段架构的传统方法不同,DLAFormer通过将各种DLA子任务(如文本区域检测、逻辑角色分类和阅读顺序预测)视为关系预测问题来简化训练过程。这些任务的标签被统一到一个单一的、全面的标签空间中,从而简化了学习机制。DLAFormer建立在受DETR启发的编码器-解码器Transformer架构之上,能够同时推断所有关系,通过一个统一的关系预测模块实现端到端训练过程。受可变形DETR启发,论文引入了新颖的类型查询来捕捉各种页面对象的分类信息。这增强了转换器解码器中内容查询语义上相关性信息获取能力,改善了模型对这些DLA子任务的处理能力。此外,DLAFormer采用粗到精策略来精确识别文档图像中的图形页面对象。DLAFormer具有以下几个优点:

  1. 在灵活查询机制和统一标签空间方法下,DLAFormer展示出卓越可扩展性,并无缝集成新型DLA任务进入框架中。
  2. 新关系标签可以无缝融入到统一标签空间中,并且新元素类型可以无缝地作为新类型查询进行处理。在统一标签空间下使用统一关系预测模块可以在单次传递中预测所有关系,可以更加有效和高效地捕捉这些布局单元之间潜在联系。
  3. DLAFormer通过自注意机制融合鲁棒背景信息来增强功能,并且通过交互注意机制实现对全局和局部文档布局信息进行不同关注。

  本文的主要贡献可以总结如下:

  1. 提出了DLAFormer,一种新颖的基于Transformer的端到端方法,用于文档布局分析,将图形页面对象检测、文本区域检测、逻辑角色分类和阅读顺序预测等任务整合到一个统一的模型中。

  2. 将各种文档布局分析子任务(如文本区域检测、逻辑角色分类和阅读顺序预测)视为关系预测问题,并提出了一种统一标签空间方法,使统一的关系预测模块能够同时有效和高效地处理这些任务。

  3. 实验结果表明,DLAFormer在两个文档布局分析基准测试上优于先前采用多分支或多阶段架构处理多任务的方法。

Problem Definition


  一个文档图像本质上包含多种区域,包括文本区域和非文本区域。文本区域作为书面内容的语义单元,包括按照自然阅读顺序排列的文本行,并与逻辑标签相关联,例如段落、列表/列表项、标题、章节标题、页眉、页脚、脚注和标题说明。非文本区域通常包括表格、图形和数学公式等图形元素。这些区域之间通常存在多种逻辑关系,其中最常见的是阅读顺序关系。

  因此,论文定义了三种不同类型的关系:区内关系、区间关系和逻辑角色关系。这些关系旨在将基本文本单元(如文本行)分组为连贯的文本区域,并探索这些区域之间的逻辑连接。具体而言,给定由 N N N 个文本行 [ T 1 , T 2 , . . . , T N ] [T_1, T_2, ..., T_N] [T1,T2,...,TN] M M M 个图形对象 [ G 1 , G 2 , . . . , G M ] [G_1, G_2, ..., G_M] [G1,G2,...,GM] 组成的文档图像 D D D ,定义关系如下:

  1. 如图1所示,考虑每个文本区域,其中包括按自然阅读顺序排列的多个文本行。为同一文本区域内所有相邻的文本行建立区内关系。对于只包含单个文本行的文本区域,将该文本行的关系指定为自引用关系。

  2. 为了深入研究这些文本区域和非文本区域之间的逻辑连接,构建了展示逻辑连接的所有区域对之间的区间关系。例如,如图1所示,在两个相邻段落之间以及表格与其对应的标题或脚注之间建立了一个区间关系。

  3. 如图1所示,勾勒出各种逻辑角色单元,包括标题、章节标题、段落、标题等。鉴于每个文本区域都被分配了一个逻辑角色,在文本区域中的每个文本行与其对应的逻辑角色单元之间建立了逻辑角色关系。

  通过定义这些关系,将各种DLA子任务(如文本区域检测、逻辑角色分类和阅读顺序预测)作为关系预测挑战来框定,并将不同关系预测任务的标签合并到一个统一的标签空间中,从而利用一个统一模型同时处理这些任务。

Methodology


Model Overview

  利用统一标签空间的新视角,论文提出了DLAFormer,一种基于Transformer的端到端文档布局分析方法。DLAFormer遵循DETR类似的模型架构,包括骨干网络、多层Transformer编码器、多层Transformer解码器、统一关系预测头和粗到细的检测头。

  整个流程如图2所示,给定一个文档图像:

  1. 使用ResNetSwin Transformer等骨干网络提取多尺度特征 { C 3 , C 4 , C 5 } \{C_3,C_4,C_5\} {C3,C4,C5} ,然后将这些特征与相应的位置嵌入一起输入到Transformer编码器中。为了增强处理多尺度特征的计算效率,集成了一个可变形Transformer编码器来增强这些提取的特征。在编码器中进行特征增强后,采用类型查询选择策略来获取每个潜在图形对象提议的参考框和类别标签。
  2. 对于给定文档图像中的文本行,利用PDF解析器或OCR引擎提取它们的边界框。这些图形对象提议和文本行将作为查询并输入到Transformer解码器中。
  3. 为了增强这些查询的物理含义,并为各种类型的查询从不同区域自适应地捕获特征,论文引入了一种类型查询初始化模块,将类型查询初始化为内容查询,以供后续的解码器使用。
  4. 在获取位置查询、内容查询和它们的参考框之后,利用可变形Transformer解码器来增强这些查询。这涉及到将自注意力模块纳入其中以模拟这些查询之间的交互,同时采用可变形交叉注意力模块来从多尺度特征图中捕获全局和局部布局信息。受Deformable DETR的启发,采用粗到细的回归策略来逐层迭代地细化图形对象查询的参考框。
  5. 为了揭示这些查询之间的逻辑连接,我们引入了一个统一的关系预测头,有效且高效地同时处理关系预测任务。

Type-wise Query Selection

  在DETRDAB-DETR中,解码器查询是静态嵌入,不包含任何特定于单个图像的编码器特征。这些模型直接从训练数据中学习锚点或位置查询,并将内容查询初始化为全零向量。为了增强改进解码器查询的先验知识,Deformable DETR引入了一种机制,其中来自编码器的多尺度特征被输入到一个带有二元分类器的辅助检测头部。基于每个编码器特征的对象得分选择前K个特征,用以初始化位置和内容查询。同时,相应的预测框被用来初始化参考框。为了解决由选定的编码器特征引起的解码器潜在歧义和混淆问题,DINO提出了一种混合查询选择方法。该方法仅有选择性地使用top-K个特征来增强位置查询,可学习内容查询保持与之前一样不变。

  尽管DINO的方法带来了显著的改进,但可学习内容查询的不清晰物理含义仍然是一个问题。为了解决这个问题,论文引入了一种类型化查询选择策略,利用潜在的类别信息来初始化内容查询,从而摆脱了使用“静态”内容查询的方式。由于各种类型的图形对象(如公式、表格和图表)之间在视觉特征上存在显著差异,通过使用类别信息初始化内容查询可以使这些查询自适应地捕捉到解码器中关键特征。具体而言,用多分类器替换辅助检测头部中的二元分类器以区分每个选定特征的类别。虽然预测参考框仍然被用于初始化位置查询,但预测类别被传递到后续的类型化查询初始化模块中。在该模块内,为每种类型的查询分配一个可学习类型化内容查询。

Type-wise Query Initialization Module

  论文引入了一种类型化查询初始化模块,以标准化不同查询之间的逻辑关系建模,确保输入解码器的统一性。如图2所示,类型化查询初始化模块将三个组件作为输入:解码器输出的图形对象提议的参考框和类别、OCR引擎或PDF解析器提取的文本行的边界框、预定义的逻辑角色类型。

  对于来自编码器的图形对象提议,通过将正弦位置编码应用于参考框来初始化位置查询。同时,为每个类别定义可学习特征并通过选择相应的特征来初始化内容查询。对于文本行也采用类似的方法,先根据边界框初始化位置查询,然后为这些文本行定义一个独特的可学习特征,作为内容查询的初始化。

  以前的逻辑角色分类方法通常使用静态参数分类器,将其视为简单的多类分类任务。受动态算法的启发,将逻辑角色分类重新定义为关系预测问题。在这个框架中,为预定义的逻辑角色建立了位置和内容查询,例如标题、章节标题、说明等。这种方法允许逻辑角色查询动态地适应其特征提取过程到每个图像的具体情况。然后,图像中的每个基本单元都被赋予预测指向这些动态逻辑角色查询的指针的任务,增强了模型对独特图像内容的适应性和响应能力。此外,论文为每种逻辑角色类型使用可学习特征作为内容查询初始化。为了查询对象的结构统一性,为每种逻辑角色类型定义相应的可学习参考框。在训练过程中,引入辅助的有监督将属于特定逻辑角色的所有查询的联合框作为该角色的目标框。

Unified Relation Prediction Head

  在解码器层的增强过程中,包括文本行查询、图形对象查询和逻辑角色查询在内的三种类型的查询被输入到统一关系预测头中,以揭示这些查询之间的逻辑连接。论文定义了三种不同类型的关系:区域内关系、区域间关系和逻辑角色关系。为了有效且高效地同时处理这些关系预测任务,引入了一种统一的标签空间方法,如图3所示。具体而言,定义一个标签矩阵 M ∈ Z H × W M \in \mathbb{Z}^{H\times W} MZH×W ,其中第 i i i 行和第 j j j 列中的每个元素可以取四个可能的值。以图3为例,标签矩阵中的空单元格表示没有从第 i i i 个查询指向第 j j j 个查询的逻辑关系。另外三种类型的单元格表示三种预定义的关系,每种关系都有其独特的解释。有了这个统一的标签空间,统一关系预测头由两个模块组成:关系预测模块和关系分类模块。

  • Relation Prediction Module

  考虑到文本行/图形对象查询之间的逻辑关系及其与逻辑角色查询之间的联系,将所有文本行和图形对象查询归类为 { q 1 , q 2 , . . . , q H } \{q_1, q_2, ..., q_H\} {q1,q2,...,qH},将逻辑角色查询归类为 { q H + 1 , q H + 2 , . . . , q W } \{q_{H+1}, q_{H+2}, ..., q_{W}\} {qH+1,qH+2,...,qW}。按以下方法计算代表 q i q_i qi q j q_j qj 之间逻辑关系概率的分数 s i j s_{ij} sij

KaTeX parse error: Undefined control sequence: \label at position 16: \begin{align} \̲l̲a̲b̲e̲l̲{relation_score…

  其中, F C q r FC^r_q FCqr F C k r FC^r_k FCkr 分别表示具有1,024个节点的单个全连接层,用于将 q i q_i qi q j q_j qj 映射到不同的特征空间; ∘ \circ 表示点积操作。

  • Relation Classification Module

  使用多类分类器,通过计算不同类别的概率分布来确定 q i q_i qi q j q_j qj 之间的关系类型:

p i j = B i L i n e a r ( F C q c ( q i ) , F C k c ( q j ) ) , i ≤ H , j ≤ W c i j = a r g m a x ( p i j ) \begin{align} p_{ij} = BiLinear(FC^c_q(q_{i}), FC^c_k(q_{j})), i\leq H, j \leq W \\ c_{ij} = argmax(p_{ij}) \end{align} pij=BiLinear(FCqc(qi),FCkc(qj)),iH,jWcij=argmax(pij)

  其中, F C q c FC^c_q FCqc F C k c FC^c_k FCkc 都表示具有1,024个节点的单个全连接层; B i L i n e a r BiLinear BiLinear 表示双线性分类器; a r g m a x argmax argmax 用于确定概率分布 p i j p_{ij} pij 中具有最高值的索引 c i j c_{ij} cij ,作为预测的关系类型。

Optimization

  在DLAFormer中,采用了与Deformable DETR相同的检测头部,只是在编码器中将二元分类器替换为多类分类器,检测头部的优化遵循Deformable DETR中概述的训练范式。在训练过程中,在解码器的每一层都加入了共享的统一关系预测头部以促进训练。所有这些关系预测模块和关系分类模块都一致地使用softmax交叉熵作为它们的损失函数进行有效优化。模型的整体损失由聚合每个预测头部的单个损失确定。

Experiments




如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2062207.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

kafka监控工具EFAK

kafka监控工具(EFAK) 1、下载2、解压3、配置3.1、安装数据库,需要是mysql,并创建ke数据库3.2、修改配置文件 4、启动4.1、启动zookeeper4.2、启动kafka4.3、启动EFAK 5、访问http://ip:8048 github地址:https://github…

colmap的几种相机类型和内外参取得方法

colmap的相机类型可以参考models.h文件。 主要有以下几种相机类型: SimplePinhole: 内参格式:f, cx, cy 实际用的时候:fxfyf Pinhole: 内参格式:fx, fy, cx, cy 其他可以自行查看models.h文件。 内参存放在images.b…

《微信小程序开发》系列:第1篇—微信小程序简介

1.什么是微信小程序 微信小程序是一种运行在微信内部的 轻量级 应用程序。 在使用小程序时 不需要下载安装,用户 扫一扫 或 搜一下 即可打开应用。它也体现了 “用完即走” 的理念,用户不用关心安装太多应用的问题。它实现了应用“触手可及”的梦想&…

回归分析系列14— 多项式回归

17 多项式回归 17.1 简介 多项式回归是线性回归的一种扩展,它允许回归模型包括输入变量的高次项。这种方法特别适合处理非线性关系的数据。 17.2 多项式回归模型 在多项式回归中,模型形式如下: 其中,p 是多项式的阶数&#xf…

Vue项目-三级联动的路由跳转与传参

三级联动组件的路由的跳转与传参 三级联动,用户可以点击的:一级分类、二级分类和三级分类 以商城项目为例,Home模块跳转到Search模块,以及会把用户选中的产品(产品名字、产品ID)在路由跳转的时候&#xff…

【控糖有道,健康无忧!糖尿病患者的饮食黄金法则大揭秘】

在快节奏的现代生活中,糖尿病作为一种常见的慢性疾病,正悄然影响着越来越多人的生活质量。面对这一挑战,科学合理的饮食管理成为了控制病情、提升生活品质的关键。今天,就让我们一同揭开糖尿病饮食的黄金法则,让“控糖…

CentOS服务器三级等保加固

1.密码周期: vim /etc/login.defs max_days:90 mindays:2 minlen:8 warnage:72.密码复杂度: vim /etc/pam.d/system-auth : password requisite pam_cracklib.so retry3 difok3 minlen8 lcredit-1 dcredit-1 ucredit-1 ocredit-1 【Ubuntu系统->vim /etc/pam.d/c…

Linux组的介绍,所有者,所在组,修改所在组

目录 linux组的介绍 文件/目录所有者 组的创建 文件/目录所在组 其它组 改变用户所在组 linux组的介绍 每个用户必须属于一个组,不能独立于组外。 这个文件是谁创建的,这个文件的所有者就是谁。 这个文件属于组1,那么组2对它来说就…

VoLTE基本信令流程(整理的学习笔记)

VoLTE基本信令流程 1. 注册基本过程 UE进行Attach,建立QCI9的默认承载使用IMS APN建立PDN连接,建立 QCI5 的默认承载,用于传送 SIP 信令,同时获取到了IMS入口的P-CSCF地址信息UE 通过 QCI5 的默认承载向 IMS 发起注册请求IMS 域…

亚马逊ERP全功能 无隐藏收费的几个地方

亚马逊全功能 ERP 采集图片订单翻译,无任何隐藏收费。 说说有关采集和管理的软件!1. 对于做跟卖的人来说需要大量采集产品,采集过来的产品还需要进行文本、图片翻译、修图等操作,图片储存和站点维护另算。市面上有些 ERP 软件在这…

美国高防服务器到底怎么选

美国高防服务器因其强大的硬件设施、高度的网络连接性、丰富的带宽资源和先进的防御技术而受到全球用户的欢迎。以下是选择美国高防服务器时需要考虑的关键因素,rak部落为您整理发布美国高防服务器到底怎么选。 确定服务器需求 容量和带宽:根据业务规模…

共享电动单车管理系统 ---附源码131016

摘 要 随着科学技术的飞速发展,各行各业都在努力与现代先进技术接轨,通过科技手段提高自身的优势;对于共享电动单车管理系统当然也不能排除在外,随着网络技术的不断成熟,带动了共享电动单车管理系统,它彻底…

React 学习——Class类组件生命周期函数

componentDidMount:组件渲染完执行一次,发送网络请求 componentWillUnmount:组件卸载的时候执行,副作用(清理的工作 清除定时器 事件绑定) import { Component,useState } from react; class Counter e…

敏捷架构开发方法和实践:迎接数字化时代的挑战

在当前飞速发展的数字化时代,传统企业架构的局限性日益显现,特别是在应用敏捷方法的过程中,许多企业发现其架构和组织结构无法支持真正的敏捷转型。为应对这一挑战,《数字化时代的敏捷架构》提出了一个全新的架构框架——敏捷架构…

Typora 软件介绍和利用

Typora 软件介绍 Typora 是一款功能强大的 Markdown 编辑器,以简洁直观的设计和无缝的实时预览而著称。本文将详细介绍 Typora 的功能、优势以及使用体验。 目录 简介主要功能软件优势使用体验系统支持安装与设置 简介 Typora 是一款由 Abner Lee 开发的 Markdo…

最新完整版手机APP软件应用下载类网站模板源码/手游导航源码app软件下载

源码简介: 手机APP软件应用下载类网站模板源码,它是最新完整版,也是手游导航源码,app软件排行榜下载网页源码。 这是一款带有强大后台的app软件手游类源码,界面设计得很漂亮,非常适合做app软件、手机软件…

PPT分享:埃森哲-流程制造的智能工厂规划设计

在分享PPT之前,笔者与大家一起熟悉下,流程制造是什么,与离散制造有哪些区别。 往期回顾>> 125页PPT:某行业数据架构蓝图规划方案 170页PPT:制造业采购供应链及财务管控业务流程蓝图规划 60页PPT:集团SRM项目业…

OpenGL-ES 学习(8) ---- FBO

目录 FBO OverViewFBO 优点使用FBO的步骤 FBO OverView FBO(FrameBuffer Object) 指的是帧缓冲对象,实际上是一个可以添加缓冲区容器,可以为其添加纹理或者渲染缓冲区对象(RBO) FBO(FrameBuffer Object) 本身不能用于渲染,只有添加了纹理或者…

【JS】如何给fetch添加超时功能

前言 Ajax有两种方式实现请求,分别是xhr和fetch,前者有超时功能,fetch则不然。下文尝试给fetch添加超时功能。 实现 使用终止器,在controller.abort()时便会在使用其signal信号的fetch函数发送一个终止信号,请求就会…

PTA 求整数的位数及各位数字之和

对于给定的正整数N,求它的位数及其各位数字之和。 输入格式: 输入在一行中给出一个不超过109的正整数N。 输出格式: 在一行中输出N的位数及其各位数字之和,中间用一个空格隔开。 输入样例: 321输出样例&#xff…