【技术新趋势】面向图像文档的版面智能分析与理解

news2024/11/15 21:55:07

目录

  • 一、什么是OCR?什么是版面分析理解?
  • 二、文档版面分析
    • 2.1、版面布局类型
    • 2.2、面向文档图像版面分析的实例分割
    • 2.3、逻辑结构分析
  • 三、文档版面理解
    • 3.1、位置嵌入
    • 3.2、表格数据提取
  • 四、智能文档处理技术新解决方案

人类撰写文档是为了记录和保存信息,作为信息载体,长期以来,大量信息被记录和保存在书本、报纸、期刊及特定的报表中。

然而,随着计算机技术的发展,电子格式存储方式越来越多。相对于纸质印刷文本,采用电子格式存储文本具有许多优点:如存储空间小受存储环境影响小易于检索和备份等。

这种转变很大程度上避免了纸质存储方式不易检索、不易保存及不便携带等缺点,并显著提高了日常工作和学习效率。因此,将纸质印刷品转换为电子文本或数字图形处理领域数字化纸张信息已成为热门研究内容之一。

在这里插入图片描述

在OCR系统中,纸质文档被相机拍摄成文档图像后,首先要进行版面分析、版面理解,从文字、表格、图形图像等多个维度进行解码重构,之后才能正式数字化为电子文档。

本篇文章将关注面向文档图像的版面分析与理解方向,并讨论这些任务的目前的优秀技术和方法。

一、什么是OCR?什么是版面分析理解?

OCR技术指的是光学字符识别技术,其通过对图像中字符的识别和转换为文本形式来实现文字信息处理。而版面分析则是对于整个文档或者页面进行结构化分析,以便更好地进行信息提取和利用。版面分析与理解作为构建于OCR之上的前置任务,与传统的OCR既有密不可分的联系,在表现形式和具体的方法论上又有着巨大的区别:

  • 联系在于其与OCR的目标都是旨在构建一种感官到理性的空间映射,简单来说,都是在教会计算机如何“看”人类特有的知识表达方式。
  • 区别在于OCR的粒度较粗,仅在于识别出单个文字的象形含义,而版面分析与识别则是建立在整篇文章或者整个段落之上的语义方面的深层表达挖掘工具。

在这里插入图片描述

在技术层面上来看,OCR技术能够构建从视觉感性空间(视觉效果)到理性知识空间(文字的具体表示和内在含义)特征映射关系的特性。而版面分析理解则更注重于整个文档或页面的结构和排版特征。它可以通过对整个页面进行布局分析、元素定位等方式,将不同部分所包含的内容分类并提取出来。同时还可以根据字体大小、样式等特征进行文字区块划分及分类。

在功能层面上来看,OCR技术通常作为一个辅助手段来使用,在扫描或拍摄到纸质文档后使用OCR软件进行文字转换,而文档版面分析与理解技术更关注于整体排版效果及各种元素之间的联系与相互影响,在金融、医疗、保险、能源、物流等多个行业都有不同类型的应用,不仅可以为机器获取更复杂的文章语义信息添砖铺路,还可以解放人类劳动力,使得文章的阅读过程进一步自动化和智能化,更是能够利用机器阅读的中间产物(如标注能力等)为其他的研究任务提供有力支持,进一步推动整个人工智能领域的发展。

二、文档版面分析

文档版面分析是对图片或页面扫描图像上感兴趣的区域进行定位和分类的过程,版面分析的目的是让机器“看懂”文档结构,即将文档图像分割成不同类型内容的区域,并分析区域之间的关系,这是内容识别之前的关键步骤。从广义上讲,大多数方法可以提炼为页面分割和逻辑结构分析。

  • 页面分割方法侧重于外观,并使用视觉线索将页面划分为不同的区域;最常见的是文本、图形、图像和表格。
  • 逻辑结构分析侧重于为这些区域提供更细粒度的语义分类,即识别作为段落的文本区域,并将其与标题或文档标题区分开来。

在这里插入图片描述

2.1、版面布局类型

随着信息展现形式的发展和变化,文本图像的内容从简单的文字,发展成为包含文本、表格、图形和图片等多种复杂展现形式的内容,版面的排版样式也由最初的横、纵向简单排列发展成为包括图文环绕、图表混合等多种情形的复杂样式。这些样式在改变人们阅读习惯的同时,也增加了文档图像版面分析的难度。

根据Koichi Kise在2014年提出,如下图所示,印刷文件可分为六种类型:(a)矩形,(b)曼哈顿,©非曼哈顿,(d)多柱曼哈顿,(e)水平重叠,(f)对角线重叠。
在这里插入图片描述

其中矩形版面指的是由水平和垂直方向的单列或多列大型矩形版面;每一栏只有一个段落。而类似的具有多个段落的文档来源可以被归类为曼哈顿布局;非曼哈顿版面则指那些具有非矩形形状区域的布局版面;多柱曼哈顿版面则指包含多个垂直或者水平柱子且依然以直角或者直线为主要元素排列而成的版本;水平重叠和对角线重叠都属于一些复杂型格式。

2.2、面向文档图像版面分析的实例分割

面向文档图像版面分析的实例分割是指在对文档图像进行版面分析时,同时进行实例级别的目标分割,它负责检测和注释文档的物理结构,将文档图像中不同语义类别的物体进行精确、有效地分割,其主要目的是将文本、图片、表格等不同类型的内容从背景中区分出来,以便更好地理解和处理这些信息。大多数在页面分割上的工作可以分为两类:自底向上和自顶向下的方法。

  • 自底向上的方法首先基于局部特征(黑白像素或者连通区域)检测单词,然后顺序地将成群的单词组合成文本行和段落。然而,这种方法在连通区域的识别和组合时十分费时。
  • 自顶向下的方法将一个页面迭代地分割成列、块、文本行和单词。这两种方法都很难正确的分割复杂布局的文档,例如一个有非矩形图片的文档。

一个常见的实例分割算法是Mask R-CNN,它基于深度学习技术并引入了掩码预测模块,在检测任务中可以直接输出每个物体所在位置及其对应的掩码信息。通过训练模型,我们可以获得一个能够自动识别并定位不同物体,并将它们精确提取出来的系统。
在这里插入图片描述

如上图所示:首先输入预处理后的原始图片,并将其送入特征提取网络中,以获得特征图。然后,在每个像素位置设定固定数量的ROIAnchor,并将这些ROI区域送入RPN网络进行二分类(前景和背景)以及坐标回归,从而获取经过精炼处理的ROI区域。

接下来,需要对这些ROI区域执行论文提出的ROIAlign操作。该操作包括两个主要部分:首先是对应匹配原图和feature map各自在相同位置上的像素点;接着是将feature map与固定的feature进行对应。
最终,在完成前面所有步骤之后,多个经过筛选、匹配和调整过程形成的ROI区域需进行多类别分类、候选框回归并引入FCN生成Mask等措施来完成实际分割任务。

LayoutLM中,作者描述了一种端到端神经网络,在编码器-解码器架构中同时结合文本和视觉特征,并融入无监督预训练网络,其通过多模态的方式首次将textlayout以及style信息融合在单一模型中进行联合优化与预测,用到了NLP领域中利用大规模无标签数据做模型自监督训练的pretrain范式。在推理过程中,他们的方法使用下采样池化层级联编码视觉信息,然后输入对称上采样级联进行解码。在每个级联水平上,所产生的编码也直接传递到相应的解码块中,连接向下和向上采样表示。这种架构确保了在编码和解码过程中考虑不同分辨率水平处视觉特征信息。

这种编码-解码模型结构简单,效果强大,利用大规模无标注文档数据集进行文本与版面的联合预训练,为后面该系列模型的持续改良优化提供了有力的支撑。

2.3、逻辑结构分析

针对版面分析问题,逻辑结构分析从图像的像素分布角度区分解决方案,大致可分为以下几类:

  1. 分类定位法:该方法主要通过判断独立像素块的分类归属来对图像中的像素块进行二分类过程。然后再通过二分类的IOU计算确定像素块之间的联通关系,并将具有确定性关系的像素块进行融合,最终从“分->总”的角度对具体联通的像素块进行组合重建。此外,还可以根据Softmax获取组合之后像素块的分类标签信息。
  2. 像素级语义分割法:通过对每个像素点进行分类,并最终将所有经过聚合处理后得到所述目标物体区域(即“框”)。
  3. 基于内容的图像检索法:该方法主要从内容描述角度出发,利用一些描述性特征(如布局、上下文相关性等),来处理文档或者其他图片中各个区域所包含信息并进行匹配和搜索。

在这里插入图片描述

针对文档版面分析这一难题,合合信息技术人员使用基于深度学习的方法,结合文本区域的几何坐标、视觉特征、文本语义等多种模态信息对文本阅读顺序进行预测,显著提升分类结果。

三、文档版面理解

在这里插入图片描述

3.1、位置嵌入

二维位置嵌入是指将文本和其他元素(如图片、表格等)在文档中的位置信息转化为一个二维坐标系上的点,通过识别页面边界和页面内部元素(如标题、段落、图片等),将它们在页面上的位置信息转化为二维坐标系上的点,并根据它们之间在坐标系上的相对位置关系,理解文档元素。

目前已经有多种序列标注方法被提出,他们通过嵌入2D边界框的属性并将其与文本嵌入相结合来了解上下文和空间位置以提取信息。虽然这些策略已经取得了成功,但在仅依赖于行号或边界框坐标时可能会导致误导性结果,在不平整表面上扫描文件时可能会使曲线文本产生歧义 ,此外基于边界框的嵌入仍会错过重要视觉信息如加粗、斜体之类以及图像如商标之类. 因此需要使用Faster R-CNN模型裁剪与感兴趣令牌相对应的图像区域来创建Token图像嵌入,并将其与2D位置嵌入组合起来使用以克服这些问题。

3.2、表格数据提取

表格是各类文档中常见的对象,其结构化的组织形式方便人们进行信息理解和提取。

表格提取问题包括表格检测和表结构识别,需要将行、列和单元格信息提取为通用格式,通过对表本身的单元格进行分类来理解结构信息和内容,由于文本和视觉特征对于正确提取和理解表同样重要,因此提出了许多不同的方法来执行此任务。

传统的机器学习规则方法是基于一些启发式的规则和图像处理方法,主要利用表格线或者文本块之间的空白分隔区域来确定单元格区域,通过腐蚀、膨胀,找连通区域,检测线段、直线,求交点,合并猜测框等,一般利用典型的分类算法高斯分析判别来进行表格检测任务的流程建立。

其在高斯分析的求解框架背景下,确定两个先验假设一方面是样本数据的分类体系分布标签服从伯努利分布另一方面是在不同类别标签上的样本数据特征分别服从高斯多元分布。通过上述两种分布概率函数的求解,使得无参数、无训练集或是小参数、小训练集合的表格检测任务求解有可行性,从而从分布拟合角度上解决因数据量不足而造成欠拟合问题。
在这里插入图片描述

TUTA模型提出使用基于树的转换器进行表理解语言模型预训练的三个新目标。为预训练引入的目标旨在帮助模型在令牌、单元格和表级别上理解表。

作者根据模型要预测的表单元格屏蔽一定比例的令牌,随机屏蔽特定的单元格标题,以便模型根据其位置预测标题字符串,并为表提供上下文,例如表标题或描述,这些内容可能与模型相关联,也可能不相关联,以便模型识别哪些上下文元素与表呈正相关。根据一个单元与另一个单元的层次距离,通过限制对项目的注意连接,对变压器架构进行了修改,以减少对注意力的干扰。TUTA已经在多个数据集上展示了最先进的性能。

在这里插入图片描述
合合信息技术人员提出一种表格结构解析方法,在逻辑版面分析中也发挥了重要作用,主要包括自上而下的方法、自下而上的方法以及端到端图像到标记的方法等。在财报相关表格识别测试中,有线表识别单元格结构准确率高于98%;无线表识别中,在保证表格区域内容的完整性的同时,检测准确率较传统方法显著提升。

四、智能文档处理技术新解决方案

2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE)在无锡太湖国际博览中心举行,本次论坛由中国人工智能学会、中国图象图形学学会主办,江南大学、无锡高新区管委会承办。

会议呈上了3 个大会主旨报告、4个大会特邀报告、12个年度进展报告(APR)报告、4场讲习班(Tutorial)、20场研讨会(Workshop)、186篇顶会顶刊论文墙报展示,涵盖了计算机视觉、图像处理、模式识别与机器学习领域的大部分热点研究方向,研讨了国内外前沿进展。

专注于深度学习、图文识别和人工智能的合合信息科技发展有限公司,亮相VALSE大会并在现场为我们带来了一场版面分析与理解的技术分享报告。

作为成熟的人工智能解决方案服务的提供方,合合信息研发的办公文档识别服务,支持超50种语言识别,可对办公文档的图片版面进行分析,输出图、表、列表、文本、水印、页眉页脚、印章、公式的位置及文字,并输出分版块内容的OCR识别结果。
在这里插入图片描述

而其通用表格识别产品支持识别图片/PDF格式文档中的表格内容,包括有线表格、无线表格、合并单元格表格,同时支持单张图片内的多个表格内容识别,返回各表格的表头表尾内容、单元格文字内容及其行列位置信息。

在这里插入图片描述

除此之外,其基于智能文字识别技术的场景智能文字识别引擎,为行业提供场景智能文字识别服务,可广泛用于200+国内外常见卡证、票据、行业单据、定制场景等高精准度不同行业和场景,并支持安全稳定的云端服务、端侧SDK、私有化部署等多种服务形式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/655852.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Zoho Books助力跨境贸易!深入了解其多币种处理功能

对于跨境行业而言,合作不同的客户以当地货币收取付款是一个不简单的任务。现在,Zoho Books 推出了新的高级多币种处理功能,让多货币付款或收款不再困扰。(注意:此功能在Zoho Books的专业版,高级版&#xff…

使用 ChatGPT 创建 APP 的最佳实践

导读:如果你想用用ChatGPT创建应用程序来赚钱,这是你需要知道的。 本文字数:2900,阅读时长大约:18分钟 如果你想用ChatGPT创建应用程序来赚钱,这是你需要知道的。 我最好先说出坏消息。如果你认为可以两手…

【后端开发】尚硅谷 SpringCloud 学习笔记

文章目录 一、cloud组件二、环境搭建2.1 创建父工程2.2 支付模块构建2.3 消费者模块构建2.3.1 引入RestTemplate2.3.2 远程调用支付模块 三、Eureka3.1 基础知识3.2 单机版Eureka安装3.3 服务注册3.4 Eureka集群3.4.1 Eureka端配置3.4.2 微服务端配置3.4.3 restTemplate负载均衡…

如何让ChatGPT制作XMind思维导图

一、使用ChatGPT辅助生成内容 给大家一个思路,比如我想制作《股神巴菲特给儿女的一生忠告》相关的思维导图,那我们可以在ChatGPT上提问“请使用markdown格式写出股神巴菲特给儿女的一生忠告的思维导图,以代码格式输出”。 生成后&#xff0…

teleport堡垒机的一些问题

teleport文件下载,将teleport服务映射到公网,权限已经分派好了,但无法ssh,这是什么原因呢? 注意teleport助手的版本要跟部署的是一致的,否则会检测不到状态 出现下面的问题,应该还是在防火墙的端…

奇舞周刊第496期:ChatGPT 的工作原理,这篇文章说清楚了!

记得点击文章末尾的“ 阅读原文 ”查看哟~ 下面先一起看下本期周刊 摘要 吧~ 奇舞推荐 ■ ■ ■ ChatGPT 的工作原理,这篇文章说清楚了! ChatGPT 能够自动生成一些读起来表面上甚至像人写的文字的东西,这非常了不起,而且出乎意料。…

DM3E,雷赛步进驱动器

0x6040: 0x6041: 状态流: 0x60608; //设置伺服模式 8CSP,6回零模式,3速度模式6040流: 00初始》06上电》07使能》0F待命(可操作) 快停流: 02快停》0F命令生效 参数保…

Vue全家桶(三):Vuex状态管理(State、Getters、Mutations、Actions)

目录 Vuex1. 理解Vuex1.1 组件之间共享数据的方式1.2 Vuex是什么1.2 什么时候使用Vuex1.3 Vuex的工作原理图 2 使用Vuex2.1 搭建Vuex环境 2.2 Vuex基本使用2.2.1 State2.2.2 Getters2.2.3 Mutations2.2.4 Actions2.2.5 Modules 模块化命名空间 3 求和案例3.1 使用纯vue编写3.2 …

Property ‘code‘ does not exist on type ‘AxiosResponse<any, any>‘ 的解决办法

原文链接 : Property ‘xxx’ does not exist on type ‘AxiosResponse<any, any>’ 的解决办法 vue3 ts 中 调用接口时&#xff1a; const loginOut () > {loginOutApi().then(res > {const { code } resif(code 0){ }})}报了如下错误&#xff1a; Property…

Python基础(3)——PyCharm介绍

Python基础&#xff08;3&#xff09;——PyCharm介绍 文章目录 Python基础&#xff08;3&#xff09;——PyCharm介绍课程目标一. PyCharm的作用二. 下载和安装2.1 下载2.2 安装 三. PyCharm基本使用3.1 新建项目3.2 新建文件并书写代码3.3 运行文件 四. PyCharm的基本设置4.1…

基于Hexo和Butterfly创建个人技术博客,(10) 使用Butterfly的Tags Plugin插件增强博客文章内容和视觉表现力

Butterfly官方网站&#xff0c;请 点击进入 说明&#xff1a; 前面已经提过Hexo自创了Tag Plugin内容标签&#xff0c;Butterflay主题在此基础上又扩展了一些。本文就详细讲解下这些标签带来哪些额外的功能和UI方面的强化&#xff1b; 本章目标&#xff1a; 掌握butterfly扩展…

LightningChart .NET 10.5.1 Crack LightningChart 2023

LightningChart .NET v.10.5.1 已经发布&#xff01; DataCursor 和 3D TransparencyRenderMode 现在可用。 为所有 3D、Polar 和 Smith 系列启用 DataCursor 在早期阶段&#xff0c;LightningChart 提供了不同的工具&#xff0c;需要用户编写额外的代码才能启用数据跟踪功能。…

phpstudy免费下载

phpstudy免费下载 phpstudy是一个可以在本地建站的php环境软件链接: https://pan.baidu.com/s/1vfi-gy3juYBUjGz_Cq2gHg 提取码: 1234链接: http://120.26.240.154:8888/down/5Sx9yB0s0HS3.zip phpstudy是一个可以在本地建站的php环境软件 百度网盘分享 链接: https://pan.ba…

Session和Cookie,你真的弄清了吗?

Session和Cookie Session和Cookie Session和Cookiecookiecookie的生命周期cookie作用域 Sessionsession的生命周期session作用域 cookie和session安全性 为什么需要cookie和session&#xff1f;在web系统发展变迁时&#xff0c;web发展时随着需求的不断增多&#xff0c;交互的存…

Ceph:关于Ceph 集群中池管理的一些笔记

写在前面 准备考试&#xff0c;整理 Ceph 相关笔记博文内容涉及, Ceph 中的 两种 pool 介绍&#xff0c;创建操作管理池理解不足小伙伴帮忙指正 对每个人而言&#xff0c;真正的职责只有一个&#xff1a;找到自我。然后在心中坚守其一生&#xff0c;全心全意&#xff0c;永不停…

java公益网站系统Myeclipse开发mysql数据库web结构jsp编程计算机网页项目wap

一、源码特点 java 公益网站系统是一套完善的java web wap信息管理系统&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发&#xff0c;数据库为Mysql5.0&…

Ceph:关于Ceph 集群管理的一些笔记

写在前面 准备考试&#xff0c;整理ceph 相关笔记博文内容涉及&#xff0c;Ceph 管理工具 cephadm&#xff0c;ceph 编排器&#xff0c;Ceph CLI 和 Dashboard GUI 介绍理解不足小伙伴帮忙指正 对每个人而言&#xff0c;真正的职责只有一个&#xff1a;找到自我。然后在心中坚守…

Android插件化框架-Shadow原理解析

作者&#xff1a;dennyz 1、前言 所谓插件化&#xff0c;是实现动态化的一种具体的技术手段。 对于移动端的App而言&#xff0c;无论是Android还是iOS&#xff0c;都存在一个共同的问题&#xff0c;那就是更新的周期较长。 当我们希望快速为App更新功能时&#xff0c;必须经…

Docker Desktop启动失败解决方案(亲侧出坑总结)

现在有些东西网上资料开始变少了。需要自己去总结。有些技术呢又因为分享变得门槛低。今天这个是关于windows下的docker desktop无法启动的问题集锦。卷吧。 背景&#xff1a;应业务需要所以需要在个人电脑上安装docker环境。desktop docker是官方标准的windows下安装工具。 …

6.7面向对象的多态

7. 面向对象特征三&#xff1a;多态性 概念 多态是面向对象程序设计&#xff08;OOP&#xff09;的一个重要特征&#xff0c;指同一个实体同时具有多种形式&#xff0c;即同一个对象&#xff0c;在不同时刻&#xff0c;代表的对象不一样&#xff0c;指的是对象的多种形态。 变…