VALSE 2023:版面分析技术如何赋能生产生活?

news2024/11/22 4:40:48

目录

  • 0 写在前面
  • 1 文档版面分析
  • 2 版面元素检测
  • 3 文档排版引擎
  • 总结

0 写在前面

VALSE年度研讨会旨在为中国青年学者在计算机视觉、图像处理、模式识别与机器学习研究领域提供一个具有深度的学术交流平台。VALSE秉持理性批判、勇于探索、实证和创新等科学精神,倡导自由平等的原则,鼓励学术界各方在纯粹理性的氛围下进行百家争鸣和思想碰撞,促进国内青年学者之间的思想交流和学术合作,以在相关领域做出重要学术贡献,并提升中国学者在国际学术舞台上的影响力。

在这里插入图片描述

VALSE年度研讨会中,一个很重要的议题是语言文字识别与理解,语言文字识别与理解在日常生活中有广泛的应用,例如

  • 语音助手与智能音箱
  • 语音转写与字幕
  • 机器翻译
  • 社交媒体和文本分析
  • 智能客服与自动回复

可以说是涵盖了通信、娱乐、学习、工作和社交等各个领域,为我们提供了更加便利和智能化的体验

在这里插入图片描述

在本次VALSE年度研讨会中,合合信息作为金牌企业参与宣讲,向我们详细地介绍了版面分析技术。版面分析技术在智能文档处理中扮演着重要的角色,它用于对文档的布局、结构和格式进行自动识别和分析。通过理解文档的版面信息,智能文档处理系统可以更好地处理和解析文档内容,提高文档的自动化处理效率和准确性。接下来,让我们详细看看版面分析技术如何赋能生产生活。

1 文档版面分析

文档版面分析即对文档图像按照不同的语义功能及区域类别进行分割和识别,分割出文本区、表格区、公式区、图形区等区域,并判断各区域所属的类别。

文档版面分析中还有两个基础的重要概念,一个是物理版面(Physical Layout),即文档在视觉上可见的外观和布局,包括页面的大小、页面边距、页眉页脚、文本框的位置和大小等与文档视觉呈现相关的元素。物理版面的分析有助于对文档进行可视化处理、重构和呈现;另一个是逻辑版面(Logical Layout),即文档的结构和组织方式,独立于具体的视觉呈现。它关注的是文档中各个元素之间的关系和层次结构,例如标题、段落、列表、表格等。逻辑版面的分析可以帮助系统理解文档的内容和结构,从而进行文本解析、数据提取和语义分析等任务。

在这里插入图片描述

针对版面分析问题,虽然在近年来在学术界涌现出一批能够取得较好效果的方法,但是仍然在业界难以进行产品化和商业化,其仍然面临着如下的挑战:

  • 高质量、高包含度的有效数据集的缺乏。深度学习需要输入大量数据进行训练。但版面分析领域这个问题尤为严重,比如对历史文献等古籍的版面分析,这些古籍跨越了几个世纪,有不同的书写载体、书写工具、语言、文字、字体、装饰品、插图等。这些都给版面分割带来一定的难度。合合信息在古籍处理方面也有一定成果,可以看焕新古文化传承之路,AI古彝文识别

  • 实时性模型结构的设计方案缺失。一般在商业化过程中,需要对模型的实时性和精度有着较高的要求。但目前还没有一种非常通用的、能够满足各种定制化需求的、且能对应于各个商用特点进行精度和实时性满足需求的模型建模方法

  • 文档的具体内容边界模糊,需要人工矫正判定。例如文章中的摘要部分和正文段落部分具有十分模糊的界定边界,可能因为错误评判或者错误标记的方式造成某些样本之间的标签输出是具有先验偏差。因此,如何保证数据集的无偏性或尝试在建模过程中消除该种偏差性,也是在建模过程中不可避免的挑战之一

在这里插入图片描述

近年来,针对版面分析领域的研究主要还是延续目标检测的研究分析路线进行。在深度学习相关的目标检测领域中,通常把建模过程分为以YOLO系列和SSD系列为代表的one-stage和以Fast-RCNN和Mask-RCNN为代表的two-stage两种形式。使用one-stage的方法和two-stage的方法在任务的实时性上相差无几,因为目标的位置相对固定,而two-stage的RPN网络却能够给整体效果带来非常大的提升。因此,过去以two-stage的模型结构居多。在two-stage的基础上,版面分析领域发展出了许多新的方法。从研究方法论上看,这些方法可以分为自底向上方法、自顶向下方法和混合型方法等。从模型结构上看,又可以分为基于RPN网络的方法、基于金字塔网络的方法和基于残差的方法等

2 版面元素检测

版面元素检测也可以理解为一个图像语义分割问题。目前主流的语义分割方法是采用特征图先缩小后恢复的方法,如 U-Net、DeconvNet等语义分割网络先通过对图像的卷积和池化操作得到低分辨率的特征图,再通过上采样或反卷积将特征图恢复到高分辨率。但是这种方法存在一个缺点就是图像从高分辨率到低分辨率的过程中会损失信息,为了解决这个问题,2019年提出的HRNet(High Resolution Network)可以使图像在一个分支上始终保持高分辨率的同时,并行地对特征图进行下采样产生低分辨特征图,各个分辨率分别一个分支,然后各个分支不同分辨率特征图之间不断地进行特征融合来产生强大的高分辨率表示,从而使最终得到的特征图具有丰富的上下文信息,进一步提高了网络的分割准确率。

在这里插入图片描述
在合合信息介绍的版面元素检测网络中,一个很重要的组件就是注意力模块。注意力机制的目的在于在进行卷积神经网络的区域性搜索时,能够对于不同区域块的像素特点,在进行每一个卷积层赋值之前给予特定的权重,以保证搜索过程中对于需要检测的目标能够得到预标注的过程。

在这里插入图片描述
Scale & Spatial Attention Module(SSAM)可以用于版面元素检测任务,以提高神经网络对不同尺度特征的感知和关注能力。在计算机视觉任务中,不同尺度的特征对于实现准确的目标检测、图像分割和图像分类等任务非常重要。传统的卷积神经网络(CNN)在较浅层次的特征图上提取较为细节的特征,而在较深层次的特征图上提取更为抽象的特征。然而,由于不同尺度特征之间的信息流动有限,网络可能无法充分利用不同尺度特征的相关性。

在这里插入图片描述

SSAM模块则可以自动学习不同尺度特征之间的相关性,并根据这些相关性调整特征的权重。具体而言,SSAM模块首先将输入的特征图分解成多个尺度的子特征图。接着,对于每个尺度的子特征图,通过计算注意力权重来衡量其在整体特征中的重要性。这可以通过使用卷积或全连接层来实现,将特征图转换为注意力权重图。最后,根据计算得到的注意力权重,对不同尺度的子特征图进行加权融合,得到最终的特征表示。这可以通过加权求和或者使用注意力机制来实现。

3 文档排版引擎

合合信息提出的文档排版引擎如下所示

在这里插入图片描述

首先从文档图像中抽出四部分嵌入向量:

  • 字符嵌入(Character embedding):将每个字符表示为一个向量的过程,通过将字符映射到一个连续的向量空间中,使得具有相似语义或上下文关系的字符在向量空间中更加接近
  • 文本行嵌入(Textline embedding):将整个文本行表示为一个向量的过程。通过将文本行中的所有字符的嵌入向量进行聚合,可以捕捉到整个文本行的语义和上下文信息
  • 段落嵌入(Paragraph embedding):将整个段落表示为一个向量的过程。通过将段落中的句子或文本行的嵌入向量进行聚合,可以捕捉到段落的整体语义和上下文信息
  • 关系嵌入(Relation embedding):将文本中不同元素之间的关系表示为向量的过程。这些元素可以是词语、句子、文本行或段落等。通过学习元素之间的关系嵌入,可以捕捉到它们之间的语义关联性和相互作用。这对于解决文本关系分析、语义关系建模和知识图谱构建等任务非常有用

接着,将这些嵌入向量送入Transformer中,为了介绍Transformer,首先先需要了解编解码的概念。在 NLP 领域,人们使用语言一般包括三个步骤:

接受听到或读到的语言 -> 大脑理解 -> 输出要说的语言。

语言是一个显式存在的东西,但大脑是如何将语言进行理解、转化、存储的,则是一个目前仍未探明的东西。因此,大脑理解语言这个过程,就是大脑将语言编码成一种可理解、可存储形式的过程,这个过程就叫做语言的编码。相应的,把大脑中想要表达的内容,使用语言表达出来,就叫做语言的解码。在语言模型中,编码器和解码器都是由一个个的Transformer组件拼接在一起形成的

在这里插入图片描述
具体到文本排版,就是将输入嵌入向量的多帧序列转化成一个固定长度的背景向量,完成编码工作,将生成的固定长度的向量再通过一定的方式转化为对应的输出字母序列,完成解码工作

而在这种模型中,输入的嵌入向量往往是一个包含多帧图像的序列,在进行编码解码工作时,要想从输入的一系列信息中关注到与图像对应的输出最相关的显著区域,显然是很困难的。近年来,注意力机制被广泛的应用在图像识别和NLP领域

在这里插入图片描述

举例:将"who are you"翻译为"你是谁",传统的模型处理方式是一个seq-to-seq的模型,其包含一个encoder端和一个decoder端,其中encoder端对"who are you"进行编码,然后将整句话的信息传递给decoder端,由decoder解码出"我是谁"。在这个过程中,decoder是逐字解码的,在每次解码的过程中,如果接收信息过多,可能会导致模型的内部混乱,从而导致错误结果的出现。而在生成"你"的时候和单词"you"关系比较大,和"who are"关系不大,所以我们更希望在这个过程中能够使用Attention机制,将更多注意力放到"you"上,而不要太多关注"who are",从而提高整体模型的表现

Transformer输出的结果将用传统的机器学习方法进行分析,以还原段落属性。例如,通过回归任务来预测或估计文本中字符的尺寸大小,字号大小是指文本中字符的相对尺寸,通常以点数(pt)表示;通过回归任务来预测或估计文本行之间的垂直间距和首行缩进的大小,行间距是指文本行与上一行或下一行之间的垂直距离,而首行缩进是指段落中首行相对于左侧边界的缩进量,通过行间距回归,可以控制文本的排版风格和格式;通过分类任务来确定文本行的对齐方式,行对齐方式可以是左对齐、右对齐、居中对齐或两端对齐等,通过行对齐分类,可以自动确定文本行的对齐方式,从而提升文本的可读性和整体外观;通过分类任务来确定段落中文本的对齐方式,与行对齐类似,段落对齐方式可以是左对齐、右对齐、居中对齐或两端对齐等;通过分类任务来识别文档中的不同分栏结构,版面分栏可以将文本内容分为多列,如报纸或杂志中的版面设计,通过版面分类,可以自动检测和识别文档中的分栏结构,有助于后续的排版和布局。

文档还原的数据流如下所示

在这里插入图片描述

下面是几个文档还原的实例

在这里插入图片描述

在这里插入图片描述

总结

目前,合合信息提供了关于版面检测、还原的系统级解决方案:涉及文字检测识别,版面元素检测识别,图层分离,排版布局等一系列深度学习模型,并需要通过合理的方式糅合各个模块,搭配文档渲染,最终生成可供用户编辑修改的Word/Excel文档,具有非常巨大的应用价值。

在这里插入图片描述

合合信息的智能文字识别应用开发宗旨就是为了让世界更高效!合合信息深耕人工智能17年,享有国内外发明专利113项,在顶级AI竞赛获得15项世界冠军,为30个行业提供智能解决方案。合合信息打造了深受全球用户喜爱的效率工具,例如C端的名片全能王、扫描全能王等。相信合合信息会在模式识别、深度学习、图像处理、自然语言处理等领域的深耕厚积薄发,用技术方案惠及更多的人。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/649128.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

光伏电池建模及温度光照的影响曲线

光伏电池建模及温度光照的影响MATLAB程序及仿真资源-CSDN文库https://download.csdn.net/download/weixin_56691527/87910193模型介绍: 需要MATLAB2018B及以上的版本!! 首先根据根据环境修正公式搭建光伏电池仿真模型: 温度变化…

传统机器学习算法解析(opencv实现)

前言 文本主要解析在传统机器学习当中一些小的算法与思想,只是传统机器学习算法当中的一小部分,更多传统机器学习算法可参考我的另外几篇博客 链接1: PCA主成分分析 链接2: Canny边缘检测算法 链接3: K-Means聚类算法 链接4: SIFT算法分析 1. opencv …

MMDeploy安装和pth转ONNX

参考: https://github.com/open-mmlab/mmdeploy/blob/main/README_zh-CN.md MMDeploy安装指导 MMDeploy 是 OpenMMLab 模型部署工具箱,为各算法库提供统一的部署体验。基于 MMDeploy,开发者可以轻松从训练 repo 生成指定硬件所需 SDK&#…

0x80080005 windows更新失败导致的net framework3.5安装失败

缘起 客户安装应用软件提示需要安装net framework3.5 sp1,但是下载了net framework的安装包后一直提示正在下载中,后来发现系统的windows更新功能都用不了,真的是坑啊。 解决方案 按Windows按键(田字按键)X,选择Powe…

2023-6-15-第六式适配器模式

🍿*★,*:.☆( ̄▽ ̄)/$:*.★* 🍿 💥💥💥欢迎来到🤞汤姆🤞的csdn博文💥💥💥 💟💟喜欢的朋友可以关注一下&#xf…

如何通过java程序获取表的自增主键值?

获取自增主键: 在 Java 程序中,使用 JDBC 插入记录到 MySQL 数据库时,可以通过以下步骤获取自增主键的值: 第一步:在 PreparedStatement 对象中添加 Statement.RETURN_GENERATED_KEYS 常量作为参数,表示希…

Zabbix与信创、云原生、高可用等热点解析|Zabbix大会·上海站

根据信通院调研显示,超过90%的中国金融机构已经引入开源软件。工信部突出强调开源在驱动软件产业发展的重要作用。作为一个完全开源免费的企业级监控解决方案,Zabbix在IT基础监控、网络监控、Server监控和云监控等领域都获得了同行和用户极高的评价。 Za…

html好看的登录页面1(十三种风格登录页面源码)

文章目录 1.登录风格效果说明1.1 背景凹起风登录界面1.2 弹出风登录界面1.3 科技时尚风登录界面1.4 蓝色一夏风登录界面1.5 模糊背景左右风登录界面1.6 上中下介绍风登录界面1.7 深沉科技风登陆界面1.8 舒适简洁风登录界面1.9 网站风登录界面1.10 小框清爽风登录界面1.11 夜色风…

【IoU全总结】GIoU, DIoU, CIoU, EIoUFocal, αIoU, SIoU,WIoU【基础收藏】

🥑 Welcome to Aedream同学 s blog! 🥑 并不存在效果一定优秀的IoU,需要结合自己的网络、数据集试验。 不想深究原理可直接跳转总结。文内公式均为手打,非图片,方便查看 文章目录 L1 Loss,L2Loss&#xff0…

深入浅出剖析EL表达式和JSTL

el表达式 产生背景 从JSP2.0开始,就不推荐使用java脚本,而是使用el表达式或者动态标签代替 java脚本; 页面标签; 概念和原理 概念:Expression Language :jsp内置的一种表达式语言;原理:el表达式的出现目的是替换js…

这些excel英语翻译方法你会吗?

大家平常的时候应该都会去做Excel表格吧?无论是在读书、上班或者日常,必然都会使用到吧?但是在处理国际业务时,我们要来处理表格就会比较费时一点,因为语言的不同会有一点影响,所以我们可能需要将Excel表格…

第九章节 用Python实现常微分方程初值问题的数值解法

参考书籍:数值分析 第五版 李庆杨 王能超 易大义编 第9章 常微分方程初值问题的数值解法 文章声明:如有发现错误,欢迎批评指正 文章目录 欧拉法后退的欧拉方法梯形方法改进欧拉公式补充龙格—库塔方法线性多步法阿当姆斯显示与隐式公式 9.1引…

cesium学习(entities实体)

什么是entities CesiumJS具有丰富的空间数据API,可分为两类:面向图形开发人员的低级Primitive API,以及用于数据驱动可视化的高级Entity API。 entitiesAPI公开了一组一致设计的高级对象,这些对象将相关的可视化和信息聚合到一个…

(转载)有导师学习神经网络的分类(matlab实现)

有导师学习神经网络以其良好的学习能力广泛应用于各个领域中,其不仅可以解决拟合回归问题,亦可以用于模式识别、分类识别。将继续介绍两种典型的有导师学习神经网络(GRNN和PNN),并以实例说明其在分类识别中的应用。 1 理论基础 1.1 广义回归神经网络(…

小雉系统U盘安装包制作

​ 本文原地址: http://www.feitianzhi.com/boke/index.php/archives/57/ 概述 小雉系统可从线上系统制作安装包到U盘,制作的安装包可用于新系统的安装; 小雉系统只提供升级包,对应的安装包均是客户在应用升级包后按本文或http://www.f…

为什么AirtestIDE的selenium Window突然无法检索控件了?

1. 前言 最近有很多朋友跟我们反馈,为什么1.2.15版本的IDE没办法做网页元素检索了,是不是我们不支持selenium了之类的。 测试后发现,目前版本确实存在这个问题,原因是Chrome113.0.5672.127(最新)版本过高,AirtestIDE…

ansible 的学习

目录 ansible学习思路: ansible是什么? 官网:Ansible is Simple IT Automation ansible的组成: 参考文档:Ansible入门与playbook实战-~学无止境,学以致用 ^ _ ^-51CTO博客 ansible操作体验: 1、先…

机器学习算法(一)KNN近邻算法

一、KNN算法概述 KNN:K-Nearest-Neighbor算法,即K值为邻近。KNN是最简单的分类算法之一,同时,也是最常用的分类算法之一。KNN算法是有监督学习中的分类算法。 二、原理 基于基于iris数据集,具体经历下面四步流程&am…

指南 | OpenAI API对PDF进行总结提炼

前言 本文将针对信息过载阅读搜索难的问题,展示如何利用OpenAI API高效地自动总结PDF,从而提高阅读效率和节省时间。包含详尽的操作教程、实际案例及最佳实践,旨在确保准确且高效地进行文档摘要。另外,本文还将深入探讨运用AI技术…

Cocos Creator3D:发布到 Web 平台

推荐:将 NSDT场景编辑器 加入你的3D工具链 3D工具集: NSDT简石数字孪生 发布到 Web 平台 打开主菜单的 项目 -> 构建发布,打开构建发布面板。 Cocos Creator 3D 提供了两种 Web 平台的页面模板,可以通过 发布平台 的下拉菜单…