深度学习助力版面分析技术,图像“还原”有方

news2024/10/7 20:27:30

您好,我是码农飞哥(wei158556),感谢您阅读本文,欢迎一键三连哦
💪🏻 1. Python基础专栏,基础知识一网打尽,9.9元买不了吃亏,买不了上当。 Python从入门到精通
😁 2. 毕业设计专栏,毕业季咱们不慌忙,几百款毕业设计等你选。
❤️ 3. Python爬虫专栏,系统性的学习爬虫的知识点。9.9元买不了吃亏,买不了上当 。python爬虫入门进阶
❤️ 4. Ceph实战,从原理到实战应有尽有。 Ceph实战
❤️ 5. Java高并发编程入门,打卡学习Java高并发。 Java高并发编程入门

文章目录

  • 1. 前言背景
  • 2. 简单的了解下图像识别过程
  • 3. 版面分析难在哪里?
  • 4. 合合信息如何突破?
    • 4.1. 版面元素检测与识别
    • 4.2. 版面排版引擎的算法原理
  • 5、文档还原效果好
  • 6、总结

1. 前言背景

近期,2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE) 在无锡圆满落幕,此研讨会是图像视觉领域的重磅会议。作为智能文档处理领域代表的合合信息自然不会缺席,合合信息出席会议并进行智能文档处理技术研发与实践成果分享,重点介绍了其在版面分析与文档还原技术实现上的新突破。

一系列的技术突破成功的提高了图像识别的准确率。 其介绍成功地引起了我对文档图像识别与文档还原技术的浓厚兴趣,因为我经常为OCR识别出现的错字和漏字问题所困扰。下面就我了解到的信息做一个简单的介绍。

2. 简单的了解下图像识别过程

首先,让我们先来了解下文档图像识别以及文档还原的过程。一般而言,文档图像识别以及文档还原的有如下几大步骤。

在这里插入图片描述

  1. 图像预处理:在进行文档图像处理之前,需要对原始图像进行预处理,以提高后续图像处理的效率和准确性。这些预处理包括以下几个方面:
    1. 形变矫正:针对图像的形变矫正,合合信息采用基于位移场网络学习方法的系统构架,可对形变文档进行智能矫正,包括弯曲矫正与透视矫正,同时智能定位文档边缘,切除多余背景。
    2. 阴影去除:通过合合信息阴影处理技术,可以智能消除图像中的阴影,提升材料规范性与后续的识别准确性。
    3. 摩尔纹去除:合合信息采用多重神经网络技术,通过分析暗角、摩尔纹的形成原理,对图像中存在的干扰因素进行对应处理,可去除所有样式的摩尔纹,同时保证图像信息完整、颜色不失真。
    4. 反光去除:合合信息采用基于位置感知的深度学习的单图像反光/反射消除方法。使用循环全对场变换(RAFT)来学习位移场,从而可以自动地从源图像到目标图像进行运动估计和位移场估计。
    5. 清晰度提升:通过增强图像亮度,对比度等参数,使图像更加清晰。
    6. 图像增强锐化:通过微分法和高频加重滤波法对图像进行增强锐化
  2. 版面分析:版面分析就是将对输入的图像的文字部分和版面元素进行分析和识别,把若干行文字关联起来,从而获得正确的顺序与段落关系。版面分析是文档图像还原的核心,因为普通的OCR技术只能提取图像中文字,并不能提取图像中的图片,印章等其他元素,以及各个元素之间的位置关系。
  3. 文档还原:文档还原就是依据版面分析步骤中识别到的各个元素以及元素之间的顺序信息。通过基于transformer的排版布局引擎进行排版分析,从而使图像很好"还原"成一个可编辑的Word或Excel文件。
    下面我们就详细介绍下版面分析技术。

3. 版面分析难在哪里?

介绍版面分析技术之前首先我们需要搞清楚何为版面分析。

文档图像中通常含有大量的图片、表格等非文字内容,一篇普通的论文或者文稿,除文字信息外,其版面往往包含页眉、页脚、表格、二维码、公式等多种元素。在向系统输入文档图像后,机器会对文字部分和版面元素进行分析和识别,把若干行文字关联起来,从而获得正确的顺序与段落关系,这便是版面分析技术。

版面分析主要包括物理版面分析(区域分割、分类,文本检测与定位,文本行分割等),手写及印刷区分,表格分析(单元格提取与关系分析);逻辑版面分析(区域语义分类、阅读顺序),以及签名、图标、印章等版面元素的提取等。前者主要解决区域分割问题,关注的是文档图像的物理布局,后者则关注区域之间的逻辑关系或阅读顺序。如何精准地辨别各类元素,并在文档电子化过程中让它们回归到应有的位置,是该项技术的难点之一。
在这里插入图片描述
在这里插入图片描述
其中阅读顺序主要用于文本行分割和文本行识别等处理。一般来说,文本行分割可以通过以下步骤实现:

  1. 段落识别:首先使用段落识别技术将文档图像中的文本段落进行识别和分割。
  2. 行连通性:将文本行连通性,将其与相邻的文本行合并成一个文本块。
  3. 文本行方向:判断文本块的方向(从左到右或从右到左),以便于进行正确的文本行分割。
  4. 文本行分割:根据文本块的方向和行间距等信息,将文本块分割成单个的文本行。

传统的版面分析方法在进行版面布局分析和表格处理时会明显受制于版式差异,在应对不同场景下的文档图片时泛化效果存在缺陷,难以以一个通用的模型来处理各类版式的复杂文档。这就会导致文件材料在被拍照、扫描成电子文档的过程中可能出现漏字、错位的现象,从而使得图片转Word、图片转Excel等“可编辑”性的需求无法被满足。

4. 合合信息如何突破?

合合信息将全卷积神经网络(FCN)和图神经网络(GNN)两种深度学习的算法模型引入到文档版面分析中,结合文本区域的几何坐标、视觉特征、文本语义等多种模态信息对文本阅读顺序进行预测,显著提升分类结果。

首先,让我们简单的了解下这两种算法。

全卷积神经网络(FCN)是一种将卷积神经网络(CNN)用于图像分类任务时常用的技术。FCN将CNN末尾的全连接层转化成了卷积层,使得模型可以输出每个像素点的分类结果。在文档版面分析中,FCN可以用于将文档图像中的不同部分分割成不同的区域,例如文本、图片、表格等,从而更好地理解文档图像的结构和内容。

图神经网络(GNN)是一种用于处理图数据的神经网络。它可以处理图形数据中的节点和边之间的关系。在文档版面分析中,GNN可以用于处理文档中的节点和边之间的关系,例如文档中的段落之间的关系、图片之间的关系等。通过使用GNN,可以更好地理解文档的结构和内容,并提取出有用的信息。

如下图展示了合合信息文档还原系统的架构图。
在这里插入图片描述
从上面的架构图中可以看出文档还原系统核心部分主要就两个部分:

  1. 在接收到文档图像之后,系统通过版面元素检测和识别技术获取图像中的版面信息,这些版面信息包括段落,表格,印章,图片等信息,通过文字检测和识别技术获取图像中的文本信息和坐标信息。具体来说,使用全卷积神经网络(FCN)将文档中的不同部分分割成不同的区域,然后使用图神经网络(GNN)处理这些区域之间的关系,从而更好地理解文档的结构和内容。此外,还可以使用全卷积神经网络(FCN)和图神经网络(GNN)来识别文档中的实体、关系等信息,从而更好地理解文档的内容。

  2. 接着系统通过基于transformer的排版布局引擎输出文档排版属性,从而将图像“还原”成一个可编辑的Word或Excel文件。
    下面就对每个部分所涉及到的相关技术点做一个简要的介绍和分析。

4.1. 版面元素检测与识别

合合信息版面分析技术通过引入全卷积神经网络(FCN)和图神经网络(GNN)两种深度学习的算法解决版面分割、区域间的逻辑关系处理等方面的难题,可将文档图像切分成不同类型内容(文本、图形、公式、表格、印章等)的区域,并分析区域之间的关系,让机器更精准地确定文档中的文字位置、字体、字号和排版方式,从而可以从各类版式复杂的文档图像中精准获取其所有信息。

那么,这两种算法模型如何能够提升文档图像检测与识别呢?这是因为

  1. 全卷积神经网络(FCN)在卷积神经网络(CNN)的基础上,将卷积神经网络的全连接层转换为卷积层,从而允许输入不同大小的图像。这种方法在文档图像识别中非常有用,因为文档图像的大小和形状各异。通过使用 FCN,我们可以将任意大小的图像输入到模型中进行识别,而不需要对图像进行缩放或裁剪。这提高了模型的准确性和鲁棒性。

  2. 图神经网络(GNN) 可以将图像转换为图形结构,并使用 GNN 对其进行识别。GNN 可以通过学习图形结构的特征来提高识别准确率。此外,GNN 还可以利用图形结构的全局信息,例如节点之间的连接和距离,来提高识别准确率。
    其过程如下图所示:
    在这里插入图片描述
    其详细步骤如下图所示:
    在这里插入图片描述
    合合信息提出Layout Engine作为框架的视觉检测模块,首先进行卷积神经网络的区域性搜索,检测出文档中的各个元素,这些元素包括文本、印章、页眉、页脚、无线表、骑缝章、列表、水印、二维码、条形码、公式、图像、表格等。 该模块通过下采样、上采样以及attention模块获取图像多尺度、空间以及通道相关的特征。最后采用point-wise的方式获取文档元素的heatmap区域,可以有效的提取各种形状以及各类信息的元素区域。

4.2. 版面排版引擎的算法原理

通过前面版面元素检测和识别获取到文本信息,坐标信息以及其他版面信息之后,接着就交给基于transformer的排版布局引擎,该引擎的算法原理如下图所示:
在这里插入图片描述
从上图中可以看出该引擎接收到相关的文字信息和版面信息之后,首先
文档图像中通过字符嵌入(Character embedding),文本行嵌入(Textline embedding),段落嵌入(Paragraph embedding),关系嵌入(Relation embedding)抽出四部分嵌入向量。

  1. 字符嵌入(Character embedding):将每个字符表示为一个向量的过程,通过将字符映射到一个连续的向量空间中,使得具有相似语义或上下文关系的字符在向量空间中更加接近。

  2. 文本行嵌入(Textline embedding):将整个文本行表示为一个向量的过程。通过将文本行中的所有字符的嵌入向量进行聚合,可以捕捉到整个文本行的语义和上下文信息。

  3. 段落嵌入(Paragraph embedding):将整个段落表示为一个向量的过程。通过将段落中的句子或文本行的嵌入向量进行聚合,可以捕捉到段落的整体语义和上下文信息。

  4. 关系嵌入(Relation embedding):将文本中不同元素之间的关系表示为向量的过程。这些元素可以是词语、句子、文本行或段落等。通过学习元素之间的关系嵌入,可以捕捉到它们之间的语义关联性和相互作用。这对于解决文本关系分析、语义关系建模和知识图谱构建等任务非常有用。

接着,将这些嵌入向量送入Transformer中。Transformer是一种基于自注意力机制的深度学习模型,用于序列到序列的任务。它应用到文本排版,就是将前面输入的嵌入向量的多帧序列转化成一个固定长度的背景向量,完成编码工作,将生成的固定长度的向量再通过一定的方式转化为对应的输出字母序列,完成解码工作。最终输出的结果将用于机器学习方法进行分析,从而达到还原文档段落属性的效果。
在这里插入图片描述

5、文档还原效果好

介绍完了合合信息在版面分析与还原技术上的新突破之后,接着我们看下使用扫描全能王进行文档还原的效果。如下图是一个表格图像,其内容被完整的识别出来了。
在这里插入图片描述

6、总结

合合信息通过基于深度学习的方法解决版面分割、区域间的逻辑关系处理等方面的难题,可以将文档图像切分成不同类型的内容(文本、表格、印章、公式等)的区域,并并分析区域之间的关系,让机器更精准地确定文档中的文字位置、字体、大小和排版方式,从各类版式复杂的图片文档中精准获取信息,让电子文档电获得“所见即所得”的处理效果。

感兴趣的小伙伴可以下载扫描全能王抢先体验一波。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/669257.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Python 随练】分数序列

题目: 有一分数序列:2/1,3/2,5/3,8/5,13/8,21/13… 求出这个数列的前 20 项之和。 简介: 在本篇博客中,我们将研究一个有趣的数学问题:求解一个特殊数列的…

MySQL出现Specified key was too long; max key length is 3072 bytes解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

算法篇——动态规划 01背包问题 (js版)

416. 分割等和子集 给你一个 只包含正整数 的 非空 数组 nums 。请你判断是否可以将这个数组分割成两个子集,使得两个子集的元素和相等。 链接:力扣 解题思路: 这道题看似是比较简单的背包问题: 首先可以通过判断数组和是否是…

MVC框架的model,view,controllr如何运作

第一步: MVC 是:model,view,controller 的缩写。 第二步: view负责界面显示,也就是jsp,html页面 controller是控制业务流程,也就是servlet,service等java文件 model是…

AI绘图网站 AI绘图生成器推荐

一、怎样设置关键词才能制作出美观高端的图片? 要在使用AI绘画软件时生成高端的优质图片,关键词的设置是不可或缺的重要因素。以下是一些关键词设置的建议。 确立你想要呈现的主题或题材 在设定关键字之前,你必须确定你所要表现的主题或题材…

基于pix实现无人机编队表演

文章目录 前言一、飞控LED灯光控制二、飞控路径控制三、飞控和地面站通信接口四、舞步设计五、gazebo仿真 前言 编队灯光表演没有什么高深的技术,主要是一些应用层的开发,事实上即使没有任何编程基础,按本教程操作也可以实现。 硬件准备&am…

spring security oauth2整合SSO(单点登录)

1.流程 用户在访问应用程序时,将被重定向到身份认证服务器进行身份验证。用户输入他们的凭据(通常是用户名和密码),身份认证服务器对其进行验证。身份认证服务器向用户颁发一个令牌,该令牌表示用户已经通过身份验证。…

正则表达式(1)

文章目录 正则表达式一.基础命令1.grep命令1.1grep格式1.2grep命令选项 2.特殊的符号2.1空行——^$2.2以什么为开头—^,以什么为结尾—$2.2.1以什么为开头的格式:2.2.2以什么为结尾的格式: 3.只匹配单行——^匹配的字符$ 二.文本处理命令1.sort命令1.1命…

使用大型语言模(LLM)构建系统(七):评估1

今天我学习了DeepLearning.AI的 Building Systems with LLM 的在线课程,我想和大家一起分享一下该门课程的一些主要内容。之前我们已经学习了下面这些知识: 使用大型语言模(LLM)构建系统(一):分类使用大型语言模(LLM)构建系统(二):内容审核、…

Java 10 新特性解读

前言  2018年3月21日,Oracle官方宣布Java10正式发布。  需要注意的是 Java 9 和 Java 10 都不是 LTS (Long-Term-Support) 版本。和过去的 Java 大版本升级不同,这两个只有半年左右的开发和维护期。而未 来的 Java 11,也就是 18.9 LTS&am…

SpringBoot基于Aop实现自定义日志注解(提供Gitee源码)

前言:日志在我们的日常开发当中是必定会用到的,在每个方法的上都会习惯性打上Log注解,这样系统就会自动帮我们记录日志,整体的代码结构就会非常优雅,这边我自己搭建了一个demo去实现了一些这个项目当中必定会用的功能。…

根据jar名称动态打包带版本的镜像, 并创建对应容器的脚本实现

根据jar名称动态打包带版本的镜像以及容器 利用shell脚本, 实现根据jar名称中的项目名和版本号来动态制作带版本的Docker镜像以及带版本的容器 背景 人人都逃不过的墨菲定律 事情的原因来自最近发生的一次生产环境事故: 我们在甲方那里环境中有两个服务器, 一个用于灰度测试另…

WPF开发txt阅读器16:自动编码检测

文章目录 更改编码重新载入自动编码检测更改编码并保存 txt阅读器系列: 需求分析和文件读写目录提取类💎列表控件与目录💎快捷键翻页字体控件绑定💎前景/背景颜色书籍管理系统💎用树形图管理书籍语音播放&#x1f48e…

Cortext-M3系统:储存器系统(2)

1、存储系统功能概览 Cortext-M3储存器有如下特点: 存储器映射是预定义的,并且还规定好了哪个位置使用哪条总线。 存储器系统支持所谓的“位带”(bit-band)操作。通过它,实现了对单一比特的原子操作,位带操…

STM32G0+EMW3080+阿里云实现单片机WiFi智能联网功能(一)EMW3080实现和PC之间的串口通讯

项目描述:该系列记录了STM32G0EMW3080实现单片机智能联网功能项目的从零开始一步步的实现过程; 硬件环境:单片机为STM32G030C8T6;物联网模块为EMW3080V2-P;网联网模块的开发板为MXKit开发套件,具体型号为XC…

基于tensorflow深度学习的猫狗分类识别

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

Triton教程 --- 速率限制器

Triton教程 — 速率限制器 Triton系列教程: 快速开始利用Triton部署你自己的模型Triton架构模型仓库存储代理模型设置优化动态批处理 速率限制器 速率限制器管理 Triton 在模型实例上调度请求的速率。 速率限制器在 Triton 中加载的所有模型上运行,以允许跨模型优…

带你用Python制作7个程序,让你感受到端午节的快乐

名字:阿玥的小东东 学习:Python、C/C 主页链接:阿玥的小东东的博客_CSDN博客-python&&c高级知识,过年必备,C/C知识讲解领域博主 目录 前言 程序1:制作粽子 程序2:龙舟比赛 程序3:艾草挂 程序4…

基于Java高校共享单车管理系统设计实现(源码+lw+部署文档+讲解等)

博主介绍: ✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战 ✌ 🍅 文末获取源码联系 🍅 👇🏻 精…

《网络安全0-100》网络安全的未来趋势

网络安全的未来趋势 网络安全是一个永恒的话题,随着技术的发展 和应用,网络安全也面临着新的挑战和威胁。 以下是网络安全未来的趋势: 人工智能和机器学习:人工智能和机器学习已 经成为网络安全领域的热门技术。未来&#xff…