智能文档处理黑科技,拥抱更高效的数字世界

news2024/12/27 11:20:49

目录

  • 0 写在前面
  • 1 为何要关注智慧文档?
  • 2 图像弯曲矫正
  • 3 手写板反光擦除
  • 4 版面元素检测
  • 5 文档篡改检测
  • 总结

0 写在前面

近期,中国图象图形学学会文档图像分析与识别专业委员会与上海合合信息科技有限公司联合打造了《文档图像智能分析与处理》高峰论坛。论坛特别邀请了来自中科院自动化研究所、北京大学、中科大的学术专家与华为等知名企业的研究者们,围绕文档图像处理及OCR领域的前沿技术展开“头脑风暴”,共同交流文档图像分析与处理的前沿学术进展、在典型行业的规模化应用情况,并探讨未来技术及产业发展趋势。

在这里插入图片描述

很荣幸听了这次论坛,使我对文档智能识别技术有了更加深入的了解,也让我认识到了其中涵盖的技术在实际应用中的巨大潜力和挑战

1 为何要关注智慧文档?

随着信息技术的发展和应用场景的不断扩大,人们需要处理和利用大量的文档信息。而传统的手动处理方法效率低下,无法满足现代生活和工作的需求。文档图像智能分析与处理就是一个重要且极具挑战性的研究问题,智能文档识别技术基于人工智能和机器学习等技术,可以自动识别文档中的各种信息,如文字、图像、表格、条码等,然后将其分类、归档、摘要、提取等处理。

文档图像智能分析与处理技术被广泛应用在人们生活的方方面面,比如银行票据的自动分析处理、快递运单的自动识别、教科书的分析与识别、古籍文稿的分析与理解、数字档案、数字图书馆等等,极大地提高了信息的检索、处理、传播速率。总之,文档图像分析与识别技术的出现和发展极大地方便了人们的生活,也极大地促进了我们的社会向智能化、数字化、信息化发展。

在这里插入图片描述

文档图像智能分析与处理的难点在于文档的多样性和复杂性:文档类型和格式繁多,包括报告、合同、发票、证明、证件等等。不同类型的文档有不同的格式和布局,难以用统一的方法处理。而且智能文档处理受到图像质量、文字字体、文字大小、文字颜色等噪声因素的影响,容易出现误识别。此外,还有图像质量不一、文档获取繁琐等诸多问题。

针对这些问题及其背后的技术,合合信息的丁凯博士进行了深入的探讨和分析,相信对这个领域感兴趣的同学一定有所收获!

在这里插入图片描述

2 图像弯曲矫正

现代神经科学表明,哺乳动物大脑的初级视觉皮层的主要工作就是进行图像的字典表示,因为视觉是人类最重要的感觉——据不完全统计,至少80%以上的外界信息由视觉获得。然而,计算机获取图像的过程相当于用二维平面对三维客观世界进行降维表示,其中降低的维度称为深度,就像我们无法理解四维、五维等高维空间意义,二维平面图像因为维度丢失,导致图像处理的困难。

因为相机硬件不符合理论上透视相机模型针孔无限小的假设,所以真实图像会产生明显的径向失真——场景中的线条在图像中显示为曲线。径向畸变(Radial Distortion)有两种类型:筒体畸变(Barrel Distortion)与枕形失真(Pincushion Distortion)。此外由于相机组装过程中,透镜不能和成像面严格平行,会引入切向畸变(Tangential Distortion),再加上视觉文档图像的拍摄视角一般不垂直于文档平面,产生文档图像的变形和扭曲。例如比较厚重的书籍在展开后其书脊两侧文字区会出现向内弯曲的情况。由此可见,扭曲文档的形变情况要比平面文档要复杂,对其分析和矫正的难度也比平面文档图像要高。

在这里插入图片描述

在高峰论坛上,合合信息介绍了几种技术路线:

  • 基于文本行线拟合和坐标变换方法(2003~2015)
  • 基于文本行线坐标变换的优化方法(2015~2019)
  • 基于偏移场学习的方法(2019~2022)

对于基本拟合、变换或优化等传统方法,存在一些缺陷,例如:在扭曲比较严重的文本区域还可能会定位错误、在复杂的版面或包含有图像的文档中识别精度下降等。

在这里插入图片描述

近年来,合合信息采用的基于偏移场的学习方法大大改善了上述缺陷。那么什么是偏移场呢?广义来说,图像的灰度不均匀性通常称为偏移场。灰度不均匀性的存在会影响图像后续的分析应用,许多图像处理方法都是建立在图像是均匀的基础之上的,这已然成为智能文档处理中的关键环节。

国内外学者对偏移场弯曲矫正也展开了大量的研究。Guillemaud等人提出了参数化的EM算法主要是使用一组多项式基函数的线性组合来模拟偏移场,用以保证偏移场的光滑性。Pham等人提出了RFCM(Robust Fuzzy C-mean)算法,将对偏移场的估计值引入到模糊 C 均值聚类算法(FCM) 模型中,可以对存在偏移场的图像进行聚类分割,随之而来的是繁琐的计算。由此,Ahmed 等人提出了BCFCM算法,可以兼顾对偏移场的矫正和噪声的抑制,但是该算法受图像轮廓不同的影响较大,使得估计出的偏移场不平滑,同时该算法对图像中零梯度问题处理效果很差。Likar等人在偏移场矫正过程中引入了最小信息熵方法,得到了不错的偏移场矫正效果,但是该方法却不能很好的解决寻找曲面最优解的问题。基于此,Salvado等人提出了局部熵最小化策略LEM 取得了较好的改进结果,但是LEM算法对初始化参数的要求较高。

合合信息采用的则是一种端到端结构的偏移场矫正方法,方法主要分为两个阶段:首先使用U-Net架构对输入图像进行分割,获得文本区域的掩模;接着将掩模输入到另一个U-Net网络中,该网络使用自注意力机制(self-attention)残差连接(residual connections)对文档图像进行矫正。

在第一阶段,U-Net网络首先将输入图像进行编码,然后将编码的特征图像进行解码,生成相同大小的输出掩模。在该过程中,U-Net通过跳跃连接(skip connections)和上采样操作保留输入图像的高层次特征,从而获得更加准确的掩模。

在第二阶段,使用了另一个U-Net网络对输入图像进行矫正。该网络首先对输入图像进行特征提取,然后通过自注意力机制加强了特征图像中的相关性,从而更好地捕获了文档图像的全局和局部信息。接着,网络使用残差连接对输入特征和输出特征进行合并,从而得到矫正后的文档图像。

合合信息采用的技术相比于其他方法,能够更好地处理文档图像中的扭曲和旋转等问题,且实现了很好的商业化效果。

3 手写板反光擦除

随着各式各样的数码产品与数字仪器的快速普及,数字图像已经成人们生活
中所接触的最重要的信息载体之一。但是,图像的质量受到各种各样的外部因素的影响,例如反光干扰。用户通常希望通过消除图像中的反射来提取出清晰的背景图像,因此将反射图像和背景图像进行分离的图像去反光任务是计算机视觉领域的活跃研究方向。

图像去反光问题是不适定的,导致基于先验的方法去反光效果非常糟糕。普遍的基于先验的方法或多或少存在这样的问题,在面对实际中的反光图像时,泛化效果比较差。最近,深度卷积网络 (CNN) 在诸如图像识别、图像生成等计算机视觉任务取得了巨大的成功。同样的,在图像去任务上,深度卷积网络的强大表征能力同样表现出了不错的效果。合合信息正是采用基于学习的算法实现手写板反光擦除。

具体来说,这个算法的原理是使用背景提取网络和文字提取网络来分离原始图像中的反光区域和文字区域,然后再将这些区域进行重组以实现图像去反光的效果。如下图所示

在这里插入图片描述

原图像首先使用背景提取网络来检测图像中的背景区域。这可以通过对图像进行像素级别的分割来实现,其中像素被分类为属于背景或前景。在这个过程中,反光区域通常会被识别为前景区域。在训练时,背景提取网络会使用一组标注好的图像作为训练集,通过反向传播算法来更新网络中的权重参数,从而最小化损失函数。在测试时,网络会将输入图像作为网络的输入,经过前向传播计算得到每个像素点属于背景或前景的概率,然后根据概率阈值进行二值化处理,从而得到图像的分割结果。

接下来,算法使用文字提取网络来检测图像中的文字区域。这可以通过使用一些先进的文字识别技术,如OCR来实现。在这个过程中,文字区域通常会被准确地识别出来,并被排除在反光区域之外。最后,算法将背景区域和非文字区域重组成一张新的图像,从而去除反光效果。这个过程通常涉及到一些图像处理技术,如图像融合和修补,以确保新图像的视觉效果与原始图像相似。

真实样例的效果如下,可以看出反光擦除的效果很明显

在这里插入图片描述

4 版面元素检测

文档版面分析即对文档图像按照不同的语义功能及区域类别进行分割和识别,分割出文本区、表格区、公式区、图形区等区域,并判断各区域所属的类别。区域分类是版面分析中的一个重要组成部分,它可以通过机器学习或深度学习的方法来识别出相应的特征区域。例如Bukhari通过对连通域进行分析,提取出一些简单的特征,再根据这些简单的特征产生具有更好表达能力的特征向量,最后由多层感知机将连通域分类,实现对复杂文档不同区域的分类。Konya和Paaß 采取最小生成树的方法,通过大量的文档来提取特征并构造出相应的特征向量,来对分类器进行训练,以完成文档版面分析任务。

在这里插入图片描述

版面元素检测也可以理解为一个图像语义分割问题。目前主流的语义分割方法是采用特征图先缩小后恢复的方法,如 U-Net、DeconvNet等语义分割网络先通过对图像的卷积和池化操作得到低分辨率的特征图,再通过上采样或反卷积将特征图恢复到高分辨率。但是这种方法存在一个缺点就是图像从高分辨率到低分辨率的过程中会损失信息,为了解决这个问题,2019年提出的HRNet(High Resolution Network)可以使图像在一个分支上始终保持高分辨率的同时,并行地对特征图进行下采样产生低分辨特征图,各个分辨
率分别一个分支,然后各个分支不同分辨率特征图之间不断地进行特征融合来产生强大的高分辨率表示,从而使最终得到的特征图具有丰富的上下文信息,进一步提高了网络的分割准确率。

目前,合合信息提供了关于版面检测、还原的系统级解决方案:涉及文字检测识别,版面元素检测识别,图层分离,排版布局等一系列深度学习模型,并需要通过合理的方式糅合各个模块,搭配文档渲染,最终生成可供用户编辑修改的Word/Excel文档,具有非常巨大的应用价值。

在这里插入图片描述

5 文档篡改检测

篡改文本检测(TTD,tampered text detection)作为多媒体信息安全领域的一个新兴研究方向,是指通过对文本图像中纹理特征的分析,捕捉真实文本和篡改文本之间的纹理差异性,以确定文本图像中文字区域的真伪性。常见的应用场景有:谣言检测流水、合同造假识别、欺诈图像识别、学历造假检测、保单PS检测等。

篡改文本检测任务有两个主要挑战。

  • 局部纹理差异性捕捉困难。篡改文本与真实文本仅存在局部纹理差异;
  • 真实和篡改文本检测精度平衡困难。

相较传统的文本检测任务,篡改文本检测任务需要进一步区分篡改和真实文本。由于真实和篡改文本分类难度不一致,训练过程中网络无法平衡两类的学习过程,导致在测试过程中两类检测精度差异较大。上述挑战极大地限制了篡改文本检测方法的性能。因此,如何准确地捕捉局部纹理差异性,同时平衡篡改和真实类别学习难度,是目前篡改文本检测研究的重要方向。

合合信息采用的是现在大火的Transformer结构。Transformer又是什么呢?它是一种用于自然语言处理、计算机视觉或其他序列到序列(sequence-to-sequence)任务的神经网络架构。

Transformer基于注意力机制(Attention Mechanism)构建,其核心思想是在序列中进行全局信息的交互和捕捉,而不是像以往的循环神经网络(RNN)一样在序列中逐个位置处理信息。Transformer通过多个自注意力层(Self-Attention Layer)进行信息的交互和表示,而每个自注意力层包含了注意力机制的三个部分:查询(query)、键(key)和值(value)。现在流行的GPT(Generative Pre-trained Transformer)系列模型正是一种基于Transformer的语言模型。

在这里插入图片描述

图源网络,侵删

具体来说,对于一个输入序列,Transformer将其转换为多个词向量(word embeddings),然后通过自注意力层进行特征提取。在自注意力层中,查询向量通过与所有键向量的相似度计算来计算注意力分数,这些分数用于加权求和值向量,最终得到每个位置的输出向量。然后,这些输出向量被馈送到下一个自注意力层或全连接层进行后续处理。

相比于传统的序列模型,Transformer的优点在于可以并行处理输入序列,从而加速模型的训练和推断。此外,Transformer还能够有效地处理长序列,因为它可以在不受时间限制的情况下一次性处理整个序列,而不需要像RNN那样进行逐个位置的处理。

总结

介绍了这么多黑科技之后,想必大家对智能文档处理领域有了一定了解。合合信息的智能文字识别应用开发宗旨就是为了让世界更高效!合合信息深耕人工智能17年,全球累计用户下载量23亿,享有国内外发明专利113项,在顶级AI竞赛获得15项世界冠军,提供行业智能解决方案30个。合合信息提供了深受全球用户喜爱的效率工具,例如C端的名片全能王、扫描全能王等。相信合合信息在模式识别、深度学习、图像处理、自然语言处理等领域的深耕厚积薄发,用技术方案惠及更多的人。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/553400.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OpenCloudOS开源Linux操作系统详解

OpenCloudOS是什么?OpenCloudOS是Linux哪个版本?OpenCloudOS是哪个国家的?OpenCloudOS是一个国产操作系统开源社区,OpenCloudOS的基础库和用户态组件完全与CentOS 8兼容,腾讯云百科分享OpenCloudOS Linux操作系统详细介…

基于MATLAB的无人机遥感数据预处理与农林植被性状估算实践技术

为了将人工智能方法引入农业生产领域。首先在种植、养护等生产作业环节,逐步摆脱人力依赖;在施肥灌溉环节构建智慧节能系统;在产量预测和商品定价生产管理环节提高效能。这些智慧农业迫切需要实现的目标,首先要解决的问题就是多源…

第三十六章 状态管理工具与总结

Redux 是一个渐进式的状态管理库,它不仅仅是一个库,同时也是一个框架。它提供了一组用于构建复杂应用程序的工具和库,其中包括一些浏览器插件。 在 Chrome 和 Firefox 浏览器上,已经存在一些 Redux 的浏览器插件,例如 …

「技术分享」汽车检测移动机器人应用,科聪赋能智能数字化检测!

2021年汽车无钥匙进入系统市场价值16亿美元,预计到 2027 年将达到 26.8 亿美元,在预测期内的复合年增长率超过10%。这一光明的市场前景,推动相关供应商推出复杂的集成电子系统。但过去,汽车制造环节在智能化、数字化和过程成本等方…

企业数字化转型到底该怎么做?

企业数字化转型涉及实施技术和利用数字工具来增强业务流程、改善客户体验和推动创新。主要包括: 愿景和战略:首先明确定义数字化转型目标。确定数字技术可以对企业的业务产生最重大影响的领域,例如运营效率、客户参与度或产品开发。 评估当前…

【Java EE】Spring Cloud Gateway

Spring Cloud Gateway 添加Spring Cloud Gateway术语表工作流程网关的作用路由负载均衡统一处理跨域发布控制流量染色统一接口保护统一业务处理统一鉴权访问控制统一日志统一文档 网关的分类实现网关开启日志断言过滤器 参考文档 https://springdoc.cn/spring-cloud-gateway/ …

BetaFlight Mark4之“妖怪”声音之二

BetaFlight Mark4之“妖怪”声音之二 1. 源由2. 回顾3. 分析4. 优化5. 数据6. 综述7. 参考资料8. 附录 1. 源由 在BetaFlight Mark4之“妖怪”声音大致做了如下测试: 滤波参数调整 (怀疑滤波参数问题,导致振动传入系统,进而桨叶转速变化产生异响)整机螺…

系统学习大模型的20篇论文

【引子】“脚踏实地,仰望星空”, 知其然还要知其所以然。读论文是一条重要的途径,这一篇文章https://magazine.sebastianraschka.com/p/understanding-large-language-models非常值得借鉴,不敢私藏,编译成文。 大型语言…

Vue-生命周期

Vue实例有一个完整的生命周期,也就是说从开始创建、初始化数据、编译模板、挂在DOM、渲染-更新-渲染、卸载等一系列过程,我们成为Vue 实例的生命周期,钩子就是在某个阶段给你一个做某些处理的机会。 注册周期钩子​ 举例来说,mo…

聚观早报 | ChatGPT登顶美区iOS免费榜;库克不满苹果首款MR设备

今日要闻:ChatGPT登顶美区iOS免费榜;库克不满苹果首款MR设备;索尼正开发小尺寸折叠屏手机;万达辟谣大规模裁员;智能仿生手让截肢者重获手心的温度 ChatGPT登顶美区iOS免费榜 ChatGPT 在 iOS 美区免费 App 排行榜上位列…

一种轻量级的消息传输协议-MQTT

正文 大家周末好,我是bug菌~ 最近项目中用到了MQTT,感觉挺优秀的一种协议,所以这里分享一些相关的知识。 1 什么是MQTT MQTT是一种轻量级的消息传输协议,用于物联网设备和应用程序之间的通信。其最初由IBM开发&#xf…

TCP可靠数据传输

TCP 是通过序列号、确认应答、重发控制、连接管理以及窗口控制等机制实现可靠性传输的。 1 重传机制 TCP 利用重传机制解决数据包丢失的情况,常见的重传机制如下: 超时重传快速重传SACKD-SACK 1.1 超时重传 重传机制的其中一个方式,就是…

网络的七层模型

网络的七层模型 七层模型结构 OSI七层模型TCP/IP五层模型说明协议硬件解释应用层应用层网络服务与最终用户的一个接口HTTP HTTPS FTP TFTP SMTP POP3 IMAP TELNET SNMP DHCP这层不涉及硬件,主要是web应用的表形式为应用程序提供网络服务表示层数据的表示、安全、压…

[学习笔记] [机器学习] 6. [下]决策树算法(熵Entropy、信息增益(率)、基尼值(指数)、CART剪枝、特征工程特征提取、回归决策树)

7. 回归决策树 学习目标: 知道回归决策树的实现原理 前面已经讲到,关于数据类型,我们主要可以把其分为两类,①连续型数据和②离散型数据。 在面对不同数据时,决策树也可以分为两大类型: 分类决策树&…

第三篇:强化学习发展历史

你好,我是zhenguo(郭震) 这是强化学习第三篇,我们回顾一下它的发展历史:强化学习发展历史 强化学习作为一门研究领域,经历了多年的发展和演进。以下是强化学习的主要发展历史里程碑: 1950年代-1…

前沿重器[33] | 试了试简单的prompt

前沿重器 栏目主要给大家分享各种大厂、顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。(算起来,专项启动已经…

容器简单介绍

目录 一、容器简介​编辑 二、容器和虚拟化技术差异 三、容器基本概念 四、容器技术对企业优势 五、容器的工具 一、容器简介 docker只是容器工具,真正容器技术是LXC (linux container) 二、容器和虚拟化技术差异 虚拟机模式&#xff…

微服务开发系列 第二篇:Nacos

总概 A、技术栈 开发语言:Java 1.8数据库:MySQL、Redis、MongoDB、Elasticsearch微服务框架:Spring Cloud Alibaba微服务网关:Spring Cloud Gateway服务注册和配置中心:Nacos分布式事务:Seata链路追踪框架…

【腾讯云 Finops Crane 集训营】云架构成本大,浪费支出太高?何不试试Crane

一、前言 近年来,很多公司随着业务的发展都开始采用云原生的架构方式来部署服务系统,以便满足系统的弹性需求。但随着业务的进一步增长,k8s的节点数不断的增加,每个月消耗的费用也随之增加,导致了资源的利用率并不平均…

Python自动化办公对每个子文件夹的Excel表加个表头(Excel同名)

点击上方“Python爬虫与数据挖掘”,进行关注 回复“书籍”即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 玉容寂寞泪阑干,梨花一枝春带雨。 大家好,我是皮皮。 一、前言 前几天在Python粉丝【彩】问了一个Python自动化办公处理的问题&…