文档处理容易“翻车”,来看看CCIG上的大咖怎么说

news2024/11/19 5:26:02

一、前言

哪怕在互联网时代高速发展的今天,文档依然是人们在日常生活、工作中产生的信息的重要载体。

学生的作业、开具的发票、医生的医嘱、合同、简历、金融票据等都是通过文档来呈现的,它在我们的生活中随处可见。

现在我们为了更高效、安全的开展业务,常常需要对文档信息进行识别提取,比如:检测传递的证件是否有效,通过识别身份证照自动录入其对应的信息,以及提取手写稿的文字等场景。因此,让计算机具备阅读、理解和解释这些文档图像的能力在许多领域都具有广阔的应用价值。

然而在现阶段,文档图像的处理过程中还面临着诸多挑战:文档类型的多样产生了繁杂的版式与结构;受拍摄器材、背景环境影响,图像时常存在噪声和质量问题等:

因为有这些问题的存在,导致在文档处理上很容易“翻车”!

幸运的是,业界有很多大佬都在努力攻克这些难点,也取得了一些进展。在这次CCIG(中国图象图形大会)上,这些大咖也做了分享,让我们来看看他们是如何面对这些问题的以及他们对文档处理的看法是怎样的。

二、大会分享

1)文档分析与识别快速进步,但仍有很大的研究空间

来自中国科学院自动化研究所的副所长刘成林分享了在人工智能大模型时代下,他对文档识别的理解。

他们团队的主要研究内容是在版面分析(分割),文本定位、文本识别、表格识别,信息提取、公式、图形、符号等:

刘成林所长在会上带我们回顾了文档识别的研究简史,介绍了文档的种类以及现存的问题:

还分享了他们的研究现状:

一句话概括就是部分场景成功应用,大部分场景还不好用,在可靠性、可解释性、自适应性方面还需要提升。

另外,也分享了大模型GPT-4在文档处理中的应用:


他认为现阶段的大模型仍有很多不足,大模型现在未进行大规模的验证,识别精度可能不高,OCR模型的设计仍然很重要。但我们还是可以在文档处理上充分利用大模型的特征表示及语言能力。

未来他们会以设计自动化,应用无人化为目标,通过深度学习+结构化模型,生成模型、领域知识,迁移学习,领域泛化(利用相关领域数据和知识)、弱监督学习,跨模态学习、预训练(自监督学习)等方法来解决文档中各种元素和内容,多语言,多场景,多类型文档这类的广度研究问题,和文档语义理解,可解释性,可信度,字符结构分析,小样本学习,自适应之类的深度研究问题。

我很认同刘成林的观点,虽然现阶段文档处理在大多场景的应用并不乐观,但利用大模型的特征表示及语言能力会是一个不错的改善方案。

2)篡改文本图像的生成与检测

随着人工智能合成技术的发展,伪造多媒体信息在网络上泛滥成灾,干扰社会舆论和秩序,严重危害国家安全和社会稳定:

目前图像篡改生成与检测的研究都集中在自然图像,针对文本图像篡改生成与检测的相关研究较少。

2.1篡改文本图像生成

篡改文本图像生成指的是对场景图像中的指定文本进行编辑,在保留原始字体风格和背景纹理的同时,使目标文本尽可能清晰、容易辨认:

中国科学技术大学教授谢洪涛指出生成检测的任务难点是文字、字体、背景多样性:

也总结了现阶段几种常见模型的优缺点:

端到端场景文本擦除

1)EnsNet模型—通过条件对抗生成网络构建文本擦除器

优点:模型简单,提出文本擦除基本解决思路;

缺点:对复杂文本图像擦除效果较差;

2)EraseNet模型—引入文本感知分支,提升网络对文本区域的捕捉能力

优点:引入多级擦除策略,对擦除效果提升明显;

缺点:网络结构相较复杂,参数量较厚重;

3)CTRNet模型—以低维结构信息和高维上下文特征作为先验知识指导文本擦除和背景重建过程

优点:多维语义先验引入指导文字擦除和背景重建,针对复杂背景效果好;

缺点:同样依赖于GAN loss,训练过程相对复杂;


端到端场景文本篡改

1)SRNet模型—将文本部分和背景部分的生成方法分开学习,然后通过融合算法生成篡改图像

优点:模型简单,对简单文本篡改效果不错;

缺点:对复杂背景的文本图像篡改效果较差,对复杂字型有较重篡改痕迹;

2)SwapText模型—对目标文本形状先进行TPS变换,降低目标风格文本的合成难度

优点:对于曲形文本的篡改效果较好;

缺点:网络对整幅图像块进行编辑,存在对非文本区域的过度篡改;

3)TextStyleBrush模型—基于StyleGAN的篡改生成框架,能够自监督训练

优点:能够在真实数据集上训练;

缺点:网络结构复杂,模型难以收敛;

他们认为在场景文本图像擦除方面,之前的方法存在这些问题:没有显性解耦定位和重建操作,极大地增加了网络的学习难度,导致背景过度擦除,所有多阶段网络都采用相同的标签进行监督,无法平衡每个阶段的学习难度和网络结构,导致文字擦除不彻底。

所以他们的方法是基于迭代局部擦除的场景文本擦除,构建显性解耦的擦除网络,提出基于局部编辑的擦除策略,提升背景纹理完整性,构建平衡的多阶段擦除网络,提升文字擦除彻底性。

在场景文本图像篡改方面,存在需要文本风格图的监督,使其只能在合成数据集上训练。合成数据集与真实数据集的差异,导致网络在真实场景下篡改效果不佳;都是对图像块的所有像素点进行编辑,并未区分前景和背景区域,存在对非文本区域的过度篡改,所以他们以简化篡改文本生成网络,去掉不必要的监督过程;针对性地篡改,仅对文字区域进行编辑操作给出了针对笔迹级修改的篡改文本图像生成网络的方法。

现阶段他们还面临一些问题:

2.2 篡改文档检测

篡改文档检测是检测文本图像中所有文本实例,并在此基础上对文本真伪性进行鉴别,包含文本定位和文本真伪性鉴别两个步骤。

篡改文档检测的应用场景是非常广泛的且非常重要:

谢洪涛教授认为篡改文档检测的难点在于篡改文本和真实文本具有相同的语义(文本位置、几何结构),仅在局部纹理中存在一定差异,高质量的篡改文档图像数据获取困难,导致篡改文本检测网络很难在小规模样本下学到具有区分力的篡改特征:

他也分析了主流的检测方法优缺点,分享了他们课题组的检测方法——构建通用篡改文本检测器,进行多分类目标检测任务,继承场景文本检测其对文本检测的有效性及低数据依赖。

现阶段,同样存在一些问题:

谢洪涛教授认为篡改文本的生成与检测是矛与盾的良性互动的发展过程,还需要多领域的持续关注。

3)智能文档处理技术让世界更高效

来自上海合合信息科技股份有限公司智能技术平台事业部副总经理,高级工程师丁凯介绍了他们公司的一些产品服务和使命:致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务,以此来让世界更高效!


丁凯工程师介绍了他们在预处理存在弯曲、阴影、摩尔纹、不清晰的图像时的整体架构:

以及图像弯曲矫正的方法从“只取头尾”到坐标变化再到基于偏移场的方法,建立起弯曲矫正系统的pipeline:


在黑板、手写板上进行拍摄时,无可避免的遇到反光的影响,他们团队通过反光擦除技术,保留笔画细节,清晰还原反光板内容:

合合信息同样在文档图像篡改检测领域上有所建树,丁凯工程师指出了传统的基于文件标记篡改检测方法并不能有效的判断图片是否有被篡改,因为第三方软件可以抹除Exif信息:

之后他分享了他们检测系统的架构和技术:


此外,他们的PS检测和摩尔纹去除等服务我之前也使用过,效果都很不错,特别是PS检测方面,它也一直是很多行业迫切需要的,尤其是在保险、金融、银行等领域,如果将虚假篡改过的信息资料审核通过可能会带来巨大的影响甚至是经济上的损失:

三、总结

众所周知,现在是数字化的时代,越来越多的企业都在走向数字化的转型。然而,现实中80%的商业数据都是非结构化格式,比如邮件、图片和各种企业文档,其中非结构化文档占据了绝大多数。这样让数字化转型变得非常困难。因此,如果能实现让企业实现文档自动化处理、智能审核、自动录入等文档处理方面的功能,那一定是非常有商业前景和价值的事情。

而且随着人工智能技术的飞速发展,文档图像智能处理在医疗、教育、金融等诸多领域都会被应用,为各行各业提供更加高效、智能的文档管理和数据分析解决方案。

经过这次大会我认为,即便现在依然面临着许多困难,但我相信在不久的将来都会迎刃而解!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/543237.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

金铲铲之战8.5版本

金币篇 1、如果有强大的经济基础,那么这个游戏赢下来回变的超级简单,因此获取更多的金币是吃鸡最基础也是最关键的保障 说明:金币可以用来升级、刷新商店和购买人口 金币来源: 1、基础金币:根据野怪波次给予金币奖励…

Spread.NET 16.1.0 Winform Crack-new

添加对将表单控件添加到工作表的支持。 2023 年 5 月 18 日 - 16:24新版本 特征 窗体 支持表单控件- 添加了对将表单控件添加到工作表的支持。表单控件是可以插入到工作表中以处理数据并按指定处理数据的对象。可以轻松引用表单控件并与单元格数据进行交互。有 8 种不同类型的表…

第三十五章 多个组件状态数据共享

之前,我们的求和案例只是一个组件,属于是自己玩自己,接下来我们通过多个组件,通过redux实现它们之间的数据互通。 步骤1:更改项目目录结构 src |--containers | |--Count |--redux | |--actions | |--count.js | |-…

内网渗透(七十八)之域权限维持之ACL滥用(下)

ACL滥用(下) 7、GenericAll 权限 应用于组 再来看看GenericAll 权限 应用于组如何进行权限维持。 由于用户hack是普通的域用户,因此他没有往Domain Admins 组添加用户的权限,如图所示,以用户hack 身份往Domain Admins 组中添加用户,可以看到,添加用户失败。 现在我们…

目标检测,将voc格式转化为coco格式详细过程

在目标检测方法研究中,数据集的格式至关重要,为了减小模型的训练时长,需要现在小数据集进行模型研究,从而需要将VOC数据集转化为coco格式。下面一步一步来看: 1. 下载VOC数据集 Pascal VOC,即Pattern Ana…

windows2003系统SSL证书单站点部署https

本文将讲解,在windows 2003操作系统下,IIS 6 环境的服务器ssl证书安装教程。 安装前,请准备好SSL证书,没有的话,可以点这里申请SSL证书>>> 部署前请退出服务器内安装的杀毒软件(360、金山、安全…

Linux 安装Qt6 教程及错误解决

在Linux环境,通常为Ubuntu,安装Qt开发环境,与Windows安装相比,还是稍显繁琐,需要多做几个步骤。 这里的Ubuntu版本采用的是ubuntu-22.04.2-desktop-amd64,所以,比旧版本会少很多坑,…

链表题目强化练

目录 前言 两数相加 删除链表的倒数第N个结点 环形链表 相交链表 合并 K 个升序链表 复制带随机指针的链表 前言 初学者在做链表的题目时有一个特点,就是每看一个链表的题都觉得很简单,但真正到了扣代码的时候不是这卡一块就是那卡一块。这是因为…

No module named PyQt5

背景:将Python文件转成APP,在编辑器中运行没有问题,一使用pyinstaller转成app就报错了 尝试了各种网上的解法都无效,最后是GPT4解决的 Q: 我遇到一个奇怪的问题,我在python文件中,引用了pyqt5…

Android Termux安装MySQL数据库 | 公网安全远程连接【cpolar内网穿透】

文章目录 前言1.安装MariaDB2.安装cpolar内网穿透工具3. 创建安全隧道映射mysql4. 公网远程连接5. 固定远程连接地址 前言 Android作为移动设备,尽管最初并非设计为服务器,但是随着技术的进步我们可以将Android配置为生产力工具,变成一个随身…

【数据结构与算法】常见排序算法

文章目录 概述1、冒泡排序(Bubble Sort)1.1 步骤1.2 动图演示1.3 java代码实现 2、选择排序(Selection Sort)2.1 步骤2.2 动图演示2.3 java代码实现 3、插入排序(Insertion Sort)3.1 步骤3.2 动图演示3.3 j…

测试-用例篇

软件测试的生命周期 需求分析 - 测试计划 - 测试设计、测试开发 - 测试执行 - 测试评估 测试用例要素 测试环境、操作步骤、测试数据、预期结果 测试用例的要素没有执行结果。 测试用例要素不需要执行结果,因为执行结果需要执行完测试用例才会知道,没…

代码随想录算法训练营day45 | 70. 爬楼梯 (进阶),322. 零钱兑换,279.完全平方数

代码随想录算法训练营day45 | 70. 爬楼梯 (进阶),322. 零钱兑换,279.完全平方数 70. 爬楼梯 (进阶)解法一:动态规划 322. 零钱兑换解法一:动态规划 279.完全平方数解法一&#xff1…

秒懂算法 | 共识算法之Raft算法模拟数

01、Leader选举 存在A、B、C三个成员组成的Raft集群,刚启动时,每个成员都处于Follower状态,其中,成员A心跳超时为110ms,成员B心跳超时为150ms,成员C心跳超时为130ms,其他相关信息如图1所示。 ■…

2024王道数据结构考研丨第三章:栈和队列

2024王道数据结构考研笔记专栏将持续更新,欢迎 点此 收藏,共同交流学习… 文章目录 第三章:栈和队列3.1栈(stack)3.1.1栈的基本概念3.1.2 栈的顺序存储3.1.3栈的链式存储 3.2队列(Queue)3.2.1队…

【点云抽稀】一种基于均匀分布随机数的点云抽稀算法

文章目录 1. 背景2. 原理3. 实现3.1 定义Utils类3.2 加入预定义宏,确定层级3.3 函数实现 1. 背景 在大数据点云的存储中,常常要进行空间分区,一般的策略是构建四叉树或者八叉树。在构建树的过程中,一个不可避免的点就是点云的快速…

Text, Shapes, Colors 的使用

1. Text 的使用 // 多行文本 // Hello, World! This is the Swiftful Thinking Bootcamp. I am really enjoying this course and learning alot.// .lowercased() 文字小写 .uppercased() 文字大写 capitalized: 以单词形式显示 Text("Hello, World!".capitalized)…

test123

import matplotlib.pyplot as plt import pandas as pd # 从Power BI中获取输入数据 data pd.DataFrame({ Country: [USA, Canada, UK, Germany, France], Population: [328, 38, 66, 83, 67] }) # 使用Matplotlib绘制图表 plt.bar(data[Country], data[Population]…

Sentinel的另外三种流控模式(附代码详细介绍)

前言:大家好,我是小威,24届毕业生,在一家满意的公司实习。本篇文章将详细介绍Sentinel的其他三种流控模式,后续文章将详细介绍Sentinel的其他知识。 如果文章有什么需要改进的地方还请大佬不吝赐教👏&#…

轻量应用服务器如何选择之阿里云和腾讯云PK哪个好?

阿里云和腾讯云都有轻量应用服务器,轻量服务器是一种轻量级开箱即用的云服务器,适合小型网站、博客或测试等单机应用,那么问题来了,轻量应用服务器到底是阿里云好还是腾讯云好?阿腾云来详细对比下阿里云轻量应用服务器…