文档处理新探究成果——前沿技术CCIG文档图像智能分析论坛分享

news2025/1/20 15:46:22

目录

前言

一、文档分析与识别最新研究

二、视觉-语言预训练模型及迁移学习

三、篡改文本图像的生成与检测技术

四、智能文档处理技术在工业界的应用与挑战

 总结


前言

 图文智能处理前沿技术一直是我所关注的技术,尤其在现在集成多态大模型的基础之上,每一次技术突破都有可能带来新的行业领域突破和技术变革。而图像图形处理技术有关的峰会和论文往年都比较少,想要了解最新前沿技术进展的机会较少,且现在能够运用图文处理技术的业务场景越来越多,技术需求和人员储备也越来越大,因此关于中国图象图形大会我们还是很有必要关注的

CCIG文档图像智能分析与处理论坛最近在苏州举办众多专家学者将齐聚苏州,开启“最强大脑”,为大家带来一场精彩的学术盛宴。大会以“图象图形向未来”为主题,汇集100余位国内顶尖学者以及知名企业专家、2000余名科研院校师生、一线技术工程师,共同探索图像图形技术行业的最新进展。为了促进文档图像分析与处理领域的技术交流及发展,中国图象图形学学会文档图像分析与识别专业委员会与合合信息共同打造了《文档图像智能分析与处理》高峰论坛。本次论坛中,合合信息特别邀请了来自中科院自动化所、北大、中科大、华南理工大的学术专家与华为等知名企业的研究者们,围绕文档图像处理及OCR领域的前沿技术展开“头脑风暴”,寻找文档图像处理领域的未来进阶方向。


一、文档分析与识别最新研究

文档图像识别的任务包括版面分析、文本识别、图形符号识别、信息抽取等。近年来,得益于深度学习方法的发展,文档识别性能快速提升,在文档数字化、票据处理、笔迹录入、智能交通、信息检索等领域得到广泛应用。然而,实际应用也表明,现有技术在识别精度和可靠性、可解释性、自适应性等方面还有明显不足,还有很多技术问题有待解决。

 大会刘成林所长以“大模型时代的文档识别与理解”为主题,从文档识别历史回顾出发,从文档的种类与研究问题到文档识别与理解研究现状,再从大模型带来的挑战与机遇分析,详细解答了现文档识别研究发展现状以及未来技术革新方向,并从ChatGPT, GPT-4等大模型的特点提出思考:

  • 研究工作是否被大模型替代?
  • 如何结合大模型找到研究方向?

 最后刘成林所长从三个方面进行了总结:

  • 从提升性能角度
    • 文本识别可靠性、可解释性
    • 全要素识别、长尾问题、多语言
    • 复杂版面分割与理解,变形文档分析与识别
  • 从应用扩展角度
    • 新的应用:凡有文字符号的场合,机器人流程自动化(RPA),很多细分行业
    • 新问题:语义信息提取,跨模态融合,面向应用的推理决策等
  • 从学习能力角度
    • 小样本学习,迁移学习,多任务学习,领域自适应,结构化预测,弱监督 学习,自监督学习,开放集(零样本、增量学习)

二、视觉-语言预训练模型及迁移学习

基于大规模文本数据、Transformer和无监督预训练技术的ChatGPT毫无疑问是人工智能的里程碑技术,展示了机器智能的能力和可用性。随之而来的视觉-语言双模态超大规模预训练模型GPT-4更是展现了超人的数理能力、零样本/小样本能力。

北京大学邹月娴教授致力于跨媒体分析与理解、人机对话、深度学习理论方法与应用研究,简要分析ChatGPT的技术能力与局限性,介绍视觉-语言预训练模型及迁移学习的前沿研究成果。

视觉-语言任务是典型的跨模态机器学习任务,我们可以将图片作为媒介,利用图片对应起两种语言的单词或句子,从而完成词语,甚至是句子的翻译任务。基于图片的零样本翻译任务就是采用这样的解决思路,然而这种做法会存在两点缺陷:一是仅根据图片翻译词语,翻译模型只会对具有视觉意义的词语有很好的翻译能力,如名词,形容词,而对于图片无法明确表示的词语,翻译质量则会很差。二是这种方法只能使用包含单一目标词语的图片,而现实生活中的图片往往都是包含众多物体的复杂图片。

使用源语言和目标语言的(图片,内容描述)数据训练一个双语图片描述生成器,通过共享同一个图片编码器和描述生成器来迫使不同语言的词语被嵌入到同一个隐含空间内,含义相近的词语特征向量距离更近,而含义相远的词语特征向量距离更远。得到的这一特征就是词语的语言特征表示。在这种情况下,模型学习到的词语特征并不限制与图片内容一一对应,而是可以从其共存的句子环境中学到所有词语的语言信息,其中就包含“a”这类非视觉性词语。

为了不限制图片只包含单一物体,我们设计将图片的部分区域与词语相对应,而不是拿整张图片与词语对应。这就是词语的局部视觉特征表示。将图片通过卷积神经网络得到的以空间区域划分的图片特征依次输入到图片描述生成模型中,用生成相应词语的概率表示该词语与这一图片局部区域的匹配程度。根据匹配程度对这些区域图片特征做加权和,便得到了这一词语的一个局部视觉特征。当然,同一个词语所出现的图片有很多个。因此,最终每个词语都会对应一个局部视觉特征集合。

三、篡改文本图像的生成与检测技术

近年来,经过深度学习篡改生成的文本图像已广泛传播于互联网,对金融票据、证件和网页内容识别等多个行业领域产生了重要影响。基于篡改生成与检测矛与盾的关系,本报告从场景文本图像的篡改生成与篡改检测两个方面进行讲述,包括探索基于文本笔迹的文本图像生成和基于频域关系的局部纹理差异性建模,最终实现高质量的场景文本图像篡改生成以及准确的场景文本图像篡改检测。

中国科学技术大学谢洪涛教授团队首先从文本图像擦除的角度考虑文本擦除彻底性和背景纹理完整性,从技术意义和难点出发:

  • 字体多样性
    • 包含多种字体(或艺术字),同时字符大小和颜色等也变化多样
  • 语言多样性
    • 不同语言字形结构不同,难以生成清晰可辨认的多语言文字
  • 背景多样性
    • 背景纹理复杂多样,准确重建背景纹理困难

引出题组方法-场景文本图像擦除问题,提出新的评价指标-由于篡改文本图像生成方法旨在生成人眼难以鉴别的文本图像,目前的评价指标 (PSNR等)不能有效反映文本篡改图像的可视化性能。

并结合通用的篡改生成框架提出基于笔迹的场景文本图像篡改生成算法。其次,本报告提出了一种通用的自然场景文本图像篡改检测框架,并结合频域信息最大化真实和篡改文本的局部纹理差异性。

篡改文本图像的生成与检测是一个矛与盾的问题。篡改文本图像的生成方法能够 反映篡改文本图像检测方法的检测性能;同时,篡改文本图像检测方法也能反映篡 改文本图像生成的效果。因此两者是密不可分的,只有共同进步才能实现矛与盾的良性发展。篡改文本图像的生成与检测可以应用于文本图像的多个领域,例如:文档图像、 自然场景图像、票据图像等。因此,篡改文本图像的生成与检测具有重要的研究意义,需要更多的关注,保持多领域中篡改文本图像生成与检测的快速发展。

四、智能文档处理技术在工业界的应用与挑战

随着技术的不断发展,OCR技术在工业界中的应用也从最开始的简单的光学字符识别拓展到涵盖图像预处理、文字识别、版面分析、文档理解等多项技术的智能文档处理领域。近年来,特别是深度学习技术出现以后,智能文档处理的各项技术均取得了突破性的进展。然而在实际的工业界场景中仍然面临着大量的问题和挑战,例如文档图像中的形变/弯曲及光照影响、文档篡改检测、复杂文档图像的版式还原,以及各种复杂场景下的文档的识别与理解难题。

合合信息依托自研的TextIn智能文字识别服务平台,在解决工业界中面临的各类问题中所做一些相关工作进展和研究成果,并探讨当前工业界中面临的一些关键技术难题和挑战。

合合信息智能文档处理技术采用精准的图像裁剪、形变矫正以及去除阴影和摩尔纹等技术,利用人工智能技术对文档图像进行增强和清晰度提升,从而提高文档图像的质量和阅读体验。通过这种方法,可以有效提升文档处理下游任务的质量和效率,例如识别转换和图像分析等。目前,该技术已经被应用于智能文字识别产品,为来自全球上百个国家和地区的数亿用户提供了服务。

文档处理与人工智能的结合,可以实现对大量文档的自动化处理和分析,提高工作效率和准确性,降低人力成本和时间成本,对于企业的知识管理和业务分析具有重要的意义。 此外,未来的图文智能处理技术也将会更加可定制化,根据不同的行业和应用场景,为客户提供量身定制的解决方案。这将有助于满足客户的不同需求,提升客户的体验和满意度。

 而且更有技术难度和实践意义的拍照出现反光问题也得到了非常好的解决方法:

 

单张图像去反射。在某些情况下,反射的外观可能含有一些线索。例如,在对焦在背景时,反射可能失焦,且因此看起来模糊。当玻璃比较厚的时候,可能产生鬼影效果。然而,这些线索在很多时候并不成立。现实世界中的反光很可能是清晰且无鬼影的。当反射的外观不符合算法假设时,算法的效果常常会剧烈下降。

多张图像去反射。一些去反射方法利用在反射和背景的不同运动状态来进行去反射。 但是,拍摄不同的运动图像会花费更多的精力(用户需要移动手机)。还有一些方法利用了偏振光,但是偏振相机还没有被广泛运用。最近,深度卷积网络 (CNN) 在诸如图像识别、图像生成等计算机视觉任务取得了巨大的成功。同样的,在图像去任务上,深度卷积网络的强大表征能力同样表现出了不错的效果。合合信息正是采用基于学习的算法实现手写板反光擦除。


 总结

根据众位学术技术大咖的分享来看,未来图文智能处理的发展将会更加智能化、自动化和可定制化。具体来说,未来的图文智能处理技术将会更加注重生成式人工智能技术的应用,例如深度学习、自然语言处理、计算机视觉等。这将使得处理效果更加准确和高效。同时,未来的图文智能处理技术将会更加自动化,例如自动识别文档类型、自动分类文档、自动提取文档信息等,这将进一步提高文档处理的效率和准确性。此外,未来的图文智能处理技术也将会更加可定制化,根据不同的行业和应用场景,为客户提供量身定制的解决方案。这将有助于满足客户的不同需求,提升客户的体验和满意度。
合合信息深耕人工智能17年,全球累计用户下载量23亿,享有国内外发明专利113项,在顶级AI竞赛获得15项世界冠军,提供行业智能解决方案30个。相信合合信息在模式识别、深度学习、图像处理、自然语言处理等领域的深耕厚积薄发,用技术方案惠及更多的人。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/554192.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

关于PCBA元器件布局的重要性

SMT贴片加工逐步往高密度、细间距的设计发展,元器件的最小间距设计,需考虑SMT厂家的经验和工艺完善程度。元器件最小间距的设计,除了保证SMT焊盘间安全距离外,还应考虑元器件的可维护性。 器件布局时保证安全间距 1、安全距离跟…

设计模式-简单例子理解适配器模式、装饰器模式

文章目录 一、适配器模式1. 要点2. Demo 二、装饰器模式1. 要点2. Demo 三、区别 本文参考: 基本原理:装饰器模式 | 菜鸟教程 (runoob.com) 基本原理:适配器模式 | 菜鸟教程 (runoob.com) 优缺点和区别,装饰模式:适配器…

微服务流量控制组件Sentinel

1 简介 Sentinel是阿里开源的项目,是一款面向分布式服务架构的轻量级流量控制组件,主要以流量为切入点,从流量控制、熔断降级、系统自适应保护等多个维度来保障服务的稳定性。 核心思想是:根据对应资源配置的规则来为资源执行相…

西米支付:“中止”支付牌照,汇卡支付机构“失联”

近日,又一家支付公司因“失联”被列入了经营异常名录。 工商信息显示,目前被“中止”中的持牌支付机构广东汇卡商务服务有限公司(简称“汇卡支付”)因“通过登记的住所或者经营场所无法联系” 被广州市市场监督管理局列入经营异常…

网络进阶学习:单臂路由(灵魂五问)

单臂路由(灵魂五问) 一问:什么是单臂路由?二问:单臂路由这一概念怎么出现的?三问:单臂路由解决什么问题?能不能用其他方式取代单臂路由?四问:单臂路由最合适的应用场景&…

电脑E盘被不小心格式化了?别急,介绍三种数据恢复方法

电脑E盘格式化后如何恢复数据?意外的电脑E盘格式化或许是每个人都遇到过的问题。然而,当您发现您的重要数据已经丢失时,您可能会感到沮丧甚至绝望。但请不要担心。在本文中,我们将介绍一些有助于您找回数据的方法,希望…

2023年5月DAMA-CDGA/CDGP数据治理认证咋样

DAMA认证为数据管理专业人士提供职业目标晋升规划,彰显了职业发展里程碑及发展阶梯定义,帮助数据管理从业人士获得企业数字化转型战略下的必备职业能力,促进开展工作实践应用及实际问题解决,形成企业所需的新数字经济下的核心职业…

uvc驱动ioctl分析下

uvc驱动ioctl分析下 文章目录 uvc驱动ioctl分析下uvc_ioctl_enum_input枚举输入uvc_query_ctrl__uvc_query_ctrluvc_ioctl_g_input 获取输入uvc_ioctl_s_input 设置输入uvc_query_v4l2_ctrluvc_ioctl_queryctrl查询控制器uvc_ioctl_query_ext_ctrl查询扩展控制器 uvc_ioctl_g_c…

系统分析师经典易错题,解题思路二

企业应用集成(Enterprise Application Integration EAI)技术企业应用集成技术可以消除信息孤岛,它将多个企业信息系统连接起来,实现无缝集成,使他们就像一个整体一样。EAI是伴随着企业信息系统的发展而产生和演变的,企业的价值取向是推动EAI技术发展的原动力,而EAI的实现…

煤矿电子封条系统 yolov7网络模型

煤矿电子封条系统通过yolov7网络模型算法,煤矿电子封条系统可以实现对煤矿井下人员的出入管理,提高对煤矿井下人员的监管效果。YOLOv7 的策略是使用组卷积来扩展计算块的通道和基数。研究者将对计算层的所有计算块应用相同的组参数和通道乘数。然后&…

从热爱到深耕,在开发路上的他们勇敢逐梦

2022年的程序员节, #大龄程序员去哪儿了#成为了社交媒体上最火的话题之一,程序员的职场成长问题在社会上引起了广泛关注。 有2位在技术领域摸爬滚打很多年的开发者,35岁后的他们,有70后,有80后,依然在编程…

【Java编程系列】Springcloud-gateway自带限流方案实践篇

1、前言 作为一个后端开发,对于后端服务的安全性方面,一定要有足够的考虑。近期的开发工作中,有一个实现分享外部链接的需求点,个人认为这一块会有安全隐患。比如,因为这个分享的外链会被用户无限制点开查看&#xff0…

常见分布函数。

一维常见分布函数 1.离散型 ① 0 - 1分布 记 X~B(1,p) 如果X的概率分布为 ( 1 0 p 1 − p ) \begin{pmatrix} 1 & 0 \\ p & 1-p \end{pmatrix} (1p​01−p​),则称X服从参数为P的0-1分布&#xff08;0<p<1&#xff09;。 注&#xff1a;0-1分布又称一次伯努利试…

iOS-Telegraph异步响应实现

背景 Telegraph该库只支持管理本地同步请求&#xff0c;为了长远打算&#xff0c;需要研究是否能使response异步回调的方法 参考gitHub-Telegraph文档 现象&#xff1a;根据文档说明和示例&#xff0c;以及查看源码实现确认该第三方库确实只支持管理本地同步的请求响应 它的…

【程序员日记】——从业务编排到低代码 | 京东云技术团队

之前总聊微服务&#xff0c;今天换一个话题—低代码。 低代码这个词也是最近这几年很火的概念&#xff0c;尤其是遇到大环境下行&#xff0c;很多大厂和互联网那个公司也在慢慢在低代码方向发力&#xff0c;当然&#xff0c;对于传统项目交付型的软件公司&#xff0c;低代码也…

LabVIEWCompactRIO 开发指南28 可重入和非重入子VI之间的权衡

LabVIEWCompactRIO 开发指南28 了解可重入和非重入子VI之间的权衡 重入是子VI执行属性中的设置。在LabVIEW FPGA中&#xff0c;子VI执行默认设置为可重入。重入在FPGA逻辑中创建子VI的多个副本。这能够并行执行子VI的多个副本&#xff0c;同时存储不同且独立的数据存储。 在…

计算GMAC和GFLOPS

GMAC 代表“Giga Multiply-Add Operations per Second”&#xff08;每秒千兆乘法累加运算&#xff09;&#xff0c;是用于衡量深度学习模型计算效率的指标。它表示每秒在模型中执行的乘法累加运算的数量&#xff0c;以每秒十亿 (giga) 表示。 乘法累加 (MAC) 运算是许多数学计…

opencv_c++学习(十七)

一、边缘检测 左侧上面的曲线表示的是像素从左到右的变化&#xff0c;下面的曲线是上面曲线求导而得。 Sobel边缘检测算子&#xff1a; Sobel(InputArray src, outputArray dst,int ddepth, int dx, int dy, int ksize 3, double scale 1, double delta 0, int borderType …

AI 图像编辑技术 DragGAN 问世,用户可以通过拖拽改变汽车大小或人物表情等

&#x1f680; AI 图像编辑技术 DragGAN 问世&#xff0c;用户可以通过拖拽改变汽车大小或人物表情等 近日&#xff0c;马克斯・普朗克计算机科学研究所研究者们推出了一种控制GAN的新方法DragGAN&#xff0c;用户可以通过拖拽改变汽车大小或人物表情等。 DragGAN类似于Photo…

顶层策划打开互联网市场大门

大家好&#xff01;我是小鱼。随着市面上越来越多的中小企业老板进入互联网市场&#xff0c;对软件开发的技术和要求也逐渐高了起来。单纯做一个商城已经远远不满足客户的需求了。那么客户他到底需要什么? 小编总结了一下&#xff0c;第一客户需要一个完整的系统体系&#xff…