大咖齐聚CCIG论坛——文档图像智能分析的产业前沿

news2024/11/27 9:35:29

目录

  • 1 文档图像智能分析技术
  • 2 大咖齐聚CCIG@2023
  • 3 议题介绍
    • 3.1 从模式识别到类脑研究
    • 3.2 视觉-语言预训练模型演进及应用
    • 3.3 篡改文本图像的生成和检测
    • 3.4 智能文档处理在工业界的应用与挑战
  • 4 观看入口&议程

1 文档图像智能分析技术

文档图像智能分析是指使用计算机视觉和机器学习技术对文档图像进行自动化处理和分析的过程。这项技术能够将纸质文档、电子文档和图像转换成可编辑、可搜索、可索引的数字化文档,并能够自动识别文档中的各种元素,例如文字、图片、表格、图形等。

在这里插入图片描述
文档图像在日常生活中非常常见,例如金融票据、商业规划、技术规范、财务报表、会议记录、法律协议、合同、简历、采购订单、发票等等。因此文档图像智能处理的前景非常广阔,应用场景也会不断拓展。举例来说

  • 电子博物馆:将大量历史文献、照片等材料进行数字化处理,并进行元数据标注和索引,从而创建电子博物馆,方便文化遗产的保护和传承。合合信息在这方面已有应用:焕新古文化传承之路,AI为古彝文识别赋能
  • 法律文书处理:通过自动识别和提取法律文书中的各种信息,例如案号、法院名称、当事人姓名、判决结果等,从而方便进行法律文书的管理和查询;
  • 财务报表处理:通过自动识别和提取财务报表中的各种信息,例如收入、支出、资产、负债等,从而方便进行财务报表的分析和管理

总之,随着人工智能技术的飞速发展,文档图像智能处理将应用到医疗、教育、金融等诸多领域,为各行各业提供更加高效、智能的文档管理和数据分析解决方案。

2 大咖齐聚CCIG@2023

文档图像智能分析与处理是一个重要且极具挑战性的研究问题。其中的难点在于文档的多样性和复杂性:文档类型和格式繁多,包括报告、合同、发票、证明、证件等等。不同类型的文档有不同的格式和布局,例如文档中常常包含图片、表格、图形等各种图像,难以用统一的方法处理。而且智能文档处理受到图像质量、文字字体、文字大小、文字颜色等噪声因素的影响,容易出现误识别。此外,还有图像质量不一、文档获取繁琐等诸多问题

在这里插入图片描述

为了促进文档图像分析与处理领域的技术交流及发展,探讨文档图像处理及光学文字识别(OCR)相关前沿技术进展和产业应用,2023年5月13日,中国图象图形学学会文档图像分析与识别专业委员会与上海合合信息科技有限公司联合打造《文档图像智能分析与处理》高峰论坛。论坛特别邀请了来自中科院自动化研究所、北京大学、中科大的学术专家与华为等知名企业的研究者们,围绕文档图像处理及OCR领域的前沿技术展开“头脑风暴”,共同交流文档图像分析与处理的前沿学术进展、在典型行业的规模化应用情况,并探讨未来技术及产业发展趋势。

在这里插入图片描述

3 议题介绍

3.1 从模式识别到类脑研究

我们知道,在模式识别和人工智能领域,监督学习半监督学习无监督学习是三种不同的学习方式,它们在数据集标签的不同情况下对数据进行学习。目前不管是神经结构模拟还是学习行为模拟都是比较粗浅的,主要还是基于监督学习完成各种任务,也就是在训练数据集中已经标记好了正确答案或目标输出值。训练阶段,算法根据输入的特征和相应的目标值之间的关系进行学习,以便在未来对新数据进行准确预测。 监督学习的例子包括分类和回归问题,例如图像分类、情感分析和价格预测等。

在这里插入图片描述

生成式模型就是人工智能的未来发展趋势之一,相比判别式模型的独特优势,使之可以应对更多的任务,例如推动内容开发、视觉艺术创作、数字孪生、自动编程,甚至为科学研究提供AI视角、Al直觉…

项目判别式模型生成式模型
特点寻找最优决策边界,反映不同模式数据间的差异性寻找各模式边界,反映数据全体的统计全貌及不同模式间的相似度
联系由生成式模型可推导判别式模型,反之不成立
本质对后验概率建模对联合概率建模
实例线性回归、Logistic回归、支持向量机、决策树、神经网络等贝叶斯网络、贝叶斯分类器、隐马尔科夫模型等
性能学习过程更简单,但不能反映数据本身特性模型信息量更丰富、灵活,但学习过程较复杂
应用图像文本分类、时间序列预测等自然语言处理等

随着未来类脑智能研究在结构类脑和行为类人方面的深入,人工智能应用将不再局限于这类判别式模型。动物和人类表现出的学习能力和对世界的理解,远远超出了 AI 和机器学习系统。一个青少年可以在大约 20 小时的练习中学会开车,小朋友可以在只需要很少的交流后就学会语言沟通,人类可以在他们从未遇到过的情况下采取行动。

相比之下,传统的判别式模型需要花费比人类大几个量级的试验进行训练,以便在训练期间可以覆盖最意外的情况。这表明人脑的学习具有很强的灵活性,从小样本开始,不断地随环境自适应。这种学习灵活性应该是未来机器学习的一个主要研究目标。比如近期图灵奖得住LeCun提出的全新自主智能架构,最关键的一点是让机器了解世界是如何运转的,掌握广泛的现实知识,并依据此进行推理

在这里插入图片描述

图源网络,侵删

3.2 视觉-语言预训练模型演进及应用

2022年12 月 1 日,OpenAI的联合创始人山姆·奥特曼在推特上公布ChatGPT并邀请人们免费试用

在这里插入图片描述

图源网络,侵删

ChatGPT可以与人类进行谈话般的交互,可以回答追问,连续性的问题,承认其回答中的错误,指出人类提问时的不正确前提,拒绝回答不适当的问题,其性能大大超乎人们对弱人工智能的想象。目前其影响已经席卷各行各业。ChatGPT是基于GPT-3开发的,具有强大的对话能力,能够理解语言上下文,并能够生成富有表现力和连贯的响应。所谓GPT,全称是Generative Pre-trained Transformer,本质上这是一种基于Transformer的语言模型。

语言是一个显式存在的东西,但大脑是如何将语言进行理解、转化、存储的,则是一个目前仍未探明的东西。因此,大脑理解语言这个过程,就是大脑将语言编码成一种可理解、可存储形式的过程,这个过程就叫做语言的编码。相应的,把大脑中想要表达的内容,使用语言表达出来,就叫做语言的解码。在语言模型中,编码器和解码器都是由一个个的Transformer组件拼接在一起形成的

Transformer又是什么呢?它是一种用于自然语言处理和其他序列到序列(sequence-to-sequence)任务的神经网络架构。它于2017年由谷歌的研究人员提出,被认为是自然语言处理领域的一项重大突破。

Transformer基于注意力机制(Attention Mechanism)构建,其核心思想是在序列中进行全局信息的交互和捕捉,而不是像以往的循环神经网络(RNN)一样在序列中逐个位置处理信息。Transformer通过多个自注意力层(Self-Attention Layer)进行信息的交互和表示,而每个自注意力层包含了注意力机制的三个部分:查询(query)、键(key)和值(value)。

在这里插入图片描述

图源网络,侵删

具体来说,对于一个输入序列,Transformer将其转换为多个词向量(word embeddings),然后通过自注意力层进行特征提取。在自注意力层中,查询向量通过与所有键向量的相似度计算来计算注意力分数,这些分数用于加权求和值向量,最终得到每个位置的输出向量。然后,这些输出向量被馈送到下一个自注意力层或全连接层进行后续处理。

相比于传统的序列模型,Transformer的优点在于可以并行处理输入序列,从而加速模型的训练和推断。此外,Transformer还能够有效地处理长序列,因为它可以在不受时间限制的情况下一次性处理整个序列,而不需要像RNN那样进行逐个位置的处理。

但是,目前关于ChatGPT这类大规模预训练模型还有一些争议,主要的争论点在于:

  • 超大模型学到了什么?如何验证?
  • 如何从超大模型迁移“知识”,提升下游任务的性能?
  • 更好的预训练任务设计、模型架构设计和训练方法?
  • 选择单模态预训练模型还是多模态训练模型?

预训练模型、跨模态预训练模型方面的研究是非常值得探索的,无论是模型结构、训练策略还是预训练任务的设计都尚有非常大的潜力。例如2021年10月份Facebook发布的Video CLIP相关工作,从这个模型可以看出,Video CLIP颇具野心,期待对于下游任务不需要任务相关训练数据集,不需要进行微调,直接基于Video CLIP进行零样本迁移。这对于提升大模型的训练效率和训练效果具有非常重大的意义。

3.3 篡改文本图像的生成和检测

篡改文本检测(TTD,tampered text detection)作为多媒体信息安全领域的一个新兴研究方向,是指通过对文本图像中纹理特征的分析,捕捉真实文本和篡改文本之间的纹理差异性,以确定文本图像中文字区域的真伪性。

在这里插入图片描述

[1]王裕鑫,张博强,谢洪涛等.基于空域与频域关系建模的篡改文本图像检测[J].网络与信息安全学报,2022,8(03):29-40.

篡改文本检测任务有两个主要挑战。

  • 局部纹理差异性捕捉困难。篡改文本与真实文本仅存在局部纹理差异;
  • 真实和篡改文本检测精度平衡困难。

相较传统的文本检测任务,篡改文本检测任务需要进一步区分篡改和真实文本。由于真实和篡改文本分类难度不一致,训练过程中网络无法平衡两类的学习过程,导致在测试过程中两类检测精度差异较大。上述挑战极大地限制了篡改文本检测方法的性能。因此,如何准确地捕捉局部纹理差异性,同时平衡篡改和真实类别学习难度,是目前篡改文本检测研究的重要方向。

这次CCIG高峰论坛谢洪涛教授将介绍一种可以在真实场景文本图像上训练的文本生成算法和基于并行空域与频域特征感知的篡改文本检测算法,这种算法创新性地在篡改文本检测任务中引入频域信息增强篡改纹理特征,通过同时捕捉空域和频域的信息提升网络对局部纹理差异性的鉴别能力。算法设计的全局空频域关系模块提供了一种简洁、有效的平衡篡改和真实类别学习难度的方法,通过建模全局文本实例之间的空频域特征关系,借助其他文本实例空频域信息来辅助鉴别当前文本实例的真伪性,帮助网络更好地平衡真实和篡改文本的学习难度,提升检测精度。

在这里插入图片描述
这里重点介绍一下很新颖的全局空频域关系模块。设想一下:若简单地根据当前文本候选框内的特征进行纹理真伪性鉴别,由于缺乏全局信息的感知能力,将导致网络无法平衡真实和篡改文本类别的学习难度,从而在测试过程中两类的检测精度差异较大,造成检测精度不平衡的问题。全局空频域关系模块正是为了捕获全局信息辅助当前文本候选框的真伪性鉴别,通过感知当前文本候选框与其他文本候选框的空频域特征相似性,平衡真实和篡改类别的学习难度。

在这里插入图片描述

该算法分别选取了最具代表性的方法EAST和ATRR进行性能对比。实验结果表示,该算法在真实文本和篡改文本上都展现了领先的检测水平。相较同为两阶段的检测算法,基于空频域关系建模的篡改文本检测方法在真实文本和篡改文本检测精度上都取得了更好的效果,同时可以有效解决检测精度不平衡问题,防止篡改检测网络实现对单一类文本的准确检测。

总之,这次报告介绍的基于空频域关系建模的篡改文本检测方法可以扩展到其他篡改文本检测算法中,通过直接使用或者简单修改文中的模块,可以实现篡改文本检测精度的显著提升,这为篡改文本检测技术的相关研究提供了新的方向和思路。从事相关方面研究的同学可以关注一下~

3.4 智能文档处理在工业界的应用与挑战

说到光学字符识别大家可能比较陌生,但或多或少都应该听说过OCR,通俗来讲,OCR技术采用电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字。随着技术的不断发展,OCR技术在工业界中的应用也从最开始的简单的光学字符识别拓展到涵盖图像预处理、文字识别、版面分析、文档理解等多项技术的智能文档处理领域。

然而,在实际的工业界场景中仍然面临着大量的问题和挑战。举例来说,文档图像中可能存在形变和弯曲现象,这是因为相机硬件不符合理论上透视相机模型针孔无限小的假设,所以真实图像会产生明显的径向失真——场景中的线条在图像中显示为曲线。径向畸变(Radial Distortion)有两种类型:筒体畸变(Barrel Distortion)与枕形失真(Pincushion Distortion)。此外由于相机组装过程中,透镜不能和成像面严格平行,会引入切向畸变(Tangential Distortion),再加上视觉文档图像的拍摄视角一般不垂直于文档平面,产生文档图像的变形和扭曲。

在这里插入图片描述
再比如非常常见的图像摩尔纹现象,因为相机拍摄电子屏幕时,显示设备的发光点阵与相机传感器阵列发生混叠,产生了摩尔纹现象。屏幕图像摩尔纹表现为叠加在图像上的条纹,颜色和形态多变。图像中的摩尔纹在大范围的空域和频域内与原始图像信号混合,通常覆盖整张图像。摩尔纹图案不仅随着图像的不同而变化,而且在同一图像中随着空间位置的变化而呈现不同的色彩和形态。如果拍摄距离或拍摄角度略有变化,摩尔纹图案可能会有很大差异。

在这里插入图片描述

除此之外,光照影响、文档篡改检测、复杂文档图像的版式还原,以及各种复杂场景都造成文档识别与理解的困难。本报告主要介绍了合合信息依托自研的TextIn智能文字识别服务平台,在解决工业界中面临的各类问题中所做一些相关工作进展和研究成果,并探讨当前工业界中面临的一些关键技术难题和挑战。


对上述议题感兴趣的欢迎参加本次CCIG高峰论坛,观看入口如下

4 观看入口&议程

合合信息视频号13号下午13:30直播,欢迎感兴趣的同学来交流

在这里插入图片描述
议程

时间议题发言人
13:30-14:10《人工智能大模型时代的文档识别与理解》中科院自动化研究所副所长 刘成林
14:10-14:45《视觉-语言预训练模型及迁移学习方法》北京大学 邹月娴教授
14:45-15:20《篡改文本图像的生成与检测》中国科学大学 谢洪涛教授
15:20-15:30茶歇
15:35-16:00《华为云OCR技术进展与行业实践》华为云AI算法研究元 廖明辉
16:00-16:25《智能文档处理技术在工业界的应用与挑战》合合信息高级工程师 丁凯
16:30-17:30圆桌讨论金连文、刘成林、邹月谢、谢洪涛、廖明辉、丁凯

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/513242.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

推荐一款支持多种存储的程序AList(附上个人站点)

1、安装部署 1、一键脚本 仅适用于 Linux amd64/arm64 平台。 #安装 curl -fsSL "https://alist.nn.ci/v3.sh" | bash -s install#更新 curl -fsSL "https://alist.nn.ci/v3.sh" | bash -s update#卸载 curl -fsSL "https://alist.nn.ci/v3.sh&qu…

【react】特种兵之react.tsx列表页面搭建

目录 背景了解工程架构我可开始了啊新建一个页面怎么写?前端代码编写思路 感触 背景 方便系统运维、不用每次初始化数据都走数据订正 这是第一次毕业之后,用前端语言新建一个页面,过程自然是极其曲折。情绪也是跌宕起伏,从页面显…

无需代理客户端,轻松实现虚拟机备份!

21世纪的虚拟化技术为企业提供了极大的便利和成本节约。它允许企业通过管理程序创建虚拟机以在单个主机上运行多个不同的操作系统,从而充分利用计算资源并节省架构和管理成本。 随着组织将其业务迁移到虚拟化平台,执行数据保护的方法也随之改变。虚拟机…

重视企业缺少成本票问题!合理利用税收优惠政策降低企业所得税!

重视企业缺少成本票问题!合理利用税收优惠政策降低企业所得税! 业务是流程,财税是结果,税收问题千千万,关注《税算盘》来帮你找答案。 很多企业在成立的初期会出现对票据管理不严格的情况,前期影响也不是…

精选博客系列|VMware Tanzu Mission Control增强策略功能,让Kubernetes的安全性更加灵活

随着分布式系统日益复杂,定义和实施 Kubernetes 集群的策略以确保环境的安全性、可靠性和合规性 —— 当然也是为了构建可扩展性的支撑结构,变得至关重要。 因此,我们很高兴宣布 VMware Tanzu Mission Control 现在有了更多的策略相关的改进…

C# webservice 接收json数据 接口返回 远程服务器返回错误: (500) 内部服务器错误

C# post 调用webservice 服务端接口,会返回上面那个错误,8成是发送的数据和接口不符合造成的。有2种情况 第一种情况如下:如果类型是默认request.ContentType "application/x-www-form-urlencoded";这个类型 那么你发送数据和被…

基于趋动云部署B站大V秋葉aaaki的Stable Diffusion整合包v4--linux版

B站大V秋葉aaaki的Stable Diffusion整合V4版发布了,集成度比较高,在windows下解压缩直接就可以使用,整合的非常好。但是笔人没有RTX4090这样级别的显卡,又希望有个高速运行的效果。 所以索性到云GPU主机上来用秋叶aaaki的Stable …

windows机制初探

Windows内存管理 EPROCESS结构体:在内核中表示一个进程 VAD树 二叉树,存储进程在内核层申请的虚拟内存信息 (x86 EPROCESS0x11c) (x64 EPROCESS0x7d8)指向VadRoot(VAD树) 可以看到两种内存:Private(私有内存)、 Mapped(映射内存) 私有内…

Elasticsearch 入门

Elasticsearch 是一种开源搜索引擎,它基于 Apache Lucene 构建,提供了一个分布式、多租户、全文搜索和分析引擎。Elasticsearch 可以处理海量数据,能够快速、准确地搜索、分析和可视化数据。 Elasticsearch 最初是为了解决日志搜索和分析而开…

2018年下半年 软件设计师 答案及详解

2018年下半年 软件设计师 答案详解 主要记录刷题相关笔记,方便日后温习!!! 一、选择题 CPU 在执行指令的过程中,会自动修改_____的内容,以使其保存的总是将要执行的下一条指令的地址。 A.指令寄存器B.程…

makefile 变量的扩展

文章目录 前言一、环境变量(全局变量)二、目标变量(局部变量)三、模式变量总结 前言 一、环境变量(全局变量) Makefile 中的环境变量,是指在执行 Makefile 时,从外部传入 Make 命令…

m4a音频怎么转换成mp3?

m4a音频怎么转换成mp3?如果你遇到了m4a音频格式的文件,但却无法在音频播放器中打开它,通常我们会将其转换成mp3格式。因为M4A属于苹果专用的音频格式,而MP3则是一种通用音频格式。M4A属于高品质压缩类型的音乐文件,而M…

Django框架之使用Session保持HTTP状态

HTTP协议是无状态的,每次请求都是新的请求; 客户端与服务器端的一次通信就是一次会话。 可使用cookie和session在客户端或者服务端存储有关会话的数据,来进行状态保持; cookie使用在上篇。本篇是使用session进行状态保持及使用Red…

外观数列----2023/5/11

外观数列----2023/5/11 给定一个正整数 n ,输出外观数列的第 n 项。 「外观数列」是一个整数序列,从数字 1 开始,序列中的每一项都是对前一项的描述。 你可以将其视作是由递归公式定义的数字字符串序列: countAndSay(1) “1”…

Omniverse Replicator环境配置和使用说明

Omniverse Replicator使用说明 本教程将介绍Omniverse Replicator的环境配置和使用说明, 参加Sky Hackathon的同学可以参考本教程来合成训练数据集. 文章目录 Omniverse Replicator使用说明1. Omniverse环境配置1.a.安装Omniverse Launcher1.a.1.在下面的地址下载Omniverse La…

案例分享:ChatGPT写python脚本,轻松文本处理

大家好,我是可夫小子,关注AIGC、读书和自媒体。解锁更多ChatGPT、AI绘画玩法。加:keeepdance,备注:chatgpt,拉你进群。 在工作中,需要对数据进行筛选、分割和整理,当你接受到一个长长…

浅谈Android PMS解析APP信息流程

前言 前面我们了解了Zygote的启动流程,知道AMS、PMS都是由SystemServer进程启动的,我们都知道PMS主要负责App管理工作,这里我们简单从源码角度分析下PMS是如何解析APP解析的; 源码分析(API 30为例) 我们还是从PackageManagerSe…

SpringBoot缓存技术详解

文章目录 一、 缓存技术介绍1. 缓存技术简介2. JSR107核心接口3. JSR107 图示3. SpringBoot缓存抽象4. 缓存常用注解和接口 一、 缓存技术实战1. Cacheable注解2. 缓存的工作原理4. Cacheable注解的工作流程 一、 缓存技术介绍 1. 缓存技术简介 缓存技术主要分为两大类缓存可…

6 进程的环境

6.1 main函数 C程序总是从main函数开始执行。main函数的原型是: int main(int argc, char *argv[]) 6.2 进程终止 有五种方式使进程终止: (1)正常终止: (a)从main返回。 (b&…

Pycharm十种不为人所知的技巧,不得不知道

Pycharm是Python语言开发中的一个非常强大的IDE工具,其高度的定制能力、日常开发中常用的工具和各种快捷键等功能,都能帮助Pycharm用户提高开发效率。但是,Pycharm中的许多功能并不为人所知。因此,以下是十种Pycharm技巧&#xff…