【CCIG技术论坛回顾】展望AI时代,把握文档图像智能分析与处理的未来

news2025/1/16 19:08:14

展望AI时代,把握文档图像智能分析与处理的未来

    • 前言
  • CCIG技术论坛 内容回顾及探讨
  • 一、人工智能大模型时代的文档识别与理解
    • 1.1 文档分析与识别 介绍
    • 1.2 文档识别历史回顾
    • 1.3 文档的种类与研究问题
    • 1.4 文档识别与理解研究现状
    • 1.5 大模型带来的挑战与机遇
    • 1.5.1 ChatGPT
    • 1.5.2 CPT-4
    • 1.6 文档识别与理解 总结与展望
  • 二、视觉- 语言预训练模型及迁移学习方法
  • 三、智能文档处理技术在工业界的应用与挑战
    • 3.1 背景介绍
    • 3.2 文档图像分析与预处理
      • 3.2.1 文档图像分析与预处理
      • 3.2.2 文档图像预处理的整体架构
      • 3.2.3 图像预处理——弯曲矫正
    • 3.3 手写板反光擦除
      • 3.3.1 手写板反光擦除
    • 3.4 版面分析与还原
    • 3.5 文档图像篡改检测
  • 总结

在这里插入图片描述


前言

2023年5月11~14日,中国图象图形大会(CCIG 2023)在苏州举办,谭铁牛院士、赵沁平院士、吴一戎院士、徐宗本院士、胡事民教授、高新波教授确定莅临CCIG 2023大会,并作大会主旨报告。

众多专家学者将齐聚苏州,开启“最强大脑”,为大家带来一场精彩的学术盛宴。大会以“图象图形向未来”为主题,汇集100余位国内顶尖学者以及知名企业专家、2000余名科研院校师生、一线技术工程师,共同探索图像图形技术行业的最新进展。

本篇文章就来回顾一下大会的内容及问题探讨,主要是针对智能图像处理技术进行展开。


CCIG技术论坛 内容回顾及探讨

请添加图片描述


一、人工智能大模型时代的文档识别与理解

大会开场一开始是由 中国科学院自动化研究所副所长——刘成林老师 介绍《人工智能大模型时代的文档识别与理解》。

对于此内容部分整理了一份结构图,大致如下,可供参考回顾:
请添加图片描述

1.1 文档分析与识别 介绍

文档领域分为物理文档和合成文档。过去我们只关注文字,现在文档中的图像也十分重要。

场景文本识别检测的现状。早期基于边缘、区域的方法比较有限,后基于深度学习的回归、分割的方法,场景文本检测的趋势由水平文本行到多方向文本行再到任意形状的文本检测。

1.2 文档识别历史回顾

在这里插入图片描述

1.3 文档的种类与研究问题

在这里插入图片描述

1.4 文档识别与理解研究现状

1.识别理解技术

  • 手写文本识别:大数据训练得到高精度
  • 版面分析:深度学习(FCN+GNN)可解决大部分问题
  • 文件检测与识别:进步很快,手写识别已可实用
  • 新问题和技术:信息抽取、文档问答,预训练模型

2.不足

  • 可靠性、可解释性、自适应性
  • 复杂环境下性能:自然场景、古籍文档、拍照手写文档
  • 复杂问题:复杂版面、数学公式、表格、结构化符号/图形
    -语义理解能力:信息抽取,问题求解(推理),回答问题

1.5 大模型带来的挑战与机遇

ChatGPT, GPT-4等大模型的特点:

  • 语言大模型:超强的语言联想能力,用于文本生成、代码生成、问答、翻译等
  • 多模态大模型:跨模态特征提取和对齐,跨模态生成,多模态问题回答

1.5.1 ChatGPT

ChatGPT是一种基于人工智能技术的自然语言处理模型,它是由OpenAI公司开发的。它可以模拟人类的对话,并根据用户输入的问题进行回答。它使用了深度学习和自然语言处理技术,可以理解并生成自然语言。

ChatGPT的三个关键技术

  1. 情景学习(In-context learning)
    大模型的涌现能力,改变传统学习范式。
  2. 思维链(Chain-of-Thought,CoT)
    大模型的涌现能力,打破模型参数约束。
  3. 自然指令学习(Learning from Natural Instructions)
    人在环路增强,对齐人类意图。

1.5.2 CPT-4

大模型的文档识别和理解能力目前已经是非常强了。

解物理题和文档摘要完全不在话下,未来我们的最强导师。

还可以解释漫画的意思,属实不能用牛X二字来表达啦!
在这里插入图片描述

1.6 文档识别与理解 总结与展望

  1. 文档分析与识别快速进步,但仍有很大的研究空间
  2. 从提升性能角度
    • 文本识别可靠性、可解释性
    • 全要素识别、长尾问题、多语言
    • 复杂版面分割与理解,变形文档分析与识别
  3. 从应用扩展角度
    • 新的应用:凡有文字符号的场合,机器人流程自动化(RPA),很多细分行业
    • 新问题:语义信息提取,跨模态融合,面向应用的推理决策等
  4. 从学习能力角度
    • 小样本学习,迁移学习,多任务学习,领域自适应,结构化预测,弱监督学习,自监督学习,开放集(零样本、增量学习)

这部分内容在之前的文章中也有介绍过:

AI时代来临,如何把握住文档处理及数据分析的机遇
在这里插入图片描述


二、视觉- 语言预训练模型及迁移学习方法

对于此内容部分整理了一份结构脑图,大致如下,可供参考回顾:
请添加图片描述
该部分由北京大学教授邹月娴讲解,主要讲了VLP模型的参数有效迁移学习方法(PETL)、基于提示工程的VLP迁移学习方法:手工设计提示模板,clip的提升效果非常不错,coop少样本学习方法性能超越clip提示学习方法几部分。

对此部分感兴趣的小伙伴也可以看一下直播回放和查阅更多资料,这部分不多作讲解,主要还是针对图像文档处理技术展开啦~


三、智能文档处理技术在工业界的应用与挑战

本部分内容由上海合合信息科技股份有限公司高级工程师——丁凯老师讲解,主题内容为《智能文档处理技术在工业界的应用与挑战》。

内容结构图如下:
请添加图片描述
目前智能文档处理仍然面临着文档图像质量退化严重、文字检测及版面分析困难、非限定条件文字识别率低等技术难题。

合合科技在文档图像的分析与预处理、手写板反光擦除及文档图像篡改检测都是业界标杆级的存在。

3.1 背景介绍

图像处理技术 是用计算机对图像信息进行处理的技术。主要包括图像数字化、图像增强和复原、图像数据编码、图像分割和图像识别等。

其中图像一般有两种表达形式:

  1. 几何图形(Graphics) :由点、线、面、颜色等组成,由绘图程序产生,是一系列绘图指令的集合,一般用各种绘图软件制作。
  2. 点阵图像(Image) :由各像素点和颜色组合而成,使用摄像机、扫描仪、数码相机等设备获得,也可以使用绘图软件生成。图像表示的画面细腻,层次和色彩丰富。图像的各像素点逐点存储在计算机中,占用的存储空间大。

在这里插入图片描述

使命:让世界更高效
在这里插入图片描述

深受全球用户喜爱的C端产品
在这里插入图片描述

3.2 文档图像分析与预处理

目前对于图像的处理技术包括 点处理组处理几何处理帧处理 四种方法。

  1. 点处理方法 是处理图像最基本的方法,由于该方法处理的对象是像素,故此得名。点处理方法简单而有效,主要用于图像的亮度调整、图像对比度的调整,以及图像亮度的反置处理等。
  2. 图像的 组处理方法 处理的范围比点处理大,处理的对象是一组像素,因此又叫“区处理或块处理”。组处理方法在图像上的应用主要表现在:检测图像边缘并增强边缘、图像柔化和锐化、增加和减少图像随机噪声等。
  3. 图像的几何处理方法 是指经过运算,改变图像的像素位置和排列顺序,从而实现图像的放大与缩小、图像旋转、图像镜像、以及图像平移等效果的处理过程。
  4. 图像的 帧处理方法 是指将一幅以上的图像以某种特定的形式合成在一起,形成新的图像。其中,特定的形式是指:经过“逻辑与”运算进行图像的合成、按照“逻辑或”运算关系合成、以“异或”逻辑运算关系进行合成、图像按照相加或者相减以及有条件的复合算法进行合成、图像覆盖或取平均值进行合成。图像处理软件通常具有图像的帧处理功能,并且以多种特定的形式合成图像。

3.2.1 文档图像分析与预处理

在这里插入图片描述

3.2.2 文档图像预处理的整体架构

在这里插入图片描述

3.2.3 图像预处理——弯曲矫正

我们在日常生活中在对一些图片文件拍照的时候可能会出现一些折叠弯曲的现象,这在某些时候是避免不了的。
在这里插入图片描述

面对这种现象自然也让有相应的技术进行应对,也就是弯曲矫正技术啦。
在这里插入图片描述

3.3 手写板反光擦除

3.3.1 手写板反光擦除

在黑板、手写板上进行拍摄时,无可避免的遇到反光的影响,通过反光擦除技术,保留笔画细节,清晰还原。
在这里插入图片描述

手写板反光擦除的效果展示
在这里插入图片描述

在这里插入图片描述

3.4 版面分析与还原

在这里插入图片描述

3.5 文档图像篡改检测

文档图像篡改检测也可以简单理解成PS检测, 说简单一点就是一项可以检测照片有没有被PS修改过的一个功能。

在日常生活中某些信息可能会存在造假现象,尤其是对于一些证件类的图片等信息,有些人可能会使用PS等工具对图片中的一些关键信息进行一些PS修改,以此达到一些其他目的。

Adobe 在2018 CVPR上发表了一篇利用深度神经网络检测PS痕迹的论文,Learning Rich Features for Image Manipulation Detection

PS痕迹检测,沿用物体检测套路,直接上faster rcnn,ground-truth就是p上去的区域。论文创新点就是,除了使用传统RGB图像作为网络输入外,还让RGB图像过一遍SRM filter,得到noise feature,让这个noise feature也作为网络的输入。注意,RGB和noise走的分别是两个faster rcnn网络,但只使用RGB网络训练RPN,用这个RPN,对两个网络的feature map做RoI pooling。在分别得到RGB和noise的RoI之后,对这两个RoI做Bilinear pooling,得到feature进分类器。而RGB的RoI则做bounding box回归。

在这里插入图片描述

随着AIGC的发展,视觉内容的安全问题与文档图像的安全问题十分值得关注。

关于文档图像处理的内容也可以参考下面的文章:
黑科技解读 之 PS检测、弯曲拉平、切边增强、摩尔纹
在这里插入图片描述


总结

现在AI技术的进步能力已经呈现指数型增长了,所以在这个时代,如何乘上AI这趟列车是个关键。

在AI时代下,通过合理利用人工智能和大数据技术,可以有效地解决文档图像的安全问题,并将其应用于实际场景中,提高文档管理的效率和安全性。

还是要时刻惊醒自己要与时俱进,多多学习新的技术与理念,不要做被时代丢下的弃子。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/557249.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

chrome和Chromedriver版本不一致的问题,然后就要下载对应版本的chromedriver。

很多人会遇到chrome和Chromedriver版本不一致的问题,然后就要下载对应版本的chromedriver。 下面说一下我遇到的问题和解决过程: 1、问题: 我是用pythonselenium 我的chrome版本是65.0.3325.181,用selenium中的webdriver时&am…

案例16:Java音乐网站系统设计与实现开题报告

博主介绍:✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 java项目精品实战案例《100套》 Jav…

MySQL-多表查询(中)

♥️作者:小刘在C站 ♥️个人主页:小刘主页 ♥️每天分享云计算网络运维课堂笔记,努力不一定有收获,但一定会有收获加油!一起努力,共赴美好人生! ♥️树高千尺,落叶归根人生不易&…

Linux指令速查

文章目录 Linux指令速查1.Linux初步认识1.1 Linux标识符1.2 Linux目录结构1.2.1 (/)目录结构说明1.2.2 目录颜色说明 1. 帮助命令1.1 help指令1.2 man指令 2. 快捷操作3. 文件或目录的管理3.1 处理目录的基本命令3.1.1 列出目录(ls)3.1.2 切换目录&#…

怎么申请免费的cdn?带附件图文详细操作

背景 我的服务器在国外,域名国内正规备案,但由于国外服务器到国内实在太慢,所以用了cdn,先是用cloudflare,结果慢的惊人,本来测速需要12s,加上cloudflare之后需要15s以上。。。 测速的网站是这…

chatgpt赋能Python-python_dingtalk

Python DingTalk:高效企业通讯利器 当今互联网时代,企业内部沟通必不可少。在成千上万的企业应用中,DingTalk作为高效沟通工具被越来越多的企业所使用。Python DingTalk库的出现,为企业带来了更加方便快捷的通讯方式。 什么是Py…

【数据结构】图的定义,存储,遍历

🎊专栏【数据结构】 🍔喜欢的诗句:更喜岷山千里雪 三军过后尽开颜。 🎆音乐分享【Dream It Possible】 大一同学小吉,欢迎并且感谢大家指出我的问题🥰 目录 🍔前言 🎁图的定义 &a…

安全中级2:nginx的中间件漏洞

目录 一、nginx解析php的流程 1.原理 2.CGI、FastCGI、PHP-FPM、PHP-CG、WrapperI的定义 二、Fastcgi协议 1.Fastecgi Record 2.Fastcgi Type 3.PHP-FPM(FastCGI进程管理器) 4.总结FastCGI解析的流程 三、nginx配置错误导致的漏洞 1.CRLF注入漏洞($uri解…

rk3568 适配rk809音频

rk3568 适配rk809音频 RK809是一款集成了多种功能的电源管理芯片,主要用于笔记本电脑、平板电脑、工控机等设备的电源管理。以下是RK809的详细功能介绍: 电源管理:控制电源的开关、电压、电流等参数,保证设备的稳定运行。音频管…

开放原子训练营(第三季)inBuilder低代码开发实验室之人人都是开发者

目录 前言: 一、知己知彼 1.1全场景 全角色 多终端 快速开发 1.2直觉化 响应式 1.3所见即所得 1.4全栈开发 二、百战百胜 2.1inBuilder开发入门 2.2点火启动,新的征程 三、实战表现 3.1实战总结 3.2实战效果 四、总结 前言: 2023年,是我们摘…

chatgpt赋能Python-python_embedded_null_character

Python中嵌入空字符的介绍 在Python编程语言中,空字符是一种特殊的字符,它在字符串中表示为空格或空行。不过,在某些情况下添加一个空字符是非常必要的,例如在编码时需要将字符串以空字符分隔,或者在数据库存储中需要…

CC++——深入探究动态内存管理

文章目录 总述C&C程序内存区域划分C内存管理方式运用new/delete操作内置类型new和delete操作自定义类型 operator new与operator delete函数new和delete操作符的实现原理自定义类型 malloc/free 和 new/delete 的区别 总述 俗话说,没有理解过底层的c&c程序员…

性能测试——服务端监控工具nmon

这里写自定义目录标题 一、性能监控工具nmon介绍二、nmon可监控的数据类型三、nmon特点四、Linux下安装1、检查安装环境2、下载nmon3、解压 五、运行nmon1、启动nmon2、常用nmon快捷命令3、nmon命令行参数4、命令行例子5、重点 六、查看 nmon 监控结果1、nmon_analyser 介绍2、…

AI:Vue2和Vue3的对比

1. 什么是Vue.js以及Vue.js在前端开发中的重要性。 Vue.js是一个遵循MVVM(Model-View-ViewModel)模式的前端JavaScript框架,它采用了双向数据绑定和组件化的思想,使得前端开发变得更加简洁、高效、可维护。Vue.js由中国工程师尤雨…

chatgpt赋能Python-python_dlib

Python Dlib:从入门到实践 Python Dlib 是一个用于人脸检测、跟踪和姿态估计的高性能C库,提供 Python 接口方便调用。它是一个开源项目,被广泛应用于计算机视觉、图像处理和机器学习等领域。本文将从介绍Dlib的原理、特点以及应用场景等方面…

Rshiny基本函数(交互式web应用)

Rshiny基础函数 引言shiny包的下载shinyApp的构成ui的设计函数HTML类比img函数无法加载图片控件函数ui设计的输出对象 server总结 引言 R语言shiny包可以帮助我们轻松的制作交互式的web应用,并且可以搭建为独立的桌面可执行程序,非常方便制作和分享&…

人工智能(柴玉梅)第四章课后部分习题答案(仅供参考)

注释部分只是复习用,不是答案 第五题 注释:便于复习 本来想搜个类似的,结果发现r1这种人家都带括号!!!额,没括号那我就从前往后算了,按顺序算准没错~ CF(H)的…

Python logging使用

目录 logging模块 logging核心组件 logger handler StreamHandler:把日志内容在控制台中输出 FileHandler:把日志内容写入到文件中 filter formatter 注意日志级别的继承问题 logger.exception 上述样例的整体代码 日志的配置文件及其模板 lo…

用Python爬取了三大相亲软件评论区,结果…

小三:怎么了小二?一副愁眉苦脸的样子。 小二:唉!这不是快过年了吗,家里又催相亲了 ... 小三:现在不是流行网恋吗,你可以试试相亲软件呀。 小二:这玩意靠谱吗? 小三&#…

使用Gradle7.6.1 + SpringBoot3.0.2 + java17创建微服务项目(学习)

这是一个大胆的决定 这里是导航 技术栈开发工具一、创建gradle父子项目(deity)1.0 简单流程示意1.1、IDEA中主要图示1.1.1 项目结构图1.1.2 IDEA中 Gradle配置 1.2、deity父项目build.gradle文件1.3、deity父项目settings.gradle文件1.4、子项目build.g…