展望AI时代，把握文档图像智能分析与处理的未来

- 前言
CCIG技术论坛内容回顾及探讨
一、人工智能大模型时代的文档识别与理解
- 1.1 文档分析与识别介绍
- 1.2 文档识别历史回顾
- 1.3 文档的种类与研究问题
- 1.4 文档识别与理解研究现状
- 1.5 大模型带来的挑战与机遇
- 1.5.1 ChatGPT
- 1.5.2 CPT-4
- 1.6 文档识别与理解总结与展望
二、视觉- 语言预训练模型及迁移学习方法
三、智能文档处理技术在工业界的应用与挑战
- 3.1 背景介绍
- 3.2 文档图像分析与预处理
- - 3.2.1 文档图像分析与预处理
  - 3.2.2 文档图像预处理的整体架构
  - 3.2.3 图像预处理——弯曲矫正
- 3.3 手写板反光擦除
- - 3.3.1 手写板反光擦除
- 3.4 版面分析与还原
- 3.5 文档图像篡改检测
总结

在这里插入图片描述

前言

2023年5月11~14日，中国图象图形大会（CCIG 2023）在苏州举办，谭铁牛院士、赵沁平院士、吴一戎院士、徐宗本院士、胡事民教授、高新波教授确定莅临CCIG 2023大会，并作大会主旨报告。

众多专家学者将齐聚苏州，开启“最强大脑”，为大家带来一场精彩的学术盛宴。大会以“图象图形向未来”为主题，汇集100余位国内顶尖学者以及知名企业专家、2000余名科研院校师生、一线技术工程师，共同探索图像图形技术行业的最新进展。

本篇文章就来回顾一下大会的内容及问题探讨，主要是针对智能图像处理技术进行展开。

CCIG技术论坛内容回顾及探讨

请添加图片描述

一、人工智能大模型时代的文档识别与理解

大会开场一开始是由中国科学院自动化研究所副所长——刘成林老师介绍《人工智能大模型时代的文档识别与理解》。

对于此内容部分整理了一份结构图，大致如下，可供参考回顾：
请添加图片描述

1.1 文档分析与识别介绍

文档领域分为物理文档和合成文档。过去我们只关注文字，现在文档中的图像也十分重要。

场景文本识别检测的现状。早期基于边缘、区域的方法比较有限，后基于深度学习的回归、分割的方法，场景文本检测的趋势由水平文本行到多方向文本行再到任意形状的文本检测。

1.2 文档识别历史回顾

在这里插入图片描述

1.3 文档的种类与研究问题

在这里插入图片描述

1.4 文档识别与理解研究现状

1.识别理解技术

手写文本识别：大数据训练得到高精度
版面分析：深度学习(FCN+GNN)可解决大部分问题
文件检测与识别：进步很快，手写识别已可实用
新问题和技术：信息抽取、文档问答，预训练模型

2.不足

可靠性、可解释性、自适应性
复杂环境下性能：自然场景、古籍文档、拍照手写文档
复杂问题：复杂版面、数学公式、表格、结构化符号/图形
-语义理解能力：信息抽取，问题求解（推理），回答问题

1.5 大模型带来的挑战与机遇

ChatGPT, GPT-4等大模型的特点：

语言大模型：超强的语言联想能力，用于文本生成、代码生成、问答、翻译等
多模态大模型：跨模态特征提取和对齐，跨模态生成，多模态问题回答

1.5.1 ChatGPT

ChatGPT是一种基于人工智能技术的自然语言处理模型，它是由OpenAI公司开发的。它可以模拟人类的对话，并根据用户输入的问题进行回答。它使用了深度学习和自然语言处理技术，可以理解并生成自然语言。

ChatGPT的三个关键技术

情景学习（In-context learning）
大模型的涌现能力，改变传统学习范式。
思维链（Chain-of-Thought，CoT）
大模型的涌现能力，打破模型参数约束。
自然指令学习（Learning from Natural Instructions）
人在环路增强，对齐人类意图。

1.5.2 CPT-4

大模型的文档识别和理解能力目前已经是非常强了。

解物理题和文档摘要完全不在话下，未来我们的最强导师。

还可以解释漫画的意思，属实不能用牛X二字来表达啦！
在这里插入图片描述

1.6 文档识别与理解总结与展望

文档分析与识别快速进步，但仍有很大的研究空间
从提升性能角度
• 文本识别可靠性、可解释性
• 全要素识别、长尾问题、多语言
• 复杂版面分割与理解，变形文档分析与识别
从应用扩展角度
• 新的应用：凡有文字符号的场合，机器人流程自动化(RPA)，很多细分行业
• 新问题：语义信息提取，跨模态融合，面向应用的推理决策等
从学习能力角度
• 小样本学习，迁移学习，多任务学习，领域自适应，结构化预测，弱监督学习，自监督学习，开放集（零样本、增量学习）

这部分内容在之前的文章中也有介绍过：

AI时代来临，如何把握住文档处理及数据分析的机遇
在这里插入图片描述

二、视觉- 语言预训练模型及迁移学习方法

对于此内容部分整理了一份结构脑图，大致如下，可供参考回顾：
请添加图片描述
该部分由北京大学教授邹月娴讲解，主要讲了VLP模型的参数有效迁移学习方法（PETL）、基于提示工程的VLP迁移学习方法：手工设计提示模板，clip的提升效果非常不错，coop少样本学习方法性能超越clip提示学习方法几部分。

对此部分感兴趣的小伙伴也可以看一下直播回放和查阅更多资料，这部分不多作讲解，主要还是针对图像文档处理技术展开啦~

三、智能文档处理技术在工业界的应用与挑战

本部分内容由上海合合信息科技股份有限公司高级工程师——丁凯老师讲解，主题内容为《智能文档处理技术在工业界的应用与挑战》。

内容结构图如下：
请添加图片描述
目前智能文档处理仍然面临着文档图像质量退化严重、文字检测及版面分析困难、非限定条件文字识别率低等技术难题。

合合科技在文档图像的分析与预处理、手写板反光擦除及文档图像篡改检测都是业界标杆级的存在。

3.1 背景介绍

图像处理技术 是用计算机对图像信息进行处理的技术。主要包括图像数字化、图像增强和复原、图像数据编码、图像分割和图像识别等。

其中图像一般有两种表达形式：

几何图形(Graphics) ：由点、线、面、颜色等组成，由绘图程序产生，是一系列绘图指令的集合，一般用各种绘图软件制作。
点阵图像(Image) ：由各像素点和颜色组合而成，使用摄像机、扫描仪、数码相机等设备获得，也可以使用绘图软件生成。图像表示的画面细腻，层次和色彩丰富。图像的各像素点逐点存储在计算机中，占用的存储空间大。

在这里插入图片描述

使命：让世界更高效
在这里插入图片描述

深受全球用户喜爱的C端产品
在这里插入图片描述

3.2 文档图像分析与预处理

目前对于图像的处理技术包括 点处理、组处理、几何处理 和 帧处理 四种方法。

点处理方法 是处理图像最基本的方法，由于该方法处理的对象是像素，故此得名。点处理方法简单而有效，主要用于图像的亮度调整、图像对比度的调整，以及图像亮度的反置处理等。
图像的 组处理方法 处理的范围比点处理大，处理的对象是一组像素，因此又叫“区处理或块处理”。组处理方法在图像上的应用主要表现在：检测图像边缘并增强边缘、图像柔化和锐化、增加和减少图像随机噪声等。
图像的几何处理方法 是指经过运算，改变图像的像素位置和排列顺序，从而实现图像的放大与缩小、图像旋转、图像镜像、以及图像平移等效果的处理过程。
图像的 帧处理方法 是指将一幅以上的图像以某种特定的形式合成在一起，形成新的图像。其中，特定的形式是指：经过“逻辑与”运算进行图像的合成、按照“逻辑或”运算关系合成、以“异或”逻辑运算关系进行合成、图像按照相加或者相减以及有条件的复合算法进行合成、图像覆盖或取平均值进行合成。图像处理软件通常具有图像的帧处理功能，并且以多种特定的形式合成图像。

3.2.1 文档图像分析与预处理

在这里插入图片描述

3.2.2 文档图像预处理的整体架构

在这里插入图片描述

3.2.3 图像预处理——弯曲矫正

我们在日常生活中在对一些图片文件拍照的时候可能会出现一些折叠弯曲的现象，这在某些时候是避免不了的。
在这里插入图片描述

面对这种现象自然也让有相应的技术进行应对，也就是弯曲矫正技术啦。
在这里插入图片描述

3.3 手写板反光擦除

3.3.1 手写板反光擦除

在黑板、手写板上进行拍摄时，无可避免的遇到反光的影响，通过反光擦除技术，保留笔画细节，清晰还原。
在这里插入图片描述

手写板反光擦除的效果展示
在这里插入图片描述

在这里插入图片描述

3.4 版面分析与还原

在这里插入图片描述

3.5 文档图像篡改检测

文档图像篡改检测也可以简单理解成PS检测，说简单一点就是一项可以检测照片有没有被PS修改过的一个功能。

在日常生活中某些信息可能会存在造假现象，尤其是对于一些证件类的图片等信息，有些人可能会使用PS等工具对图片中的一些关键信息进行一些PS修改，以此达到一些其他目的。

Adobe 在2018 CVPR上发表了一篇利用深度神经网络检测PS痕迹的论文，Learning Rich Features for Image Manipulation Detection

PS痕迹检测，沿用物体检测套路，直接上faster rcnn，ground-truth就是p上去的区域。论文创新点就是，除了使用传统RGB图像作为网络输入外，还让RGB图像过一遍SRM filter，得到noise feature，让这个noise feature也作为网络的输入。注意，RGB和noise走的分别是两个faster rcnn网络，但只使用RGB网络训练RPN，用这个RPN，对两个网络的feature map做RoI pooling。在分别得到RGB和noise的RoI之后，对这两个RoI做Bilinear pooling，得到feature进分类器。而RGB的RoI则做bounding box回归。

在这里插入图片描述