前言

图文智能处理前沿技术一直是我所关注的技术，尤其在现在集成多态大模型的基础之上，每一次技术突破都有可能带来新的行业领域突破和技术变革。而图像图形处理技术有关的峰会和论文往年都比较少，想要了解最新前沿技术进展的机会较少，且现在能够运用图文处理技术的业务场景越来越多，技术需求和人员储备也越来越大，因此关于中国图象图形大会我们还是很有必要关注的。

CCIG文档图像智能分析与处理论坛最近在苏州举办众多专家学者将齐聚苏州，开启“最强大脑”，为大家带来一场精彩的学术盛宴。大会以“图象图形向未来”为主题，汇集100余位国内顶尖学者以及知名企业专家、2000余名科研院校师生、一线技术工程师，共同探索图像图形技术行业的最新进展。为了促进文档图像分析与处理领域的技术交流及发展，中国图象图形学学会文档图像分析与识别专业委员会与合合信息共同打造了《文档图像智能分析与处理》高峰论坛。本次论坛中，合合信息特别邀请了来自中科院自动化所、北大、中科大、华南理工大的学术专家与华为等知名企业的研究者们，围绕文档图像处理及OCR领域的前沿技术展开“头脑风暴”，寻找文档图像处理领域的未来进阶方向。

一、文档分析与识别最新研究

文档图像识别的任务包括版面分析、文本识别、图形符号识别、信息抽取等。近年来，得益于深度学习方法的发展，文档识别性能快速提升，在文档数字化、票据处理、笔迹录入、智能交通、信息检索等领域得到广泛应用。然而，实际应用也表明，现有技术在识别精度和可靠性、可解释性、自适应性等方面还有明显不足，还有很多技术问题有待解决。

大会刘成林所长以“大模型时代的文档识别与理解”为主题，从文档识别历史回顾出发，从文档的种类与研究问题到文档识别与理解研究现状，再从大模型带来的挑战与机遇分析，详细解答了现文档识别研究发展现状以及未来技术革新方向，并从ChatGPT, GPT-4等大模型的特点提出思考：

研究工作是否被大模型替代？
如何结合大模型找到研究方向？

最后刘成林所长从三个方面进行了总结：

从提升性能角度
- 文本识别可靠性、可解释性
- 全要素识别、长尾问题、多语言
- 复杂版面分割与理解，变形文档分析与识别
从应用扩展角度
- 新的应用：凡有文字符号的场合，机器人流程自动化(RPA)，很多细分行业
- 新问题：语义信息提取，跨模态融合，面向应用的推理决策等
从学习能力角度
- 小样本学习，迁移学习，多任务学习，领域自适应，结构化预测，弱监督学习，自监督学习，开放集（零样本、增量学习)

二、视觉-语言预训练模型及迁移学习

基于大规模文本数据、Transformer和无监督预训练技术的ChatGPT毫无疑问是人工智能的里程碑技术，展示了机器智能的能力和可用性。随之而来的视觉-语言双模态超大规模预训练模型GPT-4更是展现了超人的数理能力、零样本/小样本能力。

北京大学邹月娴教授致力于跨媒体分析与理解、人机对话、深度学习理论方法与应用研究，简要分析ChatGPT的技术能力与局限性，介绍视觉-语言预训练模型及迁移学习的前沿研究成果。

视觉-语言任务是典型的跨模态机器学习任务，我们可以将图片作为媒介，利用图片对应起两种语言的单词或句子，从而完成词语，甚至是句子的翻译任务。基于图片的零样本翻译任务就是采用这样的解决思路，然而这种做法会存在两点缺陷：一是仅根据图片翻译词语，翻译模型只会对具有视觉意义的词语有很好的翻译能力，如名词，形容词，而对于图片无法明确表示的词语，翻译质量则会很差。二是这种方法只能使用包含单一目标词语的图片，而现实生活中的图片往往都是包含众多物体的复杂图片。

使用源语言和目标语言的（图片，内容描述）数据训练一个双语图片描述生成器，通过共享同一个图片编码器和描述生成器来迫使不同语言的词语被嵌入到同一个隐含空间内，含义相近的词语特征向量距离更近，而含义相远的词语特征向量距离更远。得到的这一特征就是词语的语言特征表示。在这种情况下，模型学习到的词语特征并不限制与图片内容一一对应，而是可以从其共存的句子环境中学到所有词语的语言信息，其中就包含“a”这类非视觉性词语。

为了不限制图片只包含单一物体，我们设计将图片的部分区域与词语相对应，而不是拿整张图片与词语对应。这就是词语的局部视觉特征表示。将图片通过卷积神经网络得到的以空间区域划分的图片特征依次输入到图片描述生成模型中，用生成相应词语的概率表示该词语与这一图片局部区域的匹配程度。根据匹配程度对这些区域图片特征做加权和，便得到了这一词语的一个局部视觉特征。当然，同一个词语所出现的图片有很多个。因此，最终每个词语都会对应一个局部视觉特征集合。

三、篡改文本图像的生成与检测技术

近年来，经过深度学习篡改生成的文本图像已广泛传播于互联网，对金融票据、证件和网页内容识别等多个行业领域产生了重要影响。基于篡改生成与检测矛与盾的关系，本报告从场景文本图像的篡改生成与篡改检测两个方面进行讲述，包括探索基于文本笔迹的文本图像生成和基于频域关系的局部纹理差异性建模，最终实现高质量的场景文本图像篡改生成以及准确的场景文本图像篡改检测。

中国科学技术大学谢洪涛教授团队首先从文本图像擦除的角度考虑文本擦除彻底性和背景纹理完整性，从技术意义和难点出发：

字体多样性
- 包含多种字体（或艺术字），同时字符大小和颜色等也变化多样
语言多样性
- 不同语言字形结构不同，难以生成清晰可辨认的多语言文字
背景多样性
- 背景纹理复杂多样，准确重建背景纹理困难

引出题组方法-场景文本图像擦除问题，提出新的评价指标-由于篡改文本图像生成方法旨在生成人眼难以鉴别的文本图像，目前的评价指标（PSNR等）不能有效反映文本篡改图像的可视化性能。

并结合通用的篡改生成框架提出基于笔迹的场景文本图像篡改生成算法。其次，本报告提出了一种通用的自然场景文本图像篡改检测框架，并结合频域信息最大化真实和篡改文本的局部纹理差异性。

篡改文本图像的生成与检测是一个矛与盾的问题。篡改文本图像的生成方法能够反映篡改文本图像检测方法的检测性能；同时，篡改文本图像检测方法也能反映篡改文本图像生成的效果。因此两者是密不可分的，只有共同进步才能实现矛与盾的良性发展。篡改文本图像的生成与检测可以应用于文本图像的多个领域，例如：文档图像、自然场景图像、票据图像等。因此，篡改文本图像的生成与检测具有重要的研究意义，需要更多的关注，保持多领域中篡改文本图像生成与检测的快速发展。

四、智能文档处理技术在工业界的应用与挑战

随着技术的不断发展，OCR技术在工业界中的应用也从最开始的简单的光学字符识别拓展到涵盖图像预处理、文字识别、版面分析、文档理解等多项技术的智能文档处理领域。近年来，特别是深度学习技术出现以后，智能文档处理的各项技术均取得了突破性的进展。然而在实际的工业界场景中仍然面临着大量的问题和挑战，例如文档图像中的形变/弯曲及光照影响、文档篡改检测、复杂文档图像的版式还原，以及各种复杂场景下的文档的识别与理解难题。

合合信息依托自研的TextIn智能文字识别服务平台，在解决工业界中面临的各类问题中所做一些相关工作进展和研究成果，并探讨当前工业界中面临的一些关键技术难题和挑战。

合合信息智能文档处理技术采用精准的图像裁剪、形变矫正以及去除阴影和摩尔纹等技术，利用人工智能技术对文档图像进行增强和清晰度提升，从而提高文档图像的质量和阅读体验。通过这种方法，可以有效提升文档处理下游任务的质量和效率，例如识别转换和图像分析等。目前，该技术已经被应用于智能文字识别产品，为来自全球上百个国家和地区的数亿用户提供了服务。

文档处理与人工智能的结合，可以实现对大量文档的自动化处理和分析，提高工作效率和准确性，降低人力成本和时间成本，对于企业的知识管理和业务分析具有重要的意义。此外，未来的图文智能处理技术也将会更加可定制化，根据不同的行业和应用场景，为客户提供量身定制的解决方案。这将有助于满足客户的不同需求，提升客户的体验和满意度。

而且更有技术难度和实践意义的拍照出现反光问题也得到了非常好的解决方法：

单张图像去反射。在某些情况下，反射的外观可能含有一些线索。例如，在对焦在背景时，反射可能失焦，且因此看起来模糊。当玻璃比较厚的时候，可能产生鬼影效果。然而，这些线索在很多时候并不成立。现实世界中的反光很可能是清晰且无鬼影的。当反射的外观不符合算法假设时，算法的效果常常会剧烈下降。

多张图像去反射。一些去反射方法利用在反射和背景的不同运动状态来进行去反射。但是，拍摄不同的运动图像会花费更多的精力（用户需要移动手机）。还有一些方法利用了偏振光，但是偏振相机还没有被广泛运用。最近，深度卷积网络 (CNN) 在诸如图像识别、图像生成等计算机视觉任务取得了巨大的成功。同样的，在图像去任务上，深度卷积网络的强大表征能力同样表现出了不错的效果。合合信息正是采用基于学习的算法实现手写板反光擦除。

总结

根据众位学术技术大咖的分享来看，未来图文智能处理的发展将会更加智能化、自动化和可定制化。具体来说，未来的图文智能处理技术将会更加注重生成式人工智能技术的应用，例如深度学习、自然语言处理、计算机视觉等。这将使得处理效果更加准确和高效。同时，未来的图文智能处理技术将会更加自动化，例如自动识别文档类型、自动分类文档、自动提取文档信息等，这将进一步提高文档处理的效率和准确性。此外，未来的图文智能处理技术也将会更加可定制化，根据不同的行业和应用场景，为客户提供量身定制的解决方案。这将有助于满足客户的不同需求，提升客户的体验和满意度。
合合信息深耕人工智能17年，全球累计用户下载量23亿，享有国内外发明专利113项，在顶级AI竞赛获得15项世界冠军，提供行业智能解决方案30个。相信合合信息在模式识别、深度学习、图像处理、自然语言处理等领域的深耕厚积薄发，用技术方案惠及更多的人。