2023 CSIG青年科学家会议丨多模态大模型时代下的文档图像处理

近日，由中国图象图形学学会青年工作委员会发起的“第十九届中国图象图形学学会青年科学家会议”在广州召开。

会议面向国际学术前沿与国家战略需求，聚焦最新前沿技术和热点领域，邀请各界专家与青年学者进行总计超200场的高水平学术深度交流，促进图象图形领域“产学研”合作。

一、前言引入

在会上，来自合合信息的丁凯博士在“垂直领域大模型论坛”作题为《文档图像大模型的思考与探索》的报告，分享了关于文档大模型的最新研究成果以及对未来的展望。

他指出，尽管以Chat-GPT为代表的大语言模型和GPT4-V多模态大模型在文档领域取得了显著成果，但OCR文档图像识别等领域的核心问题仍然存在。如场景及版式的多样性、采集设备的差异性、用户需求的多样性、文档图像质量退化、文字检测及版面分析的困难、非限定条件下的文字识别率低以及结构化智能理解能力差等。

为了解决这些问题，丁凯博士提出了对大模型的思考与探索，他认为，垂直领域大模型是未来的研究方向，需要深入探索并克服相关技术难题。通过“产学研”交流合作，有望推动图像图形领域的发展。

二、智能图像文档处理

文档图像处理是指通过计算机对文档图像进行分析和理解，实现自动化的信息提取和处理。文档图像可以是扫描件、照片或者其他形式的图像文件。文档图像处理可以包括文本识别、布局分析、实体关系理解、图像分割等任务。

随着人工智能技术的发展，智能图像文档处理成为热门话题。它可以帮助我们从大量的数据中提取最有价值的信息。

智能图像文档处理技术在过去几年里取得了巨大的进展，受益于深度学习和人工智能技术的突破。如今，它不仅能在各种场景中快速、准确地识别和处理文档，而且还能处理复杂的语义信息。随着应用的不断扩展，智能图像文档处理已经深入到各个行业，为自动化文档处理、信息提取和决策支持等任务提供了强大支持。此外，云服务和边缘计算的结合使得处理速度更快、延迟更低，为用户提供了更好的体验。

智能图像文档处理技术正处于一个快速发展的阶段，有着广阔的应用前景，但也需要我们关注并解决一些挑战和问题。

三、大模型与文档图像处理

多模态大模型是指能够同时处理多种类型数据（例如图像、文本、语音等）的强大神经网络模型。它将多个模态的输入数据整合在一起，并通过共享的模型结构进行联合训练和推理。

与传统的深度学习模型通常只针对某一种特定类型的数据进行建模和处理不同的是，多模态大模型则进一步扩展了模型的能力，使其能够同时处理不同类型的数据。

多模态大模型的核心思想是将不同模态的数据进行融合和交互，以实现更全面、准确的任务处理。例如，在图像与文档生成任务中，模型可以同时接受图像和文档输入，并根据两者之间的关联生成相应的输出。这种联合训练和生成的方式可以提供更丰富、多样化的结果。

近年来，随着大模型技术的兴起，图像文档领域的问题也迎来了新的解决方式，在自然语言处理、计算机视觉等领域，大模型已经展现出了显著的优势。然而，在文档图像处理领域，大模型的应用还面临着一些挑战和问题：

文档图像质量退化：由于文档的老化、损坏或存储条件等原因，文档图像的质量可能会受到严重的退化，如模糊、噪声、光照不均等，这会给文字检测、字符识别等任务带来困难。

文字检测及版面分析：文档图像中的文字可能存在不同的字体、大小、颜色等变化，而且文字可能与背景颜色相似，导致文字检测和版面分析变得困难，算法需要具备高效准确的文字检测和版面分析能力。

非限定条件下的文字识别：在非限定条件下，文档图像中的文字可能出现扭曲、变形、遮挡等情况，这会导致传统的文字识别算法的准确率下降，需要算法具备对非限定条件下的文字进行准确识别的能力。

结构化信息理解：文档图像中的信息不仅仅是文字，还包括表格、图表、图像等结构化信息，算法需要具备结构化智能理解的能力，能够对文档中的结构化信息进行提取、分析和理解。

适应不同场景和版式：文档图像可能来自不同的场景和版式，如报纸、书籍、手写笔记等，每种场景和版式都具有不同的特点和挑战，需要算法能够适应不同的场景和版式。

不同采集设备的鲁棒性：文档图像可能通过不同的采集设备获取，如扫描仪、手机相机等，不同设备的成像质量和参数不同，导致图像质量和特征的差异，需要算法具备鲁棒性，能够处理不同设备采集的图像

大模型的优势在于能够学习到更加丰富和细致的语义信息，从而提高模型的泛化能力和处理复杂任务的能力。在自然语言处理领域，大模型已经成功应用于机器翻译、文本生成、对话系统等任务。在计算机视觉领域，大模型的应用也取得了显著的进展，如图像识别、目标检测、图像生成等。

而在文档图像处理领域，因为文档图像的复杂性较高，包含各种字体、字号、颜色、排版方式等，使得模型的学习和识别难度加大。其次，文档图像的尺寸较大，需要更高的计算资源和存储空间，增加了模型的训练和部署成本。此外，文档图像中的文本信息通常是结构化的，需要模型具备一定的布局和版面分析能力。

四、文档图像大模型

目前，业界已经涌现出了一批知名的文档图像大模型，其中有代表性的例如
GPT4-V多模态大模型，它在文档领域的效果是显著的，它大幅度提升了AI技术在文档分析与识别领域的能力边界。该模型端到端实现了文档的识别到理解的全过程，提供了一条新的研发范式：“大数据、大算力、多任务、端到端”。

GPT4-V在多种场景下表现出色，无论是在手写密集文档、几何图形与文字结合、图表理解、教育场景、信息抽取、文档理解等领域，取得了较好的结果。然而，GPT4-V在OCR精度距离SOTA还有较大差距，存在识别混乱、错误等问题。对于长文档，仍然有文档解析和识别的前置依赖。此外，该模型在像素级任务如篡改检测、文本分割擦除等处理上表现并不好。对于长文档，仍然有文档解析和识别的前置依赖，ChatGPT调用了开源的PyPDF2，而该插件效果一般，且输出不支持表格结构、不支持扫描件、不支持处理复杂版式、不支持定位到原文。

总体来说，GPT4-V多模态大模型在文档领域已经具备了一定的能力，但与SOTA方法相比，性能还有待提升。其强项在于信息抽取和理解认知层面，这一特点在经过有效利用后，可以大幅提升该研究领域的天花板。

尽管文档图像大模型在工作机制上有所不同，但它们都依赖于OCR引擎进行文本识别。这种模式存在的一个问题是误差的累积，目前这些模型在OCR识别上的系统性能还有待进一步提高。

五、合合信息的实践与探索

合合信息是一家专注于智能文字识别、图像处理、自然语言处理等领域的人工智能企业。在文档图像处理领域，合合信息已经取得了一系列的研究成果和实践经验。例如，合合信息研发的智能图像处理技术已经落地并服务于各行业领域；同时，合合信息也在积极探索大模型与文档图像处理的结合方式。

合合信息-华南理工大学文档图像分析识别与理解联合实验室研究了一种创新的端到端文本检测和识别方法，称为 SPTS。这种方法颠覆了传统的文本检测和识别流程，将这两个任务融为一体，将文本检测和识别定义为图片到序列的预测任务，极大地简化了处理流程。

SPTS v3 是 SPTS 的最新版本，目前主要关注端到端检测识别、表格结构识别、手写数学公式识别等任务。SPTSv3 显示了其在文档图像处理中的潜力。这为文档图像的多任务处理提供了一种高效的解决方案。

研究成果表明，通过结合大模型的语义信息，可以提高IDP系统对文档图像中的语义内容的理解和分析能力。例如，实验室研发的UPOCR模型，是一种通用的OCR模型，引入可学习的Prompt来指导基于ViT的编码器-解码器架构，统一了不同像素级OCR任务的范式、架构和训练策略。这种模型已经在文本去除、文本分割和篡改文本检测任务上得到了广泛验证。