探索文档解析技术，推动大模型训练与应用

- 0. 前言
- 1. CCIG 2024
- - 1.1 会议简介
  - 1.2 大模型技术及其前沿应用论坛
  - 1.3 走进合合信息
- 2. 大模型时代
- - 2.1 大模型的发展与应用
  - 2.2 大模型面临的挑战
- 3. 文档解析技术
- - 3.1 文档解析技术难点
  - 3.2 TextIn 文档解析算法流程
- 4. 大模型时代文档解析技术展望
- 小结
- 相关链接

0. 前言

探索文档解析技术是推动大模型训练与应用的重要一环。随着信息的爆炸式增长，文档数据成为了重要的数据来源之一，这些数据以多种形式存在，包括结构化数据、非结构化文本和图像等。因此，有效地解析和理解这些文档数据对于提升大模型性能与拓展大模型应用至关重要。
在此背景下，大模型训练与应用需要依赖先进的文档解析技术来处理复杂的文档数据。通过利用自然语言处理、计算机视觉等技术，开发出能够自动识别、提取和理解文档内容的工具和算法，不仅可以实现文档的自动分类、信息抽取和语义理解，还可以为大模型的训练提供丰富的、高质量的训练数据。
在本节中，我们将回顾来自合合信息的智能创新事业部研发总监常扬在中国图象图形大会 (CCIG 2024) 中关于文档解析技术加速大模型训练与应用的分享，介绍大模型训练和应用过程的关键环节面临的挑战，探索当前高性能的文档解析技术。

1. CCIG 2024

1.1 会议简介

2024 年 5 月 24 日 - 26 日在陕西省西安市曲江国际会议中心成功召开了中国图象图形大会 (CCIG 2024)，多位院士、教授出席了 CCIG 2024，并作大会主旨报告，百余位国内知名学者以及企业专家齐聚西安，开启“最强大脑”学术盛宴。

1.2 大模型技术及其前沿应用论坛

近年来，大模型技术已成为推动人工智能技术革新的一个重要基础性技术，其广泛应用将对不同的科学研究和产业应用领域产生深远影响。大模型技术及其前沿应用论坛集中关注大模型研究的最新进展及前沿应用，特邀学术界及产业界嘉宾，介绍大模型前沿技术、大模型加速科学研究、多模态基础模型的最新进展与应用。《大模型技术及其前沿应用论坛》旨在推动计算机视觉、自然语言处理、基础科学研究及行业应用的跨界融合与技术发展。在本次论坛上，围绕大模型的最新技术进展、前沿应用及未来发展趋势进行深入探讨与交流。

1.3 走进合合信息

作为智能文档处理领域的代表，合合信息出席了 CCIG 2024 大会，在大模型技术及其前沿应用论坛上分享了合合信息关于文档解析技术加速大模型训练与应用的研发与实践成果，在解决大模型训练和应用过程的关键环节面临的问题中所做的一些相关研究成果，并重点介绍了在文档解析技术领域的工作进展。
合合信息是行业领先的人工智能及大数据科技企业，专注于智能文字识别、图像处理、自然语言处理、知识图谱、大数据挖掘等技术，其研发的智能图像处理引擎提供多种图像智能处理黑科技，例如图像切边增强、PS 篡改检测以及图像矫正等，其自研的 TextIn 文档解析系统具备多文档元素识别、版面分析、高性能等优势，相关黑科技的体验可以登录合合信息官网。

合合信息

2. 大模型时代

2.1 大模型的发展与应用

大模型的发展可以追溯到深度学习技术的兴起，深度学习是一种基于人工神经网络结构，利用多层次的非线性变换对数据进行建模和抽象表示的机器学习方法。近年来，随着计算能力、数据规模和算法优化的不断提升，深度学习才成为人工智能领域的重要技术之一。
2012 年，Hinton 等人提出了 AlexNet 模型，深度卷积神经网络在 ImageNet 图像识别比赛中取得了实质性突破，从而引发了新一轮的深度学习热潮。这一突破表明了深度学习在计算机视觉领域的巨大潜力，也为后续大模型的发展奠定了基础。
随后，深度学习技术在计算机视觉、自然语言处理、语音识别等领域取得了重大进展，大模型也成为了推动这些进展的关键技术之一。此后，随着深度学习技术的不断发展和优化，大型预训练模型如 BERT (Bidirectional Encoder Representations from Transformers)、GPT (Generative Pre-trained Transformer)、T5 (Text-to-Text Transfer Transformer) 等相继问世，这些大模型在自然语言处理领域取得了突破性进展。
在计算机视觉领域，如 ViT、SAM、Sora 等大模型也取得了巨大成功，广泛应用于图像识别、图像分割、视频生成等任务。这些大模型的出现和不断优化，极大地推动了计算机视觉领域的发展，使得人工智能技术在图像理解和处理方面取得了前所未有的成就。
除了在计算机视觉和自然语言处理领域的成功应用外，大模型还在其他领域展现出了巨大的应用潜力。例如，在医疗影像诊断领域，大模型被应用于医学影像的识别和分析，帮助医生快速准确地发现疾病迹象，提高了诊断的准确性和效率；在金融领域，大模型被用于风险评估、交易策略优化和欺诈检测等方面，为金融行业提供了强大的智能决策支持；在智能交通领域，大模型被应用于交通流量预测、智能驾驶系统和交通信号优化等方面，为城市交通管理和智能交通系统的建设提供了重要技术支持。

大模型

而在文档图像智能处理领域，随着大模型的深入研究和发展，使得处理具有多种类型和来源的文档数据变得更加容易和精确。例如，可以通过使用大模型来实现文档图像的内容理解和分类，并且可以使用大规模深度学习模型进行训练与推理，从而取得更好的效果和性能。
随着大模型的发展，其应用场景也在不断拓展，在多个领域都展现出了巨大的潜力和应用前景。大模型的不断优化和推广，为人工智能技术的发展注入了新的活力和动力，并将进一步推动人工智能技术在实际场景的广泛应用。

2.2 大模型面临的挑战

大模型在取得巨大成功的同时也在训练和应用过程中的关键环节面临着一些问题，主要包括：

训练 Token 即将耗尽：在训练大规模语言模型时，模型参数庞大、训练数据量巨大，现有人类社会生成的包含社交文本在内的互联网数据也不能够完全支持大语言模型的优化升级。研究报告表明，在未来两年内，大模型训练将用尽互联网上包含音视频在内的高质量数据格式，而现存 (包括未来生成的) 数据集或将在 2030 年至 2060 年之间耗尽
训练语料质量要求高：大模型的训练需要大规模的语料库来进行有效的学习，而这些语料库的质量对模型的表现具有重要影响。确保语料库的准确性、多样性和代表性是一个挑战，特别是对于特定领域的语言模型训练而言，需要考虑到领域专业性和特殊性，以获得更好的训练效果
大语言模型 (Large Language Model, LLM) 文档问答应用中文档解析不精准：在文档问答应用中，大模型需要能够准确地理解和解析输入的文档内容，以便给出精准的回答。然而，由于文档的复杂性和多样性，以及模型对文档内容理解的挑战，导致文档解析的精准度可能存在问题，从而影响了模型的问答表现

大模型面临的挑战

针对以上问题，需要更多、更高质量的训练语料以及高精准、高效率的文档解析，以推动大模型在各个领域的应用和发展。

3. 文档解析技术

文档解析技术是指利用计算机技术对文本文档进行分析和理解的过程，其目标是从文档中提取有用的信息，并将其转化为结构化的数据，以便计算机能够更好地处理和利用这些信息。
无论是大模型的训练还是应用，都需要构建在高质量的数据之上，而高质量的数据来源之一就是人类知识汇集的书籍、论文，无论是文档(包括电子文档和图片文档)内容的识别还是文档元素的识别，都要求文档解析系统的输出结果文档元素识别准确、版面正确解析、转化速度快、阅读顺序还原、避免混乱语序。

3.1 文档解析技术难点

文档解析技术通常需要结合多种算法和技术手段，构建优秀的文档解析系统存在一些典型技术难点，主要包括：

元素遮盖重叠：在一些文档中，元素(如文本、图片、表格等)可能会相互重叠，使得文档解析系统难以准确地识别和提取各个元素。例如，一个 PDF 文档中可能包含多个图层，导致文本与图片相互遮盖，这就需要文档解析系统具有处理遮盖和重叠元素的能力
元素本身的多样性：文档中通常存在多种元素，包括不同格式的文本、各种类型的图片、复杂的表格结构等。例如，文档中的文本可能以不同的字体、大小和颜色呈现，图片可能是照片、图表或手绘图画。因此，文档解析系统需要具有对多样化元素的识别和处理能力
复杂版式：文档通常具有复杂的版式，包括多栏布局、分栏排版、页眉页脚、标号列表等。这些复杂的版式使得文档解析系统难以准确地提取出文本和其他元素的结构信息，尤其是在处理大规模文档集合时，需要系统具备高效的版式分析和处理能力

文档解析技术难点

以上这些技术难点需要文档解析系统具有强大的信息提取能力和对复杂版式的适应能力。为了克服这些挑战，需要结合图像处理、自然语言处理、版面分析等多种技术手段，以提高文档解析系统的准确性和鲁棒性。

3.2 TextIn 文档解析算法流程

针对文档解析典型技术难点，合合信息研发了具备多文档元素识别、版面分析、高性能的文档解析技术—— TextIn 文档解析技术。
TextIn 文档解析技术

TextIn 文档解析技术可以分为三部分。第一部分主要进行文档解析 (Doc Parse)，首先对各种版式、类型的电子、扫描文档进行多页拆分，根据不同的文档类型进行不同处理，如果是电子文档直接进行电子文档 PDF 解析，如果是扫描文档，则需要进行文档图像预处理提升图像质量，并应用通用文档识别引擎得到扫描文档识别结果，然后将两种不同类型的文档数据整合为通用文档文字信息；第二部分主要进行版面解析 (Layout Analysis)，首先进行物理版面分析，分析文档的版面、表格、页眉、页脚等元素，然后进行逻辑版面分析，得到类似目录树的分析结果，最后合并为通用文档层级信息；最后一部分进行文档构建 (Doc Construction)，根据大模型或其他实际应用需要输出内容构建，例如将文档转换为 Markdown 文档等。
TextIn 文档解析算法流程

3.2.1 文档解析

文档解析接受电子档、扫描件作为输入，对文档图像进行预处理后，识别文档中的文字。其中最关键的部分是文档图像预处理算法，文档图像预处理算法是用于提高文档图像质量、增强对后续处理步骤的可靠性和准确性的一系列技术，只有得到高质量的预处理结果，才能准确识别文档中的文本内容，算法框架如下图所示。

预处理框架

在图像处理领域，区域提取是提取图像分析算法所关注的重点，减少图像无关噪声，限定需要进行进一步处理的目标区域，可以减少图像处理时间，并增加处理精度。
文档图像预处理中的干扰去除是指去除图像中可能存在的各种干扰，以提高文档图像的质量和清晰度。在一些文档图像中，可能存在杂乱的干扰(如按在文档上的手指等)，这会影响文本的可读性。
由于相机的姿态、文档放置状态、文档自身变形等不确定因素，在使用移动设备采集文档照片时会出现角度和弯曲变形，这些原始的照片对于文档图像内容的自动提取与分析造成了不利影响，因此需要进行一定的形变矫正处理。对文档图片进行形变矫正还原，对于文档内容的还原有着极大地帮助。合合信息采用 DocUNet 形变矫正网络，通过过预测偏移场迭代式地优化矫正结果，解决了文档图像变形矫正算法抗干扰性差、矫正效果不佳等问题。

形变矫正

使用数码相机拍摄文档时容易出现阴影，而在拍摄电子屏幕时照片中会出现屏幕纹。这些问题不仅严重降低了图像的质量，并且也会影响到我们后续的分析和处理，因此我们需要利用图像文档干扰去除算法去除图像中的无关干扰，恢复图像质量。合合信息采用 UNet 卷积网络提取文档背景，然年利用干扰去除模块去除摩尔纹、光照的影响，得到清晰图像。

干扰去除

图像增强是指通过一系列技术和方法来改善图像的质量、增强图像的对比度和清晰度，以便更好地进行后续的文本识别、分析和提取等任务。
综合应用上述过程，能够得到质量更高的、更清晰的图像，为后续的文本提取和处理任务奠定基础。

文档图像预处理算法效果

3.2.2 版面分析

版面分析可以分为物理版面分析和逻辑版面分析两个方面。物理版面分析主要是指对文档的视觉排版进行分析，即识别出文档中的各种视觉元素(如文本、图片、表格、分隔线等)，并判断其在文档页内的位置、大小、颜色等属性，物理版面分析通常需要进行图像处理和计算机视觉等技术的支持，以提取文档中的视觉信息。逻辑版面分析则是指对文档的逻辑结构进行分析，即识别出文档中各种语义元素的类型和语义关系(如标题、正文、段落、列表、脚注、注释等)，并将其转换成可机器读取的结构化数据，逻辑版面分析通常需要进行自然语言处理、机器学习等技术的支持，以便于理解文本的语义信息。

版面分析

物理版面分析侧重于视觉特征。主要任务是把相关性高的文字聚合到一个区域，比如一个段落，一个表格等等。综合考虑任务难度和推理速度，合合信息选用目标检测任务进行建模，使用基于回归的单阶段检测模型进行拟合，更多关注数据和模型小规模调优，从而获得文档中各种各样的布局方式。

物理版面分析

逻辑版面分析侧重于语义特征。主要任务是把不同的文字块根据语义建模，比如通过语义的层次关系形成一个树状结构。但真实世界的文档有着极为丰富的布局类型，无法简单的用层次化结构涵盖所有情况。所以判别式的技术路线，可以处理好大部分的文档，但无法真正对真实世界中各式各样的文档进行良好的版面分析。近年来的开放词汇目标检测，视觉语义对齐等工作，以及生成式模型等前沿进展，都给版面分析带来新的研究思路。合合信息逻辑版面分析算法通过 Transformer 架构，预测旁系类型与父子类型，得到目录树输出。

逻辑版面分析

3.2.3 文档构建

文档构建将扫描得到的文档图像转换为具有可编辑性和复制性的电子文档(如 PDF、Word 和 Excel 等)，还原原始文档页面布局和文本格式，应用于自动化文本排版、电子书制作、期刊杂志制作等领域。它可以大幅缩短排版时间和成本，提高生产效率和质量，并且解决了传统排版中可能出现的人为错误和疏漏问题。

文档构建架构

合合信息提出的文档构建系统综合了文字检测识别、版面元素检测识别、图层分离、排版布局等一系列深度学习模型，并通过合理的方式糅合各个模块，并搭配文档渲染引擎，最终生成可供用户编辑修改的 Word/Excel 文档。合合信息文档还原模型的效果如下所示：

文档构建

4. 大模型时代文档解析技术展望

现阶段，相较于直接使用原始文档图像进行问答，结合 TextIn 文档解析技术，大语言模型已经可以得到更高的文档问答精度。

文档解析技术+大模型

在大模型时代，文档解析技术有望迎来更多创新和发展，同时这些发展也将进一步推动大模型的训练与应用：

更准确的文本识别：随着大型预训练语言模型(如 BERT、GPT-3 等)的出现，文档解析系统可以受益于这些模型在文本识别任务上的优异表现，提高对文档中文字的准确性和鲁棒性
端到端的文档理解：大模型的出现使得文档解析系统可以更好地实现端到端的文档理解，从文档图像或电子文档直接提取语义信息，以支持更精准的数据分析
多模态文档解析：大模型的发展使得文档解析系统可以更好地处理多模态文档，即同时包含文本、图像、表格等多种元素的文档，从而更全面地理解和分析文档内容
强化学习应用：结合大模型和强化学习技术，文档解析系统有望实现更智能的文档处理和理解，例如自动调整模型参数以适应不同类型的文档结构和内容

随着技术的不断进步，感知与认知的结合将会为用户带来更加智能、高效、便捷的图像文档处理体验，实现更深入的语义理解和分析，从而提高文档的组织、分类和检索等方面的效率和精度。期待合合信息在模式识别、深度学习、图像处理和自然语言处理等领域继续深入探索和研究，以推动技术创新。

小结

探索文档解析技术以推动大模型训练与应用是当今人工智能领域的重要课题之一，通过综合运用自然语言处理和计算机视觉等先进技术，构建能够自动识别、提取和理解文档内容的高效文档解析系统，为大模型训练提供了丰富的训练数据，并为大模型应用提供更多可能性。通过将文档解析技术与大模型相结合，可以实现更精准的信息抽取和语义理解，为用户提供更高效的决策支持。在本文中，通过回顾对合合信息在中国图象图形大会 (CCIG 2024) 中关于文档解析技术加速大模型训练与应用的分享，分析了大模型训练与应用面临的训练 Token 耗尽、训练语料质量要求高和 LLM 文档问答应用中文档解析不精准等问题，介绍了合合信息针对这些问题研发的具备多文档元素识别、版面分析、高性能的文档解析技术。