VALSE 2024合合信息 | 文档解析与向量化技术加速多模态大模型训练与应用

第十四届视觉与学习青年学者研讨会（VALSE 2024）近期在重庆悦来国际会议中心圆满举行，由中国人工智能学会（CAAI）、中国图象图形学会（CSIG）、中国民族贸易促进会主办，重庆邮电大学承办。与会专家学者围绕计算机视觉、图像处理、模式识别与机器学习研究领域等国内外前沿热点进行深入研讨。

本次大会共计开展数十场AI领域学术精彩纷呈的研讨报告，同时也吸引数千名来自学术界及产业界的视觉和机器学习领域青年学者参与，为计算机视觉、图像处理、模式识别、多媒体与机器学习研究领域内的青年学者们提供了一个深层次、纯粹学术及技术交流的舞台。

在大会的 VALSE 2014 Workshop 环节，作为领先的人工智能厂商，合合信息就《文档解析与向量化技术加速多模态大模型训练与应用》主题进行了分享，针对当下智能文档处理所面临的技术难题以及合合信息在文档图像分析与预处理方面的技术研究展开讨论。

1、大模型与文档图像处理

2023年以CHAT GPT为代表的大规模语言模型风靡全球，同时以GPT-4V为代表的多模态大模型也倍受关注。多模态技术可充分利用文档图像的视觉和语言属性，并借助语言大模型已取得的优异性能和技术积累，正逐渐成为文档图像处理领域的热门研究方向。从微软对GPT-4V做的测评报告中可以看出GPT-4V在场景文字识别、语言形态、语言种类、手写识别、公式识别、几何图形识别、表格理解等方面的表现非常惊艳，针对复杂图表分析理解、文档抽取和推理结果也十分出色。

但文档解析领域的核心问题依然存在，文档图像分析识别与理解的技术难题主要包括以下方面：

1）场景及版式多样：文档图像可能来自不同的场景和版式，如报纸、书籍、手写笔记等，每种场景和版式都具有不同的特点和挑战，需要算法能够适应不同的场景和版式。
2）采集设备不确定性：文档图像可能通过不同的采集设备获取，如扫描仪、手机相机等，不同设备的成像质量和参数不同，导致图像质量和特征的差异，需要算法具备鲁棒性，能够处理不同设备采集的图像。
3）用户需求多样性：用户对文档图像的需求各不相同，有些用户可能只需要提取文本信息，而有些用户可能需要进行结构化的理解和分析，算法需要能够满足不同用户的需求。
4）文档图像质量退化严重：由于文档的老化、损坏或存储条件等原因，文档图像的质量可能会受到严重的退化，如模糊、噪声、光照不均等，这会给文字检测、字符识别等任务带来困难。
5）文字检测及版面分析困难：文档图像中的文字可能存在不同的字体、大小、颜色等变化，而且文字可能与背景颜色相似，导致文字检测和版面分析变得困难，算法需要具备高效准确的文字检测和版面分析能力。
6）非限定条件文字识别率低：在非限定条件下，文档图像中的文字可能出现扭曲、变形、遮挡等情况，这会导致传统的文字识别算法的准确率下降，需要算法具备对非限定条件下的文字进行准确识别的能力。
7）结构化智能理解能力差：文档图像中的信息不仅仅是文字，还包括表格、图表、图像等结构化信息，算法需要具备结构化智能理解的能力，能够对文档中的结构化信息进行提取、分析和理解。

2、文档图像解析领域的典型技术难点问题

文档中通常含有大量的图片、表格等非文字内容，除文字信息外，其版面往往包含页眉、页脚、表格、二维码等多种元素。在向文档解析系统输入文档图像后，系统会对文字部分和版面元素进行分析和识别，把若干行文字关联起来，从而获得正确的顺序与段落关系。在文档解析的过程中，有如下几个典型的技术难点问题：

1）版面检测

文档中有各种复杂的布局和版面（比如双栏、跨页、三栏等），需要准确地识别出文档中版面结构。

2）阅读顺序还原

要有效识别文档中的标题、段落、图像等元素，并还原文档的原始版面结构，以便后续的信息抽取和理解。

3）表格还原

文档中可能包含有各种样式的表格数据或文字，要有效地还原这些表格，就需要识别出无线表格和合并单元格等关键信息。

4）公式识别

文档中可能在不同的位置嵌入了各种公式，比如单行公式、行内公式、表格内公式等。

3、合合信息的智能文档解析技术

为了解决上述文档解析的诸多技术难题，合合信息将智能文档处理研究主题分成了以下六个模块：

合合信息的文档解析技术框架如下所示：

合合信息通过图像分析、文档解析、版面分析、信息抽取、安全保障和知识化管理等方法，实现了智能文档解析处理的全流程，提供了高效、准确和安全的文档解析处理服务。

文档图像分析与预处理：通过图像处理技术对文档图像进行分析和预处理，去除噪声、调整图像亮度和对比度等，以提高后续处理的准确性和效果。
文档解析与识别：在图像预处理之后，采用光学字符识别（OCR）技术对文档进行解析和识别，将图像中的文字转换为可编辑和可搜索的文本格式，以便后续处理和分析。
版面分析与还原：进行版面分析，识别文档中的标题、段落、表格、图像等元素，并还原文档的原始版面结构，以便后续的信息抽取和理解。
文档信息抽取与理解：利用自然语言处理（NLP）和机器学习技术，对文档中的关键信息进行抽取和理解，以获取业务实际场景所需要的关键信息。
AI图像内容安全：检查文档图像是否有篡改、合成、生成痕迹，保障文档图像安全。
知识化&存储检索和管理：将处理后的文档信息进行知识化，以便于后续的存储、检索和管理，用户可快速找到所需的文档或信息。

4、合合信息文档图像专有模型

随着人工智能技术的不断发展，尤其是深度学习技术的广泛应用，多模态数据处理和大模型训练已成为当下研究的热点之一，这些技术也为文档图像智能处理和分析领域带来了新的发展机遇。

多模态大模型时代下的文档图像智能分析与处理的研究旨在通过运用多种数据类型，如文本、图像、音频等，并借助大规模深度学习模型的训练，来实现对文档图像内容的更加准确和全面的理解和分析。综合使用多模态数据训练大模型可以极大地提高文档图像处理和分析的效率和精度，进而推动相关行业的数字化转型和智能化升级。

为了将大模型与文档图像解析技术有效地结合起来，合合信息推出了基于深度学习技术的文档图像专有模型。

该模型基于深度神经网络结构，经过了海量数据的训练和优化，拥有强大的文档图像处理能力。它可以识别和提取文档中的文字、表格、图形等信息，实现自动化的文档解析和理解。在多个领域都有广泛的应用，例如金融、法律、医疗等。它可以帮助企业和个人实现文档的自动化处理，提高工作效率，减少人工成本。

对于不同模态的数据具有不同的特点和表达方式，如何有效地将它们进行融合和交互是一个关键问题。其次，多模态大模型需要处理更加复杂和庞大的数据，对计算资源和模型设计提出了更高的要求。另外，多模态数据的标注和训练也是一个挑战，因为不同模态之间的关联和对齐需要更加精细的处理。

合合信息将文档图像识别分析的各种任务定义为序列预测的形式（文本，段落，版面分析，表格，公式等等），再通过不同的prompt引导模型完成不同的OCR任务，支持篇章级的文档图像识别分析，输出Markdown/HTML/Text等标准格式，最后将文档理解相关的工作交给LLM去做。

总的来说，文档图像大模型主要包括以下功能：

文字识别与提取：能够对文档图像中的文字进行准确识别，并提取出文字内容。无论是印刷体还是手写体，多种语言都可以被识别。
文档结构分析：能够智能地分析文档的结构，识别出标题、段落、列表、表格等不同的结构元素，帮助用户更好地理解文档的组织结构。
表格解析与提取：能够自动识别和解析文档中的表格结构，提取出表格中的数据，并将其转化为结构化的数据形式，方便后续的数据处理和分析。
关键信息提取：能够从文档中提取出关键信息，如日期、金额、公司名称等，帮助用户快速获取文档中的重要内容。
文档分类与检索：能够根据文档的内容和特征，将文档进行分类和索引，方便用户进行文档管理和检索，提高工作效率。

5、合合信息的文本向量化模型

在信息化时代，文本数据呈爆炸式增长，如何高效、准确地处理和分析这些文本数据，成为各行各业亟待解决的问题。基于此文本向量化技术应运而生，它可以将文本转换为数值向量（也就是计算机能够理解的数值形式），是自然语言处理中的一项基础技术。通过文本向量化，文本内容被转换为计算机可以处理的形式，从而便于后续的分析和挖掘工作。

近日合合信息基于其高效的文本处理能力以及强大的语义信息捕捉能力，发布了文本向量化模型 acge_text_embedding，该模型在 MTEB 中文榜单（C-MTEB）中一举夺魁，成为业内瞩目的焦点。

这次最新发布的acge_text_embedding 模型属于Word Embeddings模型，适用于情感分析、文本生成等复杂的NLP任务。这一模型获得MTEB中文榜单（C-MTEB）第一的成绩，相关成果将有助于大模型更快速地在千行百业中产生应用价值。可以看到acge模型在分类、聚类任务准确率很高；应用场景广泛，在相似性检索、信息检索和推荐系统中都有很好的效果；模型在设计时考虑到不同行业，不算规模应用的需要，支持定制服务，满足多样化需求。不仅如此，与榜单前五名其他几个模型相比，acge模型占用资源少；模型输入长度较长，可以满足上下文关联的需求；支持可变输出维度，可以根据具体场景合理分配资源。

合合信息算法团队在模型升级迭代过程中采取了多项措施，以克服行业中存在的技术难点，并不断优化Embedding模型的性能和效果。在信息检索领域，该模型能够准确捕捉用户查询意图，提高检索结果的准确性和相关性；在自然语言理解领域，模型能够深入理解文本含义，为机器翻译、问答系统等应用提供强大支持；在情感分析领域，模型能够准确识别文本中的情感倾向，为企业决策提供有力依据。acge_text_embedding 模型具体主要应用领域如下：

搜索优化：通过 acge_text_embedding 模型，搜索引擎可以根据查询字符串和文档之间的向量相似性来排名搜索结果。由于模型能够深入理解文本语义，因此排名靠前的内容通常与查询字符串最为相关，从而提高了搜索的准确性和效率。
文本分类：在文本聚类任务中，acge_text_embedding 模型可以度量文本之间的相似性，从而将文本分组成不同的类别或簇。使用已经预训练好的 Embedding 模型来提取文本特征，并通过分类器（如 SVM、LR 等）对文本进行分类。例如，对于新闻文本，我们可以使用 Embedding 技术将文本转换为向量，然后利用分类器判断新闻的类别（如体育、科技、娱乐等）。
语义相似度计算：acge_text_embedding 模型可以帮助构建用户和项目的表示特征，使得推荐系统可以根据用户的历史行为或偏好，计算用户向量与项目向量之间的相似度，从而向用户推荐具有相关性的项目。无论是电商产品推荐、音乐或视频推荐还是新闻资讯推荐，该模型都能发挥重要作用。
异常检测：在异常检测任务中 acge_text_embedding 模型也可发挥重要作用，将文本数据映射到一个向量空间中，并通过度量文本向量与正常数据之间的距离或相似性来识别与正常行为不同的异常值。这对于监控网络舆情、发现欺诈行为或预测系统故障等方面非常有用。
情感分析：利用 Embedding 技术将文本转换为向量，然后利用机器学习算法（如 SVM、神经网络等）对文本进行情感分析，判断文本的情感倾向（如正面、负面、中性）。

6、合合信息

上海合合信息科技股份有限公司（简称“合合信息”），是行业领先的人工智能及大数据科技企业，致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。

合合信息官网：https://www.intsig.com/

公司C端业务主要为全球个人用户的3个APP产品，包括扫描全能王（智能扫描及文字识别APP）、名片全能王（智能名片及人脉管理APP）、启信宝（企业商业信息查询APP）3款核心产品。公司B端业务为企业客户提供以智能文字识别、商业大数据为核心的服务，帮助客户切实解决了降本增效、改善风控、高效获客的业务痛点，提供了较高的技术附加值。目前已在银行、保险、证券、基金、汽车金融、供应链金融、政务、制造、物流、地产、征信等多个行业实现成熟应用。

7、最后

合合信息采用文档解析与向量化技术来加速多模态大模型的训练与应用，这种技术的核心是将各种类型的文档（如文本、图像、音频等）转换成机器可理解的向量表示，从而实现对多模态数据的统一处理和分析。

文档解析技术通常涉及对文档进行结构化处理，将文本内容提取出来，并根据需要进行标记、分类等操作。这有助于提高数据的可用性和可分析性。
向量化技术则是将文档内容映射到向量空间中，从而将文档表示为数学上的向量形式。这种表示方法有利于计算机进行高效的数据处理和分析，同时也为模型训练提供了更好的数据表示。
多模态大模型的训练与应用需要处理各种类型的数据，包括文本、图像、音频等。通过文档解析与向量化技术，可以将这些不同类型的数据统一表示为向量形式，从而使得模型可以更好地处理和理解多模态数据。

总的来说，文档解析与向量化技术为多模态大模型的训练与应用提供了重要的技术支持，能够加速模型的训练过程并提高模型的效果和性能。