探索文档解析技术,推动大模型训练与应用

news2024/11/16 22:33:42

探索文档解析技术,推动大模型训练与应用

    • 0. 前言
    • 1. CCIG 2024
      • 1.1 会议简介
      • 1.2 大模型技术及其前沿应用论坛
      • 1.3 走进合合信息
    • 2. 大模型时代
      • 2.1 大模型的发展与应用
      • 2.2 大模型面临的挑战
    • 3. 文档解析技术
      • 3.1 文档解析技术难点
      • 3.2 TextIn 文档解析算法流程
    • 4. 大模型时代文档解析技术展望
    • 小结
    • 相关链接

0. 前言

探索文档解析技术是推动大模型训练与应用的重要一环。随着信息的爆炸式增长,文档数据成为了重要的数据来源之一,这些数据以多种形式存在,包括结构化数据、非结构化文本和图像等。因此,有效地解析和理解这些文档数据对于提升大模型性能与拓展大模型应用至关重要。
在此背景下,大模型训练与应用需要依赖先进的文档解析技术来处理复杂的文档数据。通过利用自然语言处理、计算机视觉等技术,开发出能够自动识别、提取和理解文档内容的工具和算法,不仅可以实现文档的自动分类、信息抽取和语义理解,还可以为大模型的训练提供丰富的、高质量的训练数据。
在本节中,我们将回顾来自合合信息的智能创新事业部研发总监常扬在中国图象图形大会 (CCIG 2024) 中关于文档解析技术加速大模型训练与应用的分享,介绍大模型训练和应用过程的关键环节面临的挑战,探索当前高性能的文档解析技术。

1. CCIG 2024

1.1 会议简介

2024524 日 - 26 日在陕西省西安市曲江国际会议中心成功召开了中国图象图形大会 (CCIG 2024),多位院士、教授出席了 CCIG 2024,并作大会主旨报告,百余位国内知名学者以及企业专家齐聚西安,开启“最强大脑”学术盛宴。

1.2 大模型技术及其前沿应用论坛

近年来,大模型技术已成为推动人工智能技术革新的一个重要基础性技术,其广泛应用将对不同的科学研究和产业应用领域产生深远影响。大模型技术及其前沿应用论坛集中关注大模型研究的最新进展及前沿应用,特邀学术界及产业界嘉宾,介绍大模型前沿技术、大模型加速科学研究、多模态基础模型的最新进展与应用。《大模型技术及其前沿应用论坛》旨在推动计算机视觉、自然语言处理、基础科学研究及行业应用的跨界融合与技术发展。在本次论坛上,围绕大模型的最新技术进展、前沿应用及未来发展趋势进行深入探讨与交流。

1.3 走进合合信息

作为智能文档处理领域的代表,合合信息出席了 CCIG 2024 大会,在大模型技术及其前沿应用论坛上分享了合合信息关于文档解析技术加速大模型训练与应用的研发与实践成果,在解决大模型训练和应用过程的关键环节面临的问题中所做的一些相关研究成果,并重点介绍了在文档解析技术领域的工作进展。
合合信息是行业领先的人工智能及大数据科技企业,专注于智能文字识别、图像处理、自然语言处理、知识图谱、大数据挖掘等技术,其研发的智能图像处理引擎提供多种图像智能处理黑科技,例如图像切边增强、PS 篡改检测以及图像矫正等,其自研的 TextIn 文档解析系统具备多文档元素识别、版面分析、高性能等优势,相关黑科技的体验可以登录合合信息官网。

合合信息

2. 大模型时代

2.1 大模型的发展与应用

大模型的发展可以追溯到深度学习技术的兴起,深度学习是一种基于人工神经网络结构,利用多层次的非线性变换对数据进行建模和抽象表示的机器学习方法。近年来,随着计算能力、数据规模和算法优化的不断提升,深度学习才成为人工智能领域的重要技术之一。
2012 年,Hinton 等人提出了 AlexNet 模型,深度卷积神经网络在 ImageNet 图像识别比赛中取得了实质性突破,从而引发了新一轮的深度学习热潮。这一突破表明了深度学习在计算机视觉领域的巨大潜力,也为后续大模型的发展奠定了基础。
随后,深度学习技术在计算机视觉、自然语言处理、语音识别等领域取得了重大进展,大模型也成为了推动这些进展的关键技术之一。此后,随着深度学习技术的不断发展和优化,大型预训练模型如 BERT (Bidirectional Encoder Representations from Transformers)、GPT (Generative Pre-trained Transformer)、T5 (Text-to-Text Transfer Transformer) 等相继问世,这些大模型在自然语言处理领域取得了突破性进展。
在计算机视觉领域,如 ViTSAMSora 等大模型也取得了巨大成功,广泛应用于图像识别、图像分割、视频生成等任务。这些大模型的出现和不断优化,极大地推动了计算机视觉领域的发展,使得人工智能技术在图像理解和处理方面取得了前所未有的成就。
除了在计算机视觉和自然语言处理领域的成功应用外,大模型还在其他领域展现出了巨大的应用潜力。例如,在医疗影像诊断领域,大模型被应用于医学影像的识别和分析,帮助医生快速准确地发现疾病迹象,提高了诊断的准确性和效率;在金融领域,大模型被用于风险评估、交易策略优化和欺诈检测等方面,为金融行业提供了强大的智能决策支持;在智能交通领域,大模型被应用于交通流量预测、智能驾驶系统和交通信号优化等方面,为城市交通管理和智能交通系统的建设提供了重要技术支持。

大模型

而在文档图像智能处理领域,随着大模型的深入研究和发展,使得处理具有多种类型和来源的文档数据变得更加容易和精确。例如,可以通过使用大模型来实现文档图像的内容理解和分类,并且可以使用大规模深度学习模型进行训练与推理,从而取得更好的效果和性能。
随着大模型的发展,其应用场景也在不断拓展,在多个领域都展现出了巨大的潜力和应用前景。大模型的不断优化和推广,为人工智能技术的发展注入了新的活力和动力,并将进一步推动人工智能技术在实际场景的广泛应用。

2.2 大模型面临的挑战

大模型在取得巨大成功的同时也在训练和应用过程中的关键环节面临着一些问题,主要包括:

  • 训练 Token 即将耗尽:在训练大规模语言模型时,模型参数庞大、训练数据量巨大,现有人类社会生成的包含社交文本在内的互联网数据也不能够完全支持大语言模型的优化升级。研究报告表明,在未来两年内,大模型训练将用尽互联网上包含音视频在内的高质量数据格式,而现存 (包括未来生成的) 数据集或将在 2030 年至 2060 年之间耗尽
  • 训练语料质量要求高:大模型的训练需要大规模的语料库来进行有效的学习,而这些语料库的质量对模型的表现具有重要影响。确保语料库的准确性、多样性和代表性是一个挑战,特别是对于特定领域的语言模型训练而言,需要考虑到领域专业性和特殊性,以获得更好的训练效果
  • 大语言模型 (Large Language Model, LLM) 文档问答应用中文档解析不精准:在文档问答应用中,大模型需要能够准确地理解和解析输入的文档内容,以便给出精准的回答。然而,由于文档的复杂性和多样性,以及模型对文档内容理解的挑战,导致文档解析的精准度可能存在问题,从而影响了模型的问答表现

大模型面临的挑战

针对以上问题,需要更多、更高质量的训练语料以及高精准、高效率的文档解析,以推动大模型在各个领域的应用和发展。

3. 文档解析技术

文档解析技术是指利用计算机技术对文本文档进行分析和理解的过程,其目标是从文档中提取有用的信息,并将其转化为结构化的数据,以便计算机能够更好地处理和利用这些信息。
无论是大模型的训练还是应用,都需要构建在高质量的数据之上,而高质量的数据来源之一就是人类知识汇集的书籍、论文,无论是文档(包括电子文档和图片文档)内容的识别还是文档元素的识别,都要求文档解析系统的输出结果文档元素识别准确、版面正确解析、转化速度快、阅读顺序还原、避免混乱语序。

3.1 文档解析技术难点

文档解析技术通常需要结合多种算法和技术手段,构建优秀的文档解析系统存在一些典型技术难点,主要包括:

  • 元素遮盖重叠:在一些文档中,元素(如文本、图片、表格等)可能会相互重叠,使得文档解析系统难以准确地识别和提取各个元素。例如,一个 PDF 文档中可能包含多个图层,导致文本与图片相互遮盖,这就需要文档解析系统具有处理遮盖和重叠元素的能力
  • 元素本身的多样性:文档中通常存在多种元素,包括不同格式的文本、各种类型的图片、复杂的表格结构等。例如,文档中的文本可能以不同的字体、大小和颜色呈现,图片可能是照片、图表或手绘图画。因此,文档解析系统需要具有对多样化元素的识别和处理能力
  • 复杂版式:文档通常具有复杂的版式,包括多栏布局、分栏排版、页眉页脚、标号列表等。这些复杂的版式使得文档解析系统难以准确地提取出文本和其他元素的结构信息,尤其是在处理大规模文档集合时,需要系统具备高效的版式分析和处理能力

文档解析技术难点

以上这些技术难点需要文档解析系统具有强大的信息提取能力和对复杂版式的适应能力。为了克服这些挑战,需要结合图像处理、自然语言处理、版面分析等多种技术手段,以提高文档解析系统的准确性和鲁棒性。

3.2 TextIn 文档解析算法流程

针对文档解析典型技术难点,合合信息研发了具备多文档元素识别、版面分析、高性能的文档解析技术—— TextIn 文档解析技术。
TextIn 文档解析技术

TextIn 文档解析技术可以分为三部分。第一部分主要进行文档解析 (Doc Parse),首先对各种版式、类型的电子、扫描文档进行多页拆分,根据不同的文档类型进行不同处理,如果是电子文档直接进行电子文档 PDF 解析,如果是扫描文档,则需要进行文档图像预处理提升图像质量,并应用通用文档识别引擎得到扫描文档识别结果,然后将两种不同类型的文档数据整合为通用文档文字信息;第二部分主要进行版面解析 (Layout Analysis),首先进行物理版面分析,分析文档的版面、表格、页眉、页脚等元素,然后进行逻辑版面分析,得到类似目录树的分析结果,最后合并为通用文档层级信息;最后一部分进行文档构建 (Doc Construction),根据大模型或其他实际应用需要输出内容构建,例如将文档转换为 Markdown 文档等。
TextIn 文档解析算法流程

3.2.1 文档解析

文档解析接受电子档、扫描件作为输入,对文档图像进行预处理后,识别文档中的文字。其中最关键的部分是文档图像预处理算法,文档图像预处理算法是用于提高文档图像质量、增强对后续处理步骤的可靠性和准确性的一系列技术,只有得到高质量的预处理结果,才能准确识别文档中的文本内容,算法框架如下图所示。

预处理框架

在图像处理领域,区域提取是提取图像分析算法所关注的重点,减少图像无关噪声,限定需要进行进一步处理的目标区域,可以减少图像处理时间,并增加处理精度。
文档图像预处理中的干扰去除是指去除图像中可能存在的各种干扰,以提高文档图像的质量和清晰度。在一些文档图像中,可能存在杂乱的干扰(如按在文档上的手指等),这会影响文本的可读性。
由于相机的姿态、文档放置状态、文档自身变形等不确定因素,在使用移动设备采集文档照片时会出现角度和弯曲变形,这些原始的照片对于文档图像内容的自动提取与分析造成了不利影响,因此需要进行一定的形变矫正处理。对文档图片进行形变矫正还原,对于文档内容的还原有着极大地帮助。合合信息采用 DocUNet 形变矫正网络,通过过预测偏移场迭代式地优化矫正结果,解决了文档图像变形矫正算法抗干扰性差、矫正效果不佳等问题。

形变矫正

使用数码相机拍摄文档时容易出现阴影,而在拍摄电子屏幕时照片中会出现屏幕纹。这些问题不仅严重降低了图像的质量,并且也会影响到我们后续的分析和处理,因此我们需要利用图像文档干扰去除算法去除图像中的无关干扰,恢复图像质量。合合信息采用 UNet 卷积网络提取文档背景,然年利用干扰去除模块去除摩尔纹、光照的影响,得到清晰图像。

干扰去除

图像增强是指通过一系列技术和方法来改善图像的质量、增强图像的对比度和清晰度,以便更好地进行后续的文本识别、分析和提取等任务。
综合应用上述过程,能够得到质量更高的、更清晰的图像,为后续的文本提取和处理任务奠定基础。

文档图像预处理算法效果

3.2.2 版面分析

版面分析可以分为物理版面分析和逻辑版面分析两个方面。物理版面分析主要是指对文档的视觉排版进行分析,即识别出文档中的各种视觉元素(如文本、图片、表格、分隔线等),并判断其在文档页内的位置、大小、颜色等属性,物理版面分析通常需要进行图像处理和计算机视觉等技术的支持,以提取文档中的视觉信息。逻辑版面分析则是指对文档的逻辑结构进行分析,即识别出文档中各种语义元素的类型和语义关系(如标题、正文、段落、列表、脚注、注释等),并将其转换成可机器读取的结构化数据,逻辑版面分析通常需要进行自然语言处理、机器学习等技术的支持,以便于理解文本的语义信息。

版面分析

物理版面分析侧重于视觉特征。主要任务是把相关性高的文字聚合到一个区域,比如一个段落,一个表格等等。综合考虑任务难度和推理速度,合合信息选用目标检测任务进行建模,使用基于回归的单阶段检测模型进行拟合,更多关注数据和模型小规模调优,从而获得文档中各种各样的布局方式。

物理版面分析

逻辑版面分析侧重于语义特征。主要任务是把不同的文字块根据语义建模,比如通过语义的层次关系形成一个树状结构。但真实世界的文档有着极为丰富的布局类型,无法简单的用层次化结构涵盖所有情况。所以判别式的技术路线,可以处理好大部分的文档,但无法真正对真实世界中各式各样的文档进行良好的版面分析。近年来的开放词汇目标检测,视 觉语义对齐等工作,以及生成式模型等前沿进展,都给版面分析带来新的研究思路。合合信息逻辑版面分析算法通过 Transformer 架构,预测旁系类型与父子类型,得到目录树输出。

逻辑版面分析

3.2.3 文档构建

文档构建将扫描得到的文档图像转换为具有可编辑性和复制性的电子文档(如 PDFWordExcel 等),还原原始文档页面布局和文本格式,应用于自动化文本排版、电子书制作、期刊杂志制作等领域。它可以大幅缩短排版时间和成本,提高生产效率和质量,并且解决了传统排版中可能出现的人为错误和疏漏问题。

文档构建架构

合合信息提出的文档构建系统综合了文字检测识别、版面元素检测识别、图层分离、排版布局等一系列深度学习模型,并通过合理的方式糅合各个模块,并搭配文档渲染引擎,最终生成可供用户编辑修改的 Word/Excel 文档。合合信息文档还原模型的效果如下所示:

文档构建

4. 大模型时代文档解析技术展望

现阶段,相较于直接使用原始文档图像进行问答,结合 TextIn 文档解析技术,大语言模型已经可以得到更高的文档问答精度。

文档解析技术+大模型

在大模型时代,文档解析技术有望迎来更多创新和发展,同时这些发展也将进一步推动大模型的训练与应用:

  • 更准确的文本识别:随着大型预训练语言模型(如 BERTGPT-3 等)的出现,文档解析系统可以受益于这些模型在文本识别任务上的优异表现,提高对文档中文字的准确性和鲁棒性
  • 端到端的文档理解:大模型的出现使得文档解析系统可以更好地实现端到端的文档理解,从文档图像或电子文档直接提取语义信息,以支持更精准的数据分析
  • 多模态文档解析:大模型的发展使得文档解析系统可以更好地处理多模态文档,即同时包含文本、图像、表格等多种元素的文档,从而更全面地理解和分析文档内容
  • 强化学习应用:结合大模型和强化学习技术,文档解析系统有望实现更智能的文档处理和理解,例如自动调整模型参数以适应不同类型的文档结构和内容

随着技术的不断进步,感知与认知的结合将会为用户带来更加智能、高效、便捷的图像文档处理体验,实现更深入的语义理解和分析,从而提高文档的组织、分类和检索等方面的效率和精度。期待合合信息在模式识别、深度学习、图像处理和自然语言处理等领域继续深入探索和研究,以推动技术创新。

小结

探索文档解析技术以推动大模型训练与应用是当今人工智能领域的重要课题之一,通过综合运用自然语言处理和计算机视觉等先进技术,构建能够自动识别、提取和理解文档内容的高效文档解析系统,为大模型训练提供了丰富的训练数据,并为大模型应用提供更多可能性。通过将文档解析技术与大模型相结合,可以实现更精准的信息抽取和语义理解,为用户提供更高效的决策支持。在本文中,通过回顾对合合信息在中国图象图形大会 (CCIG 2024) 中关于文档解析技术加速大模型训练与应用的分享,分析了大模型训练与应用面临的训练 Token 耗尽、训练语料质量要求高和 LLM 文档问答应用中文档解析不精准等问题,介绍了合合信息针对这些问题研发的具备多文档元素识别、版面分析、高性能的文档解析技术。

相关链接

多模态大模型时代下的文档图像智能分析与处理
智能文档图像处理技术:解决大数据时代文档图像处理难题
探索文档图像大模型,提升智能文档处理性能

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1717064.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

UE5 Http Server

前言 最近要用UE 作为一个服务器去接收来自外部的请求,从而在UE中处理一些内容,但是之前只做过请求,哪整过这玩意,短期内还得出结果,那怎么搞嘞,本着省事的原则就找找呗,有没有现成的&#xff0…

【基础算法总结】位运算

位运算 1.基础位运算2.常见用法总结3.面试题 01.01. 判定字符是否唯一4.丢失的数字5.两整数之和6.只出现一次的数字 II7.面试题 17.19. 消失的两个数字 点赞👍👍收藏🌟🌟关注💖💖 你的支持是对我最大的鼓励…

CCIG 2024:合合信息文档解析技术突破与应用前景

目录 背景当前大模型训练和应用面临的问题训练Token耗尽训练语料质量要求高LLM文档问答应用中文档解析不精准 合合信息的文档解析技术1. 具备多文档元素识别能力2. 具备版面分析能力3. 高性能的文档解析4. 高精准、高效率的文档解析文档多板式部分示例 文档解析典型技术难点元素…

Go Modules 使用

文章参考https://blog.csdn.net/wohu1104/article/details/110505489 不使用Go Modules,所有的依赖包都是存放在 GOPATH /pkg下,没有版本控制。如果 package 没有做到完全的向前兼容,会导致多个项目无法运行(包版本需求不同)。 于是推出了g…

JVM学习-类加载过程(一)

概述 在Java中数据类型分为基本数据类型和引用数据类型,基本数据类型由虚拟机预先定义,引用数据类型则需要进行类的加载按Java虚拟机规范,从class文件加载到内存中的类,到类卸载出内存为止,它的整个生命周期包含以下7…

Java 异常处理中try-catch块、finally子句以及自定义异常的使用

Java 异常处理是 Java 语言中非常重要的一部分,用来处理程序运行过程中可能发生的各种异常情况,确保程序的稳定性和可靠性。 一、Java 异常处理概述 异常是程序运行过程中出现的非正常情况。Java 使用异常类(Exception 类及其子类&#xff…

建WordPress主题官网模板

蓝色的中文WordPress企业模板 https://www.zhanyes.com/qiye/6305.html 暗红色WordPress律师事务所网站模板 https://www.zhanyes.com/qiye/23.html 红色大banner图WordPress外贸网站模板 https://www.zhanyes.com/waimao/27.html

【C语言】探索文件读写函数的全貌

🌈个人主页:是店小二呀 🌈C语言笔记专栏:C语言笔记 🌈C笔记专栏: C笔记 🌈喜欢的诗句:无人扶我青云志 我自踏雪至山巅 🔥引言 本章将介绍文件读取函数的相关知识和展示使用场景&am…

AI自动化办公:批量将Excel表格英文内容翻译为中文

有一个50列的表格,里面都是英文,要翻译成中文: 在ChatGPT中输入提示词: 你是一个开发AI大模型应用的Python编程专家,要完成以下任务的Python脚本: 打开Excel文件:"F:\AI自媒体内容\AI行业…

harbor -- docker私有仓库安装配置

1 安装docker-compose $ curl -L "https://get.daocloud.io/docker/compose/releases/download/v1.25.2/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose $ chmod x /usr/local/bin/docker-compose 2 安装配置harbor $ wget https://g…

JS-51-Node.js10-yarn

一、yarn的简介 Yarn 是一款 JavaScript 的包管理工具(npm的代替方案),是 Facebook, Google, Exponent 和 Tilde 开发的一款新的 JavaScript 包管理工具。 正如 Yarn 官网的介绍,Yarn 的具有速度快 、安全 、可靠 的优点&#x…

嘉立创使用gif

新建原理图 边框设置2 新建pcb图 放置焊盘 排列焊盘 新建符号 封号向导 新建封装 封装向导 符号与封装联结 原件查找 drc设计规则(线之间的距离等 布线冲突 顶底层切换 T ,B 顶底连线,自动创造过孔 铺铜 泪滴 网格大小 吸附 元件库

民国漫画杂志《时代漫画》第33期.PDF

时代漫画33.PDF: https://url03.ctfile.com/f/1779803-1248635648-d8235b?p9586 (访问密码: 9586) 《时代漫画》的杂志在1934年诞生了,截止1937年6月战争来临被迫停刊共发行了39期。 ps: 资源来源网络!

任何图≌自己这一几何最起码常识推翻直线公理让R外标准实数一下子浮出水面

黄小宁 h定理:点集AB≌B的必要条件是A≌B。 证:若AB则A必可恒等变换地变为BA≌A,而恒等变换是保距变换。证毕。 如图所示R轴即x轴各元点x沿x轴正向不保距平移变为点y2x就使x轴沿本身拉伸(放大)变换为y2x轴不≌x轴&…

PDF盖骑缝章

在PDF文件上加盖骑缝章,您可以采取以下几种方法之一: 使用Adobe Acrobat: 打开Adobe Acrobat软件,加载PDF文件。在工具栏选择“工具”选项,找到“骑缝章”或“印章”工具。选择或上传您的骑缝章图片,将其放…

区块链技术:金融行业的信任基石

一、引言 在数字化转型的浪潮中,区块链技术以其独特的优势,正逐渐成为金融行业的信任基石。本文将深入探讨区块链技术在金融行业的应用,通过具体案例的细化和完善,分析其特点和影响。 二、区块链技术的核心特点 1. 去中心化:区块链技术通过分布式账本,实现去中心化的数…

乡村振兴,教育先行:加强农村教育事业发展,提高农民素质,培育新时代新型农民,为美丽乡村建设提供人才保障

目录 一、引言 二、农村教育事业发展的重要性 1、提高农民素质,促进全面发展 2、推动农村经济社会发展 3、传承乡村文化,促进文化振兴 三、加强农村教育事业发展的策略 1、加大教育投入,改善教育设施 2、普及义务教育,提高…

栈和队列题目练习

本节小编选了两道题来加深对栈和队列的认识理解! 有效的括号 方法1:直接用栈的结构(动态数组) 本题可以用栈这个结构来解答,将(,{,[ 左括号压入栈中,然后取出栈顶元素与右括号),},]匹配。不匹配的话&…

雅特力串口485模式TCDT/TSDT说明

TCDT(发送器完成延迟时间(transmit complete delay time)占了5个bit位,则最大值为 2 5 − 1 31 2^{5} -1 31 25−131,时间单位是 1 16 波特率周期 \frac{1}{16}波特率周期 161​波特率周期 波特率为9600&#xff…

如何理解 Java 接口和抽象类的定义和使用场景

Java 是一种面向对象编程语言,提供了丰富的面向对象编程机制。其中,接口和抽象类是两个重要的概念,它们在设计和实现代码时扮演着关键的角色。 接口(Interface) 定义和特性 接口是 Java 中的一种引用数据类型&#…