一、CCIG论坛介绍
中国图象图形大会(CCIG 2024)是一场备受瞩目的学术盛会,近期在陕西省西安市曲江国际会议中心举行。这次会议以“图聚智生,象合慧成”为主题,由中国图象图形学学会主办,旨在汇聚图像图形领域的专家学者和产业界同仁,共同探讨和展示最新的研究成果和未来发展趋势。
大会不仅邀请了众多知名学者和企业专家,还设置了25场学术论坛、7场特色论坛和2场企业论坛。
二、大模型技术及其前沿应用论坛
在众多论坛中,“大模型技术及其前沿应用论坛”尤为引人注目。
该论坛由CSIG文档图像分析与识别专业委员会组织,聚焦于大模型技术的最新进展及其在不同领域的前沿应用。
论坛邀请了学术界和产业界的领军人物,共同探讨大模型技术如何推动计算机视觉、自然语言处理、基础科学研究及行业应用的跨界融合与技术发展。
其中,合合信息智能创新事业部研发总监常扬发表了主题演讲,介绍了合合信息在智能文档处理及大数据领域的最新进展和应用,另外,常扬详细介绍了合合信息的TextIn文档解析技术,包括其在大模型训练和应用中的关键作用。
他指出,随着大模型的不断发展,文档解析技术需要不断提升,以满足大规模数据处理和高质量数据获取的需求。同时,他还展示了合合信息在文档解析技术上的最新研究成果和应用案例。
2.1 智能文档解析技术及其在大模型训练与应用中的作用
在人工智能和大数据时代,文档解析技术的重要性日益凸显。特别是对于大模型(如GPT-4和LLAMA2)的训练和应用,准确高效的文档解析至关重要。
合合信息的TextIn智能文档解析技术通过先进的图像处理和自然语言处理算法,显著提升了文档解析的精度和效率,为大模型的训练和应用提供了强有力的支持。
2.2 文档解析技术的背景和挑战
大模型训练面临的挑战
在大模型训练过程中,高质量的训练数据是至关重要的。然而,随着模型规模的不断扩大,训练所需的Token数也急剧增加。
例如,LLAMA2需要2万亿Token,而GPT-4更是高达13万亿Token。面对如此巨大的数据需求,高质量预训练数据的获取成为一个瓶颈。
文档解析的需求
为了满足大模型的训练需求,必须高效获取更多高质量的文档数据,这就要求文档解析技术不仅能够准确识别文档中的各种元素(如表格、段落、公式、标题等),还要能够处理复杂的版面布局(如双栏、三栏、文表混合等)。
此外,对于大模型应用场景,文档解析还需保证快速准确的转换速度,以还原文档的阅读顺序,避免混乱语序。
2.3文档解析解决方案
在应对文档解析过程中遇到的多重技术挑战,包括元素间的遮盖重叠、复杂版式(如双栏、跨页、三栏等)的高效处理,以及无线表格和合并单元格的精准识别等难题时,合合信息公司推出了TextIn文档解析技术。该技术对多文档元素的精准识别、版面布局的深入分析以及高性能算法的运用,成功攻克了上述技术难点。
三、TextIn智能文档解析技术
TextIn文档解析技术的核心在于其能够处理各种格式和版式的文档,包括书籍、教材、论文和企业文档等。
这项技术通过以下几个关键步骤实现高效的文档处理:
3.1核心技术和算法
TextIn文档解析技术采用了一系列先进的算法框架,包括图像预处理、版面分析和文档解析等。
图像预处理算法介绍
图像预处理是图像处理过程中至关重要的一步,其目的是对原始图像进行必要的处理,以使其更适合后续的分析和处理。在文档解析中,图像预处理算法主要用于增强文档图像的质量,以提高后续的OCR识别准确率。
常用的图像预处理算法包括:
- 图像去噪
- 图像增强
- 图像矫正
- 图像分割
另外,在文档解析中,图像增强算法包括:
- 锐化:用于增强图像的边缘和细节,以使其更易于识别。常用的锐化算法包括拉普拉斯算子、Sobel算子等。
- 区域提取:用于提取文档图像中的感兴趣区域,如文本区域、表格区域等。常用的区域提取算法包括阈值分割、边缘检测等。
- 干扰去除:用于去除文档图像中的干扰信息,如手指、印章、阴影等。常用的干扰去除算法包括形态学滤波、区域滤波等。
图像增强:
通过增强锐化、区域提取和干扰去除(如手指去除、形变矫正、阴影去除、摩尔纹去除等)来提升文档图像的质量。
其算法框架如图所示
形变矫正:
- 用于矫正图像的几何畸变,如倾斜、拉伸等。常用的图像矫正算法包括仿射变换、透视变换等。
- 使用DocUNet形变矫正网络和边缘填充结果,实现文档图像的形变矫正和图像恢复。
干扰去除是用的U2net卷积背景提取+干扰去除模块去除摩尔纹等,最终达到去除干扰的效果
算法效果:
版面分析算法介绍
版面分析是文档解析的关键步骤之一,其目的是识别文档中的不同元素,如文本块、表格、图片、印章等,并分析这些元素之间的关系。版面分析算法主要包括以下三个方面:
- 物理版面分析
- 文档布局分析
- 逻辑版面分析
物理版面分析:
物理版面分析侧重于文档图像的视觉特征,主要任务是将相关性高的文字聚合到一个区域,如段落或表格。常用的物理版面分析算法包括:
- 基于连通性分析的算法:该类算法通过分析文本区域之间的连通性来识别文本块。例如,可以使用标记连接算法、区域生长算法等来识别文本块。
- 基于空间关系分析的算法:该类算法通过分析文本区域之间的空间关系来识别文本块。例如,可以使用基于欧几里得距离的算法、基于方向关系的算法等来识别文本块。
- 基于字体特征分析的算法:该类算法通过分析文本区域的字体特征来识别文本块。例如,可以使用基于字体大小的算法、基于字体样式的算法等来识别文本块。
其主要任务是将相关性高的文字聚合到一个区域,如段落或表格。
文档布局分析:
文档布局分析是物理版面分析的进一步扩展,其目的是识别文档的整体布局结构,包括文本块、表格、图片、印章等元素的排列方式。
具体采用的是目标检测任务建模,使用基于回归的单阶段检测模型,识别文档中的各种布局方式。
下面详细介绍一下:
1. 目标检测任务建模
目标检测任务建模是将文档布局分析转换为目标检测任务的过程。在文档布局分析中,目标可以是文本块、表格、图片、印章等文档元素。目标检测任务的目标是识别文档图像中的所有目标,并确定每个目标的位置和类别。
常用的目标检测任务建模方法包括:
- 基于区域建议的双阶段检测模型:该类模型首先生成候选区域,然后对候选区域进行分类和回归。代表性的模型包括R-CNN、Fast R-CNN、Faster R-CNN等。
- 基于回归的单阶段检测模型:该类模型直接在图像上预测目标的位置和类别。代表性的模型包括YOLO系列、SSD系列、RetinaNet等。
- 在文档布局分析中,由于文档图像中的目标通常具有规则的形状和大小,因此基于回归的单阶段检测模型通常能够获得更高的效率和精度。
基于回归的单阶段检测模型
- 基于回归的单阶段检测模型通常由以下几个部分组成:
- 特征提取器:用于提取图像的特征。常用的特征提取器包括卷积神经网络(CNN)、池化层等。
- 预测器:用于预测目标的位置和类别。常用的预测器包括全连接层、回归层等。
- 损失函数:用于衡量模型的预测结果与真实结果之间的差距。常用的损失函数包括IOU损失、Smooth L1损失等。
在文档布局分析中,常用的基于回归的单阶段检测模型包括:
- YOLO:YOLO(You Only Look Once)是一种实时的目标检测模型,其特点是速度快、精度高。YOLOv5是YOLO系列的最新版本,其性能得到了进一步提升。
- SSD:SSD(Single Shot MultiBox Detector)是一种基于VGG16网络的单阶段检测模型,其特点是易于实现、精度高。
- RetinaNet:RetinaNet是一种基于特征金字塔的单阶段检测模型,其特点是精度高、鲁棒性强。
3. 识别文档中的各种布局方式
有效地识别文档中的各种布局方式,包括:
- 单栏文本:文档中的文本从左到右排列,没有明显的段落划分。
- 多栏文本:文档中的文本分为多个栏,每栏文本从上到下排列。
- 表格:文档中的表格由行和列组成,每个单元格包含一个或多个文本。
- 图片:文档中插入的图片。
- 印章:文档中盖印的印章。
通过识别文档中的各种布局方式,可以为后续的文档理解和处理奠定基础。
以下是一些采用目标检测任务建模,使用基于回归的单阶段检测模型,识别文档中的各种布局方式的应用案例:
- 文档自动整理:可以根据文档的布局方式,自动将文档中的文本、表格、图片等元素进行整理。
- 文档信息抽取:可以根据文档的布局方式,自动抽取文档中的关键信息,如姓名、日期、金额等。
- 文档问答:可以根据文档的布局方式,自动理解文档的内容,并回答用户的提问。
可以说,采用目标检测任务建模,使用基于回归的单阶段检测模型,是一种高效、准确的文档布局分析方法,下面是一个实例说明。
逻辑版面分析:
逻辑版面分析侧重于文档的语义信息,主要任务是理解文档的结构和内容。常用的逻辑版面分析算法包括:
- 基于规则的算法:该类算法通过定义预先设定的规则来识别文档的结构和内容。例如,可以使用基于文本格式的规则、基于文本内容的规则等来识别文档的结构和内容。
- 基于机器学习的算法:该类算法利用机器学习技术来训练模型,以识别文档的结构和内容。例如,可以使用支持向量机、条件随机场等机器学习算法来识别文档的结构和内容。
它主要侧重于语义特征,主要任务是根据语义将不同文字块建模,通过语义层次关系形成树状结构。
3.2 文档解析结果
解析示例-解析pdf
可以看到,针对PDF的解析结果,这个解析结果是很不错的。
解析示例-复杂表格解析
解析复杂表格,也是没问题的。
3.3成果与影响
TextIn文档解析技术的应用已经在行业里产生了重要影响。其母公司合合信息的C端产品在App Store上的商务类和效率类免费应用下载量排行榜中位列第一。
此外,Textin还提供了每周7000页的免费额度,以及公有云API,鼓励开发者和用户使用TextIn文档解析技术。
3.4应用场景
大模型训练
在大模型训练场景中,TextIn文档解析技术可高效获取更多高质量的训练语料,特别是对于上百页PDF文档的快速转换和正确还原阅读顺序,极大地提升了训练数据的质量和数量。
大模型应用
在大模型应用场景中,TextIn文档解析技术可确保文档元素识别的高精准度和高效率,为文档问答、知识库问答等应用提供强有力的支持。
通过准确解析文档中的各种元素和版面布局,提升了大模型在文档问答中的精度和效率。
四、结论
TextIn文档解析技术的成功不仅体现在其高效的文档处理能力上,更在于其对大模型训练与应用的深远影响。
随着技术的不断进步和应用的深入,TextIn文档解析技术有望在未来的人工智能领域发挥更大的作用,推动整个行业的发展。
合合信息的这一创新突破,无疑为大模型训练与应用提供了强有力的支持,为人工智能的未来开辟了新的可能性。