CCIG 2024:大模型技术及其前沿应用论坛深度解析

news2024/10/6 0:36:53

一、CCIG论坛介绍

中国图象图形大会(CCIG 2024)是一场备受瞩目的学术盛会,近期在陕西省西安市曲江国际会议中心举行。这次会议以“图聚智生,象合慧成”为主题,由中国图象图形学学会主办,旨在汇聚图像图形领域的专家学者和产业界同仁,共同探讨和展示最新的研究成果和未来发展趋势。

大会不仅邀请了众多知名学者和企业专家,还设置了25场学术论坛、7场特色论坛和2场企业论坛。

二、大模型技术及其前沿应用论坛

在众多论坛中,“大模型技术及其前沿应用论坛”尤为引人注目。

该论坛由CSIG文档图像分析与识别专业委员会组织,聚焦于大模型技术的最新进展及其在不同领域的前沿应用。

论坛邀请了学术界和产业界的领军人物,共同探讨大模型技术如何推动计算机视觉、自然语言处理、基础科学研究及行业应用的跨界融合与技术发展。

其中,合合信息智能创新事业部研发总监常扬发表了主题演讲,介绍了合合信息在智能文档处理及大数据领域的最新进展和应用,另外,常扬详细介绍了合合信息的TextIn文档解析技术,包括其在大模型训练和应用中的关键作用。

他指出,随着大模型的不断发展,文档解析技术需要不断提升,以满足大规模数据处理和高质量数据获取的需求。同时,他还展示了合合信息在文档解析技术上的最新研究成果和应用案例。

2.1 智能文档解析技术及其在大模型训练与应用中的作用

在人工智能和大数据时代,文档解析技术的重要性日益凸显。特别是对于大模型(如GPT-4和LLAMA2)的训练和应用,准确高效的文档解析至关重要。

合合信息的TextIn智能文档解析技术通过先进的图像处理和自然语言处理算法,显著提升了文档解析的精度和效率,为大模型的训练和应用提供了强有力的支持。

2.2 文档解析技术的背景和挑战

大模型训练面临的挑战

在大模型训练过程中,高质量的训练数据是至关重要的。然而,随着模型规模的不断扩大,训练所需的Token数也急剧增加。

例如,LLAMA2需要2万亿Token,而GPT-4更是高达13万亿Token。面对如此巨大的数据需求,高质量预训练数据的获取成为一个瓶颈。

文档解析的需求

为了满足大模型的训练需求,必须高效获取更多高质量的文档数据,这就要求文档解析技术不仅能够准确识别文档中的各种元素(如表格、段落、公式、标题等),还要能够处理复杂的版面布局(如双栏、三栏、文表混合等)。

此外,对于大模型应用场景,文档解析还需保证快速准确的转换速度,以还原文档的阅读顺序,避免混乱语序。

2.3文档解析解决方案

在应对文档解析过程中遇到的多重技术挑战,包括元素间的遮盖重叠、复杂版式(如双栏、跨页、三栏等)的高效处理,以及无线表格和合并单元格的精准识别等难题时,合合信息公司推出了TextIn文档解析技术。该技术对多文档元素的精准识别、版面布局的深入分析以及高性能算法的运用,成功攻克了上述技术难点。

三、TextIn智能文档解析技术

TextIn文档解析技术的核心在于其能够处理各种格式和版式的文档,包括书籍、教材、论文和企业文档等。

这项技术通过以下几个关键步骤实现高效的文档处理:

3.1核心技术和算法

TextIn文档解析技术采用了一系列先进的算法框架,包括图像预处理、版面分析和文档解析等。

图像预处理算法介绍

图像预处理是图像处理过程中至关重要的一步,其目的是对原始图像进行必要的处理,以使其更适合后续的分析和处理。在文档解析中,图像预处理算法主要用于增强文档图像的质量,以提高后续的OCR识别准确率。

常用的图像预处理算法包括:

  • 图像去噪
  • 图像增强
  • 图像矫正
  • 图像分割

另外,在文档解析中,图像增强算法包括:

  • 锐化:用于增强图像的边缘和细节,以使其更易于识别。常用的锐化算法包括拉普拉斯算子、Sobel算子等。
  • 区域提取:用于提取文档图像中的感兴趣区域,如文本区域、表格区域等。常用的区域提取算法包括阈值分割、边缘检测等。
  • 干扰去除:用于去除文档图像中的干扰信息,如手指、印章、阴影等。常用的干扰去除算法包括形态学滤波、区域滤波等。

图像增强:

通过增强锐化、区域提取和干扰去除(如手指去除、形变矫正、阴影去除、摩尔纹去除等)来提升文档图像的质量。

其算法框架如图所示

形变矫正:
  • 用于矫正图像的几何畸变,如倾斜、拉伸等。常用的图像矫正算法包括仿射变换、透视变换等。
  • 使用DocUNet形变矫正网络和边缘填充结果,实现文档图像的形变矫正和图像恢复。

干扰去除是用的U2net卷积背景提取+干扰去除模块去除摩尔纹等,最终达到去除干扰的效果

算法效果:

版面分析算法介绍

版面分析是文档解析的关键步骤之一,其目的是识别文档中的不同元素,如文本块、表格、图片、印章等,并分析这些元素之间的关系。版面分析算法主要包括以下三个方面:

  • 物理版面分析
  • 文档布局分析
  • 逻辑版面分析
物理版面分析:

物理版面分析侧重于文档图像的视觉特征,主要任务是将相关性高的文字聚合到一个区域,如段落或表格。常用的物理版面分析算法包括:

  • 基于连通性分析的算法:该类算法通过分析文本区域之间的连通性来识别文本块。例如,可以使用标记连接算法、区域生长算法等来识别文本块。
  • 基于空间关系分析的算法:该类算法通过分析文本区域之间的空间关系来识别文本块。例如,可以使用基于欧几里得距离的算法、基于方向关系的算法等来识别文本块。
  • 基于字体特征分析的算法:该类算法通过分析文本区域的字体特征来识别文本块。例如,可以使用基于字体大小的算法、基于字体样式的算法等来识别文本块。

主要任务是将相关性高的文字聚合到一个区域,如段落或表格。

文档布局分析:

文档布局分析是物理版面分析的进一步扩展,其目的是识别文档的整体布局结构,包括文本块、表格、图片、印章等元素的排列方式。

具体采用的是目标检测任务建模,使用基于回归的单阶段检测模型,识别文档中的各种布局方式。

下面详细介绍一下:

1. 目标检测任务建模

目标检测任务建模是将文档布局分析转换为目标检测任务的过程。在文档布局分析中,目标可以是文本块、表格、图片、印章等文档元素。目标检测任务的目标是识别文档图像中的所有目标,并确定每个目标的位置和类别。

常用的目标检测任务建模方法包括:

  • 基于区域建议的双阶段检测模型:该类模型首先生成候选区域,然后对候选区域进行分类和回归。代表性的模型包括R-CNN、Fast R-CNN、Faster R-CNN等。
  • 基于回归的单阶段检测模型:该类模型直接在图像上预测目标的位置和类别。代表性的模型包括YOLO系列、SSD系列、RetinaNet等。
  • 在文档布局分析中,由于文档图像中的目标通常具有规则的形状和大小,因此基于回归的单阶段检测模型通常能够获得更高的效率和精度。

基于回归的单阶段检测模型

  • 基于回归的单阶段检测模型通常由以下几个部分组成:
  • 特征提取器:用于提取图像的特征。常用的特征提取器包括卷积神经网络(CNN)、池化层等。
  • 预测器:用于预测目标的位置和类别。常用的预测器包括全连接层、回归层等。
  • 损失函数:用于衡量模型的预测结果与真实结果之间的差距。常用的损失函数包括IOU损失、Smooth L1损失等。

在文档布局分析中,常用的基于回归的单阶段检测模型包括:

  • YOLO:YOLO(You Only Look Once)是一种实时的目标检测模型,其特点是速度快、精度高。YOLOv5是YOLO系列的最新版本,其性能得到了进一步提升。
  • SSD:SSD(Single Shot MultiBox Detector)是一种基于VGG16网络的单阶段检测模型,其特点是易于实现、精度高。
  • RetinaNet:RetinaNet是一种基于特征金字塔的单阶段检测模型,其特点是精度高、鲁棒性强。

3. 识别文档中的各种布局方式

有效地识别文档中的各种布局方式,包括

  • 单栏文本:文档中的文本从左到右排列,没有明显的段落划分。
  • 多栏文本:文档中的文本分为多个栏,每栏文本从上到下排列。
  • 表格:文档中的表格由行和列组成,每个单元格包含一个或多个文本。
  • 图片:文档中插入的图片。
  • 印章:文档中盖印的印章。

通过识别文档中的各种布局方式,可以为后续的文档理解和处理奠定基础。

以下是一些采用目标检测任务建模,使用基于回归的单阶段检测模型,识别文档中的各种布局方式的应用案例:

  • 文档自动整理:可以根据文档的布局方式,自动将文档中的文本、表格、图片等元素进行整理。
  • 文档信息抽取:可以根据文档的布局方式,自动抽取文档中的关键信息,如姓名、日期、金额等。
  • 文档问答:可以根据文档的布局方式,自动理解文档的内容,并回答用户的提问。

可以说,采用目标检测任务建模,使用基于回归的单阶段检测模型,是一种高效、准确的文档布局分析方法,下面是一个实例说明。

逻辑版面分析:

逻辑版面分析侧重于文档的语义信息,主要任务是理解文档的结构和内容。常用的逻辑版面分析算法包括:

  • 基于规则的算法:该类算法通过定义预先设定的规则来识别文档的结构和内容。例如,可以使用基于文本格式的规则、基于文本内容的规则等来识别文档的结构和内容。
  • 基于机器学习的算法:该类算法利用机器学习技术来训练模型,以识别文档的结构和内容。例可以使用支持向量机、条件随机场等机器学习算法来识别文档的结构和内容。

它主要侧重于语义特征,主要任务是根据语义将不同文字块建模,通过语义层次关系形成树状结构。

3.2 文档解析结果

解析示例-解析pdf

可以看到,针对PDF的解析结果,这个解析结果是很不错的。

解析示例-复杂表格解析

解析复杂表格,也是没问题的。

3.3成果与影响

TextIn文档解析技术的应用已经在行业里产生了重要影响。其母公司合合信息的C端产品在App Store上的商务类和效率类免费应用下载量排行榜中位列第一

此外,Textin还提供了每周7000页的免费额度,以及公有云API,鼓励开发者和用户使用TextIn文档解析技术。

3.4应用场景

大模型训练

在大模型训练场景中,TextIn文档解析技术可高效获取更多高质量的训练语料,特别是对于上百页PDF文档的快速转换和正确还原阅读顺序,极大地提升了训练数据的质量和数量。

大模型应用

在大模型应用场景中,TextIn文档解析技术可确保文档元素识别的高精准度和高效率,为文档问答、知识库问答等应用提供强有力的支持。

通过准确解析文档中的各种元素和版面布局,提升了大模型在文档问答中的精度和效率。

四、结论

TextIn文档解析技术的成功不仅体现在其高效的文档处理能力上,更在于其对大模型训练与应用的深远影响。

随着技术的不断进步和应用的深入,TextIn文档解析技术有望在未来的人工智能领域发挥更大的作用,推动整个行业的发展。

合合信息的这一创新突破,无疑为大模型训练与应用提供了强有力的支持,为人工智能的未来开辟了新的可能性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1788551.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一篇文章讲透数据结构之树and二叉树

一.树 1.1树的定义 树是一种非线性的数据结构,它是有n个有限结点组成的一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树,也就是说它是根在上,叶在下的。 在树中有一个特殊的结点,称为根结点,根结点…

从0开始制作微信小程序

目录 前言 正文 需要事先准备的 需要事先掌握的 什么是uniapp 平台应用的分类方式 什么是TypeScript 创建项目 项目文件作用 源码地址 尾声 🔭 Hi,I’m Pleasure1234🌱 I’m currently learning Vue.js,SpringBoot,Computer Security and so on.&#x1…

大数据之CDH对Hdfs做Balance数据均衡/数据平衡/数据倾斜

问题的来源: 由于在hive工具运行sql,出现sql卡顿的情况,去cdh上查看yarn资源的分布情况,发现了整个cdh平台中hdfs和yarn资源分布不均匀,大量的爆红显示: 以下 DataNode 数据目录 位于小于其可用空间 10.0 吉字节 的文件系统中。 /data1/dfs/dn(可用:7.2 …

(九)Spring教程——ApplicationContext中Bean的生命周期

1.前言 ApplicationContext中Bean的生命周期和BeanFactory中的生命周期类似,不同的是,如果Bean实现了org.springframework.context.ApplicationContextAware接口,则会增加一个调用该接口方法setApplicationContext()的步骤。 此外&#xff0c…

气膜建筑的施工对周边环境影响大吗?—轻空间

随着城市化进程的加快,建筑行业的快速发展也带来了环境问题。噪音、灰尘和建筑废料等对周边居民生活和生态环境造成了不小的影响。因此,选择一种环保高效的施工方式变得尤为重要。气膜建筑作为一种新兴的建筑形式,其施工过程对周边环境的影响…

python——网络编程

流程图 面向连接的套接字 面向连接的通信提供序列化的、可靠的和不重复的数据交付,而没有记录边界。主要的协议是传输控制协议(TCP); TCP套接字,在python中,必须使用SOCK_STREAM作为套接字类型 tcp的特点 面向连接…

工业机器视觉系统如何实现精准检测?

机器视觉系统是指利用机器替代人眼做出各种测量和判断。一种比较复杂的系统。大多数系统监控对象都是运动物体,系统与运动物体的匹配和协调动作尤为重要,所以给系统各部分的动作时间和处理速度带来了严格的要求。在某些应用领域,例如机器人、…

C++高级 - 接口模板

目录 一. 接口 二. 模板 一. 接口 接口通常是通过抽象类或纯虚函数来实现的。 以下是一个使用抽象类来定义接口的示例代码&#xff1a; #include <iostream>class Interface { public:virtual void operation() 0; // 纯虚函数定义接口 };class ConcreteClass : pu…

网络安全||信息加解密技术以及密钥管理技术

一、信息加解密技术 对称加密 对称加密&#xff08;又称为私人密钥加密/共享密钥加密&#xff09;&#xff1a;加密与解密使用同一密钥。特点&#xff1a;加密强度不高&#xff0c;但效率高&#xff1b;密钥分发困难。&#xff08;大量明文为了保证加密效率一般使用对称加密&…

Three.js的阴影技术,创建逼真效果的必备!

three.js是一个流行的用于创建和展示3D图形的JavaScript库&#xff0c;它提供了多种阴影技术来增强3D场景的真实感和视觉效果。 一、常用阴影技术 1. 基于光线的阴影&#xff08;Raytraced Shadows&#xff09;&#xff1a;通过跟踪光线的路径来计算阴影&#xff0c;产生非常…

SylixOS网卡多 IP 配置

概述 网卡多 IP 是指在同一个网络接口上配置和绑定多个 IP 地址。 引进网卡多 IP 的目的主要有以下几个&#xff1a; 提供服务高可用性。通过在同一接口绑定多个 IP 地址&#xff0c;然后在服务端使用这些 IP 地址启动多个服务实例。这样在任意一 IP 出现问题时&#xff0c;可…

el-input实现后缀图标和clearable的兼容,调整el-input clearable与自定义图标展示位置问题

背景&#xff1a;常见的输入框存在两个图标的展示效果都是清空在前搜索或其他图标在后 常见以及最终实现效果&#xff08;清空图标在前&#xff0c;搜索图标在后&#xff09; BUG以及el-input默认效果 问题排查 通过控制台审查元素能够发现&#xff0c;默认的效果是自定义图标…

何为云防护?有何作用

云防护又称云防御。随着Internet互联网络带宽的增加和多种DDOS 黑客工具的不断发布&#xff0c;云计算越演越热&#xff0c;DDOS拒绝服务攻击的实施越来越容易&#xff0c;DDOS攻击事件正在成上升趋势。出于商业竞争、打击报复和网络敲诈等多种因素&#xff0c;导致很多IDC 托管…

避免 PostgreSQL 翻车的关键技巧

PostgreSQL 是一个功能强大的开源关系型数据库管理系统&#xff0c;它以其稳定性和高性能而受到开发者和企业的青睐。然而&#xff0c;在实际操作中&#xff0c;不当的变更管理可能会导致数据库性能下降或系统崩溃。为了避免这种情况&#xff0c;我们提供了以下关键技巧来确保 …

Docker桥接网络分析

前言 《虚拟局域网(VLAN)》一文中描述了虚拟网卡、虚拟网桥的作用&#xff0c;以及通过iptables实现了vlan联网&#xff0c;其实学习到这里自然就会联想到目前主流的容器技术&#xff1a;Docker&#xff0c;因此接下来打算研究一下Docker的桥接网络与此有何异同。 猜测 众所周知…

react基础学习 JSX

JSX的测试网站 Babel Babel 可以测试代码的效果 JSX实现map列表 注意 key不一样&#xff08;使用遍历的时候&#xff09; 简单条件渲染 复杂条件渲染 绑定事件 function App() {const colorse (e)>{console.log("测试点击",e);}const colorse1 (name)>{…

月入30000的软件测试人员,简历是什么样子的?

我们都知道&#xff0c;简历是一个人进入职场的敲门砖。从某种层面来说&#xff0c;简历也像一个人的具象身份证&#xff0c;或者专业资格证。所以&#xff0c;一份简历的好坏&#xff0c;不仅关乎个人的“脸面”&#xff0c;更关乎你是不是一个有“含金量”的技术人员。 所以…

Python爬虫协程批量下载图片

import aiofiles import aiohttp import asyncio import requests from lxml import etree from aiohttp import TCPConnectorclass Spider:def __init__(self, value):# 起始urlself.start_url value# 下载单个图片staticmethodasync def download_one(url):name url[0].spl…

Docker容器开启特权模式

一、问题 1、容器系统中无法使用systemctl命令 即使是开了特权模式&#xff08;--privileged&#xff09; 2、无法通过/sbin/init启动容器 要想在容器中使用systemctl命令&#xff0c;除了要指定--privileged参数外&#xff0c;还需要指定启动参数为/sbin/init&#xff0c;但…

关于protobuf import 在idea中报红色错误解决

首先安装protobuf 插件 protocol 文件引入别的protocol 时报红原因在插件的设置&#xff0c;它并不知道去哪找&#xff0c;只需要配置下protobuf的所在目录即可