VALSE 2024合合信息 | 文档解析与向量化技术加速多模态大模型训练与应用

news2025/1/16 13:47:40

第十四届视觉与学习青年学者研讨会(VALSE 2024)近期在重庆悦来国际会议中心圆满举行,由中国人工智能学会(CAAI)、中国图象图形学会(CSIG)、中国民族贸易促进会主办,重庆邮电大学承办。与会专家学者围绕计算机视觉、图像处理、模式识别与机器学习研究领域等国内外前沿热点进行深入研讨。

本次大会共计开展数十场AI领域学术精彩纷呈的研讨报告,同时也吸引数千名来自学术界及产业界的视觉和机器学习领域青年学者参与,为计算机视觉、图像处理、模式识别、多媒体与机器学习研究领域内的青年学者们提供了一个深层次、纯粹学术及技术交流的舞台。

在大会的 VALSE 2014 Workshop 环节,作为领先的人工智能厂商,合合信息就《文档解析与向量化技术加速多模态大模型训练与应用》主题进行了分享,针对当下智能文档处理所面临的技术难题以及合合信息在文档图像分析与预处理方面的技术研究展开讨论。

1、大模型与文档图像处理

2023年以CHAT GPT为代表的大规模语言模型风靡全球,同时以GPT-4V为代表的多模态大模型也倍受关注。多模态技术可充分利用文档图像的视觉和语言属性,并借助语言大模型已取得的优异性能和技术积累,正逐渐成为文档图像处理领域的热门研究方向。从微软对GPT-4V做的测评报告中可以看出GPT-4V在场景文字识别、语言形态、语言种类、手写识别、公式识别、几何图形识别、表格理解等方面的表现非常惊艳,针对复杂图表分析理解、文档抽取和推理结果也十分出色。

但文档解析领域的核心问题依然存在,文档图像分析识别与理解的技术难题主要包括以下方面:

  • 1)场景及版式多样:文档图像可能来自不同的场景和版式,如报纸、书籍、手写笔记等,每种场景和版式都具有不同的特点和挑战,需要算法能够适应不同的场景和版式。
  • 2)采集设备不确定性:文档图像可能通过不同的采集设备获取,如扫描仪、手机相机等,不同设备的成像质量和参数不同,导致图像质量和特征的差异,需要算法具备鲁棒性,能够处理不同设备采集的图像。
  • 3)用户需求多样性:用户对文档图像的需求各不相同,有些用户可能只需要提取文本信息,而有些用户可能需要进行结构化的理解和分析,算法需要能够满足不同用户的需求。
  • 4)文档图像质量退化严重:由于文档的老化、损坏或存储条件等原因,文档图像的质量可能会受到严重的退化,如模糊、噪声、光照不均等,这会给文字检测、字符识别等任务带来困难。
  • 5)文字检测及版面分析困难:文档图像中的文字可能存在不同的字体、大小、颜色等变化,而且文字可能与背景颜色相似,导致文字检测和版面分析变得困难,算法需要具备高效准确的文字检测和版面分析能力。
  • 6)非限定条件文字识别率低:在非限定条件下,文档图像中的文字可能出现扭曲、变形、遮挡等情况,这会导致传统的文字识别算法的准确率下降,需要算法具备对非限定条件下的文字进行准确识别的能力。
  • 7)结构化智能理解能力差:文档图像中的信息不仅仅是文字,还包括表格、图表、图像等结构化信息,算法需要具备结构化智能理解的能力,能够对文档中的结构化信息进行提取、分析和理解。

2、文档图像解析领域的典型技术难点问题

文档中通常含有大量的图片、表格等非文字内容,除文字信息外,其版面往往包含页眉、页脚、表格、二维码等多种元素。在向文档解析系统输入文档图像后,系统会对文字部分和版面元素进行分析和识别,把若干行文字关联起来,从而获得正确的顺序与段落关系。在文档解析的过程中,有如下几个典型的技术难点问题:

1)版面检测

文档中有各种复杂的布局和版面(比如双栏、跨页、三栏等),需要准确地识别出文档中版面结构。

2)阅读顺序还原

要有效识别文档中的标题、段落、图像等元素,并还原文档的原始版面结构,以便后续的信息抽取和理解。

3)表格还原

文档中可能包含有各种样式的表格数据或文字,要有效地还原这些表格,就需要识别出无线表格和合并单元格等关键信息。

4)公式识别

文档中可能在不同的位置嵌入了各种公式,比如单行公式、行内公式、表格内公式等。

3、合合信息的智能文档解析技术

为了解决上述文档解析的诸多技术难题,合合信息将智能文档处理研究主题分成了以下六个模块:

合合信息的文档解析技术框架如下所示:

合合信息通过图像分析、文档解析、版面分析、信息抽取、安全保障和知识化管理等方法,实现了智能文档解析处理的全流程,提供了高效、准确和安全的文档解析处理服务。

  • 文档图像分析与预处理:通过图像处理技术对文档图像进行分析和预处理,去除噪声、调整图像亮度和对比度等,以提高后续处理的准确性和效果。
  • 文档解析与识别:在图像预处理之后,采用光学字符识别(OCR)技术对文档进行解析和识别,将图像中的文字转换为可编辑和可搜索的文本格式,以便后续处理和分析。
  • 版面分析与还原:进行版面分析,识别文档中的标题、段落、表格、图像等元素,并还原文档的原始版面结构,以便后续的信息抽取和理解。
  • 文档信息抽取与理解:利用自然语言处理(NLP)和机器学习技术,对文档中的关键信息进行抽取和理解,以获取业务实际场景所需要的关键信息。
  • AI图像内容安全:检查文档图像是否有篡改、合成、生成痕迹,保障文档图像安全。
  • 知识化&存储检索和管理:将处理后的文档信息进行知识化,以便于后续的存储、检索和管理,用户可快速找到所需的文档或信息。

4、合合信息文档图像专有模型

随着人工智能技术的不断发展,尤其是深度学习技术的广泛应用,多模态数据处理和大模型训练已成为当下研究的热点之一,这些技术也为文档图像智能处理和分析领域带来了新的发展机遇。

多模态大模型时代下的文档图像智能分析与处理的研究旨在通过运用多种数据类型,如文本、图像、音频等,并借助大规模深度学习模型的训练,来实现对文档图像内容的更加准确和全面的理解和分析。综合使用多模态数据训练大模型可以极大地提高文档图像处理和分析的效率和精度,进而推动相关行业的数字化转型和智能化升级。

为了将大模型与文档图像解析技术有效地结合起来,合合信息推出了基于深度学习技术的文档图像专有模型。

该模型基于深度神经网络结构,经过了海量数据的训练和优化,拥有强大的文档图像处理能力。它可以识别和提取文档中的文字、表格、图形等信息,实现自动化的文档解析和理解。在多个领域都有广泛的应用,例如金融、法律、医疗等。它可以帮助企业和个人实现文档的自动化处理,提高工作效率,减少人工成本。

对于不同模态的数据具有不同的特点和表达方式,如何有效地将它们进行融合和交互是一个关键问题。其次,多模态大模型需要处理更加复杂和庞大的数据,对计算资源和模型设计提出了更高的要求。另外,多模态数据的标注和训练也是一个挑战,因为不同模态之间的关联和对齐需要更加精细的处理。

合合信息将文档图像识别分析的各种任务定义为序列预测的形式(文本,段落,版面分析,表格,公式等等),再通过不同的prompt引导模型完成不同的OCR任务,支持篇章级的文档图像识别分析,输出Markdown/HTML/Text等标准格式,最后将文档理解相关的工作交给LLM去做。

总的来说,文档图像大模型主要包括以下功能:

  • 文字识别与提取:能够对文档图像中的文字进行准确识别,并提取出文字内容。无论是印刷体还是手写体,多种语言都可以被识别。
  • 文档结构分析:能够智能地分析文档的结构,识别出标题、段落、列表、表格等不同的结构元素,帮助用户更好地理解文档的组织结构。
  • 表格解析与提取:能够自动识别和解析文档中的表格结构,提取出表格中的数据,并将其转化为结构化的数据形式,方便后续的数据处理和分析。
  • 关键信息提取:能够从文档中提取出关键信息,如日期、金额、公司名称等,帮助用户快速获取文档中的重要内容。
  • 文档分类与检索:能够根据文档的内容和特征,将文档进行分类和索引,方便用户进行文档管理和检索,提高工作效率。

5、合合信息的文本向量化模型

在信息化时代,文本数据呈爆炸式增长,如何高效、准确地处理和分析这些文本数据,成为各行各业亟待解决的问题。基于此文本向量化技术应运而生,它可以将文本转换为数值向量(也就是计算机能够理解的数值形式),是自然语言处理中的一项基础技术。通过文本向量化,文本内容被转换为计算机可以处理的形式,从而便于后续的分析和挖掘工作。

近日合合信息基于其高效的文本处理能力以及强大的语义信息捕捉能力,发布了文本向量化模型 acge_text_embedding,该模型在 MTEB 中文榜单(C-MTEB)中一举夺魁,成为业内瞩目的焦点。

这次最新发布的acge_text_embedding 模型属于Word Embeddings模型,适用于情感分析、文本生成等复杂的NLP任务。这一模型获得MTEB中文榜单(C-MTEB)第一的成绩,相关成果将有助于大模型更快速地在千行百业中产生应用价值。可以看到acge模型在分类、聚类任务准确率很高;应用场景广泛,在相似性检索、信息检索和推荐系统中都有很好的效果;模型在设计时考虑到不同行业,不算规模应用的需要,支持定制服务,满足多样化需求。不仅如此,与榜单前五名其他几个模型相比,acge模型占用资源少;模型输入长度较长,可以满足上下文关联的需求;支持可变输出维度,可以根据具体场景合理分配资源。

合合信息算法团队在模型升级迭代过程中采取了多项措施,以克服行业中存在的技术难点,并不断优化Embedding模型的性能和效果。在信息检索领域,该模型能够准确捕捉用户查询意图,提高检索结果的准确性和相关性;在自然语言理解领域,模型能够深入理解文本含义,为机器翻译、问答系统等应用提供强大支持;在情感分析领域,模型能够准确识别文本中的情感倾向,为企业决策提供有力依据。acge_text_embedding 模型具体主要应用领域如下:

  • 搜索优化:通过 acge_text_embedding 模型,搜索引擎可以根据查询字符串和文档之间的向量相似性来排名搜索结果。由于模型能够深入理解文本语义,因此排名靠前的内容通常与查询字符串最为相关,从而提高了搜索的准确性和效率。
  • 文本分类:在文本聚类任务中,acge_text_embedding 模型可以度量文本之间的相似性,从而将文本分组成不同的类别或簇。使用已经预训练好的 Embedding 模型来提取文本特征,并通过分类器(如 SVM、LR 等)对文本进行分类。例如,对于新闻文本,我们可以使用 Embedding 技术将文本转换为向量,然后利用分类器判断新闻的类别(如体育、科技、娱乐等)。
  • 语义相似度计算:acge_text_embedding 模型可以帮助构建用户和项目的表示特征,使得推荐系统可以根据用户的历史行为或偏好,计算用户向量与项目向量之间的相似度,从而向用户推荐具有相关性的项目。无论是电商产品推荐、音乐或视频推荐还是新闻资讯推荐,该模型都能发挥重要作用。
  • 异常检测:在异常检测任务中 acge_text_embedding 模型也可发挥重要作用,将文本数据映射到一个向量空间中,并通过度量文本向量与正常数据之间的距离或相似性来识别与正常行为不同的异常值。这对于监控网络舆情、发现欺诈行为或预测系统故障等方面非常有用。
  • 情感分析:利用 Embedding 技术将文本转换为向量,然后利用机器学习算法(如 SVM、神经网络等)对文本进行情感分析,判断文本的情感倾向(如正面、负面、中性)。

6、合合信息

上海合合信息科技股份有限公司(简称“合合信息”),是行业领先的人工智能及大数据科技企业,致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。

  • 合合信息官网:https://www.intsig.com/

公司C端业务主要为全球个人用户的3个APP产品,包括扫描全能王(智能扫描及文字识别APP)、名片全能王(智能名片及人脉管理APP)、启信宝(企业商业信息查询APP)3款核心产品。公司B端业务为企业客户提供以智能文字识别、商业大数据为核心的服务,帮助客户切实解决了降本增效、改善风控、高效获客的业务痛点,提供了较高的技术附加值。目前已在银行、保险、证券、基金、汽车金融、供应链金融、政务、制造、物流、地产、征信等多个行业实现成熟应用。

7、最后

合合信息采用文档解析与向量化技术来加速多模态大模型的训练与应用,这种技术的核心是将各种类型的文档(如文本、图像、音频等)转换成机器可理解的向量表示,从而实现对多模态数据的统一处理和分析。

  • 文档解析技术通常涉及对文档进行结构化处理,将文本内容提取出来,并根据需要进行标记、分类等操作。这有助于提高数据的可用性和可分析性。
  • 向量化技术则是将文档内容映射到向量空间中,从而将文档表示为数学上的向量形式。这种表示方法有利于计算机进行高效的数据处理和分析,同时也为模型训练提供了更好的数据表示。
  • 多模态大模型的训练与应用需要处理各种类型的数据,包括文本、图像、音频等。通过文档解析与向量化技术,可以将这些不同类型的数据统一表示为向量形式,从而使得模型可以更好地处理和理解多模态数据。

总的来说,文档解析与向量化技术为多模态大模型的训练与应用提供了重要的技术支持,能够加速模型的训练过程并提高模型的效果和性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1674890.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据库系统概论(个人笔记)(第二部分)

数据库系统概论(个人笔记) 文章目录 数据库系统概论(个人笔记)2、关系模型简介2.1 关系数据库的结构2.2 数据库模式2.3 键2.4 模式图2.5 关系查询语言2.6 关系代数 2、关系模型简介 2.1 关系数据库的结构 Structure of Relational…

【目标检测】YOLOv5|YOLOv8模型QT界面可视化部署

YOLO-Deploy-QT_Interface 最近笔者做了YOLO系列算法的部署工作,现做一个总结。主要工作是做了用于部署YOLOv5和YOLOv8的可视化QT界面,可实现图片、文件夹、视频、摄像头的ONNX与OpenVino部署,具体效果如下: 代码链接:https://github.com/Zency-Sun/YOLO-Deploy-QT_Inte…

开源之夏又有新项目发布!快来认领!¥12,000 奖金等你来!

又有新项目加入开源之夏啦!KubeBlocks 的亲兄弟 WeScale 也加入开源之夏啦!一起来了解下 WeScale 社区及它带来的项目吧! WeScale 是什么? WeScale 社区源自对更好的数据库访问体验的追求。在现代应用程序开发中,数据…

一文扫盲(13):电商管理系统的功能模块和设计要点

电商管理系统是一种用于管理和运营电子商务平台的软件系统。它提供了一系列功能模块,帮助企业进行商品管理、订单管理、会员管理、营销推广、数据分析等工作。本文将从以下四个方面介绍电商管理系统。 一、什么是电商管理系统 电商管理系统是一种集成了各种功能模块…

Android Q - 音频通路调试

对于当前模块不是很清楚,刚好有个项目这方面有点问题,根据展锐支持文档一步步检查就可以了。首先得先弄清楚硬件具体是怎么连接的,比如文档提到的案例:sprd codec speaker output 连接外部 PA。 耳机接的是什么,speake…

国产化开源鸿蒙系统智能终端RK3568主板在电子班牌项目的应用

国产化开源鸿蒙系统智能终端主板AIoT-3568A、人脸识别算法的的电子班牌方案可支持校园信息发布、人脸识别考勤、考场管理、查询互动等多项功能,助力学校在硬件上实现信息化、网络化、数字化,构建“学校、教师、学生”三个维度的智慧教育空间。 方案优势 …

mysql5和mysql8同时存在

Win10安装两个不同版本MySQL数据库(一个5.7,一个8.0.17)_两个数据库的版本不同(我本地的是mysql5.7,线上是mysql8),怎么进行数据的同步?-CSDN博客 安装两个版本的mysql出现的问题和解决_mysql安装两个版本其中一个不适用-CSDN博客 一台电脑…

增程SUV价格即将崩盘?买车一定要再等等!

文 | AUTO芯球 作者 | 雷歌​ 真是“离谱”啊,车圈真是逗比欢乐多, 我这两天看一个博主连续40多小时开车直播,充电口、油箱盖全部封死,全程视频直播没断过, 就为了测试这两天刚上市的星际元ET续航有多远。 另一个…

drippingblues 靶机实战

信息收集: Nmap: 存活: 靶机ip:192.168.10.110 端口: 服务: 发现ftp服务可以匿名登录。且用户名是FTP。 发现一个压缩包,下载并爆破。 得到密码 072528035。发现关键字 drip。里面还有一个 secret.zip(…

C语言写扫雷游戏(数组和函数实践)

目录 最后是代码啦! 手把手教你用C语言写一个扫雷游戏! 1.我们搭建一下这个多文件形式的扫雷游戏文件结构 2.在主函数里面设置一个包含游戏框架的菜单 菜单可以方便游戏玩家选择要进行的动作和不断地进行下一局。 3.switch语句连接不同的结果 菜单可…

49.乐理基础-拍号的类型-单拍子、复拍子

当前写的东西,如果只是想要看懂乐谱的话,它是没什么意义的,就像我们要把 0,1,2,3,4,5。。。称为自然数,1,2,3,4,5称为正整…

【提示学习论文】TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model(CVPR2024) 基于文本的类感知提示调优的VLMKgCoOp为baseline,进行改进,把 w c l i p w_{clip} wclip​进行投影,然后与Learnable prompts进行…

考研数学|强化《660》+《880》这样刷,太丝滑了❗️

660题880题需要大概两个月才能做完 660题和880题都是很高质量的题集,所以做起来一点也不轻松。 每年都会有学生暑假两个月只做了一本660题的情况,因为题目实在是太难,有点做不下去的感觉。 不过不要担心,暑假就是刷题发现问题的…

Ubuntu安装k8s集群

文章目录 Ubuntu安装k8s3台主机前置操作:3台主机k8s前置安装命令:k8s安装命令: 节点加入 Ubuntu安装k8s 官方文档:https://kubernetes.io/zh-cn/docs/setup/production-environment/tools/kubeadm/install-kubeadm/ 默认3台机子 注…

如何为域名生成证书签发请求CSR

最近我们在Hostease购买了服务器产品,为了保障我们网站的安全,我们额外还购买了SSL证书产品。在Hostease技术客服的帮助下,我们成功签发了SSL证书。 在签发证书前需要生成一个证书签名请求CSR,证书签名请求(CSR)是一个包含有关你…

轻松拿下指针(5)

文章目录 一、回调函数是什么二、qsort使用举例三、qsort函数的模拟实现 一、回调函数是什么 回调函数就是⼀个通过函数指针调⽤的函数。 如果你把函数的指针(地址)作为参数传递给另⼀个函数,当这个指针被⽤来调⽤其所指向的函数 时&#x…

Autoware内容学习与初步探索(一)

0. 简介 之前作者主要是基于ROS2,CyberRT还有AutoSar等中间件完成搭建的。有一说一,这种从头开发当然有从头开发的好处,但是如果说绝大多数的公司还是基于现成的Apollo以及Autoware来完成的。这些现成的框架中也有很多非常好的方法。目前作者…

uniapp高性能图片裁剪插件,可添加水印

效果图&#xff1a; 插件地址&#xff1a;高性能图片裁剪&#xff0c;裁剪图片后自动添加水印 - DCloud 插件市场 示例&#xff1a; <template> <view><button click"select">选择图片</button><image mode"widthFix" :src&qu…

EUCR-30S电机保护器施耐德EOCR

​EOCR主要产品有电子式电动机保护继电器&#xff0c;电子式过电流继电器&#xff0c;电子式欠电流继电器&#xff0c;电子式欠电压继电器&#xff0c;其它保护和监视装置&#xff0c;电流互感器。 电器密集型设计 ■ 二个集成组装电流互感器 ■ 欠载保护&#xff08;空转保护…

解决使用Vue.js前端与Flask后端API交互时跨源资源共享问题

我在使用flask以及Vue做一个项目时遇到了Vue前端与Flask后端API交互的问题就是前端获取不到后端返回的数据&#xff0c;报错&#xff1a; 上网查说是跨域问题&#xff0c;于是找了一些解决办法&#xff0c;就是可以通过设置响应头的 Access-Control-Allow-Origin 字段来允许所有…