多模态产品在智能文档处理应用的展望------以TextIn模型为例

news2024/12/28 5:57:14

  • 前言
  • 发展现状
  • TextIn 文档解析技术
  • 文本向量化
  • 展望
  • 合合信息

前言

   第十四届视觉与学习青年学者研讨会(VALSE 2024)于5月5日-7日在山城重庆渝北区悦来国际会议中心举办。大会聚焦计算机视觉、模式识别、多媒体和机器学习等领域的国际前沿和热点方向。大会中,合合信息智能创新事业部研发总监常扬做了"文档解析与向量化技术加速多模态大模型训练与应用"专题汇报,主要讲解TextIn文档解析技术和高精度文本向量化模型的技术特征。下面为大家分享一下这次报告的主要内容。

发展现状

   目前已有的文档解析技术依然面临诸多挑战。例如表格(特别是无线表)无法解析或结果错乱的问题,无法按照阅读顺序解析的问题,或是无法解析扫描版或图片版文档,又或是文档的编码出错误。这一问题严重影响到了大语言模型的训练与输出。因此我们需要文档解析技术能够阅读顺序还原准确、元素识别准确,尤其是表格、段落、公式、标题、识别速度快、支持论文等多种排版文档。

   通常的做法是建立一个独立的文档解析Pipeline,判断文档类型并进行预处理。它主要分为三个部分:

  • 第一个部分将不同类型的文档解析为基础文档表征。

  • 第二个部分将基础文档表征进行处理,如版面分析、跨页合并、节点关系处理,将多元异构不同格式文档输出为可理解的顺序文档。

  • 最后一个部分,将结果输出为markdown。
    在这里插入图片描述

   建立文档解析Pipeline的难点在于版面检测。文档元素可能存在遮盖重叠,元素本身形式五花八门,同时文档的版式众多,特别是多栏文档,阅读顺序本就不一样,在插入表格后,情况会变得更为复杂。此外表格造成的困难也是巨大的,无线表格和合并表格使内容难以定位。另外公式的使用也会为识别工作带来挑战。

TextIn 文档解析技术

针对上述问题,合合信息发布了TextIn 相关模型。它采用了四层技术架构:底层是围绕数据相关的基建层;上方的算法层将文档拆分为单页的同时,对每个独立的元素进行解析检测和图像文字的识别;得到文档基础表征后,会进入到应用层,进行文档类型判断,表征整合以及版面的还原,最终还原为一个正常阅读顺序的文本,并通过接入层分发至其他应用。

在这里插入图片描述

   这其中包括两部分核心技术。第一部分是版面分析算法框架。它能够选取合适的流程,将电子档或扫描档解析为独立的元素,再整合成为遵循大模型可理解的阅读顺序的输出。

在这里插入图片描述

   第二部分是文档树引擎。通过目录树准确地识别主标题、子标题、子段落、表格标题。

在这里插入图片描述

   归功于这两样核心技术,TextIn在双栏、非对称双栏、含表格双栏、无线表格、合并表格层级目录文档的解析上都有出色表现。

在这里插入图片描述在这里插入图片描述
其他模型TextIn模型

文本向量化

   除了文本解析技术,TextIn在文本向量化领域也尤为突出。近日,TextIn acge_text_embedding 文本向量化模型在 C-MTEB榜单排名第一。同时TextIn模型在多个方面都展现出了明显的优势。相比于传统的预训练或微调垂直领域模型,TextIn模型不仅支持通用分类模型的构建,还能提升长文档信息抽取的精度。此外,该模型的应用成本相对较低,使得大模型能够在多个行业中快速创造价值,推动科技创新和产业升级。在文档问答或知识库问答应用领域都有较强的发展前景。

在这里插入图片描述

展望

   合合信息的研究成果为各行业提供了实用的解决方案。合合信息开发出了高效、准确的图像处理算法和工具,为各种应用场景提供了优化的解决方案。这些成果广泛应用于金融、制造业、医疗等领域,极大地提升了效率和精度,并为各行业的发展带来了实际效益。希望合合信息能够持续进行深入的研究探索和技术创新,不断取得更多突破,推动人工智能技术的应用和智能产业的发展。

合合信息

   上海合合信息科技股份有限公司致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。它开发的深受全球用户喜爱的C端产品全球累计用户下载超23亿,累计月活约 1.3亿。其中名片全能王和扫描全能王免费版在App Store排行榜上名列前茅。本次合合信息提供了TextIn的专题网站和讨论交流群,感兴趣的小伙伴不要错过!

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1670014.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

企业信息系统的总体框架

1.信息系统体系结构的总体参考框架 信息系统的架构(Information System Architecture,ISA)中的Architecture含义具有丰富内涵和作用,相比计算机领域的Architecture来说它的单一性、片面性模型是难以描述ISA的全部的,IS…

【SAP-FICO】SAP-FICO生产订单-结算规则配置路径(OKO7)

需求: 作为一个ABAPer,有接到一个狗屁倒灶的配置需求,要求如下,给生产订单的结算规则显示出来 图1:找一个生产订单,显示其结算规则 CO03→菜单栏-表头→结算规则 图2:查看该生产订单&#xff0c…

仿TCMalloc高并发内存池项目介绍

TCMalloc项目介绍 TCMalloc介绍 Thread-Caching Malloc(TCMalloc),即线程缓存的malloc,是一种高性能的内存分配器,由Google开发并作为gperftools项目的一部分。TCMalloc旨在提高多线程程序的内存分配性能,通…

smardaten让原型不仅只有原型!

smardaten面向软件研发全流程,从设计、开发、测试、到运维人员均可以基于平台完成一体化的开发工作。 随着平台设计场景下功能与组件的不断完善,在面对招投标、售前演示、需求确认的诉求时,已经有不少企业将软件原型设计的主战场转移至smard…

【进程替换】自定义程序替换 | 替换函数execleexecvpe | execve

目录 自定义程序替换 Makefile mypragma.cc☞mypragma testexec.c☞testexec test.py&test.sh execle&execvpe 1.自定义 testexec.c☞testexec mypragma.cc☞mypragma 2.系统 3.系统修改putenv execve 替换函数总结 自定义程序替换 前面我们举例进程程…

PythonStudio 控件使用常用方式(十一)MessageBox

PythonStudio是一个极强的开发Python的IDE工具,它使用的是Delphi的控件,常用的内容是与Delphi一致的。但是相关文档并一定完整。现在我试试能否逐步把它的控件常用用法写一点点,也作为PythonStudio的参考。 MessageBox是一个消息对话框&…

docker八大架构之应用服务集群架构

应用服务集群架构 在之前,一个应用层要负责所有的用户操作,但是有时用户增加后就会导致供不应求的现象(单个应用不足以支持海量的并发请求,高并发的时候站点响应变慢),这时就需要增加应用层服务器&#xf…

报表-设计器的使用

1、设计器目录结构 报表设计器以压缩包的方式提供,解压后,目录结构如下: 目录说明: 1、jdk-17:压缩包中自带的windows平台下的jdk17 2、lite-report:报表文件和数据源配置文件的保存位置 3、lite-repor…

无人售货机零售项目ECharts展现(最全!!,文档放最后哦!)

目录 背景 数据表 框架分析 可视化展示销售情况总分析 1、绘制仪表盘展示各特征及其环比增长率(仪表盘) 1. 销售金额及其环比增长率 2. 订单量及其环比增长率 3. 毛利率及其环比增长率 4.售货机数量及其环比增长率 2、绘制簇状柱状-折线图展示…

Controlnet作者张吕敏又一强力新作IC-Light,对图像进行重打光操作,不要太贴心了!

不论是否玩过AI绘画,光照/光照会影响一张照片的质量及完美度,好的光影对照片起到了画龙点睛的作用,更有助于提升电影质感 而在AI绘画中光影控制仅凭提示词,并不能准确细致满足我们的需要。所以Controlnet作者张吕敏新开发了一个重…

【Pychart】jupyter中pyecharts无法显示问题无法使用/No module named pyecharts

无法显示或No module,一般就是更换python版本后,没有在新的python里安装jupyter;另外原因就是引用方式问题,就是import方式不对;都解决后,有报错没有add,或者str问题。 最后的解决方案竟然是bin…

如何通过iptables配置URL过滤黑名单?

正文共:1555 字 16 图,预估阅读时间:2 分钟 我们前面曾经简单介绍过URL过滤功能(URL过滤功能了解一下?),并且以H3C VFW为例简单配置了一下URL过滤功能。 首先回顾一下,URL过滤&#…

Linux线程(三)死锁与线程同步

目录 一、什么是死锁 死锁的四个必要条件 如何避免死锁 避免死锁算法 二、Linux线程同步 三 、条件变量 1、条件变量基本原理 2、条件变量的使用 3、条件变量使用示例 为什么 pthread_cond_wait 需要互斥量? 一、什么是死锁 死锁是计算机科学中的一个概念,…

C++指针和动态内存分配细节,反汇编,面试题05

文章目录 20. 指针 vs 引用21. new vs malloc 20. 指针 vs 引用 指针是实体,占用内存空间,逻辑上独立;引用是别名,与变量共享内存空间,逻辑上不独立。指针定义时可以不初始化;引用定义时必须初始化。指针的…

物理机转换成虚拟机之linux

文章目录 注意事项环境准备网络拓扑VMware Converter开始转换 注意事项 目标系统-vCenter-ESXI-VMwareConverter网络必须是互通的,否则,会卡在1% 环境准备 vCenteresxiVMware Converter 网络拓扑 VMware Converter开始转换

20 分页:较小的表

目录 简单的解决方案:更大的页 混合方法:分页和分段 多级页表 详细的多级示例 超过两级 ​编辑地址转换过程:记住TLB 反向页表 将页表交换到磁盘 之前提到的一个问题:就是页表太大,假设一个 32 位地址空间&…

如何进行资产梳理(信息收集)

前言 渗透测试流程 线路一:渗透测试人员 1.域名收集--(备案收集) 1.1在线收集子域名 1.1.1 站长之家 1.1.2 IP138网站 1.1.3 查子域 1.1.4 RapidDNS 1.1.5 聚名 1.1.6 Crt.sh 1.1.7 googleHack 1.2工具和资产测绘收集子域名 1.2.1 oneforall(最好用,最全面) 1.2.…

火山引擎VeDI:A/B测试平台指标能力升级,助力企业提升精细化运营效率

在数字化浪潮的推动下,数据分析与精细化运营已成为企业提升竞争力的关键。近日,火山引擎A/B测试DataTester完成了指标能力的全面升级,为企业在流量竞争激烈的市场中提供了更强大、更可信的数据支持。 此次升级亮点在于引入了“按某个属性去重…

AI大模型探索之路-训练篇22: ChatGLM3微调实战-从原理到应用的LoRA技术全解

系列篇章💥 AI大模型探索之路-训练篇1:大语言模型微调基础认知 AI大模型探索之路-训练篇2:大语言模型预训练基础认知 AI大模型探索之路-训练篇3:大语言模型全景解读 AI大模型探索之路-训练篇4:大语言模型训练数据集概…

令牌桶算法:如何优雅地处理突发流量?

令牌桶算法的介绍 在网络流量控制和请求限流中,令牌桶算法是一种常用的策略。那么,令牌桶算法到底是什么呢?它的工作原理又是怎样的呢?让我们一起来探索一下。 令牌桶算法,顾名思义,就是有一个存放令牌的…