智能文档处理:解析文档场景下多模态大模型的应用与研究前沿

news2024/9/22 21:32:39

在这里插入图片描述

解析文档场景下多模态大模型的应用与研究前沿

  • 一、TextIn 文档解析技术
    • 1. 现有大模型文档解析问题
    • 2. 文档解析技术背景
    • 3. TextIn 文档解析技术架构
    • 4. 版面分析关键技术 Layout-engine
  • 二、TextIn 文本向量化技术
  • 三、TextIn.com Text Intelligence

一、TextIn 文档解析技术

在这里插入图片描述

  hello,大家好我是恒川,今天我来给大家安利一个非常好用的网站TextIn,它的第一个核心技术是这个文档解析,现存的文档解析存在一些问题,比如表格、无线表无法解析以及阅读顺序的解析错乱的问题,包括扫描版文档以及文档编码的问题等。下面我给大家举几个例子。

1. 现有大模型文档解析问题

在这里插入图片描述
  我们将ChatGPT里面输入了一个PDF,这个PDF显示精氨酸在40度的温度下,它的溶解度是31.9,但ChatGPT并没有将这个PDF进行准确的解析,所以他的回答是错误的。

  我们再举一个例子。
在这里插入图片描述
  在这个文档的致谢的过程中,我们来问他文中的致谢提到了哪四类感谢对象,实际上他的感谢对象也是错误的,那这个的原因都是在于本身这个文档的解析,阅读顺序错误导致的一些问题,那像这样的一个编码问题依然是存在这个大模型的,无论是训练还是应用的过程之中。

2. 文档解析技术背景

在这里插入图片描述
  在我们的日常生活中,那我们有什么样的一个诉求呢?在探索多模态大模型在不同应用领域的应用中,如文档智能分析、智能搜索、阅读顺序还原准确、支持论文和多种排版文档等。
  接下来我要通过具体案例来展示这些模型在实际应用中的效果和潜力。PDF word在扫描文件时,我们希望在训练和应用的部分可以将这个整体的一个阅读顺序进行还原,包括他的表格、段落、公式和标题相关的一些元素识别准确。以及识别的速度和多样的排版的支持,那我们来看一下在多模态大模型的预训练中,我们需要处理哪些文档?

文档示例
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  比如这个书籍,或像论文以及产品说明书。

文档解析Pipeline
在这里插入图片描述
  这是一整套的文档解析。分为三个部分,那第一个部分呢,就是将一个多页的文档进行了拆分,并且将其中的电子文档扫描到经过不同的解析引擎,最终形成的一个文档基础的一个特征。第二部分,要将基础文档表中的表格、眉页、目录、文字、图形等等,来做文档的一个绑定分析。以及跨越合并和它几点关系之间的处理,最终的目的是将一个多元异构的不同格式的文档输出成一个有顺序的文档(称之为大模型),那最后一部分就是文档的重建会输出成一个markdown,那简单来说就是他们将一个多种格式,多种版面的PDF最终输出成了一个大模型,能够理解为一个顺序的markdown形式。

  接下来给大家举些例子,就是它的技术难点在哪里?
在这里插入图片描述
  第一个部分是可以看到有元素的印章的遮盖和遮盖文字本身的一个呈现(如上图),那包括页面也有不同的形式以及双栏,三栏和跨页相关的内容。

在这里插入图片描述

  还有一些文档,它的阅读顺序是需要一个准确的排序的,比如像左边(如上图)的这张图,它的顺序先是上面的全栏,在三栏下的每一个是上下的顺序的阅读。那我们来看右边多栏和插入表格的影响,它的顺序是要先将上半部分的双栏进行一和二的阅读,再进行三和四无线表的阅读,最终五和六的双栏。

在这里插入图片描述

  在表格的部分,其实在有线表已经解决不错的情况下,在无线表格的一个解决,包括无线表中我们的三线表合并单元格的一个情况,那这个部分在论文或在报告中都是经常会出现的。
在这里插入图片描述

  也包括在公式的整体识别和表格内的这个公式的一个识别。

3. TextIn 文档解析技术架构

  那整体我们的技术架构是怎么样的?

在这里插入图片描述
  为了解决这些问题,将一个基于数据和基于测评的一个基建,在上方的算法层,是将一个文档的多页拆成单页。同时,将其中的每一个独立的元素进行文档解析,检测以及图像文字的识别。完成了元素的基础表中识别之后,会进行整个文档的一个解析,它包含这个文档类型的判断,包括表当中的一个整合以及整个的版面相关的一个还原,最终还原成了一个完整的阅读顺序。

4. 版面分析关键技术 Layout-engine

  其中的关键技术,我在这里展示两个部分,第一部分是将一个电子档和扫描档经过不同的物理和逻辑版面的分析,最终拿到所有的这个元素,比如有段落、有公式、有图像以及有相关的页眉、页脚、目录,然后再整合成一个可以被大模型顺利阅读的顺序,这一块内容(如下图)右边就是一个典型的一个输出,里面每个内容都有它的类型。

在这里插入图片描述

  那第二部分呢,其实是大家现在大模型训练中一个重要的部分,它是一个目录树的梳理,因为目录树是一个文档中它结构化的第一层,也是最重要的一层,他们设计了一个文档处理引擎来准确的区分它的子标题、子段落以及主标题和表格的标题。
的方向

  那我们可以看见这样技术的一个展示(如下图),像这样的一个双栏,它是可以比较准确从左边到右边的一个顺序输出。

在这里插入图片描述

  我们将这样的一个横栏,再加两双栏进行了一个准确的输出(如下图)。
在这里插入图片描述

  那第三部分我们可以看非对称的双栏,大概左边占三分之二,右边是占三分之一,而且有图有表,也是进行了一套左边的三分之二的顺序输出,然后进行右边的一个输出,可以看到表格是在这个下方的区域(如下图)。

在这里插入图片描述

  双栏和表格也是比较顺畅的进行了一个准确的输出(如下图)。

在这里插入图片描述
  也包括无线表格(如下图)以及单元格的合并(如下图)。

在这里插入图片描述
在这里插入图片描述

  最终的输出形式是在markdown形式之下,所以整个的大模型也是可以来进行一个训练和应用。

  那我们可以看到层级目录已经进行了准确的一个识别(如下图)。

在这里插入图片描述

在这里插入图片描述
  从这里我们可以看到(如上图),我在开头举的几个例子,ChatGPT-4在直接解析PDF回答的过程中是回答失败的。但我们将这个PDF转化成markdown的一个内容,并且以TextIn上传到这个ChatGPT-4后,它便回答的非常清楚,就31.9的这个溶解度。
  那第二个问题也准确将整个致谢做了一个回答(如下图)。
在这里插入图片描述

  第三部分就是将整个编码错误的PDF也进行了准确的识别和输出。
在这里插入图片描述

二、TextIn 文本向量化技术

在这里插入图片描述

  这是TextIn的第二个核心技术,它主要是文本向量化的工作,也是我们在文本应用的部分,这个地方他们做了一个TextIn acge_text_embedding的一个模型(如下图),这块就不详细讲了,如果大家感兴趣,可以在huggingface去看,里面有技术的介绍,以及如何直接引用这个库。

在这里插入图片描述

三、TextIn.com Text Intelligence

在这里插入图片描述

  合合信息目前也做了一个站点,TextIn是一个缩写,就是这个部分,欢迎访问 TextIn.com,加速多模态大模型研究与应用。
  大家也可以去免费的体验,如果大家有更多更高量的一个需求。我们可以扫下边的这个二维码,可以给到大家更多的这个版面分析相关的一个讨论,TextIn希望在大模型的训练应用的过程中,能够帮助到大家,将更高信息量、更高质量的一些文档相关信息可以用在我们的这个大模型的训练和应用之中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1678551.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux系统 -目录结构与配网

目录的特点 Windows中有C盘、D盘等,每个都是一个根系统是个多根系统 Linux中只有一个根是个单根系统 Linux-目录存储的内容 1、/root:管理员的家目录 2、/home:存储普通用户家目录的目录/3、/tmp:临时目录,这个目录存储…

【二叉树】(二)二叉树的基础修改构造及属性求解1

(二)二叉树的基础修改构造及属性求解1 翻转二叉树递归实现迭代实现(深度遍历)层序实现(广度遍历) 对称二叉树递归实现迭代实现(非层序遍历) 二叉树的最大深度递归法迭代法&#xff0…

欢乐钓鱼大师攻略大全,新手钓鱼入坑必备攻略!

《欢乐钓鱼大师》是一款深受玩家喜爱的钓鱼手游,在游戏中,玩家可以通过升级和更换鱼竿来享受钓鱼的乐趣,并有机会钓到各种稀有鱼类。然而,很多玩家在闯关过程中遇到了不少困难。为了帮助大家更好地掌握游戏技巧,小编特…

量化交易策略:经典量化交易策略大汇总(内附开通方法)

01、什么是量化交易? 量化交易是一种依赖于先进的数学模型和计算机技术的交易方式,旨在制定能带来超额收益的多种“大概率”事件策略。 这个过程从大量的历史数据中筛选,极大地减少了投资者情绪波动的影响,避免了在市场极度狂热或…

关于FIFO Generator IP和XPM_FIFO在涉及位宽转换上的区别

在Xilinx FPGA中,要实现FIFO的功能时,大部分时候会使用两种方法: FIFO Generator IP核XPM_FIFO原语 FIFO Generator IP核的优点是有图形化界面,配置参数非常直观;缺点是参数一旦固定,想要更改的化就只能重…

【大数据】计算引擎MapReduce

目录 1.概述 1.1.前言 1.2.大数据要怎么计算? 1.3.什么是MapReduce? 2.架构 3.工作流程 4.shuffle 4.1.map过程 4.2.reduce过程 1.概述 1.1.前言 本文是作者大数据系列专栏的其中一篇,专栏地址: https://blog.csdn.ne…

AI交互数字人赋能农业数字化、智能化推广营销

2024陵水荔枝文化节上“数字新农人”陵小荔身着黎族服饰、佩戴银器亮相开幕式现场,AI交互数字人生动地以互动式推介和歌舞等形式,带领宾客们了解陵水荔枝的发展历程、产业布局、未来愿景等。如今,越来越多农产品品牌通过3D虚拟数字人定制&…

声纹识别的对抗与防御

随着机器学习理论和方法的发展, 出现了用于模仿特定说话人语音的深度伪造、针对语音识别和声纹识别的对抗样本, 它们都为破坏语音载体的可信性和安全性提供了具体手段, 进而对各自应用场景的信息安全构成了挑战。 深度伪造是利用生成式对抗网络等方法, 通过构建特定的模型, 产生…

用HAL库改写江科大的stm32入门例子4-1 OLED

大体 步骤: step1:使用STM32CubeMX初始化I2C1,生成初始化代码 step2:将任意一个库导入到工程,配置好编译路径 step3:调用函数即可 IIC原理图: 接线图: 先设置clock: 开…

GPT-4o模型介绍和使用方法

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

VBA直连SAP RFC 接口实例

引用依赖: VBA 调用 SAP API的RFC函数:RFC_READ_TABLE Sub A() 查询SAP表数据并输出到EXCEL,VBA中不区分大小写(保存后会自动把代码、变量转换大小写)Dim iData As Integer Dim nField As Integer Dim nData As Integer Dim Result As Boolean Dim vRow As Variant MsgBox…

Socks5:网络世界的隐形斗篷

在数字化时代,网络隐私和安全已成为人们日益关注的话题。Socks5,作为一种代理协议,为用户在网络世界中的匿名性提供了强有力的支持。本文将从Socks5的多个方面,深入探讨这一技术如何成为网络世界的“隐形斗篷”。 一、Socks5的基本…

如何在WordPress中启用两因素身份验证?

在WordPress中启用两因素身份验证方法:安装和激活WordFence安全性、启用两因素验证。 使用您可以从任何位置登录的任何门户,建议启用两个因素身份验证以增加帐户的安全性。 这样,即使有人可以正确猜测你的密码,它们仍然需要获得2…

代码随想录算法训练营第四十八天|121. 买卖股票的最佳时机 、122.买卖股票的最佳时机II

121. 买卖股票的最佳时机 思路: 动规五部曲分析如下: 1.确定dp数组(dp table)以及下标的含义 dp[i][0] 表示第i天持有股票所得最多现金 ,这里可能有同学疑惑,本题中只能买卖一次,持有股票之…

队列的实现与OJ题目解析

"不是你变优秀了, 那个人就会喜欢你." 文章索引 前言1. 什么是队列2. 队列的实现3. OJ题目解析4. 总结 前言 感情可以培养是个伪命题. 如果有足够多的时间和爱, 就可以让另一个人爱上你的话, 那谁和谁都可以相爱了. 爱情之所以会让人死去活来, 是因为, 答案都写在了…

虚拟化技术 安装和配置StartWind iSCSI目标服务器

一、实验内容 安装StartWind iSCSI目标服务器配置StartWind iSCSI目标服务器 二、实验主要仪器设备及材料 安装有64位Windows操作系统的台式电脑或笔记本电脑,建议4C8G或以上配置已安装vSphere Client已创建虚拟机并在其上安装CentOS6.5StarWind安装介质starwind.…

VUE如何实现批量下载多个文件并导出zip格式

效果图 1、安装jszip和file-saver插件 npm install jszip npm install file-saver2、在所需页面引入 import JSZip from "jszip"; import FileSaver from "file-saver";3、模拟fileList数组 //fileList模拟文件数组export default {name: "notic…

react18【系列实用教程】useMemo —— 缓存数据 (2024最新版)

为什么添加了 memo &#xff0c;子组件2依然重新渲染了呢&#xff1f; 因为父组件向子组件2传递了引用类型的数据 const userInfo {name: "朝阳",};<Child2 userInfo{userInfo} />memo() 函数的本质是通过校验Props中数据的内存地址是否改变来决定组件是否重新…

《米小圈动画成语》—和孩子一起意动“神州”成语连击!

成语有着独特的语言魅力&#xff0c;以其源远流长、凝练浓缩、概括力强而历久弥新,久盛不衰&#xff0c;是中华民族特有的文化现象。成语既是语言文字符号&#xff0c;又具有无穷的艺术魅力。在表情达意、传递高质量语言信息方面起着以一当十的作用。成语的结构严谨、言简意赅&…

动规解决01背包/完全背包精讲

还不会用动态规划解决01背包/完全背包&#xff1f;看这一篇文章就够了&#xff01; 首先我们要明白什么是01背包和完全背包。 背包问题总体问法就是&#xff1a; 你有一个背包&#xff0c;最多能容纳的体积是V。 现在有n个物品&#xff0c;第i个物品的体积为vi​ ,价值为wi​…