合合信息:TextIn文档解析技术与高精度文本向量化模型再加速

news2024/11/17 0:07:46

文章目录

  • 前言
  • 现有大模型文档解析问题
    • 表格无法解析
    • 无法按照阅读顺序解析
    • 文档编码错误
  • 诉求
  • 文档解析技术
    • 技术难点
    • 技术架构
    • 关键技术
    • 回根溯源
  • 文本向量化模型
  • 结语

前言

随着人工智能技术的持续演进,大语言模型在我们日常生活中正逐渐占据举足轻重的地位。大模型语言通常需要庞大的知识库来支持其生成和理解自然语言的能力。文档解析技术可以帮助从各种来源(如学术论文、技术文档、新闻报道等)中提取和整合信息,构建出全面且准确的知识库。这些知识库是模型进行语言理解和生成的基础。

那么什么是文档解析技术呢?文档解析技术是指对文档进行深入分解、分析和理解的过程,目的是从中提取和整合有用的信息。这个过程通常涉及对文档的标题、段落、段落关系以及文档中的其他关键元素进行详细的分析。通过文档解析,我们可以更好地理解文档的结构、内容和主题,从而更有效地利用这些信息。

现有大模型文档解析问题

既然文档解析这么重要,那他的发展应该引起大家足够的重视,我们先来看一下目前市场上的现有大模型在文档解析领域都出现了哪些问题呢?

表格无法解析

在这里插入图片描述

如上图所示,我们将一篇文档输入给ChatGPT4,并让它根据文件来回答一下“精氨酸在40度的水中,溶解度是多少”。右图明确指出该答案是“31.9”,而ChatGPT4却给出了错误答案,这就意味着ChatGPT4并没有对提供的文档进行准确地解析。

无法按照阅读顺序解析

无法按照阅读顺序解析通常指的是在文档解析或内容呈现过程中,系统无法按照人类阅读的自然顺序(如从左到右、从上到下)来正确解析或展示文档内容。来看个例子

在这里插入图片描述

我们依旧给ChatGPT4提供了一篇文章,并让它根据文档内容回答一下本书致谢环节提到的致谢对象,它给出的结果依旧不理想。

文档编码错误

如下图所示,ChatGPT4在解析文档的过程中出现了文档编码错误,这表明在大模型训练或者应用过程中仍然存在文档编码问题。

在这里插入图片描述

诉求

当然出现以上问题都是我们所不能忍受的,毕竟我们不仅仅需要大模型帮我们提高工作的效率,更重要的是我们需要让他对准确度负责,因为准确性是使用他的前提。如果连准确度都不能做保证的话,那一切都将没有任何意义。

在这里插入图片描述

我认为我们对高效获取高质量数据的要求是希望在大模型训练和应用的部分,可以将PDF、Word、扫描件的阅读顺序还原准确、识别速度快、支持论文等多种排版文档、元素识别准确,尤其是表格、段落、公式、标题等多个方面。

说到这儿,我就不得不提一下合合信息推出的TextIn 平台了,如下图所示,TextIn不仅包含文档解析技术,还包括文本向量化模型技术。接下来阿Q将对他们依次进行介绍。

在这里插入图片描述

文档解析技术

在了解TextIn文档解析技术之前我们先来说一下他的大模型在训练和应用过程中都对哪些文档进行了分析吧!据我所知,他的大模型训练所使用的文档种类比较丰富,比如:合同、书籍、论文、产品说明书、公文函、财报等。

技术难点

要想将以上多种文档进行准确无误的识别并且解析,在大模型的训练和应用过程中需要克服和解决各种各样的技术难点:

  • 版面检测:元素遮盖重叠、元素本身有多样性、复杂版式(双栏、跨页、三栏);
  • 阅读顺序还原困难:多栏的影响、多栏和插入表格的影响;
  • 表格还原:无线表格识别、合并单元格识别;
  • 公式识别:单行公式与行内公式、表格内公式;

技术架构

为了克服以上提到的种种技术难点,合合信息设计出了以下TextIn文档解析技术架构。

在这里插入图片描述
该技术架构底层是基于测评工具链和数据工具链的基建层,算法层分为文档解析引擎、检测引擎和图像识别引擎,算法层主要用来完成一个文档将多页拆分成单页,同时将其中的每一个元素进行检测和图像识别。
至于应用层的话,可以分为以下三步走:

  • 第一步:将多页文档进行拆分,并且将其中的电子档和扫描档经过不同的解析引擎进行解析,并最终形成了文档表征的基础特征。
  • 第二步:将基础的文档的表征,比如表格、页眉、页脚、目录、文字、图形等做版面分析、跨页合并、图层分离、处理多节点关系,最终的目的是将一个多元的不同格式的文档输出为大模型可以理解的顺序的文档
  • 第三步:文档的重建,输出成一个markdown文件。

在这里插入图片描述

接入层的话为应用的最终形态,用于对外提供API、SDK、私有化镜像以及web端的产品。

关键技术

Layout-engine版面分析框架:将电子档和扫描档经过不同的物理和逻辑版面分析,拿到文档中所有的元素:段落、公式、目录、页眉、页脚等,在整合成可以被大模型顺利阅读的有顺序性的内容。

Catelog-engine文档树提取技术

  1. 通过输入整份文档的段落内容,以序列化形式传入模型。
  2. 文档树引擎提取当前段落的embedding值,预测每个段落和上一个段落的关系,分为子标题、子段落、合并、旁系、主标题、表格标题等。如果是旁系类型,则再往上找父节点,并判断其层级关系,直到找到最终的父节点。
  3. 最后基于每个段落的情况,构造该文档的文档树,并按 JSON 结构输出。

在这里插入图片描述

回根溯源

有了以上技术的加持之后,我们再来对ChatGPT4来进行下测验,此时我们不再上传PDF格式的文件,而是将被TextIn技术处理后得到的markdown文件整理成txt文件进行上传,通过下图我们可以看出ChatGPT4已经可以完全回答正确了。

在这里插入图片描述

至于其他两个问题,咱们直接上图,不做太多解释,就是这么自信。

在这里插入图片描述

在这里插入图片描述

文本向量化模型

近期,合合信息发布了文本向量化模型acge_text_embedding(简称“acge模型”),获得MTEB中文榜单(C-MTEB)第一的成绩,相关成果将有助于大模型更快速地在行业中产生应用价值。

在这里插入图片描述

结语

合合信息是一家深耕人工智能与大数据领域的科技企业,凭借独特的智能文字识别与商业大数据核心技术,为全球的个人用户(C端)和各行各业的企业客户(B端)提供前沿的数字化、智能化解决方案。

TextIn是合合信息推出的智能文档处理产品,旨在为全球用户提供智能图像处理、文字表格识别、文档内容提取产品。希望所有对技术充满热情的朋友们,前往TextIn的官方网站来亲身体验图像处理的智能化、文字与表格识别的精准度,以及文档内容的高效提取。更多精彩功能等待您的探索,快来开启您的智能化体验之旅吧!
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1677147.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

通过java将数据导出为PDF,包扣合并单元格操作

最近项目中需要将查询出来的表格数据以PDF形式导出&#xff0c;并且表格的形式包含横向行与纵向列的单元格合并操作&#xff0c;导出的最终效果如图所示&#xff1a; 首先引入操作依赖 <!--导出pdf所需包--><dependency><groupId>com.itextpdf</groupId&…

Linux 生态与工具

各位大佬好 &#xff0c;这里是阿川的博客 &#xff0c; 祝您变得更强 个人主页&#xff1a;在线OJ的阿川 大佬的支持和鼓励&#xff0c;将是我成长路上最大的动力 阿川水平有限&#xff0c;如有错误&#xff0c;欢迎大佬指正 目录 Linux生态简介:Linux工具lrzsz&#xff…

适用于 Windows 8/10/11 的 10 大 PC 迁移工具:电脑克隆迁移软件

当您发现自己拥有一台新的 PC 或笔记本电脑时&#xff0c;PC 迁移变得至关重要。将数据从旧计算机传输到新计算机的过程似乎令人生畏&#xff0c;尤其是如果您是第一次这样做。迁移过程中数据丢失的潜在风险加剧了焦虑。为确保文件和系统设置的无缝无忧传输&#xff0c;使用专为…

探索设计模式的魅力:机器学习赋能,引领“去中心化”模式新纪元

​&#x1f308; 个人主页&#xff1a;danci_ &#x1f525; 系列专栏&#xff1a;《设计模式》 &#x1f4aa;&#x1f3fb; 制定明确可量化的目标&#xff0c;坚持默默的做事。 探索设计模式的魅力&#xff1a;机器学习赋能&#xff0c;引领“去中心化”模式新纪元 ✨欢迎加入…

3月份太阳镜行业线上市场销售数据分析

在消费者行为方面&#xff0c;太阳镜不仅仅是视力保护工具&#xff0c;更逐渐成为一种时尚单品。随着人们对健康和美容重视程度的提高&#xff0c;太阳镜作为体现个人风格的单品&#xff0c;其市场需求得到了进一步的推动。此外&#xff0c;全球旅行和旅游业的恢复&#xff0c;…

被暗示离职?教你优雅反击

在职场中&#xff0c;面对公司暗示离职的情况&#xff0c;应届毕业生可能会感到困惑与无助。但是&#xff0c;保持冷静和据理力争是保护自己权益的重要途径。以下是如何应对此类情况的一些建议。 当你感觉到被暗示离职时&#xff0c;首要的策略就是与上司进行有效沟通。安排一个…

halo博客--解决恶意刷评论的问题

原文网址&#xff1a;halo博客--解决恶意刷评论的问题_IT利刃出鞘的博客-CSDN博客 简介 本文介绍halo博客如何通过设置评论次数来解决恶意刷评论的问题。 评论功能要设置频率的限制&#xff0c;否则可能被人一直刷评论&#xff0c;然后数据库存的垃圾评论越来越多&#xff0…

数据结构——队列(链表实现)

一、队列的特点 先进先出 二、队列的代码 typedef int QDataType;// 链式结构&#xff1a;表示队列 typedef struct QListNode {struct QListNode* next;QDataType data; }QNode;// 队列的结构 typedef struct Queue {QNode* front; //指向队列的第一个结点QNode* rear;//指…

刷代码随想录有感(66):回溯算法——组合问题的优化(剪枝)

代码&#xff1a;将for循环中i的搜索范围进行缩小&#xff0c;免去多余的不可能符合条件的操作。 for(int i start; i < n-(k-tmp.size())1;i) 实质是剪枝&#xff0c;拿n4,k4作比较&#xff1a; 显然结果只可能是[1,2,3,4]&#xff0c;选取顺序只可能是1-2-3-4&#xff…

Day27 代码随想录打卡|栈与队列篇---删除字符串中的所有相邻重复项

题目&#xff08;leecode T1047&#xff09;&#xff1a; 给出由小写字母组成的字符串 S&#xff0c;重复项删除操作会选择两个相邻且相同的字母&#xff0c;并删除它们。 在 S 上反复执行重复项删除操作&#xff0c;直到无法继续删除。 在完成所有重复项删除操作后返回最终…

霍廷格电源 Tru plasma DC3030 通快DC3040 MF3030

霍廷格电源 Tru plasma DC3030 通快DC3040 MF3030

Muse论文精读

Muse Abstract 我们介绍了Muse&#xff0c;一个文本到图像的Transformer模型&#xff0c;它实现了最先进的图像生成性能&#xff0c;同时比扩散或自回归模型更有效。Muse是在离散标记空间中的掩码建模任务上进行训练的:给定从预训练的大型语言模型(LLM)中提取的文本嵌入&…

C语言如何删除表中指定位置的结点?

一、问题 如何删除链表中指定位置的结点&#xff1f; 二、解答 删除链表中指定的结点&#xff0c;就像是排好队的⼩朋友⼿牵着⼿&#xff0c;将其中⼀个⼩朋友从队伍中分出来&#xff0c;只需将这个⼩朋友的双⼿从两边松开。 删除结点有两种情况&#xff1a; &#xff08;1&am…

三菱FX3U-4AD模拟量电压输入采集实例

硬件&#xff1a;&#xff30;&#xff2c;&#xff23;模块 &#xff26;&#xff38;&#xff13;&#xff27;&#xff21;-&#xff12;&#xff14;&#xff2d;&#xff34; &#xff1b;&#xff21;&#xff0f;&#xff24;模块&#xff26;&#xff38;&#xff13…

连接虚拟机的 redis

用Windows 的 Redis Insight 连接虚拟机的 安装redis发现连不上 我的redis是新安装&#xff0c;没有用户名密码&#xff0c;发现是ip问题 127 开头的被我注释了&#xff0c;换成了ifconfig查到的ip

Nginx 生产环境部署的最佳实践

你好呀&#xff0c;我是赵兴晨&#xff0c;文科程序员。 最近一段时间&#xff0c;我一直在和大家一起探讨Nginx的相关话题。期间&#xff0c;我收到了很多小伙伴的私信&#xff0c;他们好奇地问我&#xff1a;在生产环境中&#xff0c;Nginx应该如何配置&#xff1f; 他们在…

idea启动Jsp非maven项目时的一些步骤

文章目录 事前准备eclipse项目举例idea打开eclipse项目安装tomcat配置启动项启动测试 一些小问题到不到servlet 事前准备 非社区版idea【否则启动项无法配置】tomcatmysql eclipse项目举例 idea打开eclipse项目 剩下的全部下一步即可 安装tomcat 自己的文章 Javaweb - t…

《云原生安全攻防》-- 构建云原生攻防场景

在本节课程中&#xff0c;我们将学习云原生攻防场景的构建。为了研究云原生安全攻击案例&#xff0c;我们需要搭建一个云原生攻击测试环境&#xff0c;以便进行攻防研究和攻击手法的复现。 在这个课程中&#xff0c;我们将学习以下内容&#xff1a; 构建云原生攻防场景&#xf…

设计模式-动态代理

目录 定义 代理模式的优缺点 优点 缺点 应用场景 静态代理 动态代理 相关资料 定义 代理模式&#xff08;Proxy Pattern&#xff09;是一种结构型设计模式&#xff0c;它的概念很简单&#xff0c;它通过创建一个代理对象来控制对原始对象的访问。代理模式主要涉及两个…

Spring WebFlux 初探-响应式编程-021

&#x1f917; ApiHug {Postman|Swagger|Api...} 快↑ 准√ 省↓ GitHub - apihug/apihug.com: All abou the Apihug apihug.com: 有爱&#xff0c;有温度&#xff0c;有质量&#xff0c;有信任ApiHug - API design Copilot - IntelliJ IDEs Plugin | Marketplace The Nex…