合合信息大模型加速器重磅上线,释放智能文档全新可能

news2024/9/30 11:29:38

目录

  • 0 写在前面
  • 1 高速文档解析引擎:拓宽大模型认知边界
  • 2 文本嵌入模型acge:克服大模型感知缺陷
  • 3 行业赋能:以百川智能为例
  • 总结

0 写在前面

随着人工智能技术的飞速发展,大模型以强大的数字处理能力和深度学习能力,不断与各领域交叉融合,逐步成为产业创新的关键抓手。2024世界人工智能大会(WAIC)恰逢全球大模型蓬勃发展之时,今年参会的人们更加关注大模型技术在未来可以如何作用于人们的生活。

在这里插入图片描述

然而,大模型产业发展如火如荼的同时,其训练数据规模的增长速度跟不上、语料质量参差不齐,尤其是高质量中文语料短缺的问题日益凸显,成为各方关注焦点。阿里研究院5月发布的《大模型训练数据白皮书》显示

互联网上中文语料和英文语料占比存在显著差异:在全球网站中,英文占比高达59.8%,而中文仅占1.3%。

高质量数据的生成速度远低于AI大模型训练数据需求量的增长速度,数据短缺问题已初现端倪。本次世界人工智能大会期间,合合信息为中文大模型打造的“加速器”重磅上线,为工业界大模型语料和幻觉问题提供了全新的解决方案。

在这里插入图片描述
下面就让我们一起看看吧~

1 高速文档解析引擎:拓宽大模型认知边界

语料即大模型训练所需数据,是大模型训练的基础,也是决定大模型性能和专业性的关键因素。中文高质量语料相对缺乏是国内外大模型面临的共同问题。目前已有的中文语料库不仅规模较小,且其电子化和网络化程度明显不足。

在这种情况下,电子书、报告、论文、报纸等高质量语料对大语言模型训练就产生了重要意义。首先,这些海量的语言数据源提供了丰富多样的文本内容——涵盖了各种领域的知识、专业术语、实际应用场景等,可以使得大语言模型在训练过程中接触到更广泛、多样化的语言表达,提高其语言理解和生成能力;其次,这些语料通常被精心编写、编辑和组织,具有较高的语言质量和结构性。这些文档中的标注、标题、章节、段落等信息可以为大语言模型提供更可靠的上下文提示和语言规则,帮助模型更好地理解和生成文本。因此,通过这类未完全开发的语料进行训练,大语言模型能够学习到不同的语境和用法,更好地理解和应对各种现实世界的语言任务和挑战。

当前,大模型算力算法能力显著提升,进一步发展取决于数据和场景,应构建高质量的数据集。一方面,大模型厂商需要高质量数据支撑,以解“巧妇难为无米之炊”的困境;另一方面,高质量中文语料库的数据拥有者,如拥有各类图书、文献的出版商等,也期望在智能化时代实现数据增值。然而,要推动数据供需双方建立合作并非易事,研究者需要明白:大模型语料处理中的“拦路虎”到底是什么?

答案是:表格、公式、图表等复杂元素的处理,这大大制约了大模型的训练语料处理及大模型文档问答的应用能力。例如文档的多样性和复杂性问题:文档类型和格式繁多,包括报告、合同、发票、证明、证件等等。不同类型的文档有不同的格式和布局,难以用统一的方法处理。而且智能文档处理受到图像质量、文字字体、文字大小、文字颜色等噪声因素的影响,容易出现误识别。此外,还有图像质量不一、文档获取繁琐等等。

本次人工智能大会上,合合信息带来的大模型加速器——高速文档解析引擎,为大语言模型受限于高质量语料版面解析的窘境提供了全新的解决方案,我们先来看一个案例:

案例一:如图所示为大模型使用文档解析引擎之前(左框)和之后(右框)的效果对比。对比显示,文档解析引擎分析了论文中关于电动车充电载荷的定量数据和图表,并能对用户“从电动车历史数据来看,哪辆车充电时长最短”的问题作出准确的回答。

在这里插入图片描述

为了应对复杂的图表文档解析任务,合合信息采集了折线图、饼图、柱状图、曲线图等十余种常见图表作为识别样本,使引擎能够提取图表中的关键信息,如数据趋势、比例、变化趋势等,帮助用户快速理解图表所传达的信息。这种能力不仅提高了文档处理的效率,还减少了人工处理过程中的错误和偏差,提升了数据分析的准确性和可靠性,为研究、决策和信息获取提供了强有力的支持。

在这里插入图片描述

文档解析引擎除了准,还需要快。大家不妨思考一下,如果文档解析引擎处理速度不够快,会发生什么?最直接地,大模型的整个训练流程的效率受影响,训练过程中的大量时间花费在等待文档解析上,而非实际的模型训练和优化上;在云计算环境下,可能需要更多的计算实例或更长时间的运行,从而增加成本;在在线学习或增量学习的情况下,解析引擎速度慢也会导致数据的流动延迟;在一些需要持续学习的场景下,大模型在动态数据环境中的适应能力也会受限。作为现阶段市面上同类文档解析引擎中处理速度最快的产品之一,合合信息文档解析引擎最快1.5秒就能解析百页长文档中的非结构化数据,是名副其实的大模型加速器

在这里插入图片描述

文档中还包含大量的逻辑信息、文档逻辑结构与复杂阅读顺序。文档解析引擎的能力直接关系到大模型能否理解其内容,并从中获取关键信息。这对于大模型的训练、调试,以及与真实世界数据的无缝集成和应用有着非常重要的作用。

下面的案例展示了引擎对专业图表的还原能力,即可以将研报、论文等文档中的柱状图、折线图、饼图、雷达图等十余种常见图表拆解为大模型能“读懂”的markdown格式

案例二:文档解析引擎将全国居民消费价格涨跌幅图表解析为带有具体数值的表格

在这里插入图片描述

2 文本嵌入模型acge:克服大模型感知缺陷

虽然大语言模型在认知方面展示出巨大的潜力,但它在处理智能文档任务时,仍然具有很多的缺陷。其中制约大模型发展的一个关键点在于“幻觉”现象的产生,所谓幻觉,指的是模型错误地关联了文本信息和图像细节之间的关系,导致产生了错误的推断和判断,或根据文本信息生成与图像不符合的内容,在补全图像时添加错误或不相关的细节。

例如下面的例子直观地解释了什么是大模型幻觉。在准确率要求非常高的场景下幻觉是不可接受的,比如医疗领域、金融领域等

案例三:已有的知识是丹尼尔·瓦切克和汉娜·曼德利科娃都是职业网球运动员。我们问大模型一个很简单的问题:丹尼尔·瓦切克和哈娜·曼德利科娃在哪项运动中获得了职业地位?结果大模型错误地回答了从未出现过的信息:板球。

在这里插入图片描述

RAG(Retrieval Augmented Generation)为解决幻觉问题提供了一个很有前景的解决方案。RAG的主要作用类似搜索引擎,找到用户提问最相关的知识或者是相关的对话历史,并结合原始提问(查询),创造信息丰富的prompt,指导模型生成准确输出。其本质上应用了情境学习的原理。基于文本嵌入技术(Embedding),可以搭建RAG应用,为语言模型真正理解文本、克服幻觉提供了基础。

在这里插入图片描述

前段时间,合合信息发布的文本向量化模型acge_text_embedding(简称acge模型),获得被公认为是目前业界最全面、最权威的中文语义向量评测基准C-MTEB榜单第一的成绩,在文本分类、文本聚类等任务上表现优异,打通了文本嵌入模型领域的底层原理。

在这里插入图片描述

acge位居C-MTEB榜首

acge模型,通过多层次的表示学习和信息融合机制,改进了语义表示和上下文感知能力。在问答任务中,这种能力可以帮助模型更好地理解问题和文本,提供更精准的答案,从而真正理解人的意图特性。

案例四:下面的文档排版引擎包含字符嵌入(Character embedding)文本行嵌入(Textline embedding)段落嵌入(Paragraph embedding)关系嵌入(Relation embedding)四部分嵌入向量

在这里插入图片描述

acge模型在神经网络广泛存在的灾难性遗忘问题上也做出了贡献。灾难性遗忘指的是随着新任务的增加,先前学习的处理之前任务的能力不应(显著)随时间降低。类比人类的学习过程:人类在不断学习新概念的过程中可能会逐渐忘记一些已学习的概念,但是新信息的学习不会使得人们大量遗忘旧概念,例如人体的体感皮层可以在运动学习期间吸收新信息,而不会破坏先前获得的运动技能的稳定性;当回忆旧概念的时候,人类可以直接调取已学习的知识。

案例五:在缺陷分类方面,当有新类别的缺陷数据出现时,模型为了拟合新类别的缺陷数据,在旧类别缺陷数据的分类准确率就会大幅度下降,发生灾难性遗忘
在这里插入图片描述

灾难性遗忘最早出现在连接主义网络中,在一定条件下,学习一组新模式的过程中突然彻底地抹去了网络对其已学知识的了解,这种现象称为灾难性干扰,造成这一现象的根本原因就是网络共享一组权重。为了克服灾难性遗忘,学习系统应防止学习的新知识显著干扰甚至覆盖已有的知识。但是,在不针对这一问题改进训练过程的情况下,网络在学习过程随着新概念的学习,必将遭受旧概念的灾难性遗忘。这一问题的存在使得现在常用的人工神经网络等模型无法在常规训练方法下持续不断地学习不同任务的知识,而只能用于处理单一任务。

事实上,灾难性遗忘体现了神经网络的可塑性-稳定性矛盾:可塑性指的是模型学习新任务的能力,而稳定性则是指在更新时保留旧任务知识的能力。完全稳定的模型,可以很好的保留旧任务的知识,但没办法很好的学习新任务,而性能完全可塑的模型,可以即时学习好新任务,但无法很好的保留旧任务的知识。过度关注新任务的性能,必然会使得过去任务的性能下降,反之亦然。因此,如何设计一个能够同时对新输入敏感但不受新输入的干扰,是解决灾难性遗忘问题的关键。

通过引入持续学习训练方式,合合信息acge模型克服了神经网络存在灾难性遗忘的问题,对维护大模型长期记忆并保持其学习能力有着重要意义,推动大模型在多个任务和领域中持续学习和适应。同时,减少反复训练模型的需要,节省大量的计算资源和时间

3 行业赋能:以百川智能为例

在金融报表、行业报告等高知识密度的文档中,版面包含的信息量巨大,总结来说包含两个关键点:

  • 物理版面(Physical Layout):即文档在视觉上可见的外观和布局,包括页面的大小、页面边距、页眉页脚、文本框的位置和大小等与文档视觉呈现相关的元素。物理版面的分析有助于对文档进行可视化处理、重构和呈现;
  • 逻辑版面(Logical Layout),即文档的结构和组织方式,独立于具体的视觉呈现。它关注的是文档中各个元素之间的关系和层次结构,例如标题、段落、列表、表格等。逻辑版面的分析可以帮助系统理解文档的内容和结构,从而进行文本解析、数据提取和语义分析等任务。

针对版面分析问题,虽然在近年来在学术界涌现出一批能够取得较好效果的方法,但是仍然在业界难以进行产品化和商业化,实时性模型结构的设计方案缺失、文档的具体内容边界模糊等挑战性难题层出不穷。

在这里插入图片描述

挑战与机遇并存。对文档的智能处理的前景非常广阔,应用场景也会不断拓展。举例来说

  • 电子博物馆:将大量历史文献、照片等材料进行数字化处理,并进行元数据标注和索引,从而创建电子博物馆,方便文化遗产的保护和传承。合合信息在这方面已有应用:合合信息焕新古文化传承之路,AI为古彝文识别赋能
  • 法律文书处理:通过自动识别和提取法律文书中的各种信息,例如案号、法院名称、当事人姓名、判决结果等,从而方便进行法律文书的管理和查询;
  • 财务报表处理:通过自动识别和提取财务报表中的各种信息,例如收入、支出、资产、负债等,从而方便进行财务报表的分析和管理

在这里插入图片描述

本次世界人工智能大会现场,合合信息与百川智能携手,推动复杂专业领域与大模型接轨,促进大模型从“可用”朝着“好用”的水平发展,使大模型能够真正变成赋能千行百业的生产力。

总结

当前,大模型正从通用场景快速拓展到各行业的细分领域,为传统产业插上人工智能的翅膀。从文娱到医疗,从制造到金融,我们已经看到越来越多定制化的行业大模型应运而生,赋能各行业的数字化智能化转型。合合信息带来的大模型加速器方案,为高质量语料数据流通与治理、大模型专业化定制化落地服务等提供了核心驱动力。欢迎各位感兴趣的朋友到textin.com或小程序了解更多关于智能文字识别产品和技术的信息,体验智能图像处理、文字表格识别、文档内容提取等产品。

让我们拭目以待,期待合合信息在模式识别、深度学习、图像处理、自然语言处理等领域的持续深耕,用技术方案惠及更多的人!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1913395.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

XTuner 微调 LLM:1.8B, 部署

扫码立刻参与白嫖A100,书生大模型微调部署学习活动。亲测有效 内容来源:Tutorial/xtuner/personal_assistant_document.md at camp2 InternLM/Tutorial GitHubLLM Tutorial. Contribute to InternLM/Tutorial development by creating an account on G…

帕金森病患者应该如何确定自己每天适宜的饮水量?

帕金森病患者确定每天适宜的饮水量时,应该考虑到药物副作用、运动障碍和便秘等问题。建议的饮水量通常是每天6至8杯水,相当于约2000毫升左右。这个量可以根据个人的体重、气候条件、活动水平以及是否有其他健康问题进行适当调整。 为了科学合理地安排饮水…

【CVPR 2024】GART: Gaussian Articulated Template Models

【CVPR 2024】GART: Gaussian Articulated Template Models 一、前言Abstract1. Introduction2. Related Work3. Method3.1. Template Prior3.2. Shape Appearance Representation with GMM3.3. Motion Representation with Forward Skinning3.4. Reconstruct GART from Monocu…

【笔记】Android V 应用SDK升级适配和问题

说明 随着Google释放的Android版本,系统升级SDK到35,应用也需要升级上去,不然会报错。 Android Studio Jellyfish | 2023.3.1 | Android Developers Android Studio 预览版中的新功能 | Android Developers 当前版本的Android Studio

在超算平台或高性能集群上运行并行程序使用命令mpirun -np ,出现“no active ports detected”

问题: 在超算平台或高性能集群上运行并行程序使用命令mpirun -np ,出现“no active ports detected” 具体使用的命令如下: Participant2"Solid" Solver2"linear_elasticity" nprocS4 # jie notes:24# Runecho "…

PCI PTS 硬件安全模块(HSM)模块化安全要求 v5.0

符合条件的 PCI SSC 利益相关者在 30 天的意见征询 (RFC) 期间审查 PCI PTS 硬件安全模块 (HSM) 模块化安全要求 v5.0 草案并提供反馈。 PCI PTS 硬件安全模块(HSM)模块化安全要求 v5.0图 从 7 月 8 日到 8 月 8 日,邀请符合条件的 PCI SSC 利益相关者在 30 天的意见…

Riscv 架构的合规测试

为啥直接关注riscv-arch-test,是因为RISCOF 测试框架使用的是riscv-arch-test 1. The architectural test 架构测试是一个单一的测试,代表了可编译和运行的最小测试代码。它是用汇编代码编写的,其产品是test signature。一个架构测试可能由…

BUG解决:postman可以请求成功,但Python requests请求报403

目录 问题背景 问题定位 问题解决 问题背景 使用Python的requests库对接物联数据的接口之前一直正常运行,昨天突然请求不通了,通过进一步验证发现凡是使用代码调用接口就不通,而使用postman就能调通,请求参数啥的都没变。 接口…

【机器学习】主成分分析(PCA):数据降维的艺术

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 主成分分析(PCA):数据降维的艺术引言PCA的基…

ssm华天计算机面试刷题系统-计算机毕业设计源码22543

摘 要 华天计算机面试刷题系统是一款基于SSM(Spring、Spring MVC、MyBatis)框架、利用Java编程语言和MySQL数据库,开发的在线学习和测试平台。系统利用SSM框架及前端开发技术,实现了模块化开发和管理,前后端交互以及数…

【数据结构和算法的概念等】

目录 一、数据结构1、数据结构的基本概念2、数据结构的三要素2.1 数据的逻辑结构2.2 数据的存储(物理)结构2.3 数据的运算 二、算法1、算法概念2、算法的特性及特点3、算法分析 一、数据结构 1、数据结构的基本概念 数据: 是所有能输入到计…

利用SpringBoot+rabbitmq 实现邮件异步发送,保证100%投递成功

在之前的文章中,我们详细介绍了 SpringBoot 整合 mail 实现各类邮件的自动推送服务。 但是这类服务通常不稳定,当出现网络异常的时候,会导致邮件推送失败。 本篇文章将介绍另一种高可靠的服务架构,实现邮件 100% 被投递成功。类…

基于Java中的SSM框架实现水稻朔源信息系统项目【项目源码】

基于Java中的SSM框架实现水稻朔源信息系统演示 SSM框架 SSM框架是基于Spring、SpringMVC以及Mybatis实现的针对JAVA WEB端应用的开发框架,通过SSM框架结构可以实现以上三种框架的优点集合,从而实现更加高效便捷的系统开发和呈现。该框架结构通过Spring框…

红日靶场----(二)2.信息收集

上期我们已经猜解到了MySQL的账号密码。 这期我们开始目录枚举,我们知道目录枚举能不能获得有用的信息,需要强大的字典。 只有字典强大才能精准的爆破到目录及文件,下面我会介绍一个强大的字典文件。 目录枚举之SecLists字典: …

面试题 22:解释 Python 中的成员运算符?

欢迎莅临我的博客 💝💝💝,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

如何恢复永久删除的婚礼照片

我们的生活就像一本记忆剪贴簿,充满了褪色和模糊的快照。尽管我们想记住事情并留住快乐的回忆,但随着时间的流逝,它们会被冲走。为了避免这种情况并记住这些记忆,我们以照片的形式捕捉瞬间。这有助于缓解和分享那些快乐的时刻。但…

SpringIOC原理

SpringIOC原理 1.概念 Spring通过一个配置文件描述Bean及Bean之间的依赖关系,利用Java语言的反射功能实例化Bean并建立Bean之间的依赖关系。Spring的IOC容器在完成这些底层工作的基础上,还提供了Bean实例缓存、生命周期管理、Bean实例代理、事件发布、…

手机回收站视频过期怎么恢复?跟随这2个方法解锁新技能

各位看官,是不是有时候一不留神,手机里的珍贵视频就不翼而飞了?然后你疯狂地寻找,心里五味杂陈,就像热锅上的蚂蚁一样团团转。视频过期怎么恢复,到底怎样才能找回来呢?别担心,今天小…

园区电表4G/Lora远程无线通讯-安科瑞自助缴费系统

项目案例:张江高科产业园 背景 上海张江高科技园区自1992年成立以来,经过近二十年的开发, 园区构筑了生物医药创新链,集成电路产业链和软件产业链的框架。园区建有国家上海生物医药科技产业基地、国家信息产业基地、国家集成电路…

基于vue的地图特效(飞线和标注)

这段代码的主要功能是在页面加载完成后,初始化一个 echarts 地图图表,并配置了相关的地理数据、散点数据、线条数据以及样式效果,最后在指定的 div 元素中进行展示。 需要再vue中的框架实现,不能单独直接运行。 标注 type: effe…