中国智能产业高峰论坛:文档大模型与文档图像智能理解的进展和思考

news2024/11/24 9:22:58

    • ✓ 写在前面
    • ✓ 文档大模型的思考与探索
    • ✓ 文档图像大模型的进展
    • ✓ 多模态大模型与文档图像智能理解
        • 多模态大模型的应用和发展
        • 文档图像智能理解的技术和挑战
        • 产业应用和前景展望


✓ 写在前面

2023 年第十二届中国智能产业高峰论坛(CIIS 2023)于 9 月 17-18 日在江西南昌举行。该论坛聚焦于大模型、生成式AI、无界智能等方向,近 200 名政府领导、专家学者参会,共同探讨如何推动智能产业发展。

在今年的论坛中,与会专家学者和企业代表就 AI 大模型、生成式AI、无人系统、智能制造、数字安全等领域的前沿技术和产业应用进行了深入探讨。同时,来自多个学术机构的院士和专家学者还进行了主题报告演讲和专题论坛研讨,分享了各自的研究成果和实践经验,探讨了智能科技领域的未来发展趋势和创新应用。

作为一名对前沿科技深感兴趣的技术博主,很遗憾我没能有机会去现场学习各位专家老师的演讲,但我全程参与了 CIIS 的线上直播。尤其关注了中国智能产业高峰论坛中的多模态大模型与文档图像智能理解专题论坛。其中合合信息的丁凯博士演讲介绍的《文档图像预训练模型的探索与思考》感受颇多,作为行业领先的人工智能及大数据科技企业,合合信息致力于通过智能文字识别及商业大数据领域的核心技术、C 端和 B 端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。是聚焦于文档图像领域的一家企业,像“名片全能王”、“扫描全能王”这些著名 APP 都是合合信息的产品,全球累计用户下载已超 23 亿。

在这里插入图片描述

✓ 文档大模型的思考与探索

文档图像领域发展其实已经有将近一百年的历史,时间虽长但仍有大量的问题亟待解决。最明显就是的文档或者图像在被扫描后出现的质量退化问题,通常情况下一个清晰的文档或者图像在使用手机等设备扫描后,就会难免的出现看不清、模糊等问题。此外当文档上的文字排版复杂或者字迹潦草时,我们的图像扫描技术还能否完美的复现文档?这是图像处理技术一个极大挑战。
在这里插入图片描述
针对以上这些难题,合合信息分别从几个主题进行了智能文档处理的研究。

首先是 文档图像分析与预处理,它主要解决的是文档质量的问题,通过切边增强、去摩尔纹、弯曲矫正、图片压缩、PS 检测等技术来处理扫描得到的图像,增强图像整体质量,使得用户体验更佳。其次是 文档解析与识别,通过文字识别、表格识别、电子档解析等获取到图片当中的信息。此外还有 版面分析与还原文档信息抽取与理解AI 安全知识化&存储检索和管理 这一整套逻辑实现文档的智能化处理。

看到这里可能有人会问:说了这么多都在讲文档图像处理,这跟大模型有什么关系呢?这两者表面上看貌似真的没有什么关系。但是文档图像处理技术是在处理文字、大模型其实也是在处理文字,从这个层面来看这两者又好像算是“同宗一脉”。众所周知,语言大模型是需要基于大量的语言数据进行预训练的,据一些机构预测,到 2026 年可以供大模型训练的语料数据将会被耗尽。可以说当前我们在网上使用的语料数据基本上被大模型挖掘的差不多了。

基于这样的状况,很多大模型厂商开始致力于寻找新的未被大模型挖掘的“语料数据基地”。于是电子文档(电子书)成为了一个理想的语料数据宝藏。电子书中的绝大部分内容又都是来源于文档扫描所生成。这也就造就了大模型领域与图形图像领域的一层联系:为了更加充分的训练大模型,将会有大量的文档和图像待扫描后录入成为电子文档。此外大模型的语言理解能力、学习能力、推理能力等对于图形图像处理的研究也是至关重要的,一方面二者可以深度融合,另一方面大模型也会为图形图像领域带来更多的研究课题。

文档图像也会是 ChatGpt 特别关注的一个点。我们看下面这个案例:这是使用 GPT-4 做题的一个过程。给它一张图像,里面有文字、公式、图表,GPT 不仅需要先认识文档中的文字内容,更需要去理解。
在这里插入图片描述
而这个认识的过程又是基于图像扫描的。不仅是 ChatGPT,国内的文心一言等语言模型也已经支持的图像的识别。

✓ 文档图像大模型的进展

在文档图像专有大模型这一块,具有代表意义的就是微软(Microsoft)的 LayoutLM 系列,它是一个多模态预训练模型,包括 LayoutLM、LayoutLMv2 和 LayoutLMv3,基于多模态 Transformer Encoder 的预训练和下游任务微调,能够实现布局信息与文本信息的联合学习,用于表单类数据预训练,可提高相关类型数据识别的准确率。

合合信息与华南理工大学正在研究视觉模型与大语言模型解耦联合建模的多模态信息抽取新框架,它的核心特征是在多语言的小样本和零样本上性能是非常好的,这也是文档图像专有大模型领域的代表作。

在今年(2023)微软又推出了新的文档处理大一统模型 UDOP,与以往的预训练模型相比,UDOP 的不同之处在于它是一个端到端模型。将文档输入以后,模型会将文字、版面与图像信息进行统一的编码,然后进行分离解码。该模型采用了统一的 Vision-Text-Layout 编码器、分离的 Text-Layouot 和 Vision 解码器。

以上这些模型都是需要依赖于 OCR 引擎的,这样的模式有一个明显的缺陷就是容易积累误差。

OCR(Optical Character Recognition,光学字符识别)是一种将印刷或手写文本转换为计算机可编辑和存储格式的技术,通过利用图像处理和模式识别算法,将图像中的文本字符提取出来,并将其转换为计算机可识别的数字形式。

所以无需 OCR 的用于文档理解的 Transformer 模型 Donut 应运而生,它只需要将文字和图像输入到模型中,然后描述我们需要它做的事情,最后基于编码器解码器输出我们想要的内容。

还有多模态大模型 BLIP2,使用 Q-Former 连接预训练的图像编码器 (ViT) 和 LLM 解码器(OPT,FlanT5等),通过 Image Encoder 将图像进行编码,然后使用 Q-Former 将图像模态和融合模态进行对齐,最后再对接一个大模型。这样的工作机制不仅能很好的进行图像识别,还可以很好的利用大语言模型的理解能力。

在这里插入图片描述
此外还有谷歌的 Flamingo,在 LLM 中增加 Gated Attention 层引入视觉信息;微软的 LLaVA,将 CLIP ViT-L 和 LLaMA 采用全连接层连接,使用 GPT-4 和 Self-Instructl2 生成高质量的 158kinstruction following 数据;还有 MiniGPT-4,视觉部分采用 ViT+Q-Former,语言模型部分采用 Vicuna,视觉和语言模块间采用全连接层衔接。

这些模型一方面很好的利用了视觉信息,另一方面也充分的利用了大语言模型本身的特性。这样的技术研究,无论对于图像图像领域还是大语言模型领域都是意义重大的。

✓ 多模态大模型与文档图像智能理解

在多模态大模型与文档图像智能理解论坛中,各位专家都也都提出了自己的见解:

多模态大模型的应用和发展

多模态大模型是指结合了多种数据模态(如文本、图像、音频等)的大型深度学习模型。与传统的单模态模型相比,多模态大模型具有更强的表征能力和泛化性能,能够更好地理解和处理复杂的多模态数据。

与会专家认为,多模态大模型的应用前景广泛,可以应用于智能客服、智能问答、智能推荐等多个领域。同时,多模态大模型的训练和推理也需要更高的计算资源和算法优化技术,需要进一步加强研究和探索。

文档图像智能理解的技术和挑战

文档图像智能理解是指利用计算机视觉和深度学习等技术,对文档图像进行自动化阅读、理解和分析的过程。随着应用场景的不断扩大,文档图像智能理解技术也面临着更多的挑战和难点。

与会专家探讨了文档图像智能理解的最新技术和应用,包括文档图像分类、文字识别、表格识别、版面分析等多个方面。同时,专家也指出了文档图像智能理解面临的挑战和难点,如文字识别精度、版面分析的稳定性、以及如何处理复杂文档格式等问题。

产业应用和前景展望

与会企业代表分享了多模态大模型和文档图像智能理解在产业中的应用案例和实践经验。其中,涉及到智能客服、智能推荐、智能风控等多个领域的应用案例。同时,与会专家和企业代表也探讨了未来的技术发展趋势和产业前景,认为多模态大模型和文档图像智能理解将会成为未来智能化发展的重要方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1043393.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode 474.一和零 动态规划 一维dp(两个维度)

https://leetcode.cn/problems/ones-and-zeroes/description/ 给你一个二进制字符串数组 strs 和两个整数 m 和 n 。 请你找出并返回 strs 的最大子集的长度,该子集中 最多 有 m 个 0 和 n 个 1 。 如果 x 的所有元素也是 y 的元素,集合 x 是集合 y 的…

在SpringBoot中利用Redis实现互斥锁

在SpringBoot中利用Redis实现互斥锁 基本知识 前提条件,有一个能够在Springboot中使用Redis的项目,或者能够直接开也行 为什么要实现互斥锁:当我们利用Redis存储热点数据时,突然就过期失效或者被删除了,导致大量请求同…

Flink安装及简单使用

目录 转载处(个人用最新1.17.1测试) 依赖环境 安装包下载地址 Flink本地模式搭建 安装 启动集群 查看WebUI 停止集群 Flink Standalone搭建 安装 修改flink-conf.yaml配置文件 修改workers文件 复制Flink安装文件到其他服务器 启动集群 查…

秦时明月沧海手游阵容推荐,秦时明月沧海角色强度

秦时明月沧海角色强度如何?在秦时明月沧海手游中,您可以从大量的角色卡牌中选择并发展,为了顺利通过各种副本,玩家们需要精心搭配阵容。那么,具体该如何配置最强的角色呢? 下面,小编将带各位玩家…

简述ceph文件储存系统

Ceph 是一个统一的分布式存储系统和共享机制,它定义了数据如何存储在一个或多个节点上并呈现给其他机器以供文件访问。 Ceph特点 高性能 a. 摒弃了传统的集中式存储元数据寻址的方案,采用CRUSH算法,数据分布均衡,并行度高。 b.考…

Vue - 虚拟DOM的简单理解

目录 虚拟DOM虚拟DOM树生成流程 因为直接操作真实的 DOM 会比较影响效率。所以 vue 使用了 虚拟DOM(VNode)来描述要渲染的内容。 虚拟DOM 它是一个 js 对象,比如: const vnode {tag: "h1",children: [{ tag: undefi…

【太阳能多电平逆变器】采用SPWM技术的太阳能供电多电平逆变器研究(simulink)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

centos编译安装opencv,生成opencv-2413.jar

文章目录 前言一、问题来源二、编译安装1.下载源码2.安装基础环境3.安装java环境4.编译安装5.查询结果 总结 前言 在centos7的环境中,编译安装opencv,获得libopencv_java2413.so、opencv-2413.jar的库文件和jar包文件 一、问题来源 异常提示&#xff1…

【力扣2154】将找到的值乘以 2

👑专栏内容:力扣刷题⛪个人主页:子夜的星的主页💕座右铭:前路未远,步履不停 目录 一、题目描述二、题目分析 一、题目描述 题目链接:将找到的值乘以 2 给你一个整数数组 nums ,另给…

AlienSwap 锋芒初现,NFT 市场或将三分天下

本文仅为资讯分享,不构成任何投资建议,也不推荐您购买、出售或者持有任何加密货币。请读者朋友们 DYOR,理性看待区块链,提高风险意识,谨慎投资! ★ Blur 横空出世之前,OpenSea 一直一家独大&am…

一看就会!我把自动化测试框架总结成这样,人人都能学好!

无论是在自动化测试实践,还是日常交流中,经常听到一个词:框架。之前学习自动化测试的过程中,一直对“框架”这个词知其然不知其所以然。 最近看了很多自动化相关的资料,加上自己的一些实践,算是对“框架”…

深入浅出Java的多线程编程——第二篇

目录 前情回顾 1. 中断一个线程 1.1 中断的API 1.2 小结 2. 等待一个线程 2.1 等待的API 3. 线程的状态 3.1 贯彻线程的所有状态 3.2 线程状态和状态转移的意义 4. 多线程带来的的风险-线程安全 (重点) 4.1 观察线程不安全 4.2 线程安全的概念 4.3 线程不安全的原因…

信息安全:网络安全漏洞防护技术原理与应用.

信息安全:网络安全漏洞防护技术原理与应用. 网络安全漏洞又称为脆弱性,简称漏洞。漏洞一般是致使网络信息系统安全策略相冲突的缺陷,这种缺陷通常称为安全隐患。 安全漏洞的影响主要有机密性受损、完整性破坏、可用性降低、抗抵赖性缺失、可…

中睿天下精彩亮相2023国家网络安全宣传周河南省活动

9月11日,2023年国家网络安全宣传周河南省活动正式拉开帷幕,开幕式在八朝古都开封举行。中睿天下受邀参与本次盛会并亮相网络安全产品展,重点展示在网络安全攻击溯源领域的前沿技术、创新方案及实践应用,为与会嘉宾带来了一场独具优…

STL算术生成和集合算法

目录 算术生成算法accumulate 算术生成算法file 常用集合算法 常用集合算法 常用集合算法set_difference 算术生成算法accumulate 算术生成算法属于小型算法&#xff0c;使用时包含的头文件为 include <numeric> accumulate(iterator beg, iterator end, value); …

13:STM32----PWR

目录 一:PWR 1:简历 2:电源框图 3:低功耗模式 4:模式选择 5:低功耗模式注意事项 A:睡眠模式 B:停止模式 C:待机模式 二 : 案例 A:修改主频 1:连接图 2:代码 B:睡眠模式串口发送接收 1:连接图 2:代码 C:停止模式对射式红外传感器计次 1:连接图 2:函数介绍​…

C++入门(前言、命名空间、缺省参数、重载)

该篇博客主要讲述关于C发展前言&#xff0c;以及C祖师爷对C进行改造提升后的新语法进行解释说明&#xff0c;具体内容为&#xff1a;发展历程、命名空间、输入\输出、缺省参数、函数的重载 目录 文章目录 前言 1.什么是C 2.C的发展史 3.关于C的学习 一、关于命名空间 1.含义 2.…

JMeter测试Web服务

Web服务简介 什么是Web服务 【Web服务】即Web Service。Web服务是一种服务导向架构的技术&#xff0c;通过标准的Web协议提供服务&#xff0c;目的是保证不同平台的应用服务可以互操作。根据W3C的定义&#xff0c;Web服务&#xff08;Web service&#xff09;应当是一个软件系统…

ElasticSearch - 基于 “黑马旅游” 案例,实现搜索框、分页、条件过滤、附近酒店、广告置顶功能

目录 一、黑马旅游案例 1.1、实现 搜索框 和 分页 功能 1.1.1、需求分析 a&#xff09;首先搜索框需求 b&#xff09;分页需求 1.1.2、定义实体类 1.1.2、定义 controller 1.1.3、注入 RestHighLevelClient 1.1.4、实现 IHotelService 接口的 search 方法 1.1.5、功能…

【OLSR路由协议】链路状态路由(OLSR)协议中选择多点中继节点算法研究(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…