2023第十二届中国智能产业高峰论坛之文档大模型的探索与思考

news2024/12/23 20:55:40

文章目录

  • 前言
  • 合合信息
  • 多模态大模型与文档图像智能理解
  • 文档图像分析识别与理解的技术难题
    • 文档图像分析与预处理
    • 文档解析与识别
    • 版面分析与还原
    • 文档信息抽取与理解
    • AI安全
    • 知识化&存储检索和管理
  • 文档图像的分析识别与理解和大模型的关系
  • 文档图像大模型的进展
    • LayoutLM
    • UDOP
    • Donut
    • BLIP2
  • 文档图像大模型的探索
    • 文档图像大模型设计思路
    • SPTS
    • 实验结果
  • 展望

前言

近日,2023第十二届中国智能产业高峰论坛(CIIS 2023)在江西南昌顺利举行,本次论坛主要讲解了关于AI大模型、生成式AI、无人系统、智能制造和数字安全等领域的议题。其中令我印象最深刻的就是上海合合信息的丁凯老师讲解的多模态大模型与文档图像智能理解专题论坛的部分了。

在这里插入图片描述

合合信息

我们在讲解多模态大模型与文档图像智能理解专题论坛之前先对上海合合信息科技股份有限公司做一个基础的介绍吧。

上海合合信息科技股份有限公司是行业领先的人工智能及大数据科技企业,致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。相信大家一定听说过它家的产品——名片全能王、扫描全能王

在这里插入图片描述

多模态大模型与文档图像智能理解

多模态大模型是指能够同时处理多种类型数据(例如图像、文本、语音等)的强大神经网络模型。它将多个模态的输入数据整合在一起,并通过共享的模型结构进行联合训练和推理。

与传统的深度学习模型通常只针对某一种特定类型的数据进行建模和处理不同的是,多模态大模型则进一步扩展了模型的能力,使其能够同时处理不同类型的数据。

多模态大模型的核心思想是将不同模态的数据进行融合和交互,以实现更全面、准确的任务处理。例如,在图像与文档生成任务中,模型可以同时接受图像和文档输入,并根据两者之间的关联生成相应的输出。这种联合训练和生成的方式可以提供更丰富、多样化的结果。

文档图像分析识别与理解的技术难题

大会上,根据丁老师的讲述,目前文档图像分析识别与理解的技术难题主要体现在以下几个方面:

  • 当文档图像质量退化时,会导致文档图像变得模糊不清。这种质量问题与文档图像扫描技术密切相关;
  • 根据以下图片案例来看,文字的排布版面非常的复杂,这就给版面分析、文字检测带来了巨大的挑战;
  • 在文字识别领域,由于书写的潦草、包括识别的种类非常的多,除了文字、公式还有一些特殊的符号;

在这里插入图片描述
基于以上的问题和难题,合合信息将文档图像分析识别与理解的研究主题分成了以下六个模块:

文档图像分析与预处理

主要解决的是文档图像的质量问题,比如一张人眼都无法看清的文档图像在经过切边增强、去摩尔纹、弯曲矫正、图片压缩、PS检测等技术的处理之后变成非常清晰的质量非常高的图像。

文档解析与识别

经过文档图像分析与预处理之后的文档图像会接着来到文档解析与识别模块。我们通过文字识别、表格识别、电子档解析等技术获取到文字信息。

版面分析与还原

我们会把上个步骤拿到的文字信息进行处理,使用元素检测、元素识别、版面还原等技术来识别文档的标题、段落、图像等元素,并还原文档的原始版面结构,以便后续的信息抽取和理解。

文档信息抽取与理解

通过计算机技术,从文档中自动提取出有用信息并进行理解、分类和归纳。文档信息抽取与理解可以帮助人们更加有效地管理和利用大量文档数据,提高工作效率和决策质量。它在数字化档案管理、企业知识管理、搜索引擎、自动化客服等领域具有广泛的应用前景。

AI安全

在文档图像分析识别与理解过程中,通过篡改分类、篡改检测、合成检测、AI生成检测等技术来保证用户的数据隐私和文档图像安全性。

知识化&存储检索和管理

将信息和知识进行有效的组织、存储、检索和管理,在大量的数据和信息中提取有用的知识,并使其易于访问和利用,对于提高工作效率、决策质量和创新能力具有重要意义。

在这里插入图片描述

文档图像的分析识别与理解和大模型的关系

丁老师认为文档图像的分析识别与理解和大模型的关系应该是互补的

举个例子:数据和算力是进行大规模云计算的两个重要因素。随着人工智能和深度学习的发展,大模型的训练需要大量的数据和强大的计算资源。关于全球可用于大模型训练的数据量可能被耗尽的问题,确实有一些机构提出了预测。

在这里插入图片描述

目前,大模型的数据量已经相当庞大,并且很多大型模型厂商已经开始关注电子文档领域。随着大型模型的需求和电子文档的重要性增加,对文档图像扫描和OCR技术的需求也会增加。这对于提供更多训练数据和支持大型模型的计算资源来说,可能是一个新的数据来源和应用领域。

文档图像大模型的进展

LayoutLM

大家一提到文档图像的大模型,一般都绕不开微软的 LayoutLM 系列大模型。它的工作原理:将文本图像做一次OCR,如果是电子文档直接进行 Parser,将它的文字信息、位置信息、以及后边的图像信息放在一起做一个预训练的模型,然后执行任务。

在这里插入图片描述

UDOP

微软于2023年推出了文档处理大一统模型 UDOP ,它是端到端的模型。 它采用统一的 Vision-Text-Layout 编码器把文字信息、视觉信息、版面信息进行统一的编码,在解码的时候用 Text-Layouot 和 Vision 解码器分离解码。

在这里插入图片描述

Donut

NAVER 在2022年开发了 OCR Free 的文档图像模型Donut,它是无需 OCR 的用于文档理解的 Transformer 模型,即直接处理图像。

在这里插入图片描述

BLIP2

多模态模型 BLIP2 将视觉模态和语言模态进行很好的融合,通过 Image Encoder 把图像进行编码,通过 Q-Former 做一个图像模态和文字模态的融合对其,然后再接一个大语言模型。

在这里插入图片描述

它的特点是不但能理解图像,还可以充分利用大语言模型的理解能力。

合合信息与华南理工大学合作共同研究了文档图像专有大模型 LiLT。LiLT 采用了一种创新性的方法,将视觉和语言模型分开建模,并通过联合建模的方式将它们整合在一起。这种解耦的设计使模型能够更好地处理文档图像中的文本和视觉信息,从而提高了识别和理解的准确性。

为了更好地融合视觉和语言模型,LiLT 引入了双向互补注意力模块(BiCAM)。这一模块的作用是使模型能够在视觉和语言之间进行双向的信息传递和交互,从而更好地捕捉文档图像中不同元素之间的关联性。

LiLT 在多语言小样本和零样本场景下表现出卓越的性能。这意味着即使在数据有限的情况下,该模型仍能够有效地执行文档图像信息抽取任务,展现了其在应对多语言和数据不足情况下的鲁棒性。

文档图像大模型的探索

文档图像大模型设计思路

  • 将文档图像识别分析的各种任务定义为序列预测的形式
    • 文本,段落,版面分析,表格,公式等等
  • 通过不同的prompt引导模型完成不同的OCR任务
  • 支持篇章级的文档图像识别分析,输出Markdown/HTML/Text等标准格式
  • 将文档理解相关的工作交给LLM去做

在这里插入图片描述

SPTS

SPTS 文档图像大模型主要针对场景文字来做:将端到端检测识别定义为图片到序列的预测任务,采用单点标注指示文本位置,极大地降低了标注成本。无需Rol采样和复杂的后处理操作,真正将检测识别融为一体。

在这里插入图片描述

在V2版本中,针对SPTS推理速度较慢的问题,将检测识别解耦为自回归的单点检测和并行的文本识别。IAD根据视觉编码器特征自回归地得到每个文本的单点坐标。PRD根据IAD的单点特征,并行地得到各个文本的识别结果。

在这里插入图片描述

经过数轮迭代,基于SPTS的OCR大一统模型(SPTS v3),成功将输入从场景文字拓展到表格、公式、篇章节的文档等。将多种OCR任务定义为序列预测的形式,通过不同的prompt引导模型完成不同的OCR任务,模型沿用SPTS的CNN+TransformerEncoder+Transformer Decoder的图片到序列的结构。

在这里插入图片描述

SPTS v3 的任务定义:目前主要关注端到端检测识别、表格结构识别、手写数学公式识别等任务。

在这里插入图片描述

训练平台:A100GPU * 10

在这里插入图片描述

实验结果

在这里插入图片描述

在这里插入图片描述

展望

在这里插入图片描述

团队期望的是以后在输入的时候不再是一个固定的公式、公式的图片或者是表格的图像,而就是一个文档图像,它里边既有文字又有公式又有表格又有图片。我们通过不同的Prompt 去控制具体提取的是什么,使模型输出 Token Sequence,最后再接大模型,在不同的场景里边去实现多态实际的落地的应用。

合合信息在智能产业中的研究成果具有重要意义。这些成果不仅为各行业提供了实用的解决方案,也为智能产业的发展提供了新的思路和方向。希望它通过不断探索和创新,合合信息有望在智能图像处理及其他领域取得更多突破,推动人工智能技术的应用和智能产业的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1039149.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

科技云报道:勒索金额再创新高,企业应如何防范?

科技云报道原创。 今年上半年的数据表明,勒索软件活动和赎金金额有望创下历史新高。 Check Point Research在《2023 年年中安全报告》中指出,今年上半年,随着新的勒索软件团伙不断涌现,勒索软件攻击态势持续升级。 区块链分析公…

【Proteus仿真】【STM32单片机】基于单片机的智能晾衣架控制系统

文章目录 一、功能简介二、软件设计三、实验现象联系作者 一、功能简介 系统运行后,LCD1604显示传感器检测的温湿度、光线强度和风速,工作模式,以及相应阈值,系统工作状态等;系统默认为自动模式, 可通过K4…

企业如何寻找适合的CRM系统软件

在数字化转型步伐不断加快的今天,CRM软件成为企业必不可少的一项工具。如果您并不清楚如何寻找合适的CRM系统软件?不妨通过下列几点来寻觅。 1.根据CRM系统行业和类别 例如企业重视营销功能,搜寻营销型CRM软件; 企业希望梳理好…

ideogram.ai 不同风格的效果图

https://ideogram.ai/ 提示词: French bulldog with sunglasses, playing skateboarding, speed up, happiness, front viewPhoto 相片 正常照片 Poster 海报 偏绘画,清晰的勾线 3D Render 3D 渲染 胶质感,像 3D 模型 Typography …

王珊教授:坚定信念走自主可控之路

在人大金仓2023新品发布会上,我国数据库泰斗、CCF最高科学技术奖获得者、原人民大学信息学院院长、原中国计算机学会(CCF)副理事长、人大金仓首任董事长王珊教授发表了致辞。 去年,王珊教授同样见证了人大金仓KESV9产品的发布。一…

氨基酸代谢:从基础到应用,揭示其在健康与疾病的角色

氨基酸(Amino Acid, 简称AA ) 是蛋白质合成的基石。它们是正常细胞生长、分化和功能所必需的细胞结构元素和能量来源。 蛋白质是长链氨基酸。人的身体有数千种不同的蛋白质,每种蛋白质都有重要的作用。每种蛋白质都有自己的氨基酸序列。该序列使蛋白质呈现不同的形状…

freemarker自定义模板

模板编程器指南 <dependency><groupId>org.freemarker</groupId><artifactId>freemarker</artifactId><version>2.3.31</version> </dependency>freemarker官网参考&#xff1a; https://freemarker.apache.org/docs/pgui_qu…

C# OpenCvSharp Yolov8 Cls 图像分类

效果 项目 代码 using OpenCvSharp; using OpenCvSharp.Dnn; using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Windows.Forms;namespace OpenC…

【OpenPLC学习】RK3568上运行OpenPLC

1 下载Runtime源码 git clone https://github.com/thiagoralves/OpenPLC_v3.git2 安装程序 ./install.sh linux3 在RK3568上运行Runtime sh start_openplc.sh4 在windows网页端登录 账号&#xff1a;openplc 密码&#xff1a;openplc 6 下载OpenPLC Editor https://git…

​旅行季《乡村振兴战略下传统村落文化旅游设计》许少辉八一著作想象和世界一样宽广

​旅行季《乡村振兴战略下传统村落文化旅游设计》许少辉八一著作想象和世界一样宽广

防火墙旁挂、和热备

旁挂 拓扑 防火墙配置 interface GigabitEthernet0/0/0 undo shutdown ip binding vpn-instance default ip address 172.25.254.2 255.255.255.0 alias GE0/METH service-manage http permit service-manage https permit service-manage ping permit service-manage…

由于找不到MSVCP140.dll,无法继续执行代码,重新安装程序可能会解决此问题的”修复方案

在Windows操作系统中&#xff0c;msvcp140.dll是一个非常重要的动态链接库文件&#xff0c;它是Microsoft Visual C 2015 Redistributable的一部分。这个文件主要用于支持许多应用程序的正常运行&#xff0c;例如Microsoft Office、SQL Server等。当计算机上缺少msvcp140.dll文…

网络编程-TCP协议(客户端和服务端)

需要了解UDP协议的&#xff0c;可以看往期文章 https://flypeppa.blog.csdn.net/article/details/133273416 TCP/IP参考模型 代码案例 服务端代码 package com.hidata.devops.paas.udp;import java.io.BufferedReader; import java.io.IOException; import java.io.InputStr…

tomcat在idea上的配置

tomcat在idea上的配置主要包含以下几个步骤&#xff1a; 1、创建一个maven web工程 2、配置tomcat 1、创建一个maven web工程 第一个是仓库配置文件的路径&#xff0c;第二个是你的仓库路径。 2、配置tomcat 配置tomcat有以下两种方式&#xff1a; 1、集成配置 2、插件配置…

Unity 制作登录功能01-创建登录的UI并获取输入内容

1.创建UI面板 导入插件TextMesh Pro 2.编写脚本获取用户输入 这里用的是输入框侦听函数&#xff0c;所有UI都可以使用侦听函数 &#xff0c;需要注意TMP_InputField 这个类是UI中导入的一个插件TextMesh Pro&#xff01;在代码中需要引用using TMPro; 命名空间&#xff01; …

9月25日学习记录

1. vs中Qt添加模块在这个位置&#xff1a; VS2019 Qt 怎么添加Qt模块&#xff1f;_qtvs添加第三方qt模块_令狐掌门的博客-CSDN博客 2.布局学习 (1) QVBoxLayout *layoutnew QVBoxLayout(this);QWidget *w1new QWidget;QWidget *w2new QWidget;w1->setStyleSheet("bac…

【STM32笔记】HAL库I2C通信配置、读写操作及通用函数定义

【STM32笔记】HAL库I2C通信配置、读写操作及通用函数定义 文章目录 I2C协议I2C配置I2C操作判断I2C是否响应I2C读写 附录&#xff1a;Cortex-M架构的SysTick系统定时器精准延时和MCU位带操作SysTick系统定时器精准延时延时函数阻塞延时非阻塞延时 位带操作位带代码位带宏定义总…

【广州华锐互动】VR智能内容中控平台有什么作用?

随着科技的发展&#xff0c;教育方式也在不断地进行创新。广州华锐互动开发的VR智能内容中控平台&#xff0c;为教育带来了新的可能性。它不仅可以帮助教师更好地控制和管理虚拟现实教学环境&#xff0c;还可以让学生在虚拟环境中进行互动学习&#xff0c;提高他们的学习效果。…

C#中实现定时器Timer定时判断IP是否ping通(连通)和端口号是否telnet可达(可用)

场景 Winform中使用HttpClient(设置最大超时响应时间)调用接口并做业务处理时界面卡住&#xff0c;使用async Task await异步任务编程优化&#xff1a; Winform中使用HttpClient(设置最大超时响应时间)调用接口并做业务处理时界面卡住&#xff0c;使用async Task await异步任…

做个网页火了,结果一天欠下8000元!

大家好&#xff0c;我是鱼皮。 事情是这样的&#xff0c;昨天我在 B 站某个视频的评论区下被 了&#xff1a; 我内心&#xff1a;熟悉&#xff1f;什么熟悉&#xff1f;我以为又是朋友开玩笑说哪个动物和我长得很像来着。 结果点进去一看&#xff0c;标题就直接 “震惊” 到…