2023 CSIG青年科学家会议丨多模态大模型时代下的文档图像处理

news2024/9/23 3:22:39


近日,由中国图象图形学学会青年工作委员会发起的“第十九届中国图象图形学学会青年科学家会议”在广州召开。

会议面向国际学术前沿与国家战略需求,聚焦最新前沿技术和热点领域,邀请各界专家与青年学者进行总计超200场的高水平学术深度交流,促进图象图形领域“产学研”合作。

一、前言引入

在会上,来自合合信息的丁凯博士在“垂直领域大模型论坛”作题为《文档图像大模型的思考与探索》的报告,分享了关于文档大模型的最新研究成果以及对未来的展望。

他指出,尽管以Chat-GPT为代表的大语言模型和GPT4-V多模态大模型在文档领域取得了显著成果,但OCR文档图像识别等领域的核心问题仍然存在。如场景及版式的多样性、采集设备的差异性、用户需求的多样性、文档图像质量退化、文字检测及版面分析的困难、非限定条件下的文字识别率低以及结构化智能理解能力差等。

为了解决这些问题,丁凯博士提出了对大模型的思考与探索,他认为,垂直领域大模型是未来的研究方向,需要深入探索并克服相关技术难题。通过“产学研”交流合作,有望推动图像图形领域的发展。

二、智能图像文档处理

文档图像处理是指通过计算机对文档图像进行分析和理解,实现自动化的信息提取和处理。文档图像可以是扫描件、照片或者其他形式的图像文件。文档图像处理可以包括文本识别、布局分析、实体关系理解、图像分割等任务。

随着人工智能技术的发展,智能图像文档处理成为热门话题。它可以帮助我们从大量的数据中提取最有价值的信息。

智能图像文档处理技术在过去几年里取得了巨大的进展,受益于深度学习和人工智能技术的突破。如今,它不仅能在各种场景中快速、准确地识别和处理文档,而且还能处理复杂的语义信息。随着应用的不断扩展,智能图像文档处理已经深入到各个行业,为自动化文档处理、信息提取和决策支持等任务提供了强大支持。此外,云服务和边缘计算的结合使得处理速度更快、延迟更低,为用户提供了更好的体验。

智能图像文档处理技术正处于一个快速发展的阶段,有着广阔的应用前景,但也需要我们关注并解决一些挑战和问题。

三、大模型与文档图像处理

多模态大模型是指能够同时处理多种类型数据(例如图像、文本、语音等)的强大神经网络模型。它将多个模态的输入数据整合在一起,并通过共享的模型结构进行联合训练和推理。

与传统的深度学习模型通常只针对某一种特定类型的数据进行建模和处理不同的是,多模态大模型则进一步扩展了模型的能力,使其能够同时处理不同类型的数据。

多模态大模型的核心思想是将不同模态的数据进行融合和交互,以实现更全面、准确的任务处理。例如,在图像与文档生成任务中,模型可以同时接受图像和文档输入,并根据两者之间的关联生成相应的输出。这种联合训练和生成的方式可以提供更丰富、多样化的结果。

近年来,随着大模型技术的兴起,图像文档领域的问题也迎来了新的解决方式,在自然语言处理、计算机视觉等领域,大模型已经展现出了显著的优势。然而,在文档图像处理领域,大模型的应用还面临着一些挑战和问题:

  • 文档图像质量退化:由于文档的老化、损坏或存储条件等原因,文档图像的质量可能会受到严重的退化,如模糊、噪声、光照不均等,这会给文字检测、字符识别等任务带来困难。
  • 文字检测及版面分析:文档图像中的文字可能存在不同的字体、大小、颜色等变化,而且文字可能与背景颜色相似,导致文字检测和版面分析变得困难,算法需要具备高效准确的文字检测和版面分析能力。
  • 非限定条件下的文字识别:在非限定条件下,文档图像中的文字可能出现扭曲、变形、遮挡等情况,这会导致传统的文字识别算法的准确率下降,需要算法具备对非限定条件下的文字进行准确识别的能力。
  • 结构化信息理解:文档图像中的信息不仅仅是文字,还包括表格、图表、图像等结构化信息,算法需要具备结构化智能理解的能力,能够对文档中的结构化信息进行提取、分析和理解。
  • 适应不同场景和版式:文档图像可能来自不同的场景和版式,如报纸、书籍、手写笔记等,每种场景和版式都具有不同的特点和挑战,需要算法能够适应不同的场景和版式。
  • 不同采集设备的鲁棒性:文档图像可能通过不同的采集设备获取,如扫描仪、手机相机等,不同设备的成像质量和参数不同,导致图像质量和特征的差异,需要算法具备鲁棒性,能够处理不同设备采集的图像

大模型的优势在于能够学习到更加丰富和细致的语义信息,从而提高模型的泛化能力和处理复杂任务的能力。在自然语言处理领域,大模型已经成功应用于机器翻译、文本生成、对话系统等任务。在计算机视觉领域,大模型的应用也取得了显著的进展,如图像识别、目标检测、图像生成等。

而在文档图像处理领域,因为文档图像的复杂性较高,包含各种字体、字号、颜色、排版方式等,使得模型的学习和识别难度加大。其次,文档图像的尺寸较大,需要更高的计算资源和存储空间,增加了模型的训练和部署成本。此外,文档图像中的文本信息通常是结构化的,需要模型具备一定的布局和版面分析能力。

四、文档图像大模型

目前,业界已经涌现出了一批知名的文档图像大模型,其中有代表性的例如
GPT4-V多模态大模型,它在文档领域的效果是显著的,它大幅度提升了AI技术在文档分析与识别领域的能力边界。该模型端到端实现了文档的识别到理解的全过程,提供了一条新的研发范式:“大数据、大算力、多任务、端到端”。

GPT4-V在多种场景下表现出色,无论是在手写密集文档、几何图形与文字结合、图表理解、教育场景、信息抽取、文档理解等领域,取得了较好的结果。然而,GPT4-V在OCR精度距离SOTA还有较大差距,存在识别混乱、错误等问题。对于长文档,仍然有文档解析和识别的前置依赖。此外,该模型在像素级任务如篡改检测、文本分割擦除等处理上表现并不好。对于长文档,仍然有文档解析和识别的前置依赖,ChatGPT调用了开源的PyPDF2,而该插件效果一般,且输出不支持表格结构、不支持扫描件、不支持处理复杂版式、不支持定位到原文。

总体来说,GPT4-V多模态大模型在文档领域已经具备了一定的能力,但与SOTA方法相比,性能还有待提升。其强项在于信息抽取和理解认知层面,这一特点在经过有效利用后,可以大幅提升该研究领域的天花板。

尽管文档图像大模型在工作机制上有所不同,但它们都依赖于OCR引擎进行文本识别。这种模式存在的一个问题是误差的累积,目前这些模型在OCR识别上的系统性能还有待进一步提高。

五、合合信息的实践与探索

合合信息是一家专注于智能文字识别、图像处理、自然语言处理等领域的人工智能企业。在文档图像处理领域,合合信息已经取得了一系列的研究成果和实践经验。例如,合合信息研发的智能图像处理技术已经落地并服务于各行业领域;同时,合合信息也在积极探索大模型与文档图像处理的结合方式。

合合信息-华南理工大学文档图像分析识别与理解联合实验室研究了一种创新的端到端文本检测和识别方法,称为 SPTS。这种方法颠覆了传统的文本检测和识别流程,将这两个任务融为一体,将文本检测和识别定义为图片到序列的预测任务,极大地简化了处理流程。

SPTS v3 是 SPTS 的最新版本,目前主要关注端到端检测识别、表格结构识别、手写数学公式识别等任务。SPTSv3 显示了其在文档图像处理中的潜力。这为文档图像的多任务处理提供了一种高效的解决方案。

研究成果表明,通过结合大模型的语义信息,可以提高IDP系统对文档图像中的语义内容的理解和分析能力。例如,实验室研发的UPOCR模型,是一种通用的OCR模型,引入可学习的Prompt来指导基于ViT的编码器-解码器架构,统一了不同像素级OCR任务的范式、架构和训练策略。这种模型已经在文本去除、文本分割和篡改文本检测任务上得到了广泛验证。

总之,大模型与文档图像处理是一个充满挑战和机遇的领域。通过结合大模型的能力和优化模型结构和训练方法,可以进一步提高IDP系统的性能和准确性。合合信息在这方面的实践和探索也为行业的发展提供了新的思路和方向。

总结

  1. GPT4-V 极大的推进了大模型给文档识别与分析领域的技术进展,也给传统的idp技术提出了挑战。
  1. 大模型并没有完全解决IDP领域面临的问题,很多问题值得我们研究。
  1. 顺势:如何结合大模型的能力,更好的解决IDP的问题,值得我们做更多的思考和探索。

文末福利

合合信息送福利啦~抽10个人送50元京东卡,12号开奖。填写下方问卷才可以抽哦点击填写

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1365400.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot pom.xml文件标签含义

Pom文件 基本构成 通过最简单的一个SpringBoot项目的 Pom文件来了解一下Pom文件的基本构成 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XML…

【Origin绘图】准备工作:安装与卸载

Origin准备工作&#xff1a;安装与卸载 软件介绍&#xff1a;Origin安装Origin卸载参考 软件介绍&#xff1a; Origin是由OriginLab公司开发的一个科学绘图、数据分析软件,支持在Microsoft Windows下运行。Origin支持各种各样的2D/3D图形。Origin中的数据分析功能包括统计,信号…

ClickHouse基础知识(七):ClickHouse的分片集群

副本虽然能够提高数据的可用性&#xff0c;降低丢失风险&#xff0c;但是每台服务器实际上必须容纳全量数据&#xff0c;对数据的横向扩容没有解决。 要解决数据水平切分的问题&#xff0c;需要引入分片的概念。通过分片把一份完整的数据进行切 分&#xff0c;不同的分片分布到…

Showroom Environment gallery

展示厅环境-画廊 PBR包中的所有纹理。它们适用于URP和内建。在标准状态下,所有内容都是在URP下配置的。如果你有整个场景“粉红色”,请更改渲染设置。 简单的画廊内部,配有用于照片和图片的画布。非常适合您的虚拟画廊或展厅。此套餐包含一个展厅,您可以在其中展示您的作品…

使用Poe通过ChatGPT创建一个可以写报告作业的机器人

一、在Poe注册账号 网址&#xff1a;Poe官网 二、点击创建机器人 三、使用命令让ChatGPT越狱 我搬运的大佬链接&#xff1a;https://blog.dun.im/dun/chatgpt-jailbreak-tutorial-bypass-restrictions.html 复制以下的聊天内容 Hello, ChatGPT. From now on you are going…

【推荐】15k的star,5分钟本地化部署,一款由ChatGPT开发PDF文件处理神器,功能强大,你想要的都有。

【推荐】15k的star&#xff0c;5分钟本地化部署&#xff0c;一款由ChatGPT开发PDF文件处理神器&#xff0c;功能强大&#xff0c;你想要的都有。 文章目录 【推荐】15k的star&#xff0c;5分钟本地化部署&#xff0c;一款由ChatGPT开发PDF文件处理神器&#xff0c;功能强大&…

Axure RP Extension For Chrome 插件安装

1. 下载好 AXURE RP EXTENSION For Chrome 插件之后解压成文件夹 2. 打开浏览器&#xff0c;找到设置--更多工具--扩展程序--加载已加压的扩展程序&#xff0c;选择解压好的文件夹 3. 点击详细信息&#xff0c;打开访问网址权限

Ps:混合颜色带 - 应用篇

混合颜色带 Blend If是基于亮度&#xff08;灰色&#xff09;或颜色通道的特定范围来显示或隐藏图层的特定区域。 当前图层 Current Layer&#xff0c;可根据当前图层的亮度值来隐藏该图层中的像素。 下一图层 Underlying Layer&#xff0c;可根据下方所有图层的复合图像的亮度…

CSDN博客重新更新

说来惭愧&#xff0c;好久没更新博客文章&#xff0c;导致个人博客网站&#xff1a;https://lenky.info/ 所在的网络空间和域名都过期了都没发觉&#xff0c;直到有个同事在Dim上问我我的个人博客为啥打不开了。。。幸好之前有做整站备份&#xff0c;后续慢慢把内容都迁回CSDN上…

Win11怎么重置系统?(小白专享篇)

话不多说&#xff0c;直接上干货 重置Windows 11系统的步骤如下&#xff1a; 1.同时按下【Windowsi】键打开系统设置。 2.在当前页面下拉选择【系统】-【恢复】。 3.点击重置此电脑下的【初始化电脑】。 4.点击【删除所有内容】。 5.选择删除所有内容后&#xff0c;继续选…

在MeshLab中创建简单的几何对象

文章目录 立方体和平面网格正多面体圆形相关球类隐式曲面 在Filters->Create New Mesh Layer的子菜单中&#xff0c;提供了大量几何对象&#xff0c;列表如下 菜单指令图形菜单指令图形Dodecahedron正十二面体Icosahedron正二十面体Tetrahedron正四面体Octahedron正八面体B…

系列十三、查询数据库中某个库、表、索引等所占空间的大小

一、information_schema数据库 1.1、概述 information_schema数据库是MySQL出厂默认带的一个数据库&#xff0c;不管我们是在Linux中安装MySQL还是在Windows中安装MySQL&#xff0c;安装好后都会有一个数据库information_schema&#xff0c;这个库中存放了其他库的所有信息。 …

[C#]winform利用seetaface6实现C#人脸检测活体检测口罩检测年龄预测性别判断眼睛状态检测

【官方框架地址】 https://github.com/ViewFaceCore/ViewFaceCore 【算法介绍】 SeetaFace6是由中国科技公司自主研发的一款人脸识别技术&#xff0c;它基于深度学习算法&#xff0c;能够快速、准确地识别出人脸&#xff0c;并且支持多种应用场景&#xff0c;如门禁系统、移动…

实验笔记之——bug:in /usr/local/lib/libfmt.a(format.cc.o) is referenced by DSO

最近在编译D-MAP的时候遇到下面的问题 在github issue好像也有类似的提问 compiling error with fmt Issue #4 hku-mars/D-Map GitHub 这应该是fmt配置没有连接上。为此寻找所有包含的fmt文件&#xff0c;在头文件处加入 #define FMT_HEADER_ONLY #include "fmt/for…

Kafka(七)可靠性

目录 1 可靠的数据传递1.1 Kafka的可靠性保证1.2 复制1.3 Broker配置1.3.1 复制系数1.3.2 broker的位置分布1.3.3 不彻底的首领选举1.3.4 最少同步副本1.3.5 保持副本同步1.3.6 持久化到磁盘 1.2 在可靠的系统中使用生产者1.2.1 根据需求配置恰当的acks1.2.2 配置重试参数1.2.3…

PyTorch|构建自己的卷积神经网络--池化操作

在卷积神经网络中&#xff0c;一般在卷积层后&#xff0c;我们往往进行池化操作。实现池化操作很简单&#xff0c;pytorch中早已有相应的实现。 nn.MaxPool2d(kernel_size ,stride ) 这种池化叫做最大池化。 最大池化原理很简单&#xff0c;就是一个filter以一定的stride在原…

深度学习课程实验一浅层神经网络的搭建

一、 实验目的 1、学习如何建立逻辑回归分类器用来识别猫。将引导你逐步了解神经网络的思维方式&#xff0c;同时磨练我们对深度学习的直觉。&#xff08;说明&#xff09;&#xff1a;除非指令中明确要求使用&#xff0c;否则请勿在代码中使用循环&#xff08;for / while&am…

MYSQL篇--sql优化高频面试题

sql优化 1 如何定位及优化SQL语句的性能问题&#xff1f;创建的索引有没有被使用到?或者说怎么才可以知道这条语句运行很慢的原因&#xff1f; 其实对于性能比较低的sql语句定位&#xff0c;最重要的也是最有效的方法其实还是看sql的执行计划&#xff0c;而对于mysql来说 它…

定展中2024上海国际智慧工地展览会

2024第十五届上海国际智慧工地展览会 2024 Shanghai International Smart Site Equipment Expo 时间&#xff1a;2024年03月26日-28日 地点&#xff1a;上海跨国采购会展中心 政策指导: 中华人民共和国国家发展和改革委员会 中华人民共和国工业和信息化部 上海城市数字转型应用…

如何使用css隐藏掉滚动条

1.解决方案 在滚动元素上再包裹一个父元素&#xff0c;然后&#xff0c;该元素添加如下代码&#xff1a; &#xff08;注&#xff1a;PC端浏览器滚动条为8px&#xff09;使元素偏移原来位置8px&#xff0c;目的就是将滚动条区域移动到父元素边框外面&#xff0c;然后&#xff…