文档图像处理:大模型的突破与新探索

news2025/1/23 7:04:49

前言

        随着数字化时代的到来,文档图像处理技术在各行各业扮演着越来越重要的角色。在2023第十二届中国智能产业高峰论坛(CIIS 2023)的专题论坛上,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士分享了当前文档图像处理面临的困难,并讨论大模型在该领域的突破和新探索。

        虚竹哥把其中的要点,还有我个人的理解整理下,分享给大家~

一、什么是文档图像处理

        文档图像处理是指通过计算机对文档图像进行分析和理解,实现自动化的信息提取和处理。文档图像可以是扫描件、照片或者其他形式的图像文件。文档图像处理可以包括文本识别、布局分析、实体关系理解、图像分割等任务。

        文档图像处理在许多领域都具有重要应用,例如自动化办公、金融、教育等。通过自动化处理,可以提高工作效率,减少人工错误,提供更快速、准确的信息检索和提取。

二、文档图像分析识别与理解的技术难题

        首先是场景及版式的多样性,不同类型的文档有不同的版式和布局,这给文档图像的分析和理解带来了很大的挑战。

        其次是形状的不可控性,文档的形状可能是曲线、折叠或损坏的,这使得文档的识别和还原变得困难。

此外,采集设备的不确定性和用户需求的多样性也增加了文档图像处理的复杂度。

高精度:金融票据

可理解:教育、档案、办公

最后是光照的不可控性,文档的拍摄环境中光照的亮度和角度也会对图像质量产生重要影响。

三、公司介绍

        合合信息一直专注于通过智能文字识别和商业大数据领域的核心技术聚焦于文档图像分析识别和文字理解领域,在人工智能方向深耕17年,合合信息你可能没听过,但他家的产品你应该听过:在app store上搜索扫描,第一个产品就是。

扫描全能王免费版在App Store上105个国家和地区(含中国)的效率类免费应用下载量排行榜位列第一。

四、文档图像大模型的研究主题

        文档图像的分析、识别与理解是研究的重要主题。在进行文档图像分析与预处理过程中, 需要进行切边增强、去摩尔纹、弯曲矫正、图片压缩以及PS检测等步骤, 以提高后续解析与识别的准确性。文档解析与识别包括文字识别、表格识别以及电子档解析等任务, 以实现对文档内容的精准提取和表达。版面分析与还原涉及元素检测、元素识别以及版面还原等核心环节, 以精准还原文档的原始版面信息。

        文档信息抽取与理解是研究的重要环节之一, 通过信息抽取技术可以针对文档中的特定信息进行提取和整理, 回答用户提出的问题或者自动生成文档摘要。另外, AI安全问题也是不容忽视的方面, 需要关注篡改分类、篡改检测、合成检测以及AI生成检测等技术, 以保障文档的真实性和完整性。

        此外, 知识化、存储检索和管理也是研究的重要方向之一。通过深入挖掘文档中的实体关系、文档主题等信息, 可以建立知识图谱以实现文档的可视化表达和快速检索。同时, 结合ERP/OA以及SAP等技术, 可以构建高效、智能的文档管理系统, 以支持日常办公和决策。

五、文档图像大模型的突破

5.1、文档图像专有大模型

        文档图像大模型在近年来取得了显著的进展,其中最引人注目的是一些专有模型,如LayoutLM系列、UDOP和LiLT等。这些模型基于多模态Transformer Encoder进行预训练和下游任务微调,在文档图像处理方面具有显著的性能。

        LayoutLM系列是Microsoft推出的一系列模型,包括LayoutLM、LayoutLMv2、LayoutLMv3和LayoutXLM。这些模型利用多模态Transformer Encoder进行预训练,并通过对下游任务进行微调来提高性能。

        UDOP是Microsoft提出的另一个文档处理大一统模型,它采用统一的Vision-Text-Layout编码器、分离的Text-Layouot和Vision解码器。这个模型旨在将各种文档处理任务统一到一个框架下,提高处理效率和精度。

        LiLT是合合信息与华南理工大学正在研究的一种视觉模型与大语言模型解耦联合建模的多模态信息抽取新框架。该框架通过双向互补注意力模块(BiCAM)融合视觉与语言模型,在多语言小样本/零样本场景下具有优越的性能。有趣的是,LiLT可以灵活地与单语言或多语言的文本预训练模型联合解决下游任务,并且在单语言下游任务上也表现出优越的性能(特别是在训练样本较少的数据集上)。在常用的单语言数据集上,LiLT的表现总体上也优于LayoutXLM。

        最后,Donut是NAVER开发的一种无需OCR的用于文档理解的Transformer模型。这个模型的开发可能会简化文档处理流程,提高处理的准确性和效率。

5.2、多模态大模型

        BLIP2是Salesforce团队于2023年1月发布的一种模型,它采用了轻量级的查询Transformer将预训练的图像编码器和LLM解码器进行连接。在表征学习阶段,该模型通过图文对比学习、图像文本生成和图像文本匹配三个任务来让Q-Former提取文本相关的特征。在生成预训练阶段,视觉编码器和Q-Former被连接到冻结的LLM上,并通过生成式训练将视觉特征与LLM对齐。

        Flamingo是DeepMind于2022年发表的一种模型,它在LLM中增加了Gated Attention层以引入视觉信息。该模型冻结了Vision Encoder和LLM,并在Visual Encoder后加入了Perceiver Resampler模块以加强视觉表征。此外,还在LLM的每层之前加入了Gated xattn-dense模块以加强跨模块信息交互。2023年3月,LAION团队发布了OpenFlamingo,它是DeepMind的Flamingo模型的开源复制品。

        LLaVA是Microsoft于最近发布的一种模型,它将CLIP ViT-L和LLaMA采用全连接层进行连接。该模型使用GPT-4和Self-Instruct生成高质量的158k instruction following数据。

        最后,MiniGPT-4是一种视觉部分采用ViT+Q-Former、语言模型部分采用Vicuna且视觉和语言模块间采用全连接层衔接的模型。

多模态大模型用于OCR领域的局限性

        多模态大模型在处理显著文本时表现出色,但它们在处理细粒度文本时却往往效果不佳。这是由于受到视觉编码器的分辨率和训练数据的限制。尽管现有的模型已经取得了很大进展,但是它们仍然存在一些局限性。

        视觉编码器的分辨率对于多模态大模型的性能有很大的影响。由于视觉信息往往包含大量的细节和复杂性,因此需要高分辨率的编码器来捕捉这些细节。但是,高分辨率编码器的计算成本也相应较高,这会限制模型的训练速度和效率。

        训练数据也是限制多模态大模型性能的一个因素。现有的模型主要依赖于大规模的预训练数据集进行训练,而这些数据集往往只包含一些大规模的图像和文本。因此,这些模型可能无法很好地处理一些细粒度文本,因为它们没有在训练数据集中见过这些类型的文本。

        多模态大模型的处理方式也是影响其性能的因素之一。由于这些模型主要关注图像和文本之间的跨模态对应关系,因此它们可能忽略了文本内部的一些细粒度信息。这使得这些模型在处理一些需要关注细节的细粒度文本时表现不佳。

5.3、Pixel2seq大模型系列

        Google的Pix2Seq方法将目标检测任务转化为一个图像到序列的语言建模任务,通过语言建模的方式,让模型学习到从图像中抽取有用的特征,并进行合理的分类,从而完成目标检测任务。该方法采用了深度学习技术,通过对大量的数据进行训练,使得模型可以快速、准确地识别出图像中的各种目标。

        继Pix2Seq之后,Google又提出了一个更加完善的框架Pix2Seq v2。Pix2Seq v2是一个统一的基于序列预测的视觉任务框架,它可以用于解决各种视觉问题,如目标检测、图像分类、图像分割等。该框架采用了全新的注意力机制,使得模型可以更好地聚焦于输入图像的关键区域,从而更好地完成任务。

        与Google不同,Microsoft提出了一个叫做UniTAB的多模态编码器(图像&文本)+自回归解码器的方法,它可以完成多种Vision-Language (VL) 任务。该方法将图像和文本两种不同的模态进行有机结合,利用自回归解码器进行预测,从而实现了更加高效和准确的目标检测和图像分类任务。

        Meta也提出了一种新的方法NOUGAT。该方法通过采用Swin Transformer和Transformer Decoder实现了从文档图像到文档序列的输出。Swin Transformer是一种全新的局部与全局信息交互的Transformer结构,具有更好的视觉特征表达能力。而Transformer Decoder则可以将上文所提到的各种视觉特征转换成文本形式,使得人们可以更加方便地理解图像内容。

六、文档图像大模型的探索

6.1、文档图像大模型设计思路

        文档图像识别分析是一个涵盖多种任务的综合性领域,这些任务可以定义为序列预测的形式。无论是文本、段落、版面分析、表格还是公式等,都可以通过基于序列预测的模型进行处理。

        在进行OCR任务时,我们可以使用不同的prompt来引导模型,以便完成各种不同的任务。例如,我们可以通过输入特定的指令或上下文信息,来让模型更好地理解和识别文档内容。

        除了基本的字符和词汇识别,OCR技术还可以支持篇章级的文档图像识别分析。这意味着可以对整个文档进行扫描和分析,并以Markdown、HTML或纯文本等标准格式输出。这种方法可以帮助我们更高效地组织和处理文档内容,从而大大提高工作效率。

        近年来,LLM(大型语言模型)在自然语言处理领域取得了很大的进展。同样,LLM也可以应用于文档理解相关的工作。通过将LLM与OCR技术相结合,我们可以更好地理解文档内容,并从中提取有用的信息。这将进一步促进文档处理技术的发展,提高自动化水平和生产效率。

6.2、SPTS文档图像大模型

        SPTS 是一种创新的端到端文本检测和识别方法,它颠覆了传统的文本检测和识别流程。传统的方法通常将文本检测和识别看作两个独立的任务,导致处理流程复杂且冗余。而SPTS将这两个任务融为一体,将文本检测和识别定义为图片到序列的预测任务,极大地简化了处理流程。另外,SPTS采用单点标注技术指示文本位置,这样就可以极大地降低标注成本。同时,它无需RoI采样和复杂的后处理操作,真正将检测和识别融为一体。

        SPTS v2将检测和识别解耦为自回归的单点检测和并行的文本识别两个过程。其中,IAD根据视觉编码器特征自回归地得到每个文本的单点坐标,这个过程是自回归的,因此可以极大地提高推理速度。而PRD则是根据IAD的单点特征并行地得到各个文本的识别结果,这种并行的处理方式可以进一步提高处理效率。SPTS v2还可以应用于各种不同的OCR场景。

        基于SPTS的OCR大一统模型(SPTS v3)将多种OCR任务定义为序列预测的形式。通过使用不同的prompt引导模型完成不同的OCR任务,可以极大地提高模型的泛化能力。例如,可以使用“where is the date on this document?”来询问文档中的日期位置,或者使用“what is the text on this image?”来识别图像中的文本。另外,SPTS v3沿用了SPTS的CNN + Transformer Encoder + Transformer Decoder的图片到序列的结构,这使得它可以更加高效地处理各种不同的OCR任务。

6.3、下一步研究方向

一个复杂的系统模型应该需要做到:

        在输入层,模型可以接收任何类型的文本文件作为输入,包括Word文档、PDF文档等。这一层的主要任务是对原始文本数据进行预处理,为后续的处理阶段准备数据。

        处理层是模型的核心部分,它将对输入的文本数据进行一系列的分析和操作,如分词、语法分析、语义分析以及拼写检查等。这些处理步骤能帮助模型更好地理解和处理文本数据。

        在输出层,模型将对处理后的结果进行可视化展示,可以是以图表、图形、文字等形式。这一层的主要任务是将复杂的数据处理结果以易于理解的方式呈现给用户。

        尽管这个模型已经实现了高效的数据处理,但它仍有进一步发展和优化的空间。例如,可以探索如何更准确地识别和处理各种类型的文本数据,如何改进语法分析和语义理解的技术以提升模型的性能,以及如何设计和实现更有效的数据可视化方法以帮助用户更好地理解和利用模型输出的结果。这些方向的研究和发展将推动文本数据处理技术的进步,对许多领域都将产生深远的影响。

  • 七、总结

        随着数字化时代的到来,文档图像处理技术变得越来越重要。文档图像处理通过计算机对文档图像进行分析和理解,实现自动化的信息提取和处理。文档图像处理在各行各业都有广泛应用,如自动化办公、金融和教育领域。通过自动化处理,可以提高工作效率,减少错误,并提供更快速、准确的信息检索和提取。

        然而,文档图像处理面临一些技术难题。首先是不同类型文档的多样性,不同的版式和布局给分析和理解带来挑战。其次是形状的不可控性,文档可能是曲线、折叠或损坏的,导致识别和还原困难。此外,采集设备的不确定性和用户需求的多样性也增加了处理复杂度。最后,光照的不可控性也会对图像质量产生重要影响。

        LayoutLM系列、UDOP、LiLT和Donut等专有模型在文档图像处理方面取得了显著的性能。此外,多模态大模型如BLIP2、Flamingo和LLaVA也在文档图像处理中取得了重要进展。

        多模态大模型在处理细粒度文本方面仍存在局限性。视觉编码器的分辨率和训练数据的限制会影响其性能。此外,这些模型在处理细节文本时可能忽略了内部信息,表现不佳。

        为了进一步发展文档图像处理技术,可以探索以下方向:优化文本预处理、改进分析和操作方法、提升语法分析和语义理解技术、设计更有效的数据可视化方法等。这些研究将推动文档图像处理技术的进步,并在各个领域产生深远影响。

是虚竹哥,我们下文见~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1051258.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

wallis匀色算法、直方图匹配、颜色转移方法比较

算法原理 这三种方法应该是比较基础的匀色处理算法 三个算法的原理比较简单,具体原理大家可以自己百度 (1)wallis匀色原理主要在于利用Wallis滤波器使原始图像的均值和标准差与参考影像相当,从而使原始影像和参考影像具有相近的色…

Oracle的递归公共表表达式

查询节点id为2的所有子节点的数据,包括向下级联 WITH T1 (id, parent_id, data) AS (SELECT id, parent_id, dataFROM nodesWHERE id 2UNION ALLSELECT t.id, t.parent_id, t.dataFROM nodes tJOIN T1 n ON t.parent_id n.id ) SELECT * FROM T1; --建表语句 C…

今天出门竟然忘了带套

今天是没有抢到票的打工人节前的最后一天,7点醒来,磨磨蹭蹭,解决完个人问题,7.35才出门,正常来说最晚7.30出门,骑上哈啰、挤上地铁才能保证打上卡。 说出来不怕各位同行笑话,谁能想到一个高速发…

打卡新“姿势”,多种打卡方式并行

打卡工具 路径 拓展 >> 工具 功能简介 在打卡工具 “班次管理”中,支持多种打卡方式。可同时选择「地点打卡」和「智能安全帽打卡」两种方式进行打卡。 注: 「地点打卡」可设置考勤地点; 「智能安全帽打卡」可设置电子围栏范围。…

排序篇(一)----插入排序

1.直接插入排序 插入排序的思想: 把待排序的记录按其关键码值的大小逐个插入到一个已经排好序的有序序列中,直到所有的记录插入完为止,得到一个新的有序序列 。 你可以想像成打牌一样,比如说斗地主,一张一张的摸牌,然后把手上的这些牌变成手续的排列.…

【教学类-38】A4红纸-国旗灯笼(庆祝中华人民共和国成立74周年)

作品展示: 背景需求: 从教十余年,我在每年国庆都带领中大班孩子们制作与“国旗相关”国庆庆祝物品——国旗、礼盒 一、国旗(吸管、A4红纸、黄纸打印五角星) 二、铅画纸手提袋(8K铅画纸、A4红纸、黄色打印…

Windows的批处理——获取系统时间、生成当天日期日志

Windows批处理基础https://coffeemilk.blog.csdn.net/article/details/132118351 一、Windows批处理的日期时间 在我们进行软件开发的过程中,有时候会使用到一些批处理命令,其中就涉及到获取系统日期、时间来进行一些逻辑的判断处理;那么我们…

Ubuntu 部署 Seata1.7.1

一、环境说明 IP操作系统程序备注10.0.61.22ubuntu20.04PostgreSQL-14.11已提前部署10.0.61.21ubuntu20.04Nacos-2.1.0已提前部署10.0.61.22ubuntu20.04seata-server-1.7.1本文将要部署 二、部署 1. 下载 wget https://github.com/seata/seata/releases/download/v1.7.1/se…

VUE2项目:尚品汇VUE-CLI脚手架初始化项目以及路由组件分析(一)

标题 环境VUE2目录publicassetscomponentsmain.jsbabel.config.jspackage.jsonvue.config.js 项目路由分析Header与Footer非路由组件完成Header示例 路由组件的搭建声明式导航编程式导航 Footer组件的显示与隐藏路由传递参数重写push和replace三级联动组件拆分附件 环境 前提要…

Scala第四章节

Scala第四章节 scala总目录 章节目标 掌握分支结构的格式和用法掌握for循环和while循环的格式和用法掌握控制跳转语句的用法掌握循环案例理解do.while循环的格式和用法 1. 流程控制结构 1.1 概述 在实际开发中, 我们要编写成千上万行代码, 代码的顺序不同, 执行结果肯定也…

GD32工程创建

1.创建空工程 在任意路径下创建空的test文件夹。打开keil5空工程创建空工程 选择对应的芯片型号: 然后把空工程保存到test文件夹下。会自动生成如下文件。 2. 添加组 下载GD32F10X的固件库:在百度里搜索GD32进入官网。 下载下来对应的文件如下&#xff…

问题记录 springboot 事务方法中使用this调用其它方法

原因: 因为代理对象中调用了原始对象的toString()方法,所以两个不同的对象打印出的引用是相同的

HTML详细基础(三)表单控件

本帖介绍web开发中非常核心的标签——表格标签。 在日常我们使用到的各种需要输入用户信息的场景——如下图,均是通过表格标签table创造出来的: 目录 一.表格标签 二.表格属性 三.合并单元格 四.无序列表 五.有序列表 六.自定义标签 七.表单域 …

Java微信分享接口开发

概述 微信JS-SDK实现自定义分享功能,分享给朋友,分享到朋友圈 详细 概述 概述 微信公众平台开始支持前端网页,大家可能看到很多网页上都有分享到朋友圈,关注微信等按钮,点击它们都会弹出一个窗口让你分享和关注&…

抢先一步感受未来:Raspberry Pi 5正式发布!

在经历了几年全球供应链困境导致 Raspberry Pi 单板计算机的产能降低和零售价格上涨之后,今天终于迎来了更新。Raspberry Pi 4 上市四年后,今天Raspberry Pi 5正式发布!新推出的 Raspberry Pi 5 配备了经过大幅改进升级的SoC,带来…

【owt-server】fix : node-gyp configure 报错:Error: read ECONNRESET

npm已经设置了registry 还报错 npm config set registry http://registry.npmmirror.comnode-gyp configure 指令 node-gyp configure 报错 read ECONNRESET root@k8s-master-2K4G:~/p2p/zdsvr-20201229# ./scripts/build.js -t mcu --check /root/p2p/zdsvr-20201229/build/li…

ipaguard界面概览

ipaguard界面概览 ipaguard界面分左右2块:左边菜单导航栏,右边的功能区 左侧菜单:按模块分成启动界面,代码模块,文件模块,重签名与测试模块 右侧主功能区会随着功能变化,但是整体分3块&#xf…

【2023研电赛】华东赛区一等奖:电动叉车永磁同步电机MTPA及弱磁控制研究

本文为2023年第十八届中国研究生电子设计华东赛区一等奖竞赛作品分享,参加极术社区的【有奖活动】分享2023研电赛作品扩大影响力,更有丰富电子礼品等你来领!,分享2023研电赛作品扩大影响力,更有丰富电子礼品等你来领&a…

5+SUMO化修饰+分型+实验,经典生信思路

今天给同学们分享一篇5SUMO化修饰分型实验的生信文章“SUMOylation patterns and signature characterize the tumor microenvironment and predict prognosis in lung adenocarcinoma”,这篇文章于2023年4月13日发表在Front Cell Dev Biol 期刊上,影响因…

直击2023中国(天津)国际汽车展览会 感受大运新能源的造车实力

作为汽车行业“新风口”,新能源汽车近年来的热度可谓居高不下。目前,各大车企纷纷抢滩新能源汽车赛道,发挥出各自的看家本领抢占更多市场话语权。相比盲目跟风的车企而言,拥有多年造车经验的大运集团,经过科学严谨的战…