感知与认知的碰撞,大模型时代的智能文档处理范式

news2024/11/29 8:39:03

目录

  • 0 写在前面
  • 1 GPT4-V:拓宽文档认知边界
  • 2 大语言模型的文档感知缺陷
  • 3 大一统文档图像处理范式
    • 3.1 像素级OCR任务
    • 3.2 OCR大一统模型
    • 3.3 长文档理解与应用
  • 4 总结
  • 抽奖福利

0 写在前面

由中国图象图形学学会青年工作委员会发起的第十九届中国图象图形学学会青年科学家会议于2023年12月28-31日在中国广州召开。会议面向国际学术前沿与国家战略需求,聚焦最新前沿技术和热点领域,邀请了学术界和企业界专家与青年学者进行深度交流,促进图象图形领域“产学研”合作。

随着信息技术的发展和应用场景的不断扩大,人们需要处理和利用大量的文档信息。而传统的手动处理方法效率低下,无法满足现代生活和工作的需求。文档图像智能分析与处理就是一个重要且极具挑战性的研究问题。虽然文档图像分析已经有了将近一百年的历史,但是到目前为止仍有大量的问题没有得到很好地解决,例如文档的多样性和复杂性问题:文档类型和格式繁多,包括报告、合同、发票、证明、证件等等。不同类型的文档有不同的格式和布局,难以用统一的方法处理。而且智能文档处理受到图像质量、文字字体、文字大小、文字颜色等噪声因素的影响,容易出现误识别。此外,图像质量不一、文档获取繁琐等问题,依旧是行业顽疾。

合合信息作为文档图像处理领域的代表性科技企业,在本次会议中分享了大模型时代下,智能文档图像处理研究范式的相关启发性思考。大语言模型的快速发展,能否和传统方法相结合,发挥出更强大的优势,注入更鲜活的生命力呢?合合信息智能技术平台事业部副总经理、高级工程师丁凯博士对此进行了进一步的探讨和分析,相信对这个领域感兴趣的同学一定有所收获,接下来就让我们一起看看吧!

1 GPT4-V:拓宽文档认知边界

大型语言模型(LLMs)在各种领域和任务中表现出了显著的多功能性和能力。下一步的发展是大型多模态模型(LMMs),它们通过整合多感官技能来扩展LLMs的能力,以实现更强的通用智能。考虑到视觉在人类感官中的主导地位,许多LMM研究从扩展视觉能力开始。GPT-4V(ision)是OpenAI在2023年9月25日为ChatGPT增加的新特性,其中的V意味着GPT-4将更加注重视觉理解,GPT-4将具备更多的输入形式,使得用户可以通过包括文本、图像、声音等多种数据类型与GPT4进行交互,并且GPT-4能够进行更加复杂的推理和逻辑推导。同时,这也标志着GPT4正式成为一个多模态模型。

在这里插入图片描述

图源网络,侵删

丁凯博士首先介绍了GPT4-V强大的认知能力,相对于传统方法,大语言模型具备强大的上下文理解性能,可以根据文档中的文字内容和图像信息进行全面的语义分析。相比之下,传统方法通常只能依赖预定义规则或特定模式进行处理,难以捕捉到复杂的上下文关系。通过大量的训练数据进行学习和迭代,大语言模型可以从数据中学习到更丰富的特征表示和模式,从而更好地理解和处理文档图像。传统方法往往需要手动设计特征和规则,限制了其在复杂场景下的表现。

在这里插入图片描述

在多模态融合方面,大语言模型能够同时处理文本和图像信息,将文档图像中的文字和视觉元素进行联合分析和处理,提供更全面、准确的结果。传统方法通常是分别处理文本和图像,难以充分利用两者之间的相关性。此外,大语言模型的架构和训练方式具有较大的灵活性和可扩展性,可以根据任务需求进行调整和优化。相比之下,传统方法往往需要针对不同任务设计和实现特定的算法和流程,难以适应不同场景的需求。

在这里插入图片描述

丁凯博士举了一个复杂数据折线图的理解问题,这个问题涉及到多跳推理,因而属于复杂任务,例如,要回答

在图中,哪一年的6月份的平均汽油价格最高?

需要至少经过四个步骤

  1. x x x轴上找到6月份
  2. 比较6月份每条线的数据点
  3. 确定最高值的线条颜色
  4. 在顶部的图例中将颜色与对应的年份匹配。

任何一个步骤出错都会导致预测不准确。GPT-4V最终得出了正确的答案并提供了解释其推理过程的中间步骤,取得了超出传统方法的巨大优势。

在这里插入图片描述

由于大语言模型通过迁移学习和远程监督等技术,将在其他领域或任务上获得的知识和经验应用于智能文档图像处理,大语言模型能够更快速地适应新的任务和场景,减少数据和资源的需求。

2 大语言模型的文档感知缺陷

虽然GPT4-V在认知方面展示出巨大的潜力,但它在处理智能文档任务时,仍然具有很多的缺陷。

首先是幻觉现象,即模型错误地关联了文本信息和图像细节之间的关系,导致产生了错误的推断和判断,或根据文本信息生成与图像不符合的内容,在补全图像时添加错误或不相关的细节。丁凯博士以手写中文诗歌识别为例解释了这个问题。

在这里插入图片描述

丁凯博士接着介绍了一项全面评估GPT-4V在OCR领域能力的工作——对GPT-4V在广泛任务范围内进行了定量性能分析,这些任务包括场景文本识别、手写文本识别、手写数学表达式识别、表格结构识别以及从视觉丰富的文档中提取信息。研究显示,虽然该模型表现出了精准识别拉丁内容并支持具有可变分辨率的输入图像的强大能力,但在多语言和复杂场景方面仍然存在明显的困难。此外,高推理成本和与持续更新相关的挑战对于GPT-4V在实际部署中构成了重要障碍。因此,OCR领域的专门模型仍然具有重要的研究价值。尽管存在这些限制,GPT-4V和其他现有的通用LMM模型仍然可以在OCR领域的发展中发挥重要作用。这些作用包括提升语义理解能力、针对下游任务进行微调,并促进自动/半自动数据构建。

在这里插入图片描述

目前多模态大模型在密集文本处理方面几乎不能使用,一个很重要的原因是:多模态大模型主要基于文本进行语义理解,对于视觉感知和图像特征的提取能力有限。在处理密集文本时,相邻的文本可能会重叠、相互遮挡或无明显的边界,这需要对视觉特征进行准确地提取和分析,大语言模型的主要优势是在自然语言文本处理方面,而不是直接处理视觉信息。因此,在图像文档处理方面,由于视觉感知限制和文字识别困难,大语言模型并不适合直接应用于该领域。在处理密集文本时,需要借助于文本检测、分割和OCR等专门的技术和算法来实现准确的文本识别和提取

在这里插入图片描述

细粒度文本通常指的是文字较小、笔画细致、字形复杂的文本,如签名、古汉字、特殊符号等。这类文本在OCR领域中往往是非常具有挑战性的,因为它们往往涉及到字形和结构上的细微差异,很难直接从图像中提取出精确的文字信息。此外,在真实场景下,这些细粒度文本可能会受到光照、噪声、变形等各种干扰,这也增加了文字识别的难度。多模态大模型中的视觉编码器通常基于卷积神经网络或Transformer等模型,在处理图像时会受到分辨率的限制;另一方面,由于训练数据集中缺少针对细粒度文本的标注数据,模型很难从数据中学到有效的细粒度文本特征表示。因此,现有多模态大模型对显著文本的处理较好,但是对于细粒度文本的处理很差,要克服这些局限性,需要开展更深入的研究和探索

3 大一统文档图像处理范式

总得来说,在智能文档处理领域,大语言模型支持识别和理解的文档元素类型远超传统IDP算法,大幅度提升了AI技术在文档分析与识别领域的能力边界,端到端实现了文档的识别到理解的全过程,不足在于OCR精度距离SOTA有较大差距,长文档依赖外部的OCR/文档解析引擎。因此将传统OCR感知与大语言模型认知能力相结合的研究范式具有积极意义。

3.1 像素级OCR任务

在印刷体的文字识别领域,开展最早,且技术上最成熟的是国外的西方文字识别技术。早在 1929 年,德国的科学家Taushek已经取得了一项光学字符识别(optical character recognition, OCR)专利。自上个世纪五十年代以来,欧美国家就开始研究关于西方各个国家的文字识别技术,以便对日常生活中产生的大量文字材料进行数字化处理。经过长时间的不断研究和完善,西文的OCR技术已经有一套完备的识别方案,并广泛地用在西文的各个领域中。而像素级OCR任务是指OCR领域中的一种任务,其目标是对图像中的每个像素进行文本识别和分割。传统的OCR任务通常是将整个文本区域或文本行作为一个整体进行识别,而像素级OCR任务则更加注重对文本边界和细节的精细识别。

在这里插入图片描述

丁凯博士介绍了目前合合信息-华南理工大学联合实验室在像素级OCR任务中的研究进展。首先是通用OCR模型UPOCR。近年来,OCR领域出现了大量前沿的方法,用于各种任务。然而这些方法是针对特定任务设计的,具有不同的范式、架构和训练策略,这显著增加了研究和维护的复杂性,并阻碍了在应用中的快速部署。与之相对,UPOCR统一了不同像素级OCR任务的策略,同时引入可学习的任务提示来指导基于ViT的编码器-解码器架构。UPOCR的主干网络ViTEraser联合文本擦除、文本分割和篡改文本检测等3个不同的任务提示词进行统一训练模型训练好后即可用于下游任务,无需针对下游任务进行专门的精调。UPOCR的通用能力在多种智能文档处理任务上得到了广泛验证,显著优于现有的专门模型

在这里插入图片描述

3.2 OCR大一统模型

在OCR大一统模型方面,已经有相关工作进行了积极的探索。例如无需OCR的用于文档理解的Transformer模型Donut;通过SwinTransformer和Transformer Decoder实现文档图像到文档序列输出模型NOUGAT,及微软提出的更大的模型KOSMOS2.5

基于已有工作,丁凯博士分享了文档图像大模型的设计思路,主要是将文档图像识别分析的多种任务,通过序列预测的方式进行处理。具体来说,将每个任务所涉及的元素定义为一个序列,并设计相应的prompt来引导模型完成不同的OCR任务。例如,对于文本识别任务,可以使用prompt "识别文本: " 并将待处理的文本序列作为输入;对于段落分析任务,则可使用prompt "分析段落:"并将段落序列作为输入等等。这种方式可以保持一致的输入格式,方便模型进行多任务的处理。

此外,这个设计思路还支持篇章级的文档图像识别分析,可以输出Markdown/HTML/Text等标准格式,这样可以更好地适应用户的需求。同时,将文档理解相关的工作交给大语言模型,这意味着模型可以自动进行篇章级的文档理解和分析,从而提高了文档图像处理的效率和准确性。

在这里插入图片描述

总的来说,这种设计思路充分利用了序列预测的优势,在保持输入格式的统一性的同时,能够更好地解决文档图像处理中的多样化任务需求,并且通过与LLM的结合,实现了更高层次的文档理解和分析,为文档图像处理领域带来了更多可能性。

3.3 长文档理解与应用

丁凯博士给出了大语言模型赋能文档识别分析的技术路线:首先,文档识别分析技术需要输入文档的图像。这些图像可以是扫描得到的纸质文档、拍摄得到的照片或者从电子文档中提取的页面图像。接下来,文档图像会经过文档识别与版面分析处理。在这个阶段,技术会识别文档中的文字、图片、表格等元素,并分析文档的版面结构,包括标题、段落、页眉和页脚等。这可以帮助理解文档的整体结构和内容组织形式。在文档切分和召回阶段,技术会将文档进行切分,将不同部分的内容分离出来,以便后续的处理和分析。同时,也会实施召回策略,用于检索和提取特定的文档元素,比如标题、关键字、段落内容等。最后,在文档识别分析技术的流程中,大语言模型问答可以被应用于文档中提取信息的问答任务。通过训练大语言模型来理解文档内容,并能够回答用户提出的问题,从而实现对文档内容的智能理解和交互式查询。

在这里插入图片描述

一个实例是财报/研报文档分析,这类文档内容长、图表多、版式杂、专业性强、数据和相似概念多,具有很高的处理难度。传统方法在处理时可能面临信息过载和处理效率低下的问题。而大语言模型具有更强大的处理能力,可以处理较长的文本内容,并从中提取关键信息。同时,大语言模型通过大规模的预训练和迁移学习,具备较强的领域适应能力,能够理解相关专业术语和结构,从而更好地进行识别和分析。

在这里插入图片描述

4 总结

GPT4-V为代表的多模态大模型技术极大的推进了文档识别与分析领域的技术进展,也给传统的图像文档处理技术带来了挑战。大模型并没有完全解决图像文档处理领域面临的问题,很多问题值得我们研究。如何结合大模型的能力,更好地解决图像文档处理的问题,值得我们做更多的思考和探索。我相信感知与认知的相互碰撞将为用户带来更智能化、高效率和个性化的文档处理体验。未来随着技术的不断进步,这种结合将在商业、教育、科研等领域发挥越来越重要的作用。让我们拭目以待,期待合合信息在模式识别、深度学习、图像处理、自然语言处理等领域的深耕厚积薄发,用技术方案惠及更多的人!

抽奖福利

在这里插入图片描述

合合信息给大家送福利了!填写问卷抽10个人送50元京东卡,1月12日开奖噢~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1356509.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java重修第一天—学习数组

1. 认识数组 建议1.5倍速学习,并且关闭弹幕。 数组的定义:数组是一个容器,用来存储一批同种类型的数据。 下述图:是生成数字数组和字符串数组。 为什么有了变量还需要定义数组呢?为了解决在某些场景下,变…

chromium在中文用户名下无法编译的问题

新电脑没有太注意,起用户名的时候用了中文。 在编译chromium104的代码时,因为环境变量有中文导致编译失败: 因为我的电脑默认是使用gbk编码,而不是utf-8编码。 这个问题有三种解决办法: (一)把…

【Spark精讲】Spark on Hive性能优化

目录 第一章 1.1 集群配置概述 1.2 集群规划概述 第二章 Yarn配置 2.1 Yarn配置说明 yarn.nodemanager.resource.memory-mb yarn.nodemanager.resource.cpu-vcores yarn.scheduler.maximum-allocation-mb yarn.scheduler.minimum-allocation-mb 第三章 Spark的配置说…

在Ubuntu22.04上部署Stable Diffusion

在AI绘画软件领域Stable-Diffusion(简称SD)在开源领域绝对是不二之选,他的插件方式可以让此软件具有更多的功能,开发者社群为此提供了大量免费高质量的外接预训练模型(fine-tune)和插件,并持续维…

深耕汽车检测设备领域,引领行业技术革新

在汽车工业飞速发展的今天,汽车检测技术作为保障车辆安全、提升维修效率的重要手段,日益受到行业内外的高度关注。康士柏汽车检测线设备厂家,作为这一领域的佼佼者,凭借其深厚的技术积累和卓越的产品品质,正引领着行业…

傅里叶级数、傅里叶变换、小波变换、离散余弦变换的理解

目录 1. 傅里叶级数2.傅里叶变换 1. 傅里叶级数 功能:能把任意周期性函数展开成一系列正弦、余弦函数的和。 公式: f ( x ) a 0 2 ∑ n 1 ∞ ( a n cos ⁡ ( 2 π n x T ) b n sin ⁡ ( 2 π n x T ) ) 傅里叶系数 a n 2 T ∫ x 0 x 0 T f ( x )…

即时设计:一键查看设计稿与页面差异,让设计师的工作更便捷高效

设计稿走查 在设计工作中,对设计稿和实际页面进行对比是必不可少的环节。然而,传统的对比方式往往耗时耗力,无法精确测量差异。为了解决这个问题,我们推出了一款强大的工具,它可以通过图片对比,轻松查看设…

【ESP32接入语言大模型之通义千问】

1. 通义千问 讲解视频: ESP32接入语言大模型之通义千问 随着人工智能技术的不断发展,自然语言处理领域也得到了广泛的关注和应用。通义千问由阿里云开发,目标是帮助用户获得准确、有用的信息,解决他们的问题和困惑,也…

Debian12使用Xshell连接失败解决办法详细

1、Debian开启ssh服务 sudo apt update -y sudo apt install ssh2、编辑配置文件 # 安装vim sudo apt install vimvim /etc/ssh/sshd_config3、将#PermitRootLogin prohibit-password的注释去掉,设置为yes 4、将#PasswordAuthentication no的注释去掉,…

爬虫工具(tkinter+scrapy+pyinstaller)

需求介绍输入:关键字文件,每一行数据为一爬取单元。若一行存在多个and关系的关键字 ,则用|隔开处理:爬取访问6个网站的推送,获取推送内容的标题,发布时间,来源,正文第一段&#xff0…

进程和计划任务-------后续(二)

一、进程管理 1.进程启动---------- 前台启动与后台启动 进程需要手动启动 前台启动(运行):通过终端启动,且启动后一直占据终端(影响当先终端的操作) 后台启动:可通过终端启动,但启…

【KingbaseES】实现MySql函数Median

本方法只支持在聚合函数窗口中调用 不支持在GROUP BY中使用,使用plsql写的玩意新能都会稍微差一些 建议使用原生方法修改 CREATE OR REPLACE FUNCTION _final_median(numeric[])RETURNS numeric AS $$SELECT AVG(val)FROM (SELECT valFROM unnest($1) valORDER BY …

vue保姆级教程----深入了解 Vue3路由守卫

📢 鸿蒙专栏:想学鸿蒙的,冲 📢 C语言专栏:想学C语言的,冲 📢 VUE专栏:想学VUE的,冲这里 📢 CSS专栏:想学CSS的,冲这里 &#x1f4…

Power Automate删除SharePoint Online或OneDrive for Business文件版本历史

SharePoint Online和OneDrive for Business支持版本控制,可以保留文件的版本历史,方便用户随时查看和恢复以前的版本。但该功能也会占用大量SharePoint Online或OneDrive for Business存储空间。官方删除版本历史的方法无法批量操作,故今天提…

【linux学习】个人计算机架构

1. 个人计算机架构 个人计算机的架构通常是x86架构,主流的x86架构的CPU供应商主要为Intel。下图为Intel的主机板。 图1.1 主机板及其各组件 主机板上包括的组件有:CPU、主内存(RAM)、磁盘设备(IDE/SATA)、…

03-微服务-Ribbon负载均衡

Ribbon负载均衡 1.1.负载均衡原理 SpringCloud底层其实是利用了一个名为Ribbon的组件,来实现负载均衡功能的。 那么我们发出的请求明明是http://userservice/user/1,怎么变成了http://localhost:8081的呢? 1.2.源码跟踪 为什么我们只输入…

2007-2019年中国人口与就业统计年鉴, pdf、xls不定,多项指标可查,可预览后下载

数据名称: 中国人口与就业统计年鉴 数据格式: pdf、xls不定 数据时间: 2007-2019年 数据几何类型: 文本 数据坐标系: —— 数据来源:国家统计局 数据字段: —— 数据预览 目录第一部分 综合数据1-1 分地区年末人口数1-2 按性别分人口数1-3 人口年龄结构…

深入理解CRON表达式:时间调度的艺术

😄 19年之后由于某些原因断更了三年,23年重新扬帆起航,推出更多优质博文,希望大家多多支持~ 🌷 古之立大事者,不惟有超世之才,亦必有坚忍不拔之志 🎐 个人CSND主页——Mi…

解析《个人信息保护法》实施以来主要的变化

文章目录 前言一、二十一部配套的立法二、数据入表三、跨境规则转向四、未成年个人信息保护五、数据交易六、监管创新七、执法全覆盖八、地方聚焦场景执法九、个人信息保护诉讼十、个人信息保护公益诉讼十一、包容审慎十二、双清单上线十三、外部独立监督机构十四、个性化推荐便…

Unity中URP下的线性雾

文章目录 前言一、线性雾 雾效因子二、MixFog1、ComputeFogIntensity 雾效强度计算2、雾效颜色混合 lerp(fogColor, fragColor, fogIntensity); 前言 在之前的文章中,我们实现了URP下的雾效支持。 Unity中URP下的添加雾效支持 在上一篇文章中,我们解析了 URP 下统…