【AI大模型】大型模型飞跃升级—文档图像识别领域迎来技术巨变_图像识别大模型

news2024/12/22 18:32:23

写在前面

2023年12月31日,第十九届中国图象图形学学会青年科学家会议在广州举行,由中国图象图形学学会主办。

该会议的目标是促进青年科学家之间的交流与合作,以提升我国在图像图形领域的科研水平和创新能力。

由中国图象图形学学会和上海合合信息(INTSIG)联合承办的《垂直领域大模型论坛》中,专注于探讨大语言模型时代下以ChatGPT为代表的大模型技术对图像图形学领域研究方向或落地应用的潜在价值。包括合合信息丁凯博士在内的多位业内专家对大模型时代文档与图像识别领域的新探索进行了详细介绍。

一、技术难题&挑战

文档图像分析识别与理解是计算机视觉和自然语言处理领域的一个复杂问题,涉及到从图像中提取文本信息、理解文档结构、识别语义等多个层面。下面是一些相关的技术难题:

具体问题如下:

  1. 场景以及版式多样性: 文档可能以不同的场景和版式出现,例如室内、室外、手写、打印等。每种场景和版式都可能导致不同的光照、视角、失真等问题。
  2. 采集设备不稳定性:文档图像可能由不同的设备捕获,如摄像头、扫描仪等,这些设备的性能和参数可能存在差异,导致图像质量不稳定。
  3. 用户需求多样性: 用户的需求可能各不相同,有的用户可能更关注文本内容的准确性,而另一些用户可能更注重图像的布局和格式。
  4. 文档图形质量退化严重性: 文档图像可能因为老化、损坏、印刷质量差等原因而质量下降,导致文本和图像的清晰度减弱。
  5. 文字检测及排版分析困难: 文字可能以不同的字体、大小、方向等形式出现,且可能与其他图像元素重叠或相似,使得文字检测和排版分析变得复杂。
  6. 非限定条件文字识别率低:在非受限条件下,即不受特定规范或格式的限制,文字识别的难度增加,因为文本可能出现在任何位置、方向和形式。
  7. 结构化智能理解能力差:对文档结构进行深入理解,包括标题、段落、表格等,是一个复杂的任务,尤其是在处理非结构化文档时。

二、ChatGPT-4模型

最新的版本GPT-4已经在多项测试中超越了其前身,获得了更高的评分。

它是一款高级的人工智能聊天机器人技术,它被训练得对各种问题和场景有深入的理解,并且可以生成富有事实性的响应。

它的主要特点可以归纳为以下几点:

  1. 大规模和高参数:GPT-4拥有超过1000亿个参数,是GPT-3的3倍,是GPT-2的300倍,是GPT-1的3000倍。这个庞大的规模远超过其他的语言模型,如谷歌的Gemini(300亿参数)、微软的ProphetNet(230亿参数)、百度的ERNIE-GEN(190亿参数)等。
  2. 数据丰富和覆盖广泛:GPT-4的训练数据集非常庞大,包含了大量的自然语言文本,涵盖了多种语言和领域。
  3. 高精度和高准确性:GPT-4在图像描述、翻译、生成代码和解答问题等方面的性能都有显著提高。然而,尽管其能力强大,GPT-4仍有可能出现错误或提供不完全准确的回答。
  4. 多模态能力:GPT-4不仅可以处理文本信息,还可以处理图像内容。这使得GPT-4能够理解和解释图像内容,并将这些信息转化为自然语言。

2.1 在图像领域的优势

GPT-4在图像识别领域的优势主要体现在以下几个方面:

  • 强大的识图能力:GPT-4拥有卓越的图像理解能力,可以接受图像和文本输入。这不仅使其在处理更复杂的任务时更具优势,也使其在理解和解释图像内容方面具有更高的精确度。
  • 零样本效果突出:在四个场景下,GPT-4的零样本效果超过了之前的GPT系列模型,这进一步证明了其在图像识别领域的优越性。
  • 回答准确性显著提高:与前一代模型相比,GPT-4在回答问题的准确性上有显著的提高,这对于图像识别任务来说是非常重要的。
  • 更强的创造力和灵活性:当任务的复杂性达到一定的阈值时,GPT-4表现出更可靠的性能,并且能够处理更细微的指令。这一特性使得GPT-4在处理一些需要精细分析和创新解决方案的图像识别任务时具有优势。
  • 更高的输入文字限制:GPT-4将文字输入限制提升至2.5万字,这意味着它可以处理更为复杂和详细的图像识别任务。

2.2 在图像领域的不足

尽管GPT-4V的水平达到了相当高的程度,但它并未完全解决OCR文档识别领域的所有挑战。

在测试中,它显露出一些明显的短板,首当其冲的是对中文的识别。无论是手写还是印刷文字,GPT-4V在识别后输出了大量与实际文章无关的内容。此外,对于一些简单的手写公式,GPT-4V也无法完美地进行识别。

对于长文档,仍然有文档解析和识别的前置依赖,ChatGPT调用了开源的PyPDF2,而该插件效果一般,且输出不支持表格结构、不支持扫描件、不支持处理复杂版式、不支持定位到原文

总结一下其不足主要有:

  • 图像配准算法选择限制:

在图像配准时,缺乏指定算法的情况下,优先选择常见算法,如Threshold。这可能导致对于复杂和特殊图像任务处理能力的限制。

  • 时间关系推理困难:

GPT-4在理解和解释图像内容方面表现出色,但在推理多个图像之间的时间关系方面存在困难。

  • 视觉依赖型问题的限制:

GPT-4V在视觉问题类型中,对视觉依赖型问题的回答完全依赖于图像内容。缺乏图像信息时,其回答可能变得不确定或无法确切回答。

  • 领域泛化能力与“编造”事实问题:

尽管GPT-4具有出色的领域泛化能力,但在测试中可能出现“编造”事实的情况。这可能影响其在特定领域的可靠性和准确性。

三、垂直大模型

通过对GPT-4V和文档识别领域的深入分析和思考,为OCR文档识别领域的研究开辟了新的方向。需求不断增长的背景下,提高识别精度和处理效率成为了迫切需要满足的新应用标准。在这一背景下,出现了:

  • 素级OCR统一模型
  • OCR大一统模型
  • 文档识别分析+LLM(Language Model)

等应用的新方向。

3.1 素级OCR统一模型

素级OCR统一模型,即UPOCR(Unified Pixel-Level OCR)模型,是一种文档图像像素级多任务处理的统一模型。该模型是由合合信息与华南理工大学联合实验室(以下简称“实验室”)研发的研究项目之一。

UPOCR模型的主要特点是引入了可学习的文本检测和识别模块,可以同时完成多个任务,包括文本检测、文本识别、端到端OCR等。这一特性使得UPOCR模型在处理文档图像时具有较高的效率和准确性。

此外,UPOCR模型还具有较好的通用性,不仅可以处理中英文文档,还可以处理包含公式、表格等复杂结构的文档。

在实际应用中,UPOCR的通用性在文本擦除、文本分割和篡改文本检测任务中经过广泛验证。

UPOCR采用ViTEraser[1]作为其主干网络,通过统一训练联合处理文本擦除、文本分割和篡改文本检测等三种不同任务的提示词。一经完成模型训练,即可无需专门的下游任务精调,直接用于各类下游任务。

总的来说,素级OCR统一模型UPOCR在文档图像预处理统一模型方面展现出了强大的实力和广泛的应用前景。

**3.2 OCR大一统模型-**SPTS v3

OCR大一统模型是一种创新的端到端文本检测和识别方法,是实验室正在研究的项目之一,也称为SPTS(Simultaneous Processing of Text Spotting and Recognition)。

这种方法颠覆了传统的文本检测和识别流程。在传统的方法中,文本检测和识别被视为两个独立的任务,这导致处理流程复杂且冗余。然而,SPTS将这两个任务融为一体,实现了从文本检测到识别的统一处理。

将文档图像识别分析的各项任务以序列预测的方式进行定义,包括对文本、段落、版面、表格、公式等内容的分析。通过采用不同的提示(prompt)来引导模型执行不同的OCR任务,实现了多任务处理的灵活性。该系统支持篇章级的文档图像识别分析,能够输出标准格式的文本,如Markdown、HTML等。

其中,通过引入LLM(Language Model)来处理文档理解相关的工作,进一步提高了系统对于文档结构和内容的理解能力。这种设计使得系统在处理多样性的文档图像时能够更全面、准确地进行分析,并以标准格式输出,为用户提供更便捷的文档处理和理解服务。

SPTS v3 介绍

  • 多任务序列预测: SPTS v3通过将多种OCR任务抽象为序列预测问题,实现了对文本、段落、版面、表格、公式等不同元素的有序识别和分析。这种设计使得模型能够以一种统一的方式处理各种OCR任务。
  • Prompt引导: SPTS v3采用了不同的prompt来引导模型完成不同的OCR任务。每个任务对应一个独特的提示,这样的引导机制使得模型在学习过程中能够专注于不同的目标,提高了系统的灵活性和适应性。
  • 模型架构: SPTS v3延续了SPTS的模型结构,包括了CNN(卷积神经网络)用于图像特征提取,以及Transformer Encoder和Transformer Decoder用于实现图像到序列的转换。这种结构旨在充分捕捉图像中的语义信息,同时具有较强的序列生成能力。
  • 任务通用性: 由于采用了序列预测的形式,SPTS v3在任务通用性上表现出色。这使得模型在不同场景和不同任务的OCR挑战中都能够取得良好的性能。

SPTSv3的任务定义,目前主要关注以下任务:端到端检测识别、表格结构识别、手写数学公式识别

3.3 文档识别分析+LLM

文档识别分析与LLM(Large Language Model,大型语言模型)的结合是一种新兴的研究方向。LLM是一种基于深度学习的自然语言处理技术,旨在训练能够处理和生成自然语言文本的大型模型。其核心能力大致分为:生成、总结、提取、分类、检索与改写六部分。

在文档识别分析领域与LLM应用相结合方面,实验室提出了如下技术框架:首先,通过文档识别与版面分析技术,系统能够获取输入文档图像的关键信息。随后,对文档进行切分和召回操作,以便更精准地定位和检索所需信息。最终,利用LLM(Language Model)进行问答,进一步加强对文档内容的理解与交互。这一综合性的技术流程旨在提升文档识别与理解的整体效能

将文档识别技术与大型语言模型(LLM)相融合,为许多有前途的领域打开了大门,涉及到多个可能的应用和思考方向。以下是其中一些潜在的方向

  • 智能文档搜索与检索:

结合文档识别技术和LLM,可以建立更智能、语义理解的文档搜索引擎。用户可以通过自然语言提出问题,系统能够理解问题背后的语境并返回相关文档、段落或答案,提高文档检索的精度和效率。

  • 自动文档摘要生成:

利用LLM的文本生成能力,结合文档识别技术,可以实现自动文档摘要的生成。系统可以从文档中抽取关键信息,生成简明扼要的摘要,为用户提供更便捷的文档浏览和理解方式。

  • 多模态文档理解:

结合文档识别技术和LLM,可以实现多模态文档理解,不仅包括文本信息的处理,还包括图像、表格等多种形式的内容。这样的系统可以更全面地理解和分析复杂的文档结构。

  • 定制化文档生成:

利用LLM的生成能力,结合文档识别技术,可以实现根据用户需求自动定制化文档的生成。系统可以从大量文档中筛选、整合信息,生成满足用户需求的文档,提高文档生成的效率和质量。

这些方向展示了文档识别技术与LLM应用相结合的广阔前景,涉及到信息检索、自然语言理解、问答系统等多个领域,为提升文档处理和理解的智能化水平提供了丰富的可能性。

四、总结

总的来说,以GPT-4V为代表的多模态大模型技术在文档识别与分析领域推动了技术的巨大进步,同时也为传统的智能文档处理(IDP)技术提出了一系列挑战。

尽管大模型在某些方面取得了显著的成就,但并没有完全解决IDP领域所面临的所有问题。

因此,我们需要深入研究,探索如何更好地结合大模型的能力来解决IDP的问题。这个领域仍然值得我们做更多的思考和探索,以找到创新性的解决方案。

  • 合合信息

合合信息专注于智能文档处理领域的技术研究,这些研究成果已经集成到合合 TextIn 智能文字识别产品中。

合合信息基于智能文档处理技术,向全球用户和企业提供他们的研究成果。如果有需要可以访问 textin.com,轻松体验一站式的智能文字识别服务。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1885262.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何将音频文件发送至摄像头

目前再很多互联互通的场景下,如AI盒子再从摄像头上取视频分析,分析出发生某个事件,需要反向通过摄像头的喇叭播放语音,发出告警提示,使用场景如下 盒子上对于此类场景的需求往往不能满足,或者为这个需求需要…

Day8: 232.用栈实现队列 225. 用队列实现栈 20. 有效的括号 1047. 删除字符串中的所有相邻重复项

题目232. 用栈实现队列 - 力扣(LeetCode) class MyQueue { public:MyQueue() {}void push(int x) { // 出栈input.push(x);}int pop() {// 如果出栈为空,把入栈元素全都转移到出栈if (output.empty()) {while (!input.empty()) {int itop i…

【WEB前端2024】3D智体编程:乔布斯3D纪念馆-第52课-语音控制机器人

【WEB前端2024】3D智体编程:乔布斯3D纪念馆-第52课-语音控制机器人 使用dtns.network德塔世界(开源的智体世界引擎),策划和设计《乔布斯超大型的开源3D纪念馆》的系列教程。dtns.network是一款主要由JavaScript编写的智体世界引擎…

彭涛 | 2024年6月小结

6月是忙碌的一个月,换办公室,买家具,群发售,新小伙伴入职等等 1、出海小报童 这个月时间主要做小报童,从刚开始设计内容大纲,到写作,后续拉新花费了大量时间。 比如我们要去调研同行&#xff0c…

新能源行业必会基础知识-----电力市场概论笔记-----中长期合约电力市场

新能源行业知识体系-------主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/139946830 目录 1. 合约市场2. 双边交易3. 集中交易4. 挂牌交易及互联网中长期电力交易平台5. 中长期交易的优势 1. 合约市场 什么是合约市场 …

从选题到定稿:软考高级系统架构设计师论文写作全攻略

一、论文考试概述 软考系统架构设计师考试的最后一门是论文写作,安排在下午进行,时长两小时,要求撰写约3000字的论文,以45分为及格线。时间紧迫,不容过多犹豫与思考,因此需迅速选定并着手撰写。论文题目通…

【数据结构】C语言实现二叉树

C语言实现二叉树 导读一、二叉树的数据类型二、二叉树的初始化2.1 补充知识点——传址传参2.2 补充知识点——指针传参 三、二叉树的创建3.1 通过添加结点创建BST3.2 通过结点序列创建二叉树3.2.1 由遍历序列手算构建二叉树3.2.1.1 构建步骤3.2.1.2 习题演练3.2.1.3 小结 3.2.2…

在C#/Net中使用Mqtt

net中MQTT的应用场景 c#常用来开发上位机程序,或者其他一些跟设备打交道比较多的系统,所以会经常作为拥有数据的终端,可以用来采集上传数据,而MQTT也是物联网常用的协议,所以下面介绍在C#开发中使用MQTT。 安装MQTTn…

yolov5实例分割跑通以及C#读取yolov5_Seg实例分割转换onnx进行检测部署

一、首先需要训练yolov5_seg的模型,可以去网上学习,或者你直接用我的, 训练环境和yolov5—7.0的环境一样,你可以直接拷过来用。 yolov5_seg算法 链接:https://pan.baidu.com/s/1m-3lFWRHwg5t8MmIOKm4FA 提取码&…

第十四届蓝桥杯省赛C++B组D题【飞机降落】题解(AC)

解题思路 这道题目要求我们判断给定的飞机是否都能在它们的油料耗尽之前降落。为了寻找是否存在合法的降落序列,我们可以使用深度优先搜索(DFS)的方法,尝试所有可能的降落顺序。 首先,我们需要理解题目中的条件。每架…

tcpdump命令详解及使用实例

1、抓所有网卡数据包,保存到指定路径 tcpdump -i any -w /oemdata/123.pcap&一、tcpdump简介 tcpdump可以将网络中传送的数据包完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤,并提供and、or、not等逻辑语句来去掉无用的信…

Python中爬虫编程的常见问题及解决方案

Python中爬虫编程的常见问题及解决方案 引言: 随着互联网的发展,网络数据的重要性日益突出。爬虫编程成为大数据分析、网络安全等领域中必备的技能。然而,爬虫编程不仅需要良好的编程基础,还需要面对着各种常见的问题。本文将介绍…

Qt中文乱码如何解决

目录 一、使用建议 二、其它设置 一、使用建议 Qt对中文的支持不是很友好,使用QtCreator会出现各种乱七八糟的中文代码问题,如何处理这种问题? (1)粘贴别人的代码时,先在记事本里粘贴一遍,再…

【Python机器学习】gradio库(快速创建简单的 Web 界面来演示机器学习模型)

文章目录 1. 主要特点2. 安装 Gradio3. 基于tensorflow的例子4. 基于Pytorch的例子4.1 步骤4.2 代码4.3 使用说明Gradio 是一个 Python 库,用于快速创建简单的 Web 界面来演示机器学习模型。它被广泛用于各种应用,如音频、文本、图像处理和更多。Gradio 使得任何人都可以轻松…

深圳比创达电子EMC|EMC电磁兼容性行业:推动电子产品向更高发展

随着科技的飞速发展,电子产品在我们的日常生活中无处不在,从智能手机到智能家居,从医疗设备到工业自动化,这些设备的普及和更新换代对电磁兼容性(EMC)提出了更高的要求。 一、EMC电磁兼容性行业的概述 EM…

深度学习笔记: 最详尽解释预测系统的分类指标(精确率、召回率和 F1 值)

欢迎收藏Star我的Machine Learning Blog:https://github.com/purepisces/Wenqing-Machine_Learning_Blog。如果收藏star, 有问题可以随时与我交流, 谢谢大家! 预测系统的分类指标(精确率、召回率和 F1 值) 简介 让我们来谈谈预测系统的分类指标以及对精确率、召回…

气象站的气象工具都有哪些呢?

气象站,作为观测和记录天气现象的重要基地,拥有一系列专业的气象工具。这些工具不仅能够帮助我们深入了解大气的运动规律,还能为天气预报、气候研究等提供宝贵的数据支持。 风速风向仪也是气象站重要的工具。它通常由风向变送器和风速变送器组…

【数据结构与算法】堆排序算法原理与实现:基于堆实现的高效排序算法

💓 博客主页:倔强的石头的CSDN主页 📝Gitee主页:倔强的石头的gitee主页 ⏩ 文章专栏:《数据结构与算法》 期待您的关注 ​ 目录 一、引言 堆排序的简介 堆排序的特点 二、堆的概念 三、堆排序算法的原理 四、堆…

智能技术【机器学习】总结

文章目录 第一部分 优化第二部分 模型第一章 神经网络(MLP, BP, CNN, GNN, and Attention)1.1 神经网络基础1.1.1 高次非线性函数1.1.2 感知器与神经网络1.1.3 联结主义模型1.1.4 动机——为什么每个人都在谈论深度学习?1.1.5 背景1.1.6 神经…

【Android面试八股文】什么是ANR?如何分析和定位ANR?如何避免ANR?

文章目录 一、ANR概述二、触发ANR的主要场景三、Android四大组件中的潜在的ANR风险五、避免ANR的实践建议六、ANR的产生原因与出现的场景6.1 原因:6.2 出现场景:七、ANR的定位与分析7.1. ANR分析思路——traces7.2 ANR其他分析思路与相关日志7.2.1 分析logcat思路7.2.2 分析k…