VALSE 2024 Workshop报告分享┆多模态大模型Monkey及其在文档智能中的应用

news2025/1/11 5:41:21

2024年视觉与学习青年学者研讨会(VALSE 2024)于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。

本文对于华中科技大学刘禹良教授所做的报告《多模态大模型Monkey及其在文档智能中的应用》进行总结和分享。

1.报告人简介

刘禹良,华中科技大学人工智能与自动化学院研究员,博士生导师。研究领域包括自动驾驶、文档图像智能、工业检测等。

2.报告概览

汇报中介绍了刘禹良教授团队的研究成果,“Monkey”模型。这一模型在人工智能和计算机视觉领域设定了新的标准,成功解决了现有大型多模态模型在处理高分辨率输入和详细场景理解方面的关键挑战。然后,对该模型的应用进行详细介绍。

3.内容整理

图1  Monkey 的整体架构

图 1展示了“Monkey”模型的整体架构,该架构通过捕捉原始图像的全局特征和分割补丁的局部特征实现高分辨率处理。以下内容是根据刘禹良教授的汇报及其关于“Monkey”模型的研究论文整理得出。相关论文和代码链接已附在文章末尾。

(1)大模型技术正重塑人工智能与人机交互的未来

在全球科技竞争中,人工智能已成为中美和欧盟的战略焦点。中国的二十大报告强调加速推动数据和人工智能驱动的科研范式变革,而大模型技术作为处理复杂任务(如自然语言理解和生成)的高级AI框架,已成为科技企业争夺的制高点。2024年上半年,大模型直接相关的融资事件超过20起,市场规模持续增长。工信部印发关于组织开展2023年未来产业创新任务揭榜挂帅工作的通知,,明确提出在元宇宙、人形机器人、脑机接口等领域的未来产业创新任务。

(2)多模态大模型的突破与应用

多模态大模型无需针对具体任务进行微调,其丰富的预训练知识为文档和场景理解提供了强大支持。这些模型能够处理和整合文本、图像、音频等多种数据类型,产生精确的输出。在场景描述、问答等任务中展现出巨大的成功,并不断从跨模态一致性、视觉-语言融合等多个方面获得能力提升。

(3)创新与挑战

尽管现有的大模型在提升分辨率和数据质量方面取得了进展,但在自主扩张和资源消耗方面仍面临挑战。此外,高清分辨率的多模态大模型“Monkey”已被选为2024年CVPR的亮点论文之一,显示出其在多个领域,包括遥感、医疗、农业、自动驾驶等的广泛适用性。

(4)模型应用展示

1)TextMonkey - 文字多模态人工智能模型 

TextMonkey 在多个国际文本处理测试基准中表现卓越,展示了其强大的文档理解能力和优异的可解释性,尤其在OCRBench中超越了当时的开源多模态大模型。

2)OCRBench - 最全面的文字评估集 

OCRBench 为评估多模态大模型的OCR能力而设计,涵盖29个数据集和5种类型的文字任务,是文字领域中最全面的评估集。

3)VimTS - 文字端到端识别视觉统一模型 

VimTS 能够处理图像和视频中的文字检测和识别问题,支持不同粒度的文字识别,并通过统一的任务处理增强了模型的跨任务能力。

4)GLEE - 纯视觉目标跟踪大模型 

GLEE 能一次性处理图像和视频中几乎所有的目标感知任务,支持多种交互方式和开放词表的目标检测、分割和跟踪。

5)EducationMonkey - 教育视频问答大模型

EducationMonkey 专门处理教育视频内容,能够理解由幻灯片和讲稿组成的视频,并能根据上下文连贯性回答相关问题。

6)PDFMonkey - 多模态大模型

PDFMonkey 支持论文PDF文档的文本和图表的联合理解与问答,采用全文解析、稀疏采样和多模态问答的技术路线,构建了预训练数据集和评测基准。

7)Open-Oracle - 人工智能辅助甲骨文破译大模型 

Open-Oracle 是一个基于人工智能的甲骨文识别和解释系统,旨在辅助破译甲骨文,同时推动甲骨文的大众化和文化传承。

(5)未来展望

更轻量化的设计:未来的多模态大模型将通过硬件优化和高效的微调方式朝向更加轻量化的设计发展,这将使模型能在较低的算力需求下运行,同时保持或提高其性能。

更依赖于视觉基础模型:模型将更多依赖于视觉基础模型,通过上下文学习的方式处理和理解视觉数据,以更好地应对海量数据的挑战。

垂直领域的专属多模态大模型:未来将开发更多针对特定垂直领域的多模态大模型,这些模型将进行多模态指令的微调,深入理解并满足特定领域的需求和挑战,特别是在处理复杂视觉信息时,如医疗、法律、教育或交通等领域。

跨模态协同学习:未来的多模态模型将更加重视跨模态之间的协同学习,使模型能够更有效地结合视觉基础模型与大语言模型,从而提升处理能力。

持续学习和在线学习能力:未来的多模态模型将具备更强的持续学习和在线学习能力,使其能够不断从新数据和实时反馈中自主学习,持续更新和优化其性能。

Monkey代码下载链接:https://github.com/Yuliang-Liu/Monkey。

Monkey论文下载链接:https://arxiv.org/abs/2311.06607。

TextMonkey论文下载链接:https://arxiv.org/abs/2403.04473。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1654789.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ansible剧本playbook之--------Templates 模块、roles角色详细解读

目录 一、Templates 模块 1.1准备模板文件并设置引用的变量 1.2修改主机清单文件,使用主机变量定义一个变量名相同,而值不同的变量 1.3编写 playbook 1.4ansible主机远程查看修改参数 1.5验证 二、tags 模块 always应用 三、Roles 模块 3.1ro…

本地连接服务器Jupyter【简略版】

首先需要在你的服务器激活conda虚拟环境: 进入虚拟环境后使用conda install jupyter命令安装jupyter: 安装成功后先不要着急打开,因为需要设置密码,使用jupyter notebook password命令输入自己进入jupyter的密码: …

SAP PP模块学习提炼第一部分

SAP是ERP的一款软件。 SAP的入门困难: 听不懂,看不懂缺乏知识体系缺乏行业经验 SAP入门引导: 导师引导实战演练 SAP基础介绍 1.什么是SAP? System, Application and Products in Data Processing 即数据处理的系统、应用和产品。 2.…

淘宝/天猫商品描述API(taobao.item_get_desc)返回值详解

淘宝/天猫的商品描述API(taobao.item_get_desc)允许开发者获取指定商品的详细描述信息。这对于需要进行商品数据分析、构建商品详情页面或进行其他与商品相关的应用开发非常有用。下面,我们将详细解析这个API的返回值。 一、API概述 taobao.…

IDEA访问不到静态资源

背景 我在resources下创建static文件夹,再创建front文件夹放前端资源,里面有index.html,游览器输入localhost:8011/front没反应。(resources/static/front/index.html) 解决办法 重启idea,清楚idea缓存&am…

Kafka---总结篇

kafka架构 主要概念 broker: 存储消息的机器 控制器controller (1)使用zookeeper, 除了提供一般的broker功能之外,还负责选举分区首领。通过在zookeepr中创建一个名为 /controller的临时节点称为 controller。每个选出的contro…

Flink DataSource介绍

介绍 Flink的Data Source(数据源、源算子)是Flink作业的起点,它定义了数据输入的来源。Flink可以从各种数据来源获取数据,例如文件系统、消息队列、数据库等。以下是对Flink Data Source的详细介绍: 概述&#xff1a…

我独自升级崛起怎么玩 我独自升级崛起游玩教程分享

《我独自升级:ARISE》是一款预计在 Android、iOS 和 PC 平台推出的动作 RPG,故事内容基于网络漫画版本改编,讲述世界各地出现「次元传送门」,而少部分人类觉醒了可以对抗传送门中怪物的「猎人」能力,玩家可以在故事模式…

【大模型认识】警惕AI幻觉,利用插件+微调来增强GPT模型

文章目录 一. 大模型的局限1. 大模型不会计算2. 甚至明目张胆的欺骗 二. 使用插件和微调来增强GPT模型1. 模型的局限性2. 插件来增强大模型的能力3. 微调技术-提高特定任务的准确性 一. 大模型的局限 1. 大模型不会计算 LLM根据给定的输入提示词逐个预测下一个词(…

【STM32G474】利用Cpp编写STM32代码后,Cubemx修改配置后代码报错147个error,如何处理?

问题描述 打开Cubemx,添加TIM7用于定时器精准延时,生成代码后,Keil提示有147个error。 之前是Cubemx是没有问题的,是利用Cpp编写stm32(将Keil改为Version6)后才导致Cubemx配置失败: debug成功…

Jmeter用jdbc实现对数据库的操作

我们在用Jmeter进行数据库的操作时需要用到配置组件“JDBC Connection Configuration”,通过配置相应的驱动能够让我们通过Jmeter实现对数据库的增删改查,这里我用的mysql数据库一起来看下是怎么实现的吧。 1.驱动包安装 在安装驱动之前我们要先查看当前…

【面试干货】http请求报文的组成与作用?

【面试干货】http请求报文的组成与作用? 一、http 的请求报文组成二、请求行(Request Line)三、请求头部(Request Headers)四、请求体(Request Body)五、响应头部 (Response Headers…

Java | Leetcode Java题解之第59题螺旋矩阵II

题目&#xff1a; 题解&#xff1a; class Solution {public int[][] generateMatrix(int n) {int num 1;int[][] matrix new int[n][n];int left 0, right n - 1, top 0, bottom n - 1;while (left < right && top < bottom) {for (int column left; co…

【Java】IO流:字节流 字符流 缓冲流

接续上文&#xff0c;在这篇文章将继续介绍在Java中关于文件操作的一些内容【Java】文件操作 文章目录 一、“流”的概念1.“流”的分类1.1输入流和输出流1.2字节流和字符流 字节和字符的区别&#xff1f;为什么要有字符流&#xff1f;1.3节点流和处理流 字符流自带缓冲区&…

基士得耶(GESTETNER ) CP 6303C 速印机简介

规格参数 产品名称: 基士得耶&#xff08;GESTETNER &#xff09; CP 6303C 速印机 品牌中文: 基士得耶/GESTETNER 型 号: CP-6303C 工作方式&#xff1a; 数码式 制版方式: 自动印刷 制版时间&#xff1a; 曝光玻璃: 31秒(A4长边…

使用SpringBoot+Redis做一个排行榜【推荐】

SpringBoot Redis实现排行榜 一、Zset有序集合介绍 Zset是一个没有重复元素的字符串集合。不同之处是有序集合的每个成员都关联了一个评分( score) ,这个评分( score)被用来按照从最低分到最高分的方式排序集合中的成员。集合的成员是唯一的&#xff0c;但是评分可以是重复了…

MATLAB 基于规则格网的点云抽稀方法(自定义实现)(65)

MATLAB 基于规则格网的点云抽稀方法(自定义实现)(65) 一、算法介绍二、算法实现1.代码2.结果一、算法介绍 海量点云的处理,需要提前进行抽稀预处理,相比MATLAB预先给出的抽稀方法,这里提供一种基于规则格网的自定义抽稀方法,步骤清晰,便于理解抽稀内涵, 主要涉及到使…

【深度学习】网络安全,SQL注入识别,SQL注入检测,基于深度学习的sql注入语句识别,数据集,代码

文章目录 一、 什么是sql注入二、 sql注入的例子三、 深度学习模型3.1. SQL注入识别任务3.2. 使用全连接神经网络来做分类3.3. 使用bert来做sql语句分类 四、 深度学习模型的算法推理和部署五、代码获取 一、 什么是sql注入 SQL注入是一种常见的网络安全漏洞&#xff0c;它允许…

CSS-盒子模型元素溢出

作用&#xff1a;控制溢出的元素的内容的显示方式 属性&#xff1a;overflow 属性值 属性值效果hidden溢出隐藏scroll溢出滚动&#xff08;无论是否溢出&#xff0c;都显示滚动条位置&#xff09;auto溢出滚动&#xff08;溢出才显示滚动条位置&#xff09; <!DOCTYPE html&…

字体设计_西文字体设计(英文字体设计)

一 西文字体设计基础知识 设计目标和历史成因 设计目标&#xff1a;让眼睛看着舒服的字体 那什么样的字体让眼睛看着舒服呢&#xff1f; 让眼睛看着舒服的字体造型其实是我们记忆里的手写体、自然造型。 所以就能理解西文字体为什么同一笔画&#xff0c;有的地方粗有的地方…