NVLM多模态 LLM 在图像和语言任务中的表现优于 GPT-4o

news2024/11/16 20:33:55

论文地址:https://arxiv.org/pdf/2409.11402
背景

传统的多模态 LLM 有两种主要方法:纯解码器架构(如 LLaVA)和基于交叉注意力的架构(如 Flamingo)。混合架构,既提高了训练效率,又增强了多模态推理能力。

论文还介绍了一种名为 "1-D 瓦片标签设计 "的新技术,它能以瓦片格式处理高分辨率图像。这大大提高了 OCR(光学字符识别)相关任务和多模态推理能力。

此外,还详细介绍了多模态预训练和监督微调数据集,表明数据质量和任务多样性比规模更重要。

技术

NVLM 1.0 的主要特点是它是一个具有三种不同架构的模型系列。它们分别是纯解码器 NVLM-D、基于交叉注意的 NVLM-X 和混合架构 NVLM-H,后者结合了两种架构的优点。这种组合可确保每个模型在不同类型的任务中发挥最佳性能。

NVLM-D 直接在纯解码器网络中处理视觉特征,提供统一的推理能力。另一方面,NVLM-X 利用交叉注意有效捕捉视觉信息,使其在处理高分辨率图像时更具优势。最后,NVLM-H 在解码器层处理缩略图信息,在交叉注意层处理其他平铺图像信息,从而在利用两者优势的同时提高了计算效率。

此外,NVLM 1.0 还引入了一种处理高分辨率图像的方法,称为 “1-D 瓦片标签设计”。这种方法将图像分为多个瓦片,并为每个瓦片贴上标签,以便模型识别,从而显著提高了 OCR 相关任务的准确性。

这些设计和数据方面的创新使 NVLM 1.0 不仅在视觉和语言任务中表现出很高的性能,而且在纯文本任务中的表现也优于以前的模型。

试验

本文的实验在多个基准上进行了测试,以评估 NVLM 1.0 模型的性能。实验主要集中在视觉与语言相结合的任务和纯文本任务上。分别使用了不同架构的模型(NVLM-D、NVLM-X 和 NVLM-H),以比较不同模型的能力。

首先,我们使用了几个基准来评估视觉和语言相结合的任务。具体来说,这些基准包括需要复杂推理的多模态推理(MMMU)、涉及数学推理的视觉情境问题(MathVista)、图像理解(VQAv2)和评估 OCR 能力的 OCRBench。这些测试验证了每个模型在不同类型任务中的表现。

NVLM-D 模型的准确率很高,特别是在 OCR 任务和图像理解方面,比其他模型更具优势。另一方面,NVLM-X 模型利用交叉注意提高了处理高分辨率图像的效率,在推理速度和准确性方面都表现出了卓越的效果;NVLM-H 模型采用了解码器和交叉注意相结合的设计,其表现优于其他模型,尤其是在数学推理和复杂视觉问题方面。NVLM-H模型的特点是结合了解码器和交叉注意的设计,其表现优于其他模型,尤其是在数学推理和复杂视觉问题方面。

我们还在纯文本任务中对这些模型进行了评估,以研究多模态训练后它们的纯文本成绩是否会下降。结果显示,经过训练后,NVLM 模型在文本任务中的表现保持不变,甚至有所提高。

实验结果表明,NVLM 1.0 在视觉和语言任务上的表现都非常出色,尤其是在 OCR 任务和需要复杂推理的场景上。

总结

论文的结论指出,NVLM 1.0 在各种任务中都表现出很高的性能,为多模态大规模语言建模开辟了新的可能性。特别是在需要整合视觉和语言的任务上,NVLM 1.0 的性能达到或超过了其他最先进模型的性能。

总的来说,NVLM 1.0 所显示的结果为广泛的应用提供了灵活而强大的解决方案,特别是扩大了其对同时处理视觉和语言的高级任务的可用性。我们希望这项研究能为未来多模态模型的发展做出贡献,并希望已发布的模型权重和代码能促进进一步的研究和应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2171174.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于微信小程序的宿舍报修系统的设计与实现(lw+演示+源码+运行)

摘 要 互联网发展至今,无论是其理论还是技术都已经成熟,而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播,搭配信息管理工具可以很好地为人们提供服务。针对成果信息管理混乱,出错率高,信息安全性差&am…

SSL证书自动申请脚本

文章目录 介绍(直接翻译的)特点 准备设置Powershell脚本权限安装Posh-ACME导入Posh-ACME模块设置Email申请DNS操作权限 生成证书查看证书位置效果 介绍(直接翻译的) PowerShell模块和ACME客户端,用于从具有 ACME 功能…

基于大数据可视化的图书推荐及数据分析系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏:Java精选实战项目…

腾讯一面-LRU缓存

为了设计一个满足LRU(最近最少使用)缓存约束的数据结构,我们可以使用哈希表(HashMap)来存储键值对,以便在O(1)时间复杂度内访问任意键。同时,我们还需要一个双向链表(Doubly Linked …

Mac下可以平替paste的软件pastemate,在windows上也能用,还可以实现数据多端同步

Mac平台上非常经典的剪贴板管理工具:「Paste」。作为一款功能完善且易用的工具,「Paste」在实际使用中体现出了许多令人欣赏的特点。但是它是一个收费软件,一年至少要24美元. 现有一平替软件pastemate,功能更加丰富,使用更加方便。 下载地址…

【JAVA报错已解决】 Java.lang.ArrayIndexOutOfBoundsException

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 专栏介绍 在软件开发和日常使用中,BUG是不可避免的。本专栏致力于为广大开发者和技术爱好者提供一个关于BUG解决的经…

基于vue框架的传统文化传播网站设计与实现f7r43(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能:用户,文化类型,传统文化 开题报告内容 基于Vue框架的传统文化传播网站设计与实现开题报告 一、研究背景 在全球化加速的今天,各国文化相互交融,但也面临着传统文化被边缘化的风险。中国拥有五千年文明史&#…

深夜实验室惊现!AI独立撰写未来论文初稿!

在都市的深夜,当大部分人已进入睡眠之际,某个角落仍旧灯火明亮、活力四射——那是我们的人工智能研究所。此处,自动化机器人和精密算法正在进行激烈的竞赛,致力于撰写可能引领未来变革的前沿科研论文。 科研论文的核心在于其创新…

【数据结构】堆(Heap)详解

在深入了解堆这一重要的数据结构之前,不妨先回顾一下我之前的作品 ——“二叉树详解”。 上篇文章👉剖析二叉树(Binary Tree) 二叉树作为一种基础的数据结构,为我们理解堆以及其他更复杂的数据结构奠定了坚实的基础。它…

Python 从入门到实战30(高级文件的操作)

我们的目标是:通过这一套资料学习下来,通过熟练掌握python基础,然后结合经典实例、实践相结合,使我们完全掌握python,并做到独立完成项目开发的能力。 上篇文章我们讨论了操作目录的相关知识。今天我们将学习一下高级文…

distinct导致sql超时

前言 昨天敲着敲着代码,小杨哥跑过来给我说,快看他们大会议室演示报错了,还是一堆错了。完了啊在演示的时候报错!!!接下来我们分析一下是什么原因吧。 问题分析 查看日志: 从日志打印看明显的…

[大语言模型-论文精读] 大语言模型是单样本URL分类器和解释器

[大语言模型-论文精读] 大语言模型是单样本URL分类器和解释器 目录 文章目录 [大语言模型-论文精读] 大语言模型是单样本URL分类器和解释器目录1. 论文信息2. 摘要3. 引言4. 相关工作A. 网络钓鱼URL检测B. 使用LLMs进行单样本分类 C. LLMs作为分类器的可解释性 5. 论文所提框架…

自媒体人打造视频号爆款短视频其实很简单

最近找我做自媒体起号辅导的非常多,当然今天的方法也很适合我们的自媒体短视频运营。 美国心理学家米勒(Miller)被誉为认知心理学奠基人之一,有关短时记忆容量的研究表明:人的短时记忆保持时间在无复述的情况下只有5~20秒,最长也…

Linux命令:用于处理 XML 文档的强大的命令行工具xmlstarlet 详解

目录 一、概述 二、功能特点 1、查询和过滤 2、修改和更新 3、批处理操作 4、跨平台支持 5、转换和格式化 6、验证和校验 三、 安装 xmlstarlet 四、 基本用法 1、xmlstarlet 的基本语法 2、获取帮助 五、 常用命令 1. ed(编辑) - 用于编辑…

大型模型智能体:最先进的合作范式、安全与隐私以及未来趋势

摘要—大型模型智能体(LM agents),由如 GPT-4 和 DALL-E 2 等大型基础模型驱动,代表了实现人工通用智能(AGI)的重要一步。LM 智能体展示了自主性、具身性和连接性等关键特征,使其能够在物理、虚…

java在开发中的总结

1.异步执行数据遍历 public static void main(String[] args) {List<Integer> numbers Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10);numbers.parallelStream().forEach(i->{System.out.println(i);});}在工作中&#xff0c;我们可以对for循环进行改进&#xff0c;…

C++11:现代C++的演变与提升

目录 前言 一、统一的列表初始化 1、{}初始化 2、std::initializer_list 二、新的声明 1、auto 2、decltype 3、nullptr 三、范围for循环 四、右值引用与移动语义 1. 左值 vs 右值 2、移动构造与移动赋值 3、 move转换 4、完美转发&#xff1a;forward 五、lamb…

调和级数枚举+前缀和,CF 731F - Video Cards

目录 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 二、解题报告 1、思路分析 2、复杂度 3、代码详解 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 731F - Video Cards 二、解题报告 1、思路分析 题目提示的很明显要用调和…

复杂类型 el-form 表单的校验

背景描述 表单结构 form 表单结构 活动名称 - 必填&#xff0c;prop“name”活动类型 - 必填&#xff0c;prop“actType”活动人数 - 必填&#xff0c;prop“actUserAccount”签到记录 - 必填&#xff0c;prop“actList” 对表单做必填校验 rulesOld: {name: [{ required: t…

【15%】100小时机器学习——什么是机器学习

前言 虽然已经好久没有更新了&#xff0c;但笔者最近一直都在努力学习哦。 前面三三两两根据GitHub上的项目写了一些实验操作&#xff0c;但是总觉得这样是不行的。碎片化的学习只能是建立在已知的基础上进行熟练&#xff0c;不能作为打基础的主力方法&#xff0c;最关键的是&a…