多模态大模型 intern_vl 2.0版本解读

news2024/9/20 14:50:15

目录

更大规模的语言模型

多模态输入

多任务输出

性能表现


github:GitHub - OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的可商用开源多模态对话模型

论文:https://arxiv.org/pdf/2404.16821(还是internvl1.5)

TypeModelDateHF LinkMS LinkDocument
Multimodal Large Language ModelsInternVL2-1B2024.07.08🤗 link🤖 link📖 doc
InternVL2-2B2024.07.04🤗 link🤖 link📖 doc
InternVL2-4B2024.07.04🤗 link🤖 link📖 doc
InternVL2-8B2024.07.04🤗 link🤖 link📖 doc
InternVL2-26B2024.07.04🤗 link🤖 link📖 doc
InternVL2-40B2024.07.08🤗 link🤖 link📖 doc
InternVL2-Llama3-76B2024.07.15🤗 link🤖 link📖 doc
InternVL2-108BTODOTODOTODOTODO
InternVL2-ProTODOTODOTODOTODO
Vision Foundation ModelInternViT-300M-448px2024.05.25🤗 link🤖 link📖 doc
InternViT-6B-448px-V1-52024.04.20🤗 link🤖 link📖 doc

我们介绍了InternVL2,这是目前最强大的开源多模态大语言模型(MLLM)。InternVL2家族包括从适合边缘设备的1B模型到显著更强大的108B模型。通过更大规模的语言模型,InternVL2-Pro展示了出色的多模态理解能力,在各种基准测试中表现与商业闭源模型相当。

InternVL2家族基于以下设计理念:

更大规模的语言模型

我们引入了一种渐进对齐训练策略,首次实现了与大语言模型原生对齐的视觉基础模型。通过这种从小到大、从粗到细的渐进训练策略,我们在相对低成本下完成了大模型的训练。这种方法在有限资源下表现出色。

多模态输入

我们的模型支持多种模态的输入,包括文本、图像、视频和医疗数据,只需一组参数即可实现。

多任务输出

借助我们最近的工作VisionLLMv2,我们的模型支持多种输出格式,如图像、边界框和掩码,展示了广泛的多功能性。通过将MLLM与多个下游任务解码器连接,InternVL2能够推广到数百个视觉语言任务,并实现与专家模型相当的性能。

NameInternVL2-2BInternVL2-4BInternVL2-8BInternVL2-26BInternVL2-40BInternVL2-108B
模型大小Total2.21B4.15B8.08B25.51B40.07B108.70B
ViT304.01M304.01M304.01M5.54B5.54B5.54B
MLP12.60M22.03M33.57M116.43M143.17M172.01M
LLM2.21B3.82B7.74B19.86B34.39B102.99B
分辨率动态分辨率,训练时最大为12个448×448的块,测试时最大为40个块(4K分辨率)。
Stage-1Training Data我们扩展了InternVL 1.5中使用的预训练数据集,收集了来自多种来源的数据。这些数据集涵盖了多个任务,包括描述、视觉问答、检测、定位和OCR。OCR数据集使用PaddleOCR对来自悟空的中文图像和来自LaionCOCO的英文图像进行OCR,并进行了人工验证。此外,我们还抓取并手动解析了来自uworld、kaptest、testbank、aga和sat的考试数据。还利用了来自OmniCorpus的交错数据。
Trainable ModuleMLP
Stage-2Training Data我们基于InternVL 1.5中使用的500万高质量双语数据集构建了训练数据。具体来说,我们包括了视频数据如EgoTaskQA、Mementos、STAR、NTU RGB+D、VideoChat2IT和LSMDC-QA,以及医疗数据如Medical-Diff-VQA、Pathology-VQA、PMC-CaseReport、PMC-VQA、Slake和VQA-RAD。我们还包括了SROIE、FUNSD和POIE,以进一步增强模型识别手写字体的能力。此外,我们排除了所有来自ShareGPT-4V的数据,并用ShareGPT-4o的数据替代。
Trainable ModuleViT + MLP + LLM

性能表现

InternVL2在处理复杂多模态数据方面展示了强大的能力,尤其在数学、科学图表、通用图表、文档、信息图和OCR任务中表现出色。例如,在MathVista基准测试中,InternVL2达到了66.3%的准确率,显著超越了其他闭源商业模型和开源模型。此外,InternVL2在多个基准测试中达到了最先进的性能,包括通用图表基准测试ChartQA、文档基准测试DocVQA、信息图基准测试InfographicVQA以及通用视觉问答基准测试MMBench。

值得注意的是,在AI2D基准测试中有两种评估设置。在第一种设置中,我们将图像中矩形内的内容替换为选项的字母。在第二种设置中,我们将矩形内的内容替换为选项的字母和数值。我们的模型在第一种设置中达到了87.3的性能,在第二种设置中达到了96.0的性能。

  • 专有模型
nameMMMU
(val)
MathVista
(testmini)
AI2D
(test)
ChartQA
(test)
DocVQA
(test)
InfoVQA
(test)
OCRBenchMMB-EN
(test)
MMB-CN
(test)
OpenCompass
(avg score)
GPT-4V*
(20240409)
63.1 / 61.758.189.478.187.2-67881.080.263.5
Gemini Pro 1.5*58.5 / 60.657.780.381.386.572.775473.973.864.4
Claude3.5-Sonnet*68.3 / 65.967.794.790.895.2-78879.780.767.9
GPT-4o*
(20240513)
69.1 / 69.263.894.285.792.8-73683.482.169.9
Cambrian-149.7 / 50.453.279.775.675.5-60081.4-58.3
LLaVA-NeXT Qwen1.550.149.080.479.785.7--80.5--
InternVL2-Pro58.9 / 62.066.387.3 / 96.087.195.183.383787.887.2

71.8

nameMMMU
(val)
MathVista
(testmini)
AI2D
(test)
ChartQA
(test)
DocVQA
(test)
InfoVQA
(test)
OCRBenchMMB-EN
(test)
MMB-CN
(test)
OpenCompass
(avg score)
InternVL2-1B35.4 / 36.737.764.172.981.750.975465.460.748.3
InternVL2-2B34.3 / 36.346.374.176.286.958.978473.270.954.0
InternVL2-4B47.0 / 48.358.678.981.589.267.078878.673.960.6
InternVL2-8B49.3 / 51.258.383.883.391.674.879481.781.264.1
InternVL2-26B48.3 / 50.759.484.584.992.975.982583.482.066.4
InternVL2-40B53.9 / 55.263.787.186.293.978.783786.886.569.7
InternVL2-Llama3-76B55.2 / 58.265.587.688.494.182.083986.586.371.0
InternVL2-Pro58.9 / 62.066.387.3 / 96.087.195.183.383787.887.271.8

我们同时使用InternVL和VLMEvalKit仓库进行模型评估。具体来说,AI2D、ChartQA、DocVQA、InfoVQA和MMBench的结果是使用InternVL仓库测试的。MathVista和OCRBench的评估则使用了VLMEvalKit。

对于MMMU,我们报告了原始分数(左侧:使用InternVL代码库评估InternVL系列模型,并从技术报告或网页中获取其他模型的分数)和VLMEvalKit分数(右侧:从OpenCompass排行榜中收集)。请注意,使用不同的测试工具包(如InternVL和VLMEvalKit)评估同一模型可能会导致轻微的差异,这是正常现象。代码版本的更新以及环境和硬件的变化也可能导致结果的轻微差异。

除了上述提到的VQA基准测试外,我们还在MM-NIAH基准测试中评估了InternVL2-Pro。MM-NIAH是一个为长多模态文档理解设计的综合基准测试。如图所示,我们的模型结合了检索增强生成(RAG)技术,在理解长多模态文档方面表现与Gemini相当。在计数任务和涉及图像细节的其他任务上的性能提升将留待未来工作。有关结合RAG的InternVL2-Pro的更多细节,请参阅这篇论文。intern-vl 1.5 论文解读:How Far Are We to GPT-4V?-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1987147.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

TypeScript循环2

循环2 for(开始条件&#xff0c;结束条件&#xff0c;变量更新){} for使程序能够重复执行某段代码&#xff0c;直至满足特定条件为至。 // 打印1~100for(let i:number0;i<100;i){console.log(i);}死循环,程序中要避免出现 即使需要你使用&#xff0c;也需要有退出条件 …

Windows系统cmd黑窗口cd命令不起作用的解决办法

一般这种情况是通过win r 输入cmd唤起得窗口是在c盘&#xff0c;而想切换到其他磁盘目录却发现命令并不生效&#xff0c;例如&#xff1a; 解决的办法就是先切换磁盘&#xff0c;再cd到文件夹目录&#xff0c;比如我切换到E盘&#xff0c;就是E&#xff1a; 然后再cd目标目录…

探索Linux世界之Linux环境开发工具的使用

一、yum -- Linux软件包管理器 1、什么是yum yum(Yellow dog Updater, Modified)&#xff1a; 是Linux下非常常用的一种包管理器. 主要应用在Fedora, RedHat, Centos等发行版上。 在Linux上安装软件的方式&#xff1a; 源代码直接安装&#xff1a;在Linux下安装软件, 一个通…

存储实验:FC-SAN实验与光交配置(GUICLI)

目录 目的环境介绍拓扑环境规划环境解释 实验流程0. FC-SAN存储 WWN查看1. FC-SAN业务主机&#xff08;linux&#xff09;配置1.1 IP配置1.2 查看wwn号 2. 光交配置2.1 GUI2.1.1 跳板机配置2.1.1.1 配置IP2.1.1.2 安装jdk2.1.1.3 浏览器登录光交IP 2.1.2 光交-Alias配置2.1.2.0…

【目标检测类】YOLOv5网络模型结构基本原理讲解

1. 基本概念 YOLOv5模型结构主要包括以下组成部分&#xff1a;‌ 输入端&#xff1a;‌YOLOv5的输入端采用了多种技术来增强模型的性能&#xff0c;‌包括Mosaic数据增强、‌自适应锚框计算、‌以及自适应图片缩放。‌这些技术有助于提高模型的泛化能力和适应不同尺寸的输入图…

springboot+vue+mybatis汽车租赁管理+PPT+论文+讲解+售后

汽车租赁系统是针对目前汽车租赁管理的实际需求&#xff0c;从实际工作出发&#xff0c;对过去的汽车租赁管理系统存在的问题进行分析&#xff0c;完善客户的使用体会。采用计算机系统来管理信息&#xff0c;取代人工管理模式&#xff0c;查询便利&#xff0c;信息准确率高&…

Unity补完计划 之 SpriteRender

本文仅作笔记学习和分享&#xff0c;不用做任何商业用途 本文包括但不限于unity官方手册&#xff0c;unity唐老狮等教程知识&#xff0c;如有不足还请斧正 1.SpriteRenderer是什么 渲染精灵用的&#xff0c;是渲染的核心组件&#xff0c;有许多重要参数所以要详细讲一讲 Spri…

大语言模型VRAM估算指南和工具介绍

为了有效地执行大型语言模型(LLM)推理&#xff0c;了解GPU VRAM需求至关重要。VRAM对于存储模型参数、激活、处理批量大小和精度设置至关重要。估算VRAM使用情况的基本公式是:参数数(精度/ 8) 1.2。现代优化技术和框架可以进一步减少VRAM的需求。像VRAM Estimator, Hugging Fac…

Harbor 仓库一键安装

文章目录 一、场景说明二、脚本职责三、参数说明四、操作示例五、注意事项 一、场景说明 本自动化脚本旨在为提高研发、测试、运维快速部署应用环境而编写。 脚本遵循拿来即用的原则快速完成 CentOS 系统各应用环境部署工作。 统一研发、测试、生产环境的部署模式、部署结构、…

H5页面返回时提示用户返回将丢失信息

效果图 代码&#xff0c;组件封装弹窗 <template><div><van-popup v-model"show" :close-on-click-overlay"false" class"popup"><div class"content"><div class"title">提示:</div>…

QT学生管理系统 开发文档

目录 第一章 UI界面设计与开发 登录界面 主界面 UI美化 第二章 数据库设计与开发 数据库设计 连接数据库 数据库功能设计 sql语句设计 查询所有学生数量 查询第几页学生数据 删除学生 修改学生信息 清空学生表 添加单个用户 删除单个用户 修改用户权限 查询所有用户…

常用API_2:应用程序编程接口:ArrayList

文章目录 ArrayList常用方法 案例 &#xff1a;上菜 ArrayList 常用方法 来自黑马程序员学习视频 案例 &#xff1a;上菜 待完善

只有ip没有域名怎么申请证书?

当只有IP地址而没有域名时&#xff0c;仍然可以申请SSL证书以确保通过该IP地址访问的网站或服务的安全性。以下是为IP地址申请SSL证书的一般步骤&#xff1a; 一、确认前提条件 拥有公网IP地址&#xff1a;确保你拥有的是一个公网IP地址&#xff0c;因为内网IP地址不支持签发…

强化学习之Double DQN算法与DQN算法对比学习——以倒立摆(Inverted Pendulum)环境为例

0.简介 DQN算法敲开深度强化学习大门&#xff0c;但是其存在着一些问题&#xff0c;有进一步改进的空间。因此在DQN后出现大量改进算法。在此介绍DQN算法改进算法之一Double DQN&#xff0c;其在DQN算法基础上稍加修改实现在一定程度上改善DQN效果。 普通DQN算法会导致对Q值的过…

Leetcode75-5 反转字符串的元音字母

本质上来说就是反转字符串 一部分需要反转 一部分不动 思路: 1.用String字符串倒序拼接 就是过滤掉不是元音字符 然后把所有的字符&#xff08;非元音的直接复制过来 元音字母直接从反转的字符串里边复制即可&#xff09; 2.看了题解发现自己写的啰嗦了 就是一个双指针问题用…

螺旋矩阵

螺旋矩阵 思路&#xff1a; 这题是一个模拟的题目。 可以观察出一些性质&#xff1a;每次需要换方向的时候都是到达了边界&#xff08;长度和宽度的边界&#xff09;。 不知道怎么转化为代码&#xff01; 哭了 看看题解吧&#xff1a;真不会 看到一个太妙的方法了&#x…

《变形金刚》战斗力排名分析

Top1 天火擎天柱 作为博派的领袖&#xff0c;擎天柱本身实力不凡。然而&#xff0c;胜败乃兵家常事。在《变形金刚2》中&#xff0c;他虽然成功击败了破坏者、碾碎器和红蜘蛛&#xff0c;却不幸被威震天一炮穿心&#xff0c;阵亡。 不过&#xff0c;擎天柱是《变形金刚》系列…

Zero123 论文学习

论文链接&#xff1a;https://arxiv.org/abs/2303.11328 代码链接&#xff1a;https://github.com/cvlab-columbia/zero123 解决了什么问题&#xff1f; 人类通常能够仅凭一个相机视角来想象物体的三维形状和外观。这种能力对于日常任务非常重要&#xff0c;例如物体操纵和在…

快速掌握Vue:基础命令详解

目录 1. Vue概述 2. 快速入门 3. Vue指令 3.1 v-bind 3.2 v-model 3.3 v-on 3.4 v-if 3.5 v-show 3.6 v-for 3.7 案例 4. 生命周期 1. Vue概述 Vue.js&#xff08;读音 /vjuː/, 类似于 「view」&#xff09; 是一套构建用户界面的 「渐进式框架」。与其他重量级框…

【EI会议征稿通知】第六届光电科学与材料国际学术会议 (ICOSM 2024)

会议主要围绕“光电技术应用”“光电科学材料”“光电信号处理”“低温等离子体技术与应用” “激光技术与应用”“材料科学”等研究领域展开讨论。旨在为光电学、电子工程学等专家学者、工程技术人员、技术研发人员提供一个交流平台。拓展国内外光电科学与材料技术方面的研究范…