多模态大模型 intern_vl 2.0版本解读

news2025/7/17 22:05:43

更大规模的语言模型

多模态输入

多任务输出

性能表现

github:GitHub - OpenGVLab/InternVL: [CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的可商用开源多模态对话模型

论文：https://arxiv.org/pdf/2404.16821（还是internvl1.5）

Type	Model	Date	HF Link	MS Link	Document
Multimodal Large Language Models	InternVL2-1B	2024.07.08	🤗 link	🤖 link	📖 doc
	InternVL2-2B	2024.07.04	🤗 link	🤖 link	📖 doc
	InternVL2-4B	2024.07.04	🤗 link	🤖 link	📖 doc
	InternVL2-8B	2024.07.04	🤗 link	🤖 link	📖 doc
	InternVL2-26B	2024.07.04	🤗 link	🤖 link	📖 doc
	InternVL2-40B	2024.07.08	🤗 link	🤖 link	📖 doc
	InternVL2-Llama3-76B	2024.07.15	🤗 link	🤖 link	📖 doc
	InternVL2-108B	TODO	TODO	TODO	TODO
	InternVL2-Pro	TODO	TODO	TODO	TODO
Vision Foundation Model	InternViT-300M-448px	2024.05.25	🤗 link	🤖 link	📖 doc
Vision Foundation Model	InternViT-6B-448px-V1-5	2024.04.20	🤗 link	🤖 link	📖 doc

我们介绍了InternVL2，这是目前最强大的开源多模态大语言模型（MLLM）。InternVL2家族包括从适合边缘设备的1B模型到显著更强大的108B模型。通过更大规模的语言模型，InternVL2-Pro展示了出色的多模态理解能力，在各种基准测试中表现与商业闭源模型相当。

InternVL2家族基于以下设计理念：

更大规模的语言模型

我们引入了一种渐进对齐训练策略，首次实现了与大语言模型原生对齐的视觉基础模型。通过这种从小到大、从粗到细的渐进训练策略，我们在相对低成本下完成了大模型的训练。这种方法在有限资源下表现出色。

多模态输入

我们的模型支持多种模态的输入，包括文本、图像、视频和医疗数据，只需一组参数即可实现。

多任务输出

借助我们最近的工作VisionLLMv2，我们的模型支持多种输出格式，如图像、边界框和掩码，展示了广泛的多功能性。通过将MLLM与多个下游任务解码器连接，InternVL2能够推广到数百个视觉语言任务，并实现与专家模型相当的性能。

Name		InternVL2-2B	InternVL2-4B	InternVL2-8B	InternVL2-26B	InternVL2-40B	InternVL2-108B
模型大小	Total	2.21B	4.15B	8.08B	25.51B	40.07B	108.70B
	ViT	304.01M	304.01M	304.01M	5.54B	5.54B	5.54B
	MLP	12.60M	22.03M	33.57M	116.43M	143.17M	172.01M
	LLM	2.21B	3.82B	7.74B	19.86B	34.39B	102.99B
分辨率		动态分辨率，训练时最大为12个448×448的块，测试时最大为40个块（4K分辨率）。
Stage-1	Training Data	我们扩展了InternVL 1.5中使用的预训练数据集，收集了来自多种来源的数据。这些数据集涵盖了多个任务，包括描述、视觉问答、检测、定位和OCR。OCR数据集使用PaddleOCR对来自悟空的中文图像和来自LaionCOCO的英文图像进行OCR，并进行了人工验证。此外，我们还抓取并手动解析了来自uworld、kaptest、testbank、aga和sat的考试数据。还利用了来自OmniCorpus的交错数据。
Stage-1	Trainable Module	MLP
Stage-2	Training Data	我们基于InternVL 1.5中使用的500万高质量双语数据集构建了训练数据。具体来说，我们包括了视频数据如EgoTaskQA、Mementos、STAR、NTU RGB+D、VideoChat2IT和LSMDC-QA，以及医疗数据如Medical-Diff-VQA、Pathology-VQA、PMC-CaseReport、PMC-VQA、Slake和VQA-RAD。我们还包括了SROIE、FUNSD和POIE，以进一步增强模型识别手写字体的能力。此外，我们排除了所有来自ShareGPT-4V的数据，并用ShareGPT-4o的数据替代。
Stage-2	Trainable Module	ViT + MLP + LLM

性能表现

InternVL2在处理复杂多模态数据方面展示了强大的能力，尤其在数学、科学图表、通用图表、文档、信息图和OCR任务中表现出色。例如，在MathVista基准测试中，InternVL2达到了66.3%的准确率，显著超越了其他闭源商业模型和开源模型。此外，InternVL2在多个基准测试中达到了最先进的性能，包括通用图表基准测试ChartQA、文档基准测试DocVQA、信息图基准测试InfographicVQA以及通用视觉问答基准测试MMBench。

值得注意的是，在AI2D基准测试中有两种评估设置。在第一种设置中，我们将图像中矩形内的内容替换为选项的字母。在第二种设置中，我们将矩形内的内容替换为选项的字母和数值。我们的模型在第一种设置中达到了87.3的性能，在第二种设置中达到了96.0的性能。

专有模型

name	MMMU (val)	MathVista (testmini)	AI2D (test)	ChartQA (test)	DocVQA (test)	InfoVQA (test)	OCRBench	MMB-EN (test)	MMB-CN (test)	OpenCompass (avg score)
GPT-4V* (20240409)	63.1 / 61.7	58.1	89.4	78.1	87.2	-	678	81.0	80.2	63.5
Gemini Pro 1.5*	58.5 / 60.6	57.7	80.3	81.3	86.5	72.7	754	73.9	73.8	64.4
Claude3.5-Sonnet*	68.3 / 65.9	67.7	94.7	90.8	95.2	-	788	79.7	80.7	67.9
GPT-4o* (20240513)	69.1 / 69.2	63.8	94.2	85.7	92.8	-	736	83.4	82.1	69.9
Cambrian-1	49.7 / 50.4	53.2	79.7	75.6	75.5	-	600	81.4	-	58.3
LLaVA-NeXT Qwen1.5	50.1	49.0	80.4	79.7	85.7	-	-	80.5	-	-
InternVL2-Pro	58.9 / 62.0	66.3	87.3 / 96.0	87.1	95.1	83.3	837	87.8	87.2	71.8

name	MMMU (val)	MathVista (testmini)	AI2D (test)	ChartQA (test)	DocVQA (test)	InfoVQA (test)	OCRBench	MMB-EN (test)	MMB-CN (test)	OpenCompass (avg score)
InternVL2-1B	35.4 / 36.7	37.7	64.1	72.9	81.7	50.9	754	65.4	60.7	48.3
InternVL2-2B	34.3 / 36.3	46.3	74.1	76.2	86.9	58.9	784	73.2	70.9	54.0
InternVL2-4B	47.0 / 48.3	58.6	78.9	81.5	89.2	67.0	788	78.6	73.9	60.6
InternVL2-8B	49.3 / 51.2	58.3	83.8	83.3	91.6	74.8	794	81.7	81.2	64.1
InternVL2-26B	48.3 / 50.7	59.4	84.5	84.9	92.9	75.9	825	83.4	82.0	66.4
InternVL2-40B	53.9 / 55.2	63.7	87.1	86.2	93.9	78.7	837	86.8	86.5	69.7
InternVL2-Llama3-76B	55.2 / 58.2	65.5	87.6	88.4	94.1	82.0	839	86.5	86.3	71.0
InternVL2-Pro	58.9 / 62.0	66.3	87.3 / 96.0	87.1	95.1	83.3	837	87.8	87.2	71.8

我们同时使用InternVL和VLMEvalKit仓库进行模型评估。具体来说，AI2D、ChartQA、DocVQA、InfoVQA和MMBench的结果是使用InternVL仓库测试的。MathVista和OCRBench的评估则使用了VLMEvalKit。

对于MMMU，我们报告了原始分数（左侧：使用InternVL代码库评估InternVL系列模型，并从技术报告或网页中获取其他模型的分数）和VLMEvalKit分数（右侧：从OpenCompass排行榜中收集）。请注意，使用不同的测试工具包（如InternVL和VLMEvalKit）评估同一模型可能会导致轻微的差异，这是正常现象。代码版本的更新以及环境和硬件的变化也可能导致结果的轻微差异。

除了上述提到的VQA基准测试外，我们还在MM-NIAH基准测试中评估了InternVL2-Pro。MM-NIAH是一个为长多模态文档理解设计的综合基准测试。如图所示，我们的模型结合了检索增强生成（RAG）技术，在理解长多模态文档方面表现与Gemini相当。在计数任务和涉及图像细节的其他任务上的性能提升将留待未来工作。有关结合RAG的InternVL2-Pro的更多细节，请参阅这篇论文。intern-vl 1.5 论文解读：How Far Are We to GPT-4V?-CSDN博客

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1987147.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！