Qwen2-VL全面解读！阿里开源多模态视觉语言模型，多项超越GPT4o与Claude 3.5-Sonnet

文章链接：https://arxiv.org/pdf/2409.12191
Github链接：https://github.com/QwenLM/Qwen2-VL

亮点直击
本文介绍了Qwen系列大型视觉语言模型的最新成员：Qwen2-VL系列，该系列包括三款开放权重模型，总参数量分别为20亿、80亿和720亿。如图1所示，Qwen2-VL的关键进展包括：

在各种分辨率和宽高比上的最先进理解能力：Qwen2-VL在视觉基准测试中表现出色，包括DocVQA、InfoVQA、RealWorldQA、MTVQA、MathVista等。

对长时间视频（超过20分钟）的理解能力：Qwen2-VL能够理解超过20分钟的视频，增强了其进行高质量视频问答、对话、内容创作等的能力。

强大的设备操作代理能力：凭借先进的推理和决策能力，Qwen2-VL可以与手机、机器人等设备集成，实现基于视觉输入和文本指令的自主操作。

多语言支持：为了服务全球受众，Qwen2-VL不仅支持英语和中文，还支持包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等在内的多语言上下文理解。

效果展示

总结速览

解决的问题

Qwen2-VL系列旨在重新定义传统的固定分辨率视觉处理方法，解决了在处理不同分辨率图像时的效率和准确性问题。

提出的方案

引入了“Naive Dynamic Resolution”机制，使模型能够动态处理不同分辨率的图像，并生成不同数量的视觉tokens，从而提升视觉表示的效率和准确性。

应用的技术

Naive Dynamic Resolution机制：动态处理图像分辨率。
Multimodal rotary position embedding （M-RoPE）：有效融合文本、图像和视频的位置信息。
统一处理范式：同时处理图像和视频，增强视觉感知能力。
扩展规律：探索大规模视觉语言模型（LVLM）的扩展规律，通过模型大小（2B、8B和72B参数）和训练数据的增加来提升性能。

达到的效果

Qwen2-VL系列在各类多模态基准测试中表现出色，特别是Qwen2-VL-72B模型，其性能与领先模型如GPT-4o和Claude3.5-Sonnet相当，超越了其他通用模型。

方法

Qwen2-VL系列由三种大小的模型组成，分别为Qwen2-VL-2B、Qwen2-VL-7B和Qwen2-VL-72B。下表1列出了超参数和重要信息。Qwen2-VL在各种规模的LLM中采用了675M参数的Vison Transformer（ViT），确保了ViT的计算负载在不同规模的LLM中保持恒定。

模型架构

下图2展示了Qwen2-VL的全面结构。保留了Qwen-VL框架，该框架集成了视觉编码器和语言模型。

针对不同的规模适配，实现了一种具有大约675百万参数的ViT，能够处理图像和视频输入。在语言处理方面，选择了更强大的Qwen2语言模型系列。为了进一步增强模型有效感知和理解视频中的视觉信息的能力，引入了几个关键升级：

简单动态分辨率：Qwen2-VL的一项关键架构改进是引入了简单动态分辨率支持。与其前身不同，Qwen2-VL现在可以处理任意分辨率的图像，动态将其转换为可变数量的视觉tokens。为支持此功能，修改了ViT，去除了原始的绝对位置嵌入，并引入了2D-RoPE，以捕捉图像的二维位置信息。

在推理阶段，不同分辨率的图像被打包成一个单一序列，打包长度受到控制，以限制GPU内存使用。此外，为减少每幅图像的视觉tokens，在ViT后采用了一个简单的多层感知器（MLP）层，将相邻的2×2 token压缩为一个token，并在压缩的视觉tokens的开头和结尾放置特殊的<|vision_start|>和<|vision_end|> tokens。因此，分辨率为224×224的图像在使用patch_size=14的ViT编码后，将在进入LLM之前压缩为66个tokens。

Multimodal rotary position embedding （M-RoPE） 另一个关键架构增强是Multimodal Rotary Position Embedding（M-RoPE）的创新。与传统的1D-RoPE（用于LLM）仅能编码一维位置信息不同，M-RoPE有效地建模了多模态输入的位置信息。这通过将原始旋转embedding分解为三个组成部分：时间、高度和宽度实现。对于文本输入，这些组件使用相同的位置ID，使得M-RoPE在功能上等同于1D-RoPE。

在处理图像时，每个视觉token的时间ID保持不变，而高度和宽度组件则根据token在图像中的位置分配不同的ID。对于视频，视为一系列帧，每帧的时间ID递增，而高度和宽度组件遵循与图像相同的ID分配模式。在输入包含多种模态的情况下，每种模态的位置编号通过将前一模态的最大位置ID加一来初始化。M-RoPE不仅增强了位置信息的建模，还减少了图像和视频的位置ID值，使模型在推理时能够推断更长的序列。

统一的图像与视频理解 Qwen2-VL采用混合训练方案，结合图像和视频数据，确保在图像理解和视频理解方面的熟练度。为了尽可能完整地保留视频信息，以每秒两帧的频率采样每个视频。此外，将3D卷积与深度为二的卷积结合，以处理视频输入，使模型能够处理3D pipeline 而非2D块，从而在不增加序列长度的情况下处理更多视频帧。

为了保持一致性，每幅图像被视为两个相同的帧。为了平衡长视频处理的计算需求与整体训练效率，动态调整每个视频帧的分辨率，将每个视频的总tokens数限制为16384。该训练方法在模型理解长视频的能力与训练效率之间取得了平衡。

训练

遵循Qwen-VL，采用三阶段训练方法。在第一阶段，专注于训练ViT组件，利用大量图像-文本对提升大型语言模型（LLM）的语义理解。在第二阶段，解冻所有参数，使用更广泛的数据进行更全面的学习。最后阶段，锁定ViT参数，专注于使用指令数据集进行LLM的微调。

模型在多样化的数据集上进行预训练，包括图像-文本对、光学字符识别（OCR）数据、交错的图像-文本文章、视觉问答数据集、视频对话和图像知识数据集。数据源主要来自清理过的网页、开源数据集和合成数据，数据截止日期为2023年6月。这种多样的数据组成对发展强大的多模态理解能力至关重要。

在初始预训练阶段，Qwen2-VL接触到约6000亿个tokens。Qwen2-VL的LLM组件使用Qwen2中的参数初始化，而视觉编码器则基于DFN的ViT初始化。原DFN ViT中的固定位置embedding被RoPE-2D替代。此阶段主要学习图像-文本关系、通过OCR进行文本内容识别以及图像分类任务，为模型建立视觉-文本关联的扎实基础。

第二阶段的预训练标志着重要进展，涉及额外的8000亿个与图像相关的数据。此阶段引入了更多混合图像-文本内容，促进了对视觉和文本信息之间相互作用的更细致理解。视觉问答数据集的纳入提升了模型对图像相关查询的响应能力，同时，多任务数据集的引入对模型同时处理多种任务的能力至关重要，这在处理复杂的现实世界数据集时尤为重要。纯文本数据继续在维持和提高模型语言能力方面发挥关键作用。

在整个预训练阶段，Qwen2-VL处理了总计1.4万亿个tokens，包括文本tokens和图像tokens。然而，训练过程中仅对文本tokens提供监督。这种对广泛而多样的语言和视觉场景的接触确保模型深入理解视觉和文本信息之间的复杂关系，从而为各种多模态任务奠定坚实基础。

在指令微调阶段，采用ChatML格式构建指令跟随数据集。该数据集不仅包括纯文本对话数据，还包含多模态对话数据。多模态组件包括图像问答、文档解析、多图像比较、视频理解、视频流对话和基于代理的交互。对数据构建的综合方法旨在增强模型理解和执行各种模态下广泛指令的能力。通过纳入多样化的数据类型，希望开发出更具多样性和鲁棒性的语言模型，能够处理复杂的多模态任务，以及传统的基于文本的交互。

数据格式

与Qwen-VL一致，Qwen2-VL也使用特殊tokens来区分视觉和文本输入。Tokens <|vision_start|>和<|vision_end|>插入在图像特征序列的开始和结束，以划定图像内容。

对话数据 在对话格式方面，使用ChatML格式构建指令调优数据集，每个交互的陈述用两个特殊tokens（<|im_start|>和<|im_end|>），以便于对话的结束。蓝色tokens的部分表示受监督的部分。

视觉Agent 为了将Qwen2-VL发展为通用的VL-Agent，将各种代理任务（如UI操作、机器人控制、游戏和导航）视为顺序决策问题，使Qwen2-VL能够通过多步行动执行来完成任务。对于每个任务，首先定义一组可允许的动作和关键词模式（下划线）以供功能调用。然后，Qwen2-VL分析观察结果，进行推理和规划，执行所选动作，并与环境互动以获取新观察。这一循环反复进行，直到任务成功完成。通过整合各种工具并利用大型视觉语言模型（LVLM）的视觉感知能力，Qwen2-VL能够迭代执行涉及现实世界视觉交互的日益复杂的任务。

多模态模型基础设施

Qwen2-VL模型在阿里云的PAI-Lingjun智能计算服务上进行训练，利用其可扩展的计算、自动恢复和延迟检测功能。

存储使用阿里云的超高速CPFS（云并行文件存储）构建Qwen2-VL的预训练和后训练存储系统。将文本数据和视觉数据存储解耦。文本数据简单地存储在CPFS上，并使用mmap进行高效访问。视觉数据使用阿里云的OSS（对象存储服务）进行持久存储。在训练过程中，通过OSS的python-client并发访问视觉数据，并调整并发和重试参数以避免达到QPS（每秒查询次数）限制。视频数据解码是主要瓶颈，尤其是对于长视频。在几次尝试开源（FFmpeg开发者）和内部软件失败后，研究者们选择了缓存解码技术。检查点保存每个GPU的优化器和模型状态在CPFS上。

并行性 使用3D并行性，结合数据并行性（DP）、张量并行性（TP）和 pipeline 并行性（PP）来扩展Qwen2-VL模型训练。还利用DeepSpeed的zero-1冗余优化器进行状态分片以节省内存。使用选择性检查点激活的序列并行性（SP）以减少内存使用。当启用TP训练时，总是将视觉编码器和大型语言模型一起分片，但不对视觉合并进行分片，因为其参数相对较少。我们发现TP训练会导致不同的模型共享权重，这是由于卷积操作的非确定性行为。我们通过对共享权重进行离线减少解决了这个问题，从而避免了额外的全归约通信步骤。这种方法对性能的影响非常小。

研究者们利用1F1B PP进行Qwen2-VL 72B的训练。我们将视觉编码器、视觉适配器和几个LLM的解码器层组合为一个阶段，并均匀分割剩余的解码器层。请注意，视觉和文本序列长度对于每个数据点都是动态的。在启动1F1B过程之前广播动态序列长度，并使用批索引访问形状信息。还实现了交错的1F1B PP，但发现其速度比标准1F1B设置慢。

软件使用PyTorch版本2.1.2与CUDA 11.8进行训练。此外，在视觉编码器和LLM的训练中利用闪存注意力以提高效率。还利用了融合操作符，如LayerNorm、RMSNorm和Adam。此外，在训练过程中利用矩阵乘法中的通信与计算重叠。

实验

与现有技术的比较

通过各种视觉基准、视频任务和基于代理的评估来评估我们模型的视觉能力。Qwen2-VL在相同规模下表现出高度竞争力，取得了新的最先进（SoTA）结果。72B模型在大多数评估指标上始终提供顶尖性能，常常超越闭源模型，如GPT-4o和Claude 3.5-Sonnet。在文档理解任务中，它表现出显著优势。然而，在MMM基准中，本文的模型在处理更复杂和具有挑战性的问题集时仍然落后于GPT-4o，表明Qwen2-VL-72B还有改进的空间。

定量结果

对Qwen2-VL系列在多种数据集上的广泛评估进行展示，提供对模型在各方面能力的全面理解。

一般视觉问答

为了严格评估本文模型在一般视觉问答任务中的能力，研究者们在多种最先进的基准上进行了广泛评估：RealWorldQA、MMStar、MMVet、MMT-Bench、MMBench、MMbench-1.1、MME和HallusionBench。

Qwen2-VL系列在这些基准上表现出色，72B模型始终达到或超过最先进的结果，而7B和2B变体也表现出强大的能力。在评估真实世界空间理解的RealWorldQA上，Qwen2-VL-72B的得分为77.8，超过了之前的最先进（72.2）和强有力的基线，如GPT-4o（75.4），展示了其对物理环境的优越理解。

在评估真正多模态能力的MMStar基准中，Qwen2-VL-72B获得68.3，超越了之前的最佳成绩67.1，突显了其在视觉和文本信息整合方面的能力。在MMVet上，Qwen2-VL-72B在16个复杂多模态任务中表现出色，取得了74.0，显著超过强劲的竞争对手，包括GPT-4V（67.5），展示了其在应对多样化多模态挑战中的多功能性。

在评估先进推理和指令跟随的MMT-Bench中，Qwen2-VL-72B获得71.7，明显超过之前的最佳（63.4），展示了其在应用专业知识和执行视觉识别、定位、推理及规划方面的能力。在评估细粒度能力的MMBench中，Qwen2-VL-72B在英语测试集上获得86.5，匹配了最先进的水平，而在中文测试集上取得86.6，创下新基准。对于测量14个子任务中广泛感知和认知能力的MME，Qwen2-VL-72B获得累计得分2482.7，显著超过之前的最佳（2414.7），突显了其在视觉感知和高级认知任务中的先进能力。

这些综合结果突显了Qwen2-VL系列在一般视觉问答任务中的卓越能力。模型在真实世界空间理解、真正多模态整合、复杂推理、指令跟随以及广泛的感知和认知任务方面展现出先进能力。特别是72B模型在多种基准上持续表现优越，使Qwen2-VL系列成为视觉问答领域的领先解决方案。我们的模型在处理视觉不可或缺的任务、整合核心视觉-语言能力以及在多样化多模态场景中展现专业知识方面表现出色，涵盖从基础感知任务到复杂推理和规划的广泛能力。这一全面评估强调了Qwen2-VL系列在应对最先进多模态基准所带来的多面挑战中的多功能性和有效性，从而为大型视觉-语言模型设立了新的标准。

文档和图表阅读

在DocVQA、ChartQA、InfoVQA、TextVQA和AI2D数据集上测试了模型的OCR以及文档和图表理解能力。DocVQA/InfoVQA/ChartQA数据集侧重于模型理解文档、高分辨率信息图表和图表中的文本能力，而TextVQA数据集考察了模型理解自然图像中文本的能力。OCRBench数据集是一个混合任务的数据集，除了基于文本的视觉问答外，还关注数学公式解析和信息提取。AI2D数据集侧重于科学图表中包含文本的多项选择题。还在OCRBench上测试了模型的OCR和公式识别能力，以及在MTVQA数据集上测试了模型的多语言OCR能力。

实验结果表明，本文的模型在多个指标上达到了最先进水平，包括DocVQA、InfoVQA、TextVQA和OCRBench，展示了模型对多个领域图像中文本内容的良好理解能力。

多语言文本识别与理解

在多语言OCR方面，本文的模型超越了所有现有的通用LVLM。本文的模型不仅在公开的MTVQA数据集上优于现有的LVLM（包括诸如GPT-4o、Claude 3.5 Sonnet等专有模型），还在内部基准测试中在除阿拉伯语外的所有外语上超越了GPT-4o（见下表3）。

数学推理

在MathVista和MathVision数据集上进行了实验，以评估数学推理能力。MathVista是一个综合基准，包含6,141个多样的数学和视觉任务示例。MathVision数据集包括3,040个embeddings在实际数学竞赛中的视觉背景下的数学问题，涵盖16个数学学科，并在五个级别上具有不同的难度。这些挑战强调了LVLM展现强大视觉理解、深刻数学理解和良好逻辑推理能力的必要性。Qwen2-VL系列在MathVista上表现出色，取得70.5的成绩，超越了其他LVLM。此外，它在MathVision上设定了新的开源基准，得分为25.9。

参照表达理解

在视觉定位任务方面，在RefCOCO、RefCOCO+和RefCOCOg数据集上评估了Qwen2-VL。结果如下表6所示，表明Qwen2-VL在通用模型中取得了顶级结果。得益于更合理的结构设计，Qwen2-VL能够感知高分辨率图像中的细节，从而显著提高了性能。与通用和专用模型相比，这些模型的优越性突显了它们在推进视觉定位领域和实际任务中实现精确视觉理解的潜力。

视频理解

在各种视频理解任务上也评估了本文的模型，相关基准覆盖从几秒到长达一小时的视频。下表4展示了Qwen2-VL及基线模型的性能。总体而言，Qwen2-VL在2B、7B和72B尺寸上表现强劲，其中Qwen2-VL-72B在MVBench、PerceptionTest和EgoSchema上取得了最佳性能。这展示了Qwen2-VL在视频理解任务中的优越能力，并且扩大Qwen2-VL的规模带来了显著的提升。对于具有挑战性的Video-MME基准，该基准包括最长可达一小时的视频，值得注意的是，我们在评估过程中将每个视频提取的最大帧数限制为768，这可能影响了在较长视频上的表现。未来的工作将集中在扩展Qwen2-VL以支持更长的序列，从而适应更长的视频。

视觉智能体

首先评估Qwen2-VL在通过函数调用与环境互动的能力，然后评估其通过多轮交互完成复杂决策任务的能力。该实现基于Qwen-Agent框架。

函数调用 与LLM中的函数调用不同，LVLM中的函数调用通常涉及从视觉线索中提取信息。由于缺乏评估LVLM在函数调用能力方面的公共基准，我们构建了内部评估数据集。

为构建评估数据集，进行了以下程序：场景分类、图像收集、图像内容提取，以及问题/函数/参数生成。首先，我们根据不同的视觉应用将场景分类。随后，从互联网上下载并精心选择每个类别的高质量代表性图像。利用先进的LVLM，分析每张图像以提取关键视觉元素和文本信息。最后，基于图像的内容信息，使用先进的LLM生成一系列需要特定函数回答的问题，并指定这些函数调用所需的输入参数。

研究者们设计了两种指标来评估函数选择的准确性和参数输入的正确性：类型匹配（Type Match，TM）和精确匹配（Exact Match，EM）。

下表5所示，Qwen2-VL在Type Match（93.1对90.2）和Exact Match（53.2对50.0）上的表现优于GPT-4o，这证明了Qwen2-VL在函数调用能力上的有效性，凸显了其通过外部工具集成扩展应用的显著潜力。评估结果表明，GPT-4o的表现不佳，主要由于两个因素：在不确定性场景中，GPT-4o表现出保守的态度，避免使用外部工具。此外，Qwen2-VL在光学字符识别（OCR）能力方面也优于GPT-4o，尤其是在中文字符的处理上。

用户界面操作/游戏/机器人/导航 为了评估Qwen2-VL处理复杂任务的能力，在多个视觉语言代理任务上进行了评估，包括移动操作、机器人控制、纸牌游戏和视觉语言导航等。由于这些任务需要多次行动才能完成，通过Qwen2-VL支持32K上下文长度来保留历史（观察、动作），然后在每次行动后附加新的观察图像，以实现对后续步骤的连续推理。

用户界面操作 使用AITZ任务评估Qwen2-VL，该任务构建了一个基于AITW的核心干净测试集。根据手机的常见操作模式，为Qwen2-VL定义了诸如点击、输入和滑动等操作，以便其与屏幕图标进行交互以完成任务。例如，当Qwen2-VL被要求通过Google地图寻找附近的披萨餐厅时，它应在搜索框中输入“pizza”，滑动选择适当的餐厅，并点击对应的链接。根据AITZ设置，报告了操作类型匹配（点击、输入或滑动的正确性）和精确匹配（点击位置、输入文本或滑动方向的正确性）。借助于用户界面的基础能力，Qwen2-VL超越了GPT-4和之前的最新技术水平。

机器人控制 在AI2THOR的ALFRED任务中评估Qwen2-VL。该任务要求智能体执行复杂的家庭任务，例如烤面包和切苹果以准备餐点。为了在虚拟环境中工作，定义了高层次的动作（GotoLocation、Pickup、PutDown、Open、Close、Clean、Heat、Cool、Slice）作为动作集。此外，智能体需要定位可操作的物体（例如，只有在识别到苹果时才能拾取它）。为提高操作准确性，整合了SAM。ALFRED任务报告任务成功率（SR）（例如，准备晚餐）和子目标完成率（GC）（例如，面包是否被烤熟或苹果是否被切）。

纸牌游戏 利用来自RL4VLM的纸牌游戏环境来评估Qwen2-VL在一系列纸牌游戏中的表现：Number Line、BlackJack、EZPoint和Point24。每个游戏提出了不同的挑战：

通过+1或-1操作达到目标数字；
抽取或保留牌与庄家竞争；
应用基本算术运算达到总数12；
使用算术运算达到总数24。

报告任务的成功率，这不仅评估了智能体的能力，还需要强大的OCR技能来识别这些牌并理解游戏进程。Qwen2-VL在所有任务中表现优越。

视觉语言导航 在视觉语言导航（VLN）任务中评估Qwen2-VL，使用R2R和REVERIE。在VLN中，模型必须根据指令和当前观察自主确定下一个位置。我们报告该任务中到达预定目的地的成功率（SR）。Qwen2-VL的表现与GPT-4o相当，但两者都显著落后于当前专门的VLN模型。将这一差距归因于模型从多个图像生成的不完整和非结构化的地图信息。在三维环境中准确建模地图和位置仍然是多模态模型面临的重大挑战。

消融研究

本节展示了关于图像动态分辨率、M-RoPE和模型规模的消融研究。这些实验旨在提供这些关键组件对模型性能影响的深入见解。

动态分辨率

如下表7所示，比较了动态分辨率与固定分辨率的性能。在固定分辨率下，调整图像大小，以确保输入到模型的图像tokens数量保持恒定，而不是调整到特定的高度和宽度，因为这会扭曲原始宽高比。在动态分辨率中，我们仅设置了min_pixels=100 × 28 × 28和max_pixels=16384 × 28 × 28，允许图像tokens的数量主要依赖于图像的原始分辨率。可以观察到，调整图像大小仅导致性能的小幅波动，表明模型对不同图像大小的鲁棒性。此外，动态分辨率的方法效率更高。我们发现没有单一固定分辨率在所有基准测试中都能达到最佳性能。相比之下，动态分辨率方法在平均消耗更少tokens的情况下，始终实现顶级性能。

单纯增加图像大小并不总是导致性能的提升。选择适当的分辨率对不同图像更为重要。如下图4所示，将小图像放大到超过指定的min_pixels阈值。对放大图像的评估显示，在InfoVQA、HallusionBench和OCRBench等感知任务上性能增强。我们将这些增益归因于增加的计算负载。然而，对于OCRBench，过高的min_pixels值导致严重的性能下降。这可能是因为OCRBench包含许多极小的图像，过度放大会使这些图像偏离训练数据分布，变成超出分布的样本。相反，增加min_pixels对MMMU基准的影响微乎其微。我们假设MMMU的性能瓶颈与模型的推理能力关系更大，而非图像分辨率。

M-RoPE

本节展示了M-RoPE的有效性。首先，验证其在各种下游任务中的能力。采用Qwen2-1.5B和ViT-L作为基础，并报告预训练模型的结果。如下表8所示，与1D-RoPE相比，使用M-RoPE在下游任务中表现更佳，特别是在视频基准测试中。

此外，在Video-MME中等长度视频上评估了M-RoPE的长度外推能力。下图5展示了Qwen2-VL-72B在不同推理长度下的性能。利用M-RoPE，模型在各种推理长度下表现稳健。值得注意的是，尽管在训练期间每个视频的最大tokens限制为16K，但模型在最大推理长度达到80K tokens时仍表现出色。

模型规模

评估了不同规模模型在多个能力维度上的表现。具体而言，将这些维度分类为复杂的大学水平问题解决能力、数学能力、文档和表格理解、一般场景问答以及视频理解。通过对与每个维度相关的不同基准测试的得分进行平均，我们评估了模型的整体能力。

具体来说, 使用MMMU基准来表示大学水平的问题解决能力，同时，MathVista和MathVision的平均得分作为数学能力的指标。对于一般场景问答，计算RealWorldQA、MMBench-V1.1、MMT-Bench、HallBench、MMVet和MMStar基准的平均得分。

文档和表格理解能力通过DocVQA、InfoVQA、ChartQA、TextVQA、OCRBench和MTVQA基准的平均得分体现。最后，视频理解能力通过MVBench、Perception-Test、EgoSchema和Video-MME的平均得分进行测量。

如下图6(a)所示，随着模型规模的增加，性能呈现出一致的提升，特别是在数学能力方面，这与模型参数的数量呈正相关。另一方面，对于光学字符识别（OCR）相关任务，即使是小规模模型的表现也相对强劲。

如上图6(b)所示，我们可视化了Qwen2-VL-7B在预训练第二阶段中模型性能与训练tokens数量之间的关系。随着训练tokens数量的增加，模型性能有所提升；然而，在视觉问答（VQA）任务上，性能却表现出一定波动。相比之下，对于AI2D和InfoVQA等任务，这些任务涉及理解图像中的文本和图形信息，随着训练数据的增加，模型性能稳步提升。

结论

本文介绍了Qwen2-VL系列，这是多功能的大型视觉语言模型，包括三个开放权重模型，参数总量分别为20亿、80亿和720亿。Qwen2-VL在多种多模态场景中的表现与顶尖模型如GPT-4o和Claude3.5-Sonnet相匹配，超越了所有其他开放权重的LVLM模型。Qwen2-VL系列引入了简单的动态分辨率和Multimodal rotary position embedding （M-RoPE），有效融合跨模态信息，并能够理解超过20分钟长度的视频。凭借先进的推理和决策能力，Qwen2-VL可以与移动设备、机器人等设备集成。此外，Qwen2-VL现已支持理解图像中的多语言文本，包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

目前已将Qwen2-VL模型权重开放获取，允许研究人员和开发者在各种应用和研究项目中充分利用其潜力。我们致力于推进人工智能技术，增强其对社会的积极影响。