DeepSeek-VL2论文解读：用于高级多模态理解的专家混合视觉语言模型

github:https://github.com/deepseek-ai/DeepSeek-VL2

paper: https://github.com/deepseek-ai/DeepSeek-VL2/blob/main/DeepSeek_VL2_paper.pdf

大型视觉语言模型（VLMs）已经成为人工智能领域的变革性力量，将大型语言模型（LLMs）的卓越能力扩展到能够无缝处理视觉和文本信息。这一进步极大地拓展了人工智能系统在需要多模态理解的复杂现实应用中的潜力。

在这份技术报告中，我们介绍了DeepSeek-VL2，这是一系列新的开源视觉语言模型，利用专家混合（MoE）架构，在性能和效率上相较其前身DeepSeek-VL取得了显著提升。我们的进步主要集中在三个关键方面：（1）动态的高分辨率视觉编码策略，增强了视觉理解能力；（2）优化的语言模型架构，显著提高了训练和推理效率；（3）精细化的视觉语言数据构建流程，不仅提升了整体性能，还扩展了模型在精确视觉定位等新领域的能力。

在视觉组件方面，我们引入了一种动态平铺视觉编码策略，能够高效处理不同纵横比的高分辨率图像。这种方法改进了DeepSeek-VL的混合视觉编码器，该编码器从固定分辨率（384 × 384和1024 × 1024）的图像中提取特征。我们的方法避免了旧的固定尺寸编码器的限制，尤其在需要超高分辨率的任务中表现出色，如视觉定位、文档/表格/图表分析和详细特征提取，同时保持可管理的视觉标记数量。我们的系统借鉴了成熟的切片平铺方法，动态地将高分辨率输入分割为局部平铺，通过共享的视觉变换器处理每个平铺，并在语言模型中无缝整合提取的特征。该设计保留了具有局部注意力的视觉变换器的优势，实现了丰富的特征提取，而没有随着图像分辨率增加而带来的平方计算扩展。

在语言组件方面，我们利用了DeepSeek语言模型，采用多头潜在注意力（MLA）机制。MLA通过将键值（KV）缓存压缩为潜在向量，显著降低了计算成本，从而实现更快的推理和更高的吞吐能力。我们通过DeepSeekMoE框架进一步提高了效率，该框架采用稀疏计算技术。我们的模型系列采用了三种MoE变体，分别为3B、16B和27B。这些LLMs分别有0.57B、2.4B和4.1B的激活参数。

我们还在质量、数量和多样性方面极大地提升了我们的视觉语言训练数据。这一综合数据集使得在广泛任务中的泛化能力和性能得到改善，包括视觉问答（VQA）、光学字符识别（OCR）、文档/表格/图表理解、视觉推理和通用聊天机器人应用。改进的训练数据还赋予了新能力，如视觉定位和图形用户界面（GUI）感知。

总之，DeepSeek-VL2在大规模专家混合视觉语言建模方面实现了重大飞跃。通过新的视觉处理策略和优化的语言模型，我们开发了一系列在性能与效率之间取得平衡的模型。通过开源预训练模型，我们旨在加速该领域的进展，并促进协作研究的发展。

模型架构

DeepSeek-VL2由三个核心模块组成：（1）视觉编码器，（2）视觉-语言适配器，以及（3）专家混合语言模型。基于其前身的仅解码LLaVA风格架构[54]，DeepSeek-VL2引入了两个主要进步：动态平铺策略和具有多头潜在注意力[53]的DeepSeekMOE[20, 86]语言模型。这些创新使得处理高分辨率视觉输入和文本数据更加高效。

动态平铺策略

原始的DeepSeek-VL采用了混合视觉编码器，将SigLIP[106]用于384 × 384分辨率的粗粒度特征提取，SAM-B[35]用于1024 × 1024分辨率的细粒度特征提取。虽然这种融合方法生成了适用于各种视觉-语言任务的丰富视觉表示，但受限于固定的1024 × 1024分辨率约束。这一限制在处理具有更大分辨率和极端纵横比的图像时尤其具有挑战性，例如在InfographicVQA[67]、密集OCR和详细视觉定位任务中。

受最近VLMs进展[16, 21, 55]的启发，我们通过将高分辨率图像分割为平铺来实现动态平铺策略。这种方法使得使用单一的SigLIP-SO400M-384视觉编码器[106]高效处理不同纵横比的高分辨率图像成为可能。预训练的SigLIP在384 × 384的基础分辨率下运行。为了适应不同的纵横比，我们定义了一组候选分辨率：𝐶𝑅 = {(𝑚 · 384, 𝑛 · 384) | 𝑚 ∈ N, 𝑛 ∈ N, 1 ≤ 𝑚, 𝑛, 𝑚𝑛 ≤ 9}，其中𝑚 : 𝑛表示纵横比。对于尺寸为(𝐻, 𝑊)的输入图像，我们计算将其调整为每个候选分辨率所需的填充区域(我们首先调整原始图像的大小，使其长边与目标分辨率匹配，然后在保持原始纵横比的同时填充另一维度)。我们选择最小化填充区域的分辨率(𝑚𝑖 · 384, 𝑛𝑖 · 384)。调整大小后的图像被分割为𝑚𝑖 × 𝑛𝑖个384 × 384像素的局部平铺，加上一个全局缩略图平铺。SigLIP-SO400M-384视觉编码器处理所有(1 + 𝑚𝑖 × 𝑛𝑖)个平铺，每个平铺生成27 × 27 = 729个1152维的视觉嵌入。为了计算效率和上下文长度管理，在处理多个（> 2）图像时，我们禁用动态平铺策略。

解释

视觉编码器：负责处理和提取图像中的视觉特征。
视觉-语言适配器：将视觉特征与语言模型结合起来，促进多模态理解。
专家混合语言模型：通过多头潜在注意力机制和稀疏计算技术，提高语言模型的性能和效率。
动态平铺策略：通过将高分辨率图像动态分割为局部平铺，解决了固定分辨率编码器的限制，尤其在处理具有极端纵横比的图像时表现出色。

这些改进使得DeepSeek-VL2在处理高分辨率视觉输入和文本数据方面更加高效，为复杂的多模态任务提供了强大的支持。

视觉-语言适配器

在视觉平铺处理之后，我们实施了一个2 × 2像素洗牌操作，将每个平铺的视觉标记从27 × 27压缩到14 × 14 = 196个标记。然后，在处理(1 + 𝑚𝑖 × 𝑛𝑖)个平铺时，我们引入了三个特殊标记。对于全局缩略图平铺（14 × 14），我们在每行的末尾添加14个 <tile_newline> 标记，总共形成14 × 15 = 210个标记。对于𝑚𝑖 × 𝑛𝑖个局部平铺，它们排列成一个形状为(𝑚𝑖 · 14, 𝑛𝑖 · 14)的二维网格，我们在最后一列的末尾附加𝑚𝑖 · 14个 <tile_newline> 标记，以指示所有局部平铺行的结束。此外，在全局缩略图平铺和局部平铺之间插入一个 <view_separator> 标记。完整的视觉序列包含210 + 1 + 𝑚𝑖 · 14 × (𝑛𝑖 · 14 + 1)个视觉标记，这些标记随后通过两层多层感知机（MLP）投射到语言模型的嵌入空间。我们的动态平铺策略的视觉示意图如图3所示。

DeepSeekMoE LLM

我们的语言模型基于DeepSeekMoE[20, 86]，其中包含多头潜在注意力机制[53]。MLA通过将键值缓存压缩为潜在向量来提高推理效率，从而增加吞吐能力。该模型还结合了MoE架构[20]，通过稀疏计算实现高效推理。在MoE训练期间，我们为每个专家引入了一个全局偏置项[86]，以经济有效地改善专家之间的负载平衡。DeepSeek-VL2提供了以下三种模型变体：1.0B、2.8B和4.5B。完整的架构规格可在表1中找到。

解释

视觉-语言适配器：通过像素洗牌和特殊标记的引入，优化了视觉标记的排列和与语言模型的集成。
多头潜在注意力（MLA）：通过压缩键值缓存，提高了推理效率和吞吐能力。
专家混合（MoE）架构：通过稀疏计算提高推理效率，并通过全局偏置项改善负载平衡。
模型变体：提供不同规模的模型，以适应不同的应用需求。

这些设计和技术的结合，使得DeepSeek-VL2在处理视觉和语言数据时更加高效和灵活。

训练方法论

4.1 训练流程

DeepSeek-VL2通过三阶段的流程进行训练：

初始阶段：在这个阶段，我们使用第3.1节中详细描述的图文配对数据，训练视觉编码器和视觉-语言适配器MLP，同时保持语言模型固定。
预训练阶段：在这一阶段，我们使用第3.2节描述的数据进行视觉-语言预训练。在此阶段，所有模型参数，包括视觉编码器、视觉-语言适配器和语言模型，都会解锁并同时训练。
微调阶段：在这个阶段，我们使用第3.3节概述的数据进行有监督的微调，进一步优化模型性能。

在预训练和微调阶段，我们强调视觉理解能力，并仅在文本标记上计算下一个标记预测损失。

视觉-语言对齐

基于预训练的语言模型（DeepSeekMoE 3B/16B/27B），我们的主要目标是建立视觉特征和语言特征之间的稳固连接。这种对齐使得预训练的语言模型能够有效地处理视觉输入。与之前的方法[54, 59]不同，这些方法保持预训练的视觉编码器和语言模型固定，我们调整固定分辨率的视觉编码器以适应动态高分辨率图像。在这个阶段，我们优化视觉编码器和视觉-语言适配器，同时保持语言模型冻结。

视觉-语言预训练

在嵌入空间中建立视觉-语言对齐之后，我们将大部分计算资源用于视觉-语言预训练。这个阶段的重点是开发跨多种任务的综合性联合视觉-语言知识。我们解锁所有参数，包括视觉编码器、视觉-语言适配器和语言模型，并同时进行训练。

通过这些阶段的系统训练，DeepSeek-VL2不仅能够处理高分辨率的视觉输入，还能够在多模态任务中表现出色。这种训练方法使得模型在多样化的任务中提高了视觉和语言理解能力。

有监督微调

在最后阶段，我们通过有监督的微调来增强预训练模型的指令跟随能力和对话能力。利用我们内部的视觉语言SFT数据，我们优化所有参数，但仅对答案和特殊标记进行监督，同时屏蔽系统和用户提示。为了加强对话理解，我们将多模态数据与来自DeepSeek-V2 [53]的纯文本对话数据结合使用。这种方法确保了在各种视觉语言任务中具有强大的性能，包括密集图像描述、通用视觉问答（VQA）、光学字符识别（OCR）、表格/图表/文档/图形理解、视觉到代码、视觉推理、视觉定位和语言理解等。

4.2 超参数和基础设施

DeepSeek-VL2训练的详细超参数列在表2中。我们的训练和评估是在HAI-LLM [30]平台上进行的，这个平台是为大型模型设计的高效轻量级平台。在我们的流水线并行策略中，视觉编码器相对于LLM块的独特计算特性带来了显著的挑战。作为模型流水线中的第一个组件，视觉编码器需要在GPU之间进行仔细的负载平衡，以防止流水线空泡并优化GPU利用率。为了解决这个问题，我们在流水线并行策略中对视觉编码器进行了细粒度的层划分。此外，我们在前向和后向过程中，在不同的数据并行等级间执行图像平铺负载平衡，以缓解动态分辨率策略导致的图像平铺数量不平衡问题。我们的训练过程还结合了张量并行和专家并行的方法，以实现最高效率。由于某些数据批次只有文本数据，而其他批次包含图像数据，我们为不同类型的数据引入了两种不同的流水线策略，并根据需要在这两种策略之间切换。DeepSeek-VL2的训练在7/10/14天内完成，使用了16/33/42个节点的集群，每个节点配备8个NVIDIA A100 GPU。