MoE-LLaVA：为大型视觉-语言模型引入专家混合

随着人工智能技术的飞速发展，大型视觉-语言模型（LVLMs）在图像理解和自然语言处理方面展现出了巨大的潜力。这些模型通过结合图像编码器和语言模型，能够处理包括图像描述、视觉问答和图像字幕生成等在内的多种任务。然而，现有模型在训练和推理时存在巨大的计算成本，这限制了它们的应用范围和效率。

方法

为了解决这一挑战，本文提出了一种名为MoE-LLaVA的新型LVLM架构，它基于专家混合（MoE）的概念。MoE-LLaVA的核心思想是通过在模型中引入多个专家（experts），并通过路由器（router）动态地将输入数据分配给这些专家，从而实现模型的稀疏性，降低计算成本。

MoE-LLaVA-1.8B×4与其它开源大型视觉-语言模型（LVLMs）在对象幻觉基准上的平均性能比较。图中显示了不同模型的激活参数数量（以十亿计）与它们的性能

MoE-LLaVA模型的架构设计是其创新性的核心，它通过精心设计的组件来实现高效的多模态学习能力。下面详细介绍这些组件：

视觉编码器（Vision Encoder）

视觉编码器是模型的首要组件，其任务是接收原始图像输入并将其转换成一系列视觉令牌（token）。这些令牌是图像的高级表示，捕捉了图像中的关键信息，如形状、颜色、纹理等。视觉编码器通常由卷积神经网络（CNN）或Transformer架构组成，它们能够从图像中提取丰富的特征。

视觉投影层（Visual Projection Layer）

视觉投影层位于视觉编码器之后，其功能是将视觉令牌映射到一个与语言模型隐藏层维度兼容的空间。这一步骤至关重要，因为它确保了视觉信息能够无缝地与语言模型的文本信息进行交互。通过这种方式，模型能够将视觉数据和文本数据统一到一个共同的表示空间中。

词嵌入层（Word Embedding Layer）

词嵌入层负责处理文本输入。它将输入的文本序列转换为一系列的词向量（word embeddings），这些向量是连续的数值表示，能够捕捉单词的语义信息。这些词向量随后可以与视觉令牌一起输入到模型中，使得模型能够理解和生成语言。

多层LLM块（Multi-layer LLM Blocks）

在MoE-LLaVA中，多层LLM块是建立在大型语言模型之上的关键组件，用于处理和融合文本和视觉数据。这些块通常包含多头自注意力机制（multi-head self-attention）和前馈神经网络（FFN），它们能够处理长距离依赖关系，并学习数据中的复杂模式。

MoE块（MoE Blocks）

MoE块是MoE-LLaVA架构中的创新点，它由多个专家（experts）组成，每个专家是一个前馈神经网络（FFN）。这些专家通过一个路由器（router）接收输入数据，路由器负责动态地将输入令牌分配给最合适的专家。这种设计允许模型在保持大量参数的同时，只激活和训练一部分专家，从而实现计算的稀疏性。

MoE-LLaVA模型的不同配置的详细参数，包括专家数量、MoE嵌入宽度、层数、FFN因子、FFN头数、激活的参数和总参数

MoE-Tuning是MoE-LLaVA模型的训练策略，它通过精心设计的三个阶段，引导模型逐步学习处理多模态数据，最终实现高效的学习和推理。

MoE-Tuning的三个阶段：第一阶段只有MLP被训练；第二阶段除了视觉编码器（VE）之外的所有参数都被训练；第三阶段FFNs用于初始化专家，并且只训练MoE层

MoE-LLaVA模型的三个阶段训练策略的框架和方法。第一阶段（a）专注于训练多层感知器（MLP），其目的是将大型语言模型（LLM）适应于视觉输入，使模型能够理解和处理图像数据。第二阶段（b）中，继续训练LLM的后端，以增强模型对多模态数据（即图像和文本）的理解能力，而在这一阶段，MoE层并未参与训练。到了第三阶段（c），通过复制前馈网络（FFN）的权重来初始化每个专家（expert），这是MoE层训练的开始，专家将根据输入数据动态地进行学习和适应。这一策略使得MoE-LLaVA能够在不同阶段逐步构建起强大的多模态学习能力，同时保持模型的高效性和灵活性。

第一阶段：MLP训练

在MoE-Tuning的初始阶段，重点放在训练一个多层感知器（MLP）上。MLP是一个简单的神经网络，它能够对输入数据进行线性变换和非线性激活。在这个阶段，MLP的主要任务是将视觉编码器输出的视觉令牌转换成一种形式，使其能够与大型语言模型（LLM）兼容。这个过程是至关重要的，因为它为模型提供了一种机制，使其能够理解和解释视觉数据中的关键特征，并将其与语言模型的文本处理能力相结合。

第二阶段：LLM参数训练

在MLP成功适配视觉输入之后，训练进入第二阶段，此时重点转移到整个大型语言模型（LLM）的参数上。在这一阶段，模型通过多模态指令数据进行微调，这意味着模型将学习如何同时处理文本和视觉信息，并在这两种模态之间建立联系。通过这种方式，模型不仅能够理解图像内容，还能够理解与图像相关的文本描述，从而增强其对多模态数据的理解和生成能力。

第三阶段：MoE层训练

在前两个阶段的基础上，第三阶段专注于训练MoE层。在这个阶段，模型的FFN（Feed-Forward Network）权重被复制并用作MoE层中各个专家的初始化权重。MoE层由多个专家组成，每个专家都是一个小型的神经网络，能够处理一部分输入数据。通过训练，模型学习如何通过路由器动态地将输入数据分配给最合适的专家。这种训练方式使得模型能够更有效地利用其参数，因为只有与当前任务最相关的专家会被激活，而其他专家则保持不活跃状态，从而实现计算资源的节省。

通过这三个阶段的训练，MoE-LLaVA模型不仅能够学习到如何有效地处理多模态数据，还能够实现模型的稀疏性，即在保持大量参数的同时，只激活和训练一部分专家。这种稀疏性使得模型在处理数据时能够更加灵活和高效，同时降低了训练和推理时的计算成本，使MoE-LLaVA能够在多模态任务上展现出与更大、更密集模型相媲美甚至更优的性能。

实验

实验的基础是构建一个多元化的数据集，它结合了LLaVA-PT、Hybird-FT和LLaVA-FT等不同的数据源。这些数据集不仅在规模上有所不同，涵盖了从558k到665k的样本量，而且在内容上也各具特色，能够全面考验模型的多模态学习能力。在MoE-LLaVA模型的配置上，研究者尝试了不同数量的专家和不同数量的激活专家，这一策略允许模型在保持参数总量不变的情况下，通过调整激活专家的数量来优化性能。

在图像问答任务中，MoE-LLaVA在五个基准测试上的表现与当前最先进方法相当，这证明了其在图像理解方面的强大能力。特别是在ScienceQA和POPE这两个基准测试上，MoE-LLaVA即便使用了较少的激活参数，也能达到与参数量更大的模型相媲美的性能。

表中的“*”表示某些模型在训练数据上存在重叠，而“†”表示模型是使用384分辨率的图像进行训练的。为了直观展示结果，表中用粗体和下划线分别表示了最佳和次佳的结果。

对象幻觉任务要求模型能够根据给定的图像生成相应的描述或解释。MoE-LLaVA在POPE评估方法下展现了卓越的性能，它生成的对象描述与图像内容高度一致，显示出模型在理解和生成视觉内容方面的强大能力。在某些情况下，MoE-LLaVA甚至超过了参数量更大的模型，表明MoE-LLaVA在对象幻觉任务上具有显著的优势。