EAGLE——探索混合编码器的多模态大型语言模型的设计空间

概述

准确解释复杂视觉信息的能力是多模态大型语言模型 (MLLM) 的关键重点。最近的研究表明，增强的视觉感知可显著减少幻觉并提高分辨率敏感任务（例如光学字符识别和文档分析）的性能。最近的几种 MLLM 通过利用视觉编码器的混合来实现这一点。尽管它们取得了成功，但缺乏系统的比较和详细的消融研究来解决关键方面，例如专家选择和多位视觉专家的整合。本文对使用视觉编码器和分辨率的混合的 MLLM 的设计空间进行了广泛的探索，Eagle 框架试图探索使用编码器混合的多模态大型语言模型的设计空间。研究结果揭示了各种现有策略共同的几个基本原则，从而导致了一种简化而有效的设计方法。Eagle 发现，简单地将一组互补视觉编码器中的视觉标记连接起来与更复杂的混合架构或策略一样有效。此外，Eagle 引入了预对齐来弥合以视觉为中心的编码器和语言标记之间的差距，从而增强了模型的一致性。由此产生的 MLLM 系列 Eagle 在主要 MLLM 基准测试中超越了其他领先的开源模型。

Eagle 的工作与多模态大型语言模型 (MLLM) 的总体架构设计有关。除了前面提到的代表性开源研究之外，其他值得注意的 MLLM 系列包括但不限于 MiniGPT-4、Lynx、Otter、QwenVL、CogVLM、VILA、GPT-4V、Gemini 和 Llama 3.1。根据视觉信号如何集成到语言模型中，MLLM 可以大致分为“跨模态注意”模型和“前缀调整”模型。前者使用跨模态注意将视觉信息注入 LLM 的不同层，而后者将视觉标记视为语言标记序列的一部分并直接将其附加到文本嵌入中。Eagle 的模型属于前缀调整系列，遵循 LLaVA 风格的多模态架构。考虑到 MLLM 是一个快速发展的领域，Eagle 建议参考更详细的研究和调查以获得进一步的见解。

Eagle 的工作与专注于改进 MLLM 的视觉编码器设计的研究密切相关。早期的工作通常采用在视觉语言对齐任务上预先训练的视觉编码器，例如 CLIP 和 EVA-CLIP。更强大的视觉编码器（例如 SigLIP 和 InternVL）已被提出，以通过更好的设计、更大的模型尺寸和更有效的训练配方来增强视觉语言任务。由于模型通常在低分辨率图像上进行预先训练，并且可能缺乏编码细粒度细节的能力，因此经常执行更高分辨率的自适应以提高 MLLM 输入分辨率。除了更高分辨率的自适应之外，LLaVA-NeXT、LLaVA-UHD、Monkey、InternLM-XComposer 和 InternVL 等模型使用平铺或自适应平铺来处理高分辨率输入，其中图像被分成较低分辨率的块并单独处理。虽然通过引入额外的视觉专家可以处理更高分辨率，但这种方法与平铺技术略有不同，尽管两者都兼容并且可以结合使用。

使用混合编码器探索多模态 LLM 的设计空间

大型语言模型 (LLM) 的成功引发了人们对实现视觉感知能力的极大兴趣，让它们能够在现实世界中观察、理解和推理。这些模型的核心多模态大型语言模型（MLLM）是一种典型的设计，其中图像由视觉编码器转换为一系列视觉标记并附加文本嵌入。CLIP 通常被选为视觉编码器，因为它的视觉表示通过对图像-文本对进行预训练与文本空间对齐。根据架构、训练配方和将视觉标记注入语言模型的方式，MLLM 的著名系列包括 Flamingo、BLIP、PaLI、PaLM-E 和 LLaVA。由于预训练视觉编码器和 LLM 序列长度的限制，大多数这些模型都保持相对较低的输入分辨率。Eagle 的工作与使用多个视觉编码器来改善感知的模型密切相关。Mini-Gemini 和 LLaVA-HR 建议将高分辨率视觉特征融合到低分辨率视觉标记中。除了分辨率问题之外，这些预训练的视觉编码器可能缺乏特定功能，例如读取文本或定位对象。为了解决这个问题，各种模型集成了在不同视觉任务上预训练的视觉编码器，以增强视觉编码器的功能。

例如，Mousi 和 Brave 等模型通过沿通道或标记方向连接来融合来自不同视觉编码器的视觉标记。RADIO 引入了多教师蒸馏方法，将不同视觉编码器的能力统一到单个模型中。MoAI、IVE 和 Prismer 进一步使用视觉专家的输出（例如 OCR、检测或深度估计）来补充 MLLM 生成答案的附加信息。MoVA 设计了一个路由网络，根据给定的图像和指令分配最佳视觉模型。

最近的研究表明，更强大的视觉编码器设计对于减少 MLLM 幻觉并提高光学字符识别 (OCR) 等分辨率敏感任务的性能。一些研究侧重于增强视觉编码器的能力，要么通过扩大预训练数据和参数，要么通过将图像划分为低分辨率块。然而，这些方法通常会带来大量的训练资源需求。一种有效而强大的策略是混合使用不同任务和输入分辨率进行预训练的视觉编码器，要么通过将更高分辨率的编码器与 CLIP 编码器融合，依次附加来自不同编码器的特征，要么采用更复杂的融合和路由策略来最大限度地发挥不同编码器的优势。这种“视觉专家混合”方法已被证明是有效的，尽管对其设计空间的详细研究和严格的烧蚀仍然缺乏，这促使 Eagle 重新审视这一领域。关键问题仍然存在：选择哪种视觉编码器组合，如何融合不同的专家，以及如何使用更多视觉编码器调整训练策略。

为了解决这些问题，Eagle 系统地研究了混合视觉编码器设计空间，以改进 MLLM 感知。该设计空间的探索涉及以下步骤：1) 对各种视觉编码器进行基准测试并寻找更高分辨率的适应性；2) 对视觉编码器融合策略进行“同类”比较；3) 逐步确定多个视觉编码器的最佳组合；4) 改进视觉专家预对齐和数据混合。探索步骤如下图所示。

在这里插入图片描述

Eagle 的研究涵盖了针对不同任务和分辨率进行预训练的视觉编码器的性能，例如视觉语言对齐、自监督学习、检测、分割和 OCR。Eagle 采用循环方法，从基本的 CLIP 编码器开始，每次添加一位专家，选择在每一轮中提供最佳改进的专家。

虽然 Eagle 的研究并不是第一个在 MLLM 中利用多个视觉编码器的研究，但这项系统研究在此环境下得出了几个关键发现：

在 MLLM 训练期间解锁视觉编码器很重要。 这与 LLaVA 等考虑多个视觉编码器或教师的模型形成对比，在这些模型中，冻结视觉编码器是一种常见的做法。
一些最近提出的融合策略并未表现出明显的优势。 相反，直接的通道连接成为一种简单但有竞争力的融合策略，可提供最佳的效率和性能。
吸纳更多视觉专家可带来持续收益。 除了扩大单个编码器的规模外，这使其成为系统地增强 MLLM 感知的一条有希望的途径。当视觉编码器解锁时，改进尤其明显。
预调准阶段是关键。 Eagle 引入了预对齐阶段，其中非文本对齐的视觉专家使用冻结的 LLM 进行单独微调，然后再一起进行训练。此阶段显著提高了混合视觉编码器设计下的 MLLM 性能。

方法论和架构

与之前专注于视觉编码器之间的新融合策略或架构的方法不同，Eagle 的目标是确定一种极简设计来融合不同的视觉编码器，并通过详细的消融和移除任何不必要的组件来支持。如下图所示，Eagle 首先将基本 CLIP 编码器扩展为一组具有不同架构、预训练任务和分辨率的视觉专家。然后，Eagle 会利用这些专家比较不同的融合架构和方法，并探索如何使用多个编码器优化预训练策略。

在这里插入图片描述

最后，Eagle 将所有发现结合起来，并将该方法扩展到具有不同分辨率和领域知识的多个专家视觉编码器。使用与 LLaVA-1.5 相同的预训练数据（包含 595k 个图像-文本对），Eagle 进入监督微调阶段，通过从一系列任务中收集数据并将其转换为多模态对话，包括 LLaVA-1.5、Laion-GPT4V、ShareGPT-4V、DocVQA、synDog-EN、ChartQA、DVQA 和 AI2D，产生 934k 个样本。

该模型首先使用图像-文本对进行预训练，训练一个时期，批处理大小为 256，其中整个模型处于冻结状态，并且仅更新投影层。在第二阶段，该模型在监督微调数据上进行微调，训练一个时期，批处理大小为 128。对于本次探索，Eagle 采用 Vicuna-7B 作为底层语言模型。第一阶段的学习率设置为 1e-3，第二阶段的学习率设置为 2e-5。

更强大的 CLIP 编码器

Eagle 从 CLIP 模型开始探索，因为它已成为许多 MLLM。虽然 CLIP 模型可以增强多模态任务，但它们的局限性也得到了充分证明。例如，许多现有的 MLLM 倾向于使用预先训练的 CLIP 分辨率（例如 224 × 224 或 336 × 336）作为输入分辨率。在这些情况下，编码器通常难以捕捉对分辨率敏感的任务（如 OCR 和文档理解）至关重要的细粒度细节。

在这里插入图片描述

为了处理更高的输入分辨率，一种常见的方法是平铺，即将输入图像分成多个图块并单独编码。另一种更简单的方法是直接扩大输入分辨率，并在必要时插入视觉变换器模型的位置嵌入。Eagle 将这两种方法与不同分辨率的冻结和非冻结视觉编码器进行了比较，结果包含在上表中。研究结果可以总结如下：

解冻 CLIP 编码器在插值到不同于 CLIP 预训练分辨率的更高 MLLM 输入分辨率时会带来显著的改善，而当分辨率保持不变时性能不会下降。
冻结 CLIP 编码器并直接使其适应更高的 MLLM 输入分辨率会严重损害性能。
在所比较的策略中，使用未冻结的 CLIP 编码器直接插值到 448 × 448 在性能和成本方面被证明是有效且高效的。
尽管最佳 CLIP 编码器的模型规模小得多（300M 对 6B），且预训练数据较少，但它的性能仍接近 InternVL。

值得注意的是，CLIP-448 允许 Eagle 将设置与 LLaVA-HR 和 InternVL 相匹配，其中 CLIP 编码器同样适用于采用 448 × 448 输入并输出 1024 个 patch token。为了进一步研究，Eagle 遵循了这一简单策略，即在训练期间扩大输入分辨率并解锁视觉编码器。

在这里插入图片描述

Eagle 观察到，现有的流行融合策略尽管设计各异，但大致可以分为以下几类：

序列追加：直接将来自不同主干的视觉标记附加为更长的序列。
通道连接：沿通道维度连接视觉标记而不增加序列长度。
拉瓦一高回弹率：使用混合分辨率适配器将高分辨率特征注入低分辨率视觉编码器。
迷你双子座：使用 CLIP 标记作为低分辨率查询来交叉参与位于同地本地窗口中的另一个高分辨率视觉编码器。
可变形注意力机制：在 Mini-Gemini 之上引入的新基线，其中原始窗口注意力被可变形注意力所取代。

在这里插入图片描述
我们并没有像 LLaVA 最初的预训练策略那样训练投影仪来同时对齐多个视觉专家，而是首先使用下一个标记预测监督将每个专家的表示与较小的语言模型（实践中为 Vicuna-7B）对齐。如下图所示，通过预对齐，整个训练过程包括三个步骤：1）在 SFT 数据上使用他们自己的投影仪训练每个预训练的视觉专家，同时保持语言模型不变；2）将第一步中的所有视觉专家结合起来，并使用图像文本对数据仅训练投影仪；3）在 SFT 数据上训练整个模型。

实验与结果

Eagle 在精心制定策略后，为该模型制定了以下原则：（1）整合更多视觉专家，并采用优化的训练方案；（2）通过直接通道连接将多个视觉专家组合在一起；（3）通过预对齐分别对视觉专家进行预训练。在本节中，为了进一步展示 Eagle 模型的优势，我们将加入额外的训练数据，并将 Eagle 与当前最先进的 MLLM 在各种任务中进行比较。Eagle 使用 Vicuna-v1.5-7B、Llama3-8B 和 Vicuna-v1.5-13B 作为语言模型。对于视觉编码器，根据第 2.6 节中的结果，Eagle 模型表示为 Eagle-X4，其中包括四个视觉编码器：CLIP、ConvNeXt、Pix2Struct 和 EVA-02，以及 Eagle-X5，其中包括一个额外的 SAM 视觉编码器。

视觉问答任务

Eagle 在三个视觉问答 (VQA) 基准（包括 GQA、VQAv2 和 VizWiz）上比较了该模型系列。如下表所示，Eagle-X5 在 GQA 和 VQAv2 上实现了最佳性能，凸显了加入更多视觉专家的优势。
在这里插入图片描述

OCR 和图表理解任务

为了评估 Eagle 的 OCR、文档和图表理解能力，我们在 OCRBench、TextVQA 和 ChartQA 上对该模型进行了基准测试。如上表所示，得益于 Eagle 的高分辨率架构和不同视觉编码器的集成，Eagle 在 TextVQA 上的表现明显优于竞争对手。值得注意的是，Eagle 保持了简单的设计，最多支持 1024 个 token，而无需对图像进行复杂的图块分解。

下图为OCR与文档理解的案例，通过高分辨率适配，以及更多视觉专家的加入，Eagle可以识别图片中的细小文字，并根据用户的指令精准提取信息。

在这里插入图片描述
为了更好地理解引入在其他视觉任务上经过预训练的专家的好处，下图直观地展示了仅使用 ConvNeXt 和 CLIP 视觉编码器的模型的结果，并与 Eagle-X5 的结果进行了比较。借助全套视觉编码器，该模型成功纠正了错误，这表明即使配备了在视觉语言对齐上经过预训练的高分辨率视觉编码器，通过集成在其他视觉任务上经过预训练的视觉专家，Eagle 的功能也会得到进一步增强。

在这里插入图片描述

多模态基准评估

Eagle 在七个 MLLM 基准上进行评估，以从不同角度展示其功能，包括 MME、MMBench、SEED、MathVista、MMMU、ScienceQA 和 POPE。具体来说，MME、MMBench 和 SEED 评估涉及推理、识别、知识和 OCR 的各种实际任务的整体性能。MMMU 专注于需要大学水平知识的不同领域的挑战性问题。POPE 评估 MLLM 的视觉幻觉。此评估中使用的指标遵循这些基准的默认设置。Eagle 报告 MME 的感知分数、MMBench 的 en_dev 分割、SEED 的图像分割、MathVista 的测试迷你分割、MMMU 的 val 分割、POPE 的 F1 分数和 ScienceQA 的图像分数，确保与其他模型报告的分数保持一致。

在这里插入图片描述

总结

在本文中，我们讨论了 Eagle，这是对将视觉编码器集成到多模态大型语言模型中的设计空间的深入分析。与之前专注于设计新颖的融合范式的作品不同，Eagle 发现系统性的设计选择很重要，并发现了一系列有用的技术。Eagle 一步步优化了单个视觉编码器的训练配方，确定了一种可扩展且高效的融合方法，并逐渐将视觉编码器与不同的领域知识结合起来。结果强调了基本设计空间考虑的重要性。