多模态大语言模型和 Apple 的 MM1

原文地址：multimodal-large-language-models-apples-mm1

2024 年 4 月 13 日

抽象是计算机科学中最关键的概念之一，具有一些最强大的影响。从简单的角度来看，抽象就是将某一事物应用于多种不同情况的能力。例如，如果你创造了一种方法，可以在工厂中成功地根据苹果的大小进行分类，那么你的解决方案也可以抽象为以同样的方式对橘子或桃子进行分类。这样，通过抽象，一个非常强大的解决方案就能从根本上影响世界的多个部分。

虽然大型语言模型（Large Language Models）在以文本作为输入时的推理能力非常出色，但最近我们已经能够对其输入进行抽象，使其能够对图像和声音进行推理。

下面这篇文章将介绍苹果公司 MM1 论文中的架构删减，以及他们在构建多模态大型语言模型（MLLM）时的研究成果。

抽象LLM型输入

大型语言模型背后的架构可以追溯到 2017 年的论文《Attention is All You Need》，其中介绍了 Transformer 架构。

本文展示了如何将人类语言转化为神经网络可以处理的标记（在该论文中，处理为不同的语言）

从图中可以看到，我们很早就进行了转换，将输入转换为标记（嵌入部分）。然而，只有文本数据才能被映射为标记，这并没有内在的原因。因此，该领域开始尝试将其他类型的数据映射为标记。

MM1 架构基础

苹果的模型有三个关键组件：视觉转换器（ViT）图像编码器、视觉语言连接器和大型语言模型。假设你已经对大型语言模型及其工作原理有了一定的了解，下面我们就来深入了解图像编码器和视觉语言连接器。

图像编码器和视觉连接器

虽然从抽象的角度来看，我们可以将文本和图像想象成简单的不同输入类型，但要使其正常工作，我们需要接受的是，我们可能必须以不同的方式处理它们，才能将它们转换成令牌形式。目前，我们有两个不同的系统来帮助我们将图像转换成 LLM 可以推理的标记：图像编码器和连接器。

首先，图像编码器负责将我们的图像转换成转换器模型可以理解的标记形式。

其次，连接器从图像编码器中获取数据，并将其转换为直接传递给大型语言模型的数据。鉴于图像编码器会返回标记，你可能会问为什么我们需要连接器。我们的想法似乎是，图像编码器在其标记中提供了太多信息，因此，为了在优化推理的同时降低成本，我们希望有选择地传递信息。

下图显示了我们正在使用的数据流。

10、

消融

机器学习中的消融研究围绕着删除和修改模型的某些部分，以了解它们对整体性能的贡献。苹果的研究围绕着不同的图像编码器训练方式、VL Connector 的不同投影仪以及不同的预训练数据展开。

图像编码器消融

在图像编码器方面，CLIP 和 AIM 模型、图像分辨率大小以及模型训练数据集都有所不同。下图显示了每种消融的结果。

让我们来回顾一下上面的主要部分，并解释一下它们是什么。

CLIP 是 "对比语言图像预训练"（Contrastive Language Image Pre-training）的缩写，目的是通过为文本中的事物提供名称，帮助模型学习视觉概念。如下图所示，它将图像与文本编码配对，以便模型最终将视觉标记（下图中表示为 I，文本标记为 T）连接起来。这种方法称为对比训练。

AIM 是自回归图像模型的缩写，通过重建损失优化算法对其进行训练。这里的目标是看变换器能否重新创建（重建）所给的图像。

这里的图像分辨率指的是输入转换器的像素数。例如，378 x 378 的图像分辨率意味着我们将输入该大小的矩阵，然后将其转换为嵌入式数据，再在此基础上对模型进行训练。训练数据分为 (DFN-2B)、(DFN-5B)、(DFN-5B + VeCap) 和 (ImageText-400M)。

VL 连接消融

对于 VL Connector，他们测试了使用 64 或 144 标记的图像，测试了使用 224、336 和 378 的图像分辨率，并选择了几种架构。下面我将简要介绍一下这些架构。

平均池化 "和它听起来的意思一样，取所有tokens的平均值，然后对这个平均值进行线性投影，使网格为 8x8 或 12x12。

注意力池假设图像标记应被视为来自与文本标记完全不同的群体集的样本。在这里，我们调整了每张图片输入的标记数量，在本文中称为 k 可学习查询。研究人员只考虑了 64 或 144 的 k。

卷积映射是 Honeybee 提出的一种方法，它使用 ResNet 来动态决定从图像传递到 LLM 的词块数量。这在 C-Abstractor 模块中得以实现。

从上面可以看出，不同的架构实际上影响不大。正如我们所猜测的那样，更高分辨率的图像和更多的令牌通过会提高所有连接器的性能，但并不显著。

这一发现表明，我们要么还没有找到更好的方法将图像编码器与 LLM 连接起来，要么这一领域根本就不是优秀模型能够脱颖而出的地方。

训练前数据消融

在这里，使用了 4 种不同的数据：带标题的图像、带标题的合成图像、交错图像-文本数据和纯文本数据。他们发现了 4 条经验，每条经验都有一张图表来总结性能变化。

首先，交错数据有助于提高少镜头和纯文本性能，而字幕数据则有助于提高零镜头性能。研究人员改变了交错的程度，下图显示了结果。正如你所看到的，在使用交错数据训练的模型上，少镜头提示的表现明显优于使用全部或无交错数据训练的模型。

其次，纯文本数据有助于少量推理。这里的纯文本是指训练数据包括图像示例和纯文本示例。这样做是为了确保模型既能理解人类语言，也能理解图像。将纯字幕与带文字字幕进行比较后发现，除 0 次拍摄推理外，其他所有推理都有明显改善，然而，除 TextCore 测试外，在其他所有测试中，纯交错数据的表现都优于交错加文字数据

然后，如果图像和文本的混合比例恰当，就能获得非常强大的性能。上图显示了交错+标题数据与纯文本数据的不同比例。由于目标是建立一个多模式模型，他们从未测试过没有图像数据时的性能。

接着，合成数据有助于少镜头学习。VeCap 是 "Visual-enriched Caption "的缩写，它是一种创建标题的方法，确保标题能够描述图片的关键视觉片段。反过来，想象一下，标题可以解释一张照片背后的含义，但却不解释照片中的任何元素。如果你的数据抓取器发现图片的alt-text数据很差，你通常会这样做。

这里的作者得出结论，VeCap 对少量照片的推理有 "非同小可 "的促进作用，但对质量的提高相对较小。这就对 VeCap 的成本效益提出了质疑。

研究结果

利用消融结果，创建了两种形式的 Transformer：专家混合型和普通型。这两种模型都有一个编码器，编码器的图像为 378 x 378，仅使用 DFN-5B 数据集进行预训练。它们混合了 45% 的字幕数据、45% 的交错数据和 10% 的纯文本数据（近似于图像与文本数据 91:9 的比例）。VL Connector 有 144 个标记，他们选择了一个 C Abstractor，不过他们指出这是一个有些随意的选择。对于 LLM 本身，他们创建了一个 3B、7B 和 30B 参数模型（MoE 模型最高只能达到 7B）。下图显示了这些模型的性能。