多模态大语言模型的 (R) 演变：调查

连接文本和视觉模式在生成智能中起着至关重要的作用。因此，受大型语言模型成功的启发，大量研究工作致力于多模态大型语言模型（MLLM）的开发。这些模型可以无缝集成视觉和文本模式作为输入和输出，同时提供基于对话的界面和指令跟踪功能。该论文对最近基于视觉的 MLLM 进行了全面回顾，分析了它们的架构选择、多模态对齐策略和训练技术。论文对这些模型进行了广泛的任务的详细分析，包括视觉基础、图像生成和编辑、视觉理解和特定领域的应用。论文还编译和描述训练数据集和评估基准，在性能和计算要求方面对现有模型进行比较。总的来说，这项调研全面概述了当前的技术水平，为未来的 MLLM 奠定了基础。
在这里插入图片描述

1. Introduction

注意力算子和 Transformer 架构的引入（Vaswani 等人，2017）使得能够创建能够处理越来越大规模的各种模式的模型。这一进步很大程度上归功于算子的多功能性和架构的适应性。最初，这一突破被用于特定于语言的模型（Devlin 等人，2018 年；Brown 等人，2020 年），但很快扩展到支持视觉处理主干（Dosovitskiy 等人，2021 年），并最终用于集成多种模式的模型（Radford 等人，2021）。
复杂的大型语言模型（LLM）的激增，特别是它们的能力情境学习鼓励研究人员扩大这些模型的范围，以涵盖多种模式，包括输入和输出。这种扩展导致了 GPT-4V（Achiam 等人，2023）和 Gemini（Anil 等人，2023）等尖端模型的开发，展示了最先进的性能。多模态大语言模型（MLLM）的开发需要合并视觉和语言的单模态架构，通过视觉到语言适配器在它们之间建立有效的连接，并设计创新的培训方法。这些方法对于确保模态一致性和准确遵循指令的能力至关重要。论文的目标是提供 MLLM 景观的详尽概述，重点关注利用视觉模态的模型。这一概述既是对当前状态的更新，也是未来发展的灵感来源。论文定义这些模型的三个核心方面：它们的架构、训练方法以及它们设计要执行的任务。论文首先详细介绍为LLMs配备跨模式功能的视觉编码器和适配器模块的普遍选择。接下来，论文深入研究训练过程和所使用的数据。然后探讨 MLLM 解决的任务范围。最后讨论了该领域持续存在的挑战以及未来研究的有希望的方向。补充材料中报告了有关训练数据、评估数据集以及性能和计算要求的更多详细信息。

2. 赋予LLMs多模态能力

2.1 大型语言模型

上下文学习，即在提示前添加一些示例来演示LLMs的期望输出，可以改善它的性能，尤其是在看不见的任务上。通过向LLMs提供每个训练样本所需任务的自然语言描述，可以进一步增强泛化能力。这种技术被称为指令调整（Chung et al., 2022；Wang et al., 2022b,a；Jiang et al., 2024），事实证明对于使LLMs的行为与人类的行为保持一致至关重要，目前赋予最先进的LLMs权力，最终通过人类反馈的强化学习（RLHF）得到提升（Ouyang et al., 2022; Achiam et al., 2023; Chen et al., 2023j; Bai et al., 2023a）。
PEFT：当预训练的 LLM 需要适应特定领域或应用时，参数高效微调 (PEFT) 方案是训练整个 LLM 的重要替代方案，因为这些策略仅引入一些新参数。其中，提示调整（Hambardzumyan et al., 2021; Lester et al., 2021; Li and Liang, 2021; Liu et al., 2023j）学习一小组向量，作为输入之前的软提示输入模型文本。不同的是，LoRA（Hu et al., 2021）通过学习低秩矩阵来限制新权重的数量。该技术与 QLoRA (Dettmers et al., 2023) 等量化方法正交，与通常的半精度权重相比，这进一步减少了 LLM 的内存占用，迈向多模态LLM。 MLLM 的发展遵循与 LLM 类似的路径，Flamingo（Alayrac 等人，2022）是第一个在视觉语言领域探索大规模情境学习的人。然后，视觉指令调整（Liu et al., 2023e）很快成为多模态领域最突出的训练范例，以及使用 PEFT 技术来微调 LLM。任何 MLLM 至少包含三个组件（图 1）：充当用户界面的 LLM 主干、一个（或多个）视觉编码器以及一个或多个视觉到语言适配器模块。 LLM 主干网络的热门选择通常属于 LLaMA 家族（Touvron 等人，2023a,b），因为它们的权重可以自由访问，它们仅接受公共数据的训练，并且它们拥有不同的大小以适应不同的用例。此外，它们的衍生版本也很受欢迎，例如Alpaca（Taori et al., 2023）和Vicuna（Chiang et al., 2023）。前者根据使用 GPT-3 编写的指令对 LLaMA 进行微调，而后者则利用与 ChatGPT 的用户共享对话（OpenAI，2022）。替代方案包括 OPT (Zhang et al., 2022b)、Magneto (Wang et al., 2023b)、MPT (MosaicML, 2023) 和指令调整 (Chung et al., 2022) 或多语言 (Xue et al., 2023)。 2020）T5 风格（Raffel et al., 2020），一种针对多个任务进行预训练的编码器-解码器语言模型。表 1 报告了本次调查中涵盖的 MLLM 的摘要，指出了每个模型所基于的 LLM、视觉编码器、用于连接视觉和语言组件的适配器、MLLM 是否经过视觉指令调整训练或不，以及主要任务和功能的简短列表。

2.2 视觉编码器

在MLLM中，关键组件之一是视觉编码器，它是专门为LLM提供视觉提取特征而设计的。通常采用冻结的预训练视觉编码器，同时仅训练将视觉特征与底层 LLM 连接起来的可学习界面。最常用的视觉编码器基于预先训练的 Vision Transformer (ViT) 模型，具有基于 CLIP 的目标，以利用 CLIP 嵌入的固有对齐。流行的选择是 CLIP 的 ViT-L 模型（Radford 等人，2021）、OpenCLIP 的 ViT-H 主干网（Wortsman 等人，2022）以及 ViT-g 版本。 CLIP 和 OpenCLIP 编码器根据从网络收集的图像进行训练，采用对比方法来对齐正确的图像文本对。相反，EVA-CLIP 是一个模型系列，为训练 CLIP 模型提供了实用且有效的解决方案。特别是，EVA 模型经过预训练，可以根据可见图像块重建遮蔽的图像文本对齐的视觉特征。如（Li et al., 2023f）所示，更强的图像编码器可以带来更好的性能。基于这一见解，Lin 等人。 (2023b) 和高等人。（2024）提出了一个冻结视觉主干的集合来捕获鲁棒的视觉表示和不同级别的信息粒度。同时，PaLI 模型（Chen 等人，2023i,g）注意到语言和视觉参数之间的不平衡，建议将视觉主干分别缩放到 4 和 220 亿参数 ViT。通过在训练期间保持视觉编码器冻结的常见做法，可以利用如此庞大而强大的模型，如（Li et al., 2023f; Huang et al., 2023a; Gau et al., 2023; Chen等人，2023f）。然而，采用冻结视觉编码器有一些局限性，主要是由于参数数量有限，导致视觉和语言模态之间的对齐不充分。具体来说，从视觉模型中提取的密集特征可能会使细粒度的图像信息变得碎片化，并且由于输入到语言模型时的序列较长而带来大量的计算量。为了缓解这个问题，其他方法（Ye 等人，2023c，d）采用了两阶段训练范例。在第一阶段，他们整合了可训练的视觉主干，同时保持预训练的LLMs冻结。根据他们的发现，使视觉编码器可训练可以提高视觉问答或视觉描述等任务的性能。然而，它可能会导致其他任务的性能下降，表明一定程度的遗忘和对一般视觉表示的损害。

2.3 视觉到语言适配器

来自不同模态的输入的同时存在强调需要合并一个能够在这些单模态域内描绘潜在对应关系的模块。这些模块被称为“适配器”，旨在促进视觉和文本域之间的互操作性。常见的 MLLM 中使用了一系列不同的适配器，从线性层或 MLP 等基本架构到基于 Transformer 的解决方案等高级方法（以 Q-Former 模型为例），以及添加到 LLM 的条件交叉注意层。
线性和 MLP 投影：将视觉输入投影到文本嵌入的最直接方法涉及学习线性映射，它将视觉特征转换为与文本对应物相同的维度。 LLaMA-Adapter (Gao et al., 2023) 和 FROMAGe (Koh et al., 2023b) 等一些方法仅采用单个线性层来执行多模态连接，而 LLaVA-1.5 (Liu et al., 2023d) 采用两层 MLP，显示出改进的多模态能力。尽管线性投影在早期 MLLM 中被广泛采用，但即使在对视觉输入有更深入理解的最新方法中，线性投影的使用也被证明非常有效（Chen 等人，2023f；Lin 等人，2023a；Wang 等人， 2023c；尤等人，2023；赵等人，2023a）。因此，这是一种简单而有效的技术，可以将视觉特征与文本特征对齐。另一种方法（Cha et al., 2023）提出用卷积层替换线性层，展示了适度的改进。
Q-former：它是 BLIP-2 中提出的基于 Transformer 的模型（Li 等人，2023f），然后用于其他几种方法（Chen 等人，2023d；Dai 等人，2023；Hu 等人，2024）。它的特点是其适应性强的架构，由两个共享相互自我关注层的 Transformer 块组成，促进视觉和文本表示之间的对齐过程。它涉及一组可学习的查询，这些查询在自注意力层中交互，并通过交叉注意力机制与视觉特征交互。文本和视觉元素通过模块内共享的 selfattention 进行通信。从 Q-Former 中汲取灵感，推出了各种修改版本。在这方面，mPLUG-Owl 模型（Ye 等人，2023c，d）简化了 Q-Former 架构，并提出了一种视觉抽象器组件，该组件通过将视觉信息压缩为不同的可学习标记来进行操作，以导出语义上更丰富的视觉表示。同样，Qwen-VL（Bai et al., 2023b）使用单层交叉注意模块和可学习查询来压缩视觉特征，还结合了 2D 位置编码。

额外的交叉注意力层：这种方法已在 Flamingo（Alayrac 等人，2022）中提出，在 LLM 现有的预训练层中集成了密集的交叉注意力块。新添加的层通常与零初始化 tanh 门控机制相结合，以确保在初始化时，条件模型充当其原始版本。使用额外的交叉注意力层需要从头开始训练它们，与其他替代方案相比，增加了可训练参数的数量。为了降低计算复杂性，该策略通常与基于 Perceiver 的组件配对（Jaegle 等人，2021），该组件在将视觉标记输入 LLM 之前减少视觉标记的数量。自推出以来，多个模型（Awadalla 等人，2023；Chen 等人，2023b；Laurençon 等人，2023；Li 等人，2023a）采用这种技术将视觉模态与底层 LLM 连接起来，展示了增强的训练稳定性和性能提高。

2.4 多模式训练

从预训练的LLM开始，MLLM的训练经历单阶段或两阶段过程。在这两种情况下，都使用标准交叉熵损失来预测下一个标记，作为自回归目标。单阶段训练。 LLaMA-Adapter（Gao 等人，2023）探索了这种可能性，它引入了额外的可训练参数来封装视觉知识并同时管理纯文本指令学习。为了实现这一目标，该模型使用图像文本对和指令进行联合训练，对单独的参数进行操作。同时，（Koh et al., 2023b）中提出的模型通过结合图像文本检索的两个对比损失来调整最终的损失函数。在训练期间，仅更新三个线性层。另一方面，Kosmos1（Huang et al., 2023a）考虑了冻结的视觉主干，并从头开始训练 1.3B 参数的语言模型。相反，Flamingo（Alayrac 等人，2022）及其开源变体（Awadalla 等人，2023；Laurençon 等人，2023）训练交叉注意力层和基于感知器的组件，以将视觉特征与冻结的LLM块。此外，Otter（Li et al., 2023a）扩展了 Flamingo 的训练，以增强其在上下文中的能力。
考虑到当前可用的训练数据量，SPHINX-X（Gao 等人，2024）等方法选择执行单个一体化训练阶段，在该阶段更新所有模型组件，也可能使用纯文本数据来更新所有模型组件。
两阶段训练：在两个训练阶段的第一个阶段，目标是将图像特征与文本嵌入空间对齐。在此阶段之后，输出往往是支离破碎且不连贯的。因此，第二步是提高多模态会话能力。 LLaVA（Liu et al., 2023e,d）是最早引入视觉指令跟随训练方案的人之一，该方案作为第二个训练阶段执行，更新多模式适配器和 LLM 的参数。相反，在第一阶段，只有多模式适配器是可训练的。不同的是，MiniGPT4（Zhu et al., 2023a）因仅训练负责跨两个阶段的多模态对齐的线性层而闻名。在第二阶段，它使用在第一阶段之后通过模型本身收集和提炼的过滤数据。另一种方法，如 InstructBLIP（Dai 等人，2023）中所演示的，涉及冻结视觉编码器和 LLM。在两个训练阶段，只有 Q-Former 和连接模块是可训练的。与之前视觉主干保持冻结的方法相比，mPLUG-Owl（Ye et al., 2023c,d）在初始阶段对其进行更新，有助于捕获低级和高级视觉信息。此外，在第二阶段，联合使用纯文本数据和多模态数据来提高对齐度。不同的是，Shikra（Chen et al., 2023f）更新了两个阶段的所有权重，唯一的例外是保持冻结的视觉主干。训练数据。在第一个（或单个）训练阶段，通常采用来自不同来源的图像文本对，使用 LAION-2B（Schuhmann 等人，2022）、LAION400M（Schuhmann 等人，2021）、Conceptual Captions（Sharma）等数据集等人，2018）、COYO-700M（Byeon 等人，2022）和 DataComp（Gadre 等人，2023）。一些方法（Lin 等人，2023a）将这些方法与一个或多个数据集结合使用，这些数据集的特征是文本与通常从网络上抓取的图像交错，例如 WebLI（Chen 等人，2023i）、MMC4（Zhu 等人， 2023d）、MMDialog（Feng 等人，2023b）和 OBELICS（Laurençon 等人，2023）。为了解决先前数据集中的偏差和噪声，StableLLaVA（Li et al., 2023h）引入了新收集的数据以在第一阶段使用。该方法利用 ChatGPT 生成包括图像生成提示和基于内容的对话的数据，并利用稳定扩散（Rombach 等人，2022）生成相应的图像。相反，后续阶段利用数据集进行视觉指令调整。其中，常用的 LLaVA-Instruct (Liu et al., 2023e) 使用 GPT-4 生成的指令扩展了 COCO (Lin et al., 2014)。跟随这一趋势，赵等人 (2023a) 通过合并手动和生成的数据来扩大维度，具有高质量和多样性。此外，还提出了其他多轮对话数据集，例如 (Dai et al., 2023) 中引入的数据集，它将 26 个公开可用的数据集转换为其视觉指令，LRV-Instruction (Liu et al., 2023c) 的目标是通过更强大的指令来减少幻觉，而 LLaVAR（Zhang 等人，2023h）则专注于文本丰富的图像。

3. 使用 MLLM 处理视觉任务

在这里插入图片描述

结论和未来方向
论文全面概述了 MLLM 的最新发展，首先关注如何为 LLM 配备多模式功能，然后探讨这些模型解决的主要任务。基于所提出的分析，下面概述了重要的开放挑战和有希望的未来研究方向，以进一步增强 MLLM 的能力。
纠正幻觉：多项研究（Liu 等人，2023b；Zhu 等人，2023a）表明 MLLM 往往表现出较高的幻觉率，尤其是在生成较长字幕时。虽然正在出现一些解决方案来缓解这个问题（Liu et al., 2023b; Wang et al., 2023a; Wu et al., 2023c; Yin et al., 2023a），但理解和纠正幻觉的根本原因仍然是一个重要的问题。值得解决的开放挑战，以允许这些模型在更关键的环境（例如医学）中应用并保证其准确性和可信度。
防止有害和偏见的产生：确保大规模模型的安全性和公平性是社区的根本利益。最近的研究表明，基于网络爬虫数据训练的模型很容易生成不适当和有偏见的内容。尽管最近正在努力减少文本到图像生成模型中的这种现象（Schramowski 等人，2023；Friedrich 等人，2023），但需要进一步探索以防止 MLLM 中出现相同的行为（Pi 等人，2023）。，2024）。
减少计算负载：MLLM 的计算要求很高。需要有效的策略（Chu et al., 2024）来减少计算需求并实现 MLLM 更容易的开发。可能的方向包括减少模型规模和数据量方面的训练要求以及优化推理阶段。