AIGC实战——多模态模型Flamingo

news2026/3/3 16:30:01

AIGC实战——多模态模型Flamingo

- 0. 前言
- 1. Flamingo 架构
- 2. 视觉编码器
- 3. Perceiver 重采样器
- 4. 语言模型
- 5. FIamingo 应用
- 小结
- 系列链接

0. 前言

我们已经学习了文本生成图像模型 DALL.E 2，在本节中，我们将探索另一种多模态模型 Flamingo，它可以根据给定文本和视觉数据流生成文本。Flamingo 是 DeepMind 在 2022 年提出的一类视觉语言模型 (Visual Language Model, VLM)，它是预训练的纯视觉模型和纯语言模型之间的桥梁。在本节中，我们将介绍 Flamingo 模型的架构，并将其与所学习的文本生成图像模型进行比较。

1. Flamingo 架构

Flamingo 的整体架构如下图所示。接下来，我们将对该模型的核心组件，视觉编码器、Perceiver 重采样器和语言模式进行介绍，以了解 Flamingo 的核心思想。

Flamingo架构

2. 视觉编码器

Flamingo 模型与纯文本生成图像模型(如 DALL.E 2 )的第一个区别是，Flamingo 可以接受交错的文本和视觉数据的组合，视觉数据包括视频和图像。
视觉编码器的任务是将输入中的视觉数据转换为嵌入向量(类似于 CLIP 中的图像编码器)。Flamingo 中的视觉编码器是一个预训练的无归一化 ResNet (Normalizer-Free ResNet, NFNet)，这是 CLIP 图像编码器和 Flamingo 视觉编码器之间的一个关键区别：前者使用 ViT 架构，而后者使用 ResNet 架构。
视觉编码器通过使用与 CLIP 相同的图像-文本对进行训练。训练完成后，权重被冻结，以使 Flamingo 模型的进一步训练不会影响视觉编码器的权重。
视觉编码器的输出是一个二维特征网格，然后压平成一个一维向量，传递给 Perceiver 重采样器。视频通过以每秒 1 帧的速率进行采样，将每一帧单独通过视觉编码器处理以产生多个特征网格；在展平特征并将结果串联成一个单一向量之前，添加学习到的时间编码。

3. Perceiver 重采样器

传统的编码器 Transformer (例如 BERT )随着输入序列长度的增加内存而呈二次函数增长，这就是为什么输入序列通常被限制在一定数量的符号上(例如 BERT 中使用 512 个)。然而，视觉编码器的输出是一个长度可变的向量(由于可变的输入图像分辨率和可变的视频帧数)，因此输入可能非常长。
Perceiver 架构专门设计用于高效地处理较长的输入序列。它不会对整个输入序列进行自注意力操作，而是使用固定长度的潜向量，并仅对输入序列进行交叉注意力操作。具体而言，在 Flamingo 的 Perceiver 重采样器中，键和值是输入序列和潜向量的连接，而查询仅是潜向量本身。下图显示了视频数据的视觉编码器和 Perceiver 重采样器的示意图。

在这里插入图片描述

Perceiver 重采样器的输出是一个固定长度的潜在向量。

4. 语言模型

语言模型由多个堆叠的块组成，采用解码器 Transformer，输出预测的文本延续。实际上，大部分语言模型来自于预训练 DeepMind 模型 Chinchilla。Chinchilla 相比同类模型要小得多(例如，Chinchilla 的参数为 70B，而 GPT-3 的参数为 170B)，但在训练时使用了更多的符号进行训练。该模型在各种任务上表现优于较大的模型，需要在训练中优化大型模型和使用更多符号之间进行权衡。
Flamingo 的一个关键贡献是展示了如何使 Chinchilla 适用于与语言数据 (Y) 交替的额外视觉数据 (X)。我们首先了解一下语言和视觉输入如何结合起来产生语言模型的输入，如下图所示。
首先，文本经过处理，将视觉数据(例如图像)替换为 <image> 标签，并使用 <EOC> (块的结束)标签将文本分割成块。每个块最多包含一个图像，图像始终位于块的开头，即随后的文本只与该图像相关。序列的开头还用 <BOS> (句子开头)标签标记。
接下来，将序列进行分词，并为每个符号分配一个索引 (phi)，该索引对应于先前图像的索引(或者如果在块中没有先前图像则为 0)。通过掩码，可以强制文本符号 (Y) 只与对应于其特定块的图像符号 (X) 进行交互。例如，在下图中，第一个块不包含图像，因此 Perceiver 重采样器的所有图像符号都被屏蔽。第二个块包含图像 1，因此这些符号允许与图像1的图像符号进行交互。同样，最后一个块包含图像 2，因此这些符号可以与图像 2 的图像符号进行交互。

语言模型

下图展示了这个掩码的交叉注意力组件如何适应语言模型的整体架构。
蓝色 LM 层组件是冻结的 Chinchilla，这些层在训练过程中不进行更新。紫色 GATED XATTN-DENSE 层作为 Flamingo 的一部分进行训练，并包括混合语言和视觉信息的掩码交叉注意力组件，以及随后的前馈(全连接)层。
该层是门控的，因为它将交叉注意力和前馈组件的输出通过两个不同的 tanh 门，这两个门都初始化为零，并且这两个门的初始值都为零。因此，在网络初始化时，GATED XATTN-DENSE 层没有任何贡献，语言信息仅仅是直接进行传递。alpha 门控参数由网络学习，随着训练的进行，逐渐融入视觉数据的信息。

GATED XATTN-DENSE

5. FIamingo 应用

Flamingo 具有广泛的应用场景，包括图像和视频理解、对话提示和视觉对话。在下图中，可以看到 Flamingo 的一些应用场景。
在每个应用中，Flamingo 都能够以真正的多模态方式混合文本和图像信息。第一个应用使用图像代替单词，并能够提供适当的书籍来完善提示。第二个应用使用来自视频的帧，Flamingo 能够正确地识别动作及其引发的后果。第三个应用演示了 Flamingo 如何以交互方式使用，通过对话或进一步提问提供额外信息。

Flamingo 应用

机器能够以如此广泛的模式和输入任务回答复杂问题，是人工智能的重要进展。通过量化 Flamingo 在一系列基准任务上的能力，可以证明 Flamingo 在许多基准上能够超越专门针对某个任务设计的模型的性能。这表明，多模态大模型能够快速适应各种任务，为开发通用人工智能体奠定了基础。

小结

Flamingo 是一种视觉语言模型，即它接受交替的文本和视觉数据流(图像和视频)作为输入，并能够以解码器 Transformer 的方式用额外的文本完善提示。其通过视觉编码器和 Perceiver 重采样器将视觉信息输入到 Transformer 中，该编码器能够将输入特征编码为少量的视觉符号。语言模型本身是 DeepMind Chinchilla 模型的扩展，经过调整以融入视觉信息。

系列链接

AIGC实战——生成模型简介
AIGC实战——深度学习 (Deep Learning, DL)
AIGC实战——卷积神经网络(Convolutional Neural Network, CNN)
AIGC实战——自编码器(Autoencoder)
AIGC实战——变分自编码器(Variational Autoencoder, VAE)
AIGC实战——使用变分自编码器生成面部图像
AIGC实战——生成对抗网络(Generative Adversarial Network, GAN)
AIGC实战——WGAN(Wasserstein GAN)
AIGC实战——条件生成对抗网络(Conditional Generative Adversarial Net, CGAN)
AIGC实战——自回归模型(Autoregressive Model)
AIGC实战——改进循环神经网络
AIGC实战——像素卷积神经网络(PixelCNN)
AIGC实战——归一化流模型(Normalizing Flow Model)
AIGC实战——能量模型(Energy-Based Model)
AIGC实战——扩散模型(Diffusion Model)
AIGC实战——GPT(Generative Pre-trained Transformer)
AIGC实战——Transformer模型
AIGC实战——ProGAN(Progressive Growing Generative Adversarial Network)
AIGC实战——StyleGAN(Style-Based Generative Adversarial Network)
AIGC实战——VQ-GAN(Vector Quantized Generative Adversarial Network)
AIGC实战——基于Transformer实现音乐生成
AIGC实战——MuseGAN详解与实现
AIGC实战——多模态模型DALL.E 2