视觉分词器统一图文信息，快手提出基座模型 LaVIT 刷榜多模态任务

你是否想过，有朝一日能够仅输入寥寥数语或图片，就可以一键检索最为匹配的短视频内容。不是凭借视频标签、也不是依靠标题字幕，而是大模型真正理解了视频内容。近期，来自快手的新研究利用视觉分词器统一图文信息，LaVIT 让这个创想逐步变为现实。

近年来，研究人员对多模态大模型（MLLM）理解能力进行探索，旨在将强大的纯文本 LLM 扩展到处理多模态输入。如图 1(a) 所示，常规方法主要将由预训练视觉主干编码的视觉特征映射到 LLM 的语义空间。尽管在零样本多模态理解上初有成效，但仍存在设计缺陷：

▲图1 不同 MLLM 之间的比较

在训练中主要基于视觉内容预测文本描述，但仅将视觉部分视为提示，没有监督学习。
将视觉-语言对齐的任务完全交给了新添加的适配器，但由于适配器的可训练参数有限，未能充分利用 LLM 在学习跨模态交互时的卓越推理能力。

如图 1(b) 所示，虽然同时期工作提出了通过在预训练期间回归下一个视觉 embedding 来解锁文本预训练的 LLM，但由于图像和文本的不一致优化目标，并不有利于统一的多模态建模。

因此，在来自快手的这篇论文中，作者提出一种名为 LaVIT 的新型通用多模态基础模型，借鉴了 LLM 成功的学习方法，即以自回归方式预测下一个图像或文本 token。

它引入了一个设计良好的视觉 token 生成器，用于将非语言图像转换为离散 token 序列，就像 LLM 能够理解的外语一样。因此，LaVIT 能在统一的生成目标上同时处理图像和文本，如图 1（c) 所示。

论文题目:
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization

论文链接:
https://arxiv.org/abs/2309.04669

Github 地址:
https://github.com/jy0205/LaVIT

论文速览

在经过预训练后，LaVIT 可以充当多模态通用模型，执行多模态理解和生成任务，无需进一步的微调。具体而言，LaVIT 具有这些能力：

高质量文本到图像的生成：LaVIT 能够根据给定的图像提示合成高质量、多种纵横比和高美感的图像。其图像生成能力与最先进的图像生成器（如 Parti、SDXL 和 DALLE-3）相媲美。
通过多模态提示进行图像合成：由于在 LLM 中，图像和文本都统一表示为离散 token，因此 LaVIT 可以接受多种模态组合（例如文本、图像+文本、图像+图像）作为提示，生成相应的图像，而无需进行任何微调。
读取图像内容并回答问题：在给定输入图像的情况下，LaVIT 能够阅读图像内容并理解其语义。例如，模型可以为输入的图像提供说明文字并回答相应的问题。

模型方法

本文将文本和视觉两种模态以统一的形式表示，以便复刻 LLM 的学习方法——下一个 token 预测，模型如图 2 所示。

▲图2 给定一对图像和文本，图像被分词成离散 token，并与文本 token 连接形成多模态序列。然后，LaVIT 在统一的生成目标下进行优化

视觉分词器：将非语言图像转换为 LLM 可以理解的输入。视觉分词器接收预训练的视觉编码器的视觉特征，并输出一系列具有类似词汇高级语义的离散视觉 token。
通过精心设计的分词器，视觉输入可以与文本 token 集成，形成一个多模态序列，然后在统一的自回归训练目标下输入到 LLM 中。

阶段 1：动态视觉分词器

▲图3 (a)动态视觉 token 生成器 (b) token 合并器

动态视觉分词器包括 token 选择器和 token 合并器。如图 3(a) 所示，动态视觉 token 生成器使用 token 选择器来选择最具信息的图像区块，用 token 合并器将被舍弃的区块信息压缩到保留的区块上。整个 token 生成器通过最大限度地重构输入图像的语义进行训练。

token 选择器

token 选择器接收 N 个图像区块级的特征作为输入，其目标是评估每个图像区块的重要性并选择信息量最高的区块，以充分代表整个图像的语义。为实现这一目标，采用轻量级模块，由多个 MLP 层组成，用于预测分布 π。通过从分布 π 中采样，生成一个二进制决策 mask，用于指示是否保留相应的图像区块。

token 合并器

根据生成的决策掩码，将N个图像区块划分为保留和舍弃两组。

与直接丢弃不同，作者设计了 token 合并器，以最大限度地保留输入图像的详细语义。token 合并器通过 L 个堆叠的块组成，每个块包括因果自注意力层、交叉注意力层和前馈层。

因果自注意力层中，中的每个 token 关注其前面的 token，以确保与 LLM 中的文本 token 一致。与双向自注意相比，这种策略表现更好。
交叉注意力层将保留的 token 作为查询，并根据它们在嵌入空间中的相似性合并中的 token。

最终实现对被舍弃图像区块信息的渐进性压缩，以保持整体语义的完整性。

阶段 2：统一生成建模

这里通过视觉 token 生成器处理视觉和文本输入，将二者均视为离散 token。对于给定的图像和文本对，2D 图像被分词成有因果依赖性的 1D 序列，然后与文本 token 连接形成多模态序列。

为了区分两种模态，作者在图像 token 序列的开头和结尾插入了特殊 token [IMG] 和 [/IMG]。LaVIT 能够生成文本和图像，采用两种连接形式：[image, text] 和 [text; image]。

当图像用作条件生成文本时，使用 token 合并器的连续视觉特征而非量化的视觉嵌入作为 LLM 的输入，以减轻信息丢失的问题。

LaVIT 采用通用语言建模目标，以自回归方式直接最大化每个多模态序列的似然性。LaVIT 在表示空间和训练方式上实现了完全统一，有助于 LLM 更好地学习多模态交互和对齐。

在预训练完成后，LaVIT 具有感知图像的能力，可以像处理文本一样理解和生成图像。然而，大多数现有方法仅将图像作为引导文本生成的提示，没有监督，限制了其仅执行图像到文本的任务。

实验

零样本多模态理解

该实验评估了 LaVIT 在图像字幕生成（NoCaps、Flickr30k）和视觉问答（VQAv2、OKVQA、GQA、VizWiz）等零样本多模态理解任务上的性能。在视觉问答任务中，使用了简单的提示：“问题：{} 答案：{}”。

▲表1 多模态理解任务的零样本评估概述

表 1 展示了 LaVIT 出色的跨模态建模能力。而且，尽管同时期的方法 Emu 也利用 LLM 共同建模视觉和语言，但其对视觉输入采用直接特征回归目标，使其与文本输入不兼容。因此，尽管使用了更多训练数据和更大的 LLM 规模，但在所有评估基准上性能仍然不及 LaVIT。

零样本多模态生成

在这个实验中，由于所提出的视觉 token 生成器能够将图像表示为离散 token，LaVIT 具有通过自回归生成类似文本的视觉 token 来合成图像的能力。作者对模型进行了零样本文本条件下的图像合成性能的定量评估，比较结果如表 2 所示。

▲表2 不同模型的零样本文本到图像生成性能

从表中可以看出，LaVIT 的表现优于所有其他多模态语言模型。与 Emu 相比，LaVIT 在更小的 LLM 模型上取得了进一步改进，展现了出色的视觉-语言对齐能力。此外，LaVIT在使用更少的训练数据的情况下，实现了与最先进的文本到图像专家 Parti 可比的性能。

多模态提示生成

LaVIT 能够无缝地接受多种模态组合作为提示，生成相应的图像，而无需进行任何微调。

▲图4 多模态图像生成结果的示例

如图 4 所示，LaVIT 能生成高质量的图像，准确反映给定多模态提示的风格和语义。而且它可以通过输入的多模态提示修改原始输入图像。在没有额外微调的下游数据的情况下，传统的图像生成模型如 Stable Diffusion 无法达到这种能力。

消融实验

token 分类还是特征回归？

在联合训练视觉和语言时，选择适当的优化目标对于 2D 栅格顺序的视觉输入至关重要。在将连续的视觉 token 量化为离散形式时，使用交叉熵损失来监督下一个视觉 token 的预测，类似于对文本 token 的监督。

作者认为，这样的统一目标有助于在 LLM 中整合视觉和语言。为验证所提出的视觉量化的优越性，作者采用了类似于 Emu 的回归头，将视觉 token 的优化目标改为回归下一个视觉嵌入。

▲表3 不同训练目标的结果

从表 3(a) 中观察到，采用回归损失来预测下一个视觉 token 会严重降低模型的性能。

动态或固定 token 长度

在实验中，作者比较了两种不同的视觉 tokenization 策略：

将所有补丁嵌入 token 为固定长度的视觉 token （256），
采用动态视觉 tokenization 策略。

表 3(b) 表明，动态视觉 tokenizer 在平均每个输入图像上只需要约为固定 token 的 36%，并实现了更优越的性能。考虑到在 LLM 中，采用动态 tokenization 可以加速训练时间 40%，并降低推理中的计算成本。

定性分析

如图 5 所示，分词器可以根据图像内容动态选择最具信息量的图像块，学习到的代码本可以产生具有高层语义的视觉编码。

▲图5 动态视觉分词器（左）和学习到的代码本（右）的可视化

总结

当前，多模态研究领域蓬勃发展，不断涌现出新的工作。快手的这个算法团队，让 LaVIT 的出现为多模态任务的处理又提供了一种创新范式，通过动态视觉分词器，它成功地将视觉和语言信息整合到一个共同的生成目标中，为模型提供了强大的跨模态建模能力。

它超越了以前的适配器方法，通过使用动态视觉分词器将视觉和语言表示为统一的离散 token 表示，继承了 LLM 成功的自回归生成学习范式。通过在统一生成目标下进行优化，LaVIT 可以将图像视为一种外语，像文本一样理解和生成它们。

这一方法的成功为未来多模态研究的发展方向提供了新的启示，也期待着在这个充满活力的领域中，今后有更多前沿技术的涌现，为实现更智能、更全面的多模态理解和生成打开新的可能性~