“羊驼“入侵CV，美团浙大沈春华团队将LLaMA向CV扩展，构建全新基础模型VisionLLaMA

news2026/2/13 14:57:29

本文首发:AIWalker

https://arxiv.org/abs/2403.00522
https://github.com/Meituan-AutoML/VisionLLaMA

本文概述

大型语言模型构建在基于Transformer的架构之上来处理文本输入, LLaMA 系列模型在众多开源实现中脱颖而出。类似LLaMa的Transformer可以用来处理2D图像吗？在本文中，我们通过提出一种类似 LLaMA 的朴素和金字塔形式的Transformer来回答这个问题，称为 VisionLLaMA。 VisionLLaMA 是一个统一的通用建模框架，用于解决大多数视觉任务。

我们采用经典的预训练框架在图像感知(尤其是图像生成)任务上对齐有效性进行了充分评估。在大多数情况下，VisionLLaMA表现出了比已有SOTA ViT方案更优的性能。我们相信 VisionLLaMA 可以作为视觉生成和理解的强大新基线模型。

本文贡献

提出一种类似于LLaMA的视觉转换器架构VisionLLaMA，以减少语言和视觉之间的架构差异。
我们研究了两个版式的视觉架构方案（朴素和金字塔），并评估它们在监督和自监督学习场景下的性能。此外，我们还引入了 AS2DRoPE（即自动缩放 2D RoPE），它将旋转位置编码从 1D 扩展到 2D，并利用插值缩放来适应任意分辨率。
在没有花里胡哨的情况下，VisionLLaMA 在图像生成、分类、语义分割和对象检测等许多代表性任务中明显优于广泛使用且经过仔细微调的视觉转换器。大量实验表明，VisionLLaMA 比现有视觉转换器具有更快的收敛速度和更好的性能。

本文方案

朴素版VisionLLaMA延续了ViT的处理流程，核心在于VisionLLaMA模块，见上图。VisionLLaMA与ViT不同之处在于：位置编码自注意力RoPE和SwiGLU激活函数。此外，它仍然使用ViT的LayerNorm，而非RMSNorm。需要注意的是，由于1DRoPE不能很好的扩展到其他分辨率，故作者将其扩展为2维形式，描述如下：

$z_{ij}^{l} = MHSA(AS2DRoPE(LayerNorm(z_{ij}^{l-1}))) + z_{ij}^{l-1}$
$z_{ij}^{l} = SwiGLU(LayerNorm(z_{ij}^l)) + z_{ij}^{l}$

金字塔VisionLLaMA

更进一步，类似SwinT，作者还构建了一个金字塔版本的VisionLLaMA。在本文中，我们选择更强的基线 Twins 来探索如何在严格控制的设置下构建强大的金字塔变压器。 Twins 的原始架构利用了条件位置编码和以局部和全局注意力的形式进行交错的局部-全局信息交换。这些组件可以在各种变压器中找到，这意味着按照我们的方法在其他金字塔变压器变体中应用 VisionLLaMA 并不困难。请注意，我们的目标不是发明一种新颖的金字塔视觉转换器，而是展示我们如何在现有设计的基础上调整 VisionLLaMA 的基本设计。因此，我们只是遵循对架构和超参数进行最小的修改。

需要注意：我们删除了金字塔 VisionLLaMA 中的条件位置编码，因为 AS2DRoPE 已经包含位置信息。此外，我们还删除了类标记并在分类头之前使用 GAP（全局平均池）。