4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities论文精度

news2025/7/16 5:01:04

在这里插入图片描述

贡献：在21种高度不同的模态中训练一个统一的模型，并且对比专有模型不会有性能损失
做法：将不同模态映射到不同的token空间，并且可以生成不同的模态token【Any-to-any】
关键点：如何在不同的模态中应用tokenization进行映射

Introduction

先前的方法将不同的模态映射为统一表征取得成功，但是这些方法的模态数量有限；
提出modality-specific discrete tokenizers，让21个不同模态的任务可以协同训练：
- image：ViT-based VQ-VAE tokenizers
- 3D Human / image embeddings：MLP-based discrete VAEs
- text：WordPiece tokenizer
文章实现了在一个3B模型上进行One-to-all generation【只输入一种模态，可生成多种模态】

Method
2.1 Modalities

RGB：2D图像（tokenized and pixel）、调色板（可以控制生成图像的条件）；
Geometric：surface normals, depth, and 3D human poses & shape，使用开源模型生成的伪标签作数据；
Semantic：semantic segmentation and bounding boxes，使用检测分割模型（例如SAM）生成伪标签；
Edges：Canny edges（low-level） and SAM edges；
Feature maps：从CILP、DINOv2和ImageBind搜集embeddings，因为他们具有强大的迁移学习和检索能力；
MetaData：从上述模态中得到的更多信息，例如实例数量、实例类别等等；
Text：captions、web text。
2.2 Tokenizations
ViT tokenizer (with optional diffusion decoder) ：使用VQ-VQE，为图像生成small grid token（14² or 16²）
MLP tokenizer：使用Bottleneck MLP和Memcodes量化；
Text tokenizer：使用WordPiece对文本进行编码
2.3 4M：Massively Multimodal Masked Modeling
4M-21是在4M模型的基础上增加更多的模态与训练数据，并且采用了一致的训练策略得到的模型；
Masking strategy：与MultiMAE相似，4M采用【对称Dirichlet分布】随机采样不同模态的token：
- MultiMAE pretraining → 只使用随机采样的token参与预训练，高效且有效；
- 在类图像模态上，使用MaskGIT → 每个迭代中，模型同时并行地预测所有token，但只保留最自信的token；剩余的token被mask掉，并将在下一个迭代中重新预测，不断迭代直到细化生成所有token；
- 在类文本模态上，使用next-token-generation的自回归方式；
Chained multimodal generation：4M可以作为一个生成模型，可以通过各种模态为条件，实现多模态编辑

2.4 Training Details

Datasets & Pre-training
- CC12M：一个庞大的图像-文本对数据集，4M在此基础上生成了不同模态的伪标签；
- COYO700M：更大规模的图像-文本对数据集，是CC12M的50倍；
- 由于4M在CC12M上有过拟合倾向，4M-21使用CC12M混合COYO700M进行预训练，同时引入文本数据集C4同步参与训练（CC12M+COYO+C4）。训练时在混合数据的一个batch中随机抽取元素，4M-21模型不需要经过微调就已具备强大的能力；
  - 在COYO700M只用伪标签标注7种不同模态（与4M相同），从而减少标注消耗；
  - 在CC12M上对所有21种模态进行伪标签标注。
Architecture
- 使用4M的encoder-decoder based transformer结构
- 除了RGB tokens，encoder也可以直接通过learnable patch-wise projection接收RGB pixels
- 使用了与4M相同的Masking strategy

Multimodel capabilities
3.1 Steerable multimodal generation

4M-21可以在有条件和无条件情况下生成不同模态的token，这得益于训练时采用多种模态的混合自回归训练；

3.2 Multimodel retriveval

通过4M-21可以生成例如DINOv2和ImageBind的图像特征，这些特征可以通过简单的余弦相似度进行检索：
3.3 Evaluating out-of-the-box capabilities
4M-21模型可以完成多种不同的常规视觉任务

Transfer experiments

4M-21的encoder在any-to-any的配置下进行训练之后，可以通过迁移学习，迁移到其他下游任务进行微调。微调过程不使用decoder，而是训练相应的task-specific head：
- 单模态迁移学习（RGB）：
  - 加入更多模态之后，4M-21相比于4M-7在共有的模态上没有性能损失；
  - 对于全新的下游任务，例如3D Detection，4M-21实现了性能提升；
- 多模态迁移学习（RGB + depth）：相较于4M-7，4M-21对于多模态的利用能力更强