- 贡献:在21种高度不同的模态中训练一个统一的模型,并且对比专有模型不会有性能损失
- 做法:将不同模态映射到不同的token空间,并且可以生成不同的模态token【Any-to-any】
- 关键点:如何在不同的模态中应用tokenization进行映射
- Introduction
- 先前的方法将不同的模态映射为统一表征取得成功,但是这些方法的模态数量有限;
- 提出modality-specific discrete tokenizers,让21个不同模态的任务可以协同训练:
- image:ViT-based VQ-VAE tokenizers
- 3D Human / image embeddings:MLP-based discrete VAEs
- text:WordPiece tokenizer
- 文章实现了在一个3B模型上进行One-to-all generation【只输入一种模态,可生成多种模态】
- Method
2.1 Modalities
-
RGB:2D图像(tokenized and pixel)、调色板(可以控制生成图像的条件);
-
Geometric:surface normals, depth, and 3D human poses & shape,使用开源模型生成的伪标签作数据;
-
Semantic:semantic segmentation and bounding boxes,使用检测分割模型(例如SAM)生成伪标签;
-
Edges:Canny edges(low-level) and SAM edges;
-
Feature maps:从CILP、DINOv2和ImageBind搜集embeddings,因为他们具有强大的迁移学习和检索能力;
-
MetaData:从上述模态中得到的更多信息,例如实例数量、实例类别等等;
-
Text:captions、web text。
2.2 Tokenizations
-
ViT tokenizer (with optional diffusion decoder) :使用VQ-VQE,为图像生成small grid token(14² or 16²)
-
MLP tokenizer:使用Bottleneck MLP和Memcodes量化;
-
Text tokenizer:使用WordPiece对文本进行编码
2.3 4M:Massively Multimodal Masked Modeling -
4M-21是在4M模型的基础上增加更多的模态与训练数据,并且采用了一致的训练策略得到的模型;
-
Masking strategy:与MultiMAE相似,4M采用【对称Dirichlet分布】随机采样不同模态的token:
- MultiMAE pretraining → 只使用随机采样的token参与预训练,高效且有效;
- 在类图像模态上,使用MaskGIT → 每个迭代中,模型同时并行地预测所有token,但只保留最自信的token;剩余的token被mask掉,并将在下一个迭代中重新预测,不断迭代直到细化生成所有token;
- 在类文本模态上,使用next-token-generation的自回归方式;
-
Chained multimodal generation:4M可以作为一个生成模型,可以通过各种模态为条件,实现多模态编辑
2.4 Training Details
-
Datasets & Pre-training
- CC12M:一个庞大的图像-文本对数据集,4M在此基础上生成了不同模态的伪标签;
- COYO700M:更大规模的图像-文本对数据集,是CC12M的50倍;
- 由于4M在CC12M上有过拟合倾向,4M-21使用CC12M混合COYO700M进行预训练,同时引入文本数据集C4同步参与训练(CC12M+COYO+C4)。训练时在混合数据的一个batch中随机抽取元素,4M-21模型不需要经过微调就已具备强大的能力;
- 在COYO700M只用伪标签标注7种不同模态(与4M相同),从而减少标注消耗;
- 在CC12M上对所有21种模态进行伪标签标注。
-
Architecture
- 使用4M的encoder-decoder based transformer结构
- 除了RGB tokens,encoder也可以直接通过learnable patch-wise projection接收RGB pixels
- 使用了与4M相同的Masking strategy
- Multimodel capabilities
3.1 Steerable multimodal generation
- 4M-21可以在有条件和无条件情况下生成不同模态的token,这得益于训练时采用多种模态的混合自回归训练;
3.2 Multimodel retriveval
- 通过4M-21可以生成例如DINOv2和ImageBind的图像特征,这些特征可以通过简单的余弦相似度进行检索:
3.3 Evaluating out-of-the-box capabilities - 4M-21模型可以完成多种不同的常规视觉任务
- Transfer experiments
- 4M-21的encoder在any-to-any的配置下进行训练之后,可以通过迁移学习,迁移到其他下游任务进行微调。微调过程不使用decoder,而是训练相应的task-specific head:
-
单模态迁移学习(RGB):
- 加入更多模态之后,4M-21相比于4M-7在共有的模态上没有性能损失;
- 对于全新的下游任务,例如3D Detection,4M-21实现了性能提升;
-
多模态迁移学习(RGB + depth):相较于4M-7,4M-21对于多模态的利用能力更强
-