以视觉为中心的多模态大模型Cambrian-1,主要考虑的是MLLM中视觉模型的影响。
1、评估
LLM 还是 MLLM?:我们在使用 23 种不同的视觉主干训练的 MLLM 中比较了视觉禁用和视觉启用设置之间的性能。我们的研究结果表明,MMMU 和 AI2D 等一些基准对视觉输入的依赖程度较低,而 MMVP 和 MME 等其他基准的性能则显著下降,这表明它们对多模态性进行了有效的评估
基准聚类和分析:通过对不同基准上的 MLLM 性能进行相关性分析和主成分分析,出现了不同的集群,分为“一般”、“知识”、“图表和 OCR”和“以视觉为中心”。我们还发现,以视觉为中心的基准在当前的评估领域中代表性不足。
2.1 消融实验
单阶段与双阶段训练: 对连接器进行预训练可以提高性能,而使用更多适配器数据可以进一步提高性能,这使我们能够使用 1.2M 适配器数据标准化 2 阶段训练方法。
冻结与解冻视觉编码器:合理的视觉模型学习率下,解冻有利于所有基准的性能,但知识基准的微小变化除外。
-
我们使用 1.2M 适配器数据和 737K 微调数据的 2 阶段指令调整来比较各种视觉模型在下游 MLLM 性能上的差异。
-
我们的评估表明,语言监督模型在所有基准类别中都表现出强大的优势,尤其是在 OCR 和图表任务中。然而,尽管 DINOv2 等 SSL 模型的数据集较小,但它们在以视觉为中心的基准测试中表现不俗。
2.2 空间视觉聚合器 (SVA):一种新型连接器设计
之前的问题:
- 它采用插值,这可能会导致信息丢失,尤其是在具有高分辨率特征图的视觉编码器上;
- 它通过简单的连接平等对待每个模型。因此,我们寻求一种更有效的策略,充分利用模型组合,减少信息损失,提高灵活性。
我们的方法融合了两个新的以视觉为中心的设计原则:
- 我们通过明确定位查询中每个标记的聚合空间来编码空间归纳偏差。
- 我们在 LLM 层之间多次执行视觉特征聚合,从而允许模型重复引用必要的视觉信息。
2.3 Cambrian-10M、Cambrian-7M
3. 总结
这篇文章算是一个近期(202406)比较新的文章了,以视觉为中心,考虑了不同的视觉模型以及其组合,文章具有较大的参考价值。