Efficient Multimodal learning from data-centric perspective

news2025/3/17 1:22:00

[MLLM-小模型推荐-2024.3.18] Bunny 以数据的眼光看问题 - 知乎近期几天会梳理下多模态小模型相关的论文，做个汇总。为了能够每天更新点啥，先穿插一些小模型算法。等到全部算法都梳理完成后，再发布一篇最终汇总版本的。 3.15 号 BAAI 发布了 Bunny-2B 多模态小模型的专注于中…https://zhuanlan.zhihu.com/p/687645412

1.Bunny：A family of lightweight multimodal models

1.1 Architecture and backbone

三个主要的模块，llm、vision encoder、cross modality projector。llm包括phi 1.3B，StableLM2 1.6B，phi 2.7B，vision encoder包括SigLIP，EVA-CLIP，都是4.28B，cross modality projector，参照llava，使用带有gelu激活函数的两层mlp。

1.2 Training data construction

bunny-pretrain-laion-2M和bunny-695k，用于预训练和指令微调。对多模态调优可能会损害其从预训练语言模型中继承的认知能力，可能的原因是多模态训练数据中的信息量较少，且多样性不足，在调优数据集中保持一定量的高质量纯文本数据可以缓解这个问题。

1.3 training procedure

两阶段训练，1.将预训练的视觉编码器的视觉embedding与语言模型的文本embedding对齐，2.进行视觉指令微调。都采用交叉熵损失函数进行next token prediction。在预训练阶段，只优化跨模态projector一个epoch，在微调阶段，用lora对跨模态projector和llm进行一个epoch的训练。

2.Experiment