这是Datawhale AI夏令营第4期多模态大模型赛道的复盘总结。本次学习最终获得了优秀学习者的称号。
本次赛事是天池Better Synth多模态大模型数据合成挑战赛。Better Synth 是一项以数据为中心的挑战赛,考察如何合成与清洗图文数据以在多模态大模型上取得更优的图片理解能力。数据集产出流程中必须包含“合成”的过程。
涉及到的知识点:
- 多模态大模型训练脚本
- 简单的Linux操作系统下的环境配置和安装
- Data Jucier 与 Mini-Gemini 的学习
- 数据处理的进阶技巧和模型训练阶段的技巧等
-
Data Jucier Playground
-
Mini-Gemini
-
数据处理
-
官方赛事解读
-
自定义算子介绍
-
data-juicer sandbox insights讲解
-
上分思路
困难:
1.全数据未跑通;
2.150k数据跑完结果不对,未找到原因
3.时间、算力困难,上分思路未实践
4.data-juicer和sandbox没有深入研究
后续方向:
-
熟悉Data-Juicer官方文档和示例
-
sandbox样例研究
-
上分思路实践(10k模型)
-
多模态相关论文阅读(B站)