从零入门多模态大模型数据合成
- 报名赛事
- 注意事项
- 创建实例
- 跑baseline(预计时间300分钟)
- 改用无卡模式开机
- 创建非指定镜像
- 下载赛事所需文件包
- 下载模型,数据集以及依赖软件
- 下载模型和相关数据集
- 下载BLIP图片描述模型
- 数据处理与合成
- 推理和评测
- 打包输出运行结果
- 提交结果
报名赛事
比赛相应连接:
天池Better Synth多模态大模型数据合成挑战赛
注意事项
本赛事会消耗大量的算力,光是跑baseline就需要消耗比较长的时间,需要有一定的心理准备
创建实例
使用AutoDL算力云
选择租用新实例
- 选择 [北京B区]
- 挑选120GB内存,可以进行扩容的主机
- 在扩容的选项当中选择扩容100G
- 在选择社区镜像时要注意查找
Better-Synth
- 创建实例
ps:最好大家在创建这个实例的时候最好环境选择一样的社区镜像,不然后续相对来说会比较麻烦
跑baseline(预计时间300分钟)
改用无卡模式开机
关机之后选择无卡模式开机,然后点击jupyterLab
进入到环境当中
创建非指定镜像
这里讲一下如果创建了非指定镜像的话,就要注意了,会有以下这几个要求:
运行如下命令
conda create -n dj python=3.10
conda init bash
source ~/.bashrc
bash install.sh #大概需要1小时
下载赛事所需文件包
conda activate dj
cd autodl-tmp/
git clone https://www.modelscope.cn/datasets/Datawhale/better_synth_baseline_autoDL.git
这几行的要求就是先激活这个dj的虚拟环境,然后跳转到autodl-tmp/
目录下进行克隆赛事的包
可以通过ls
命令查看到是否有所需要的文件夹
下载模型,数据集以及依赖软件
运行如下命令即可
apt update
apt install axel zip file
pip install modelscope
下载模型和相关数据集
在终端当中执行如下命令
cd better_synth_baseline_autoDL
bash download.sh ###大概需要50分钟
下载BLIP图片描述模型
执行完上述步骤之后运行该命令
python download_blip.py
数据处理与合成
关机,然后进行带卡开机
如果发现GPU不足的话最好要进行以下克隆,这里需要注意的是克隆的话要带上数据盘,不然就没有办法进行数据处理了
复制如下命令,在终端当中运行
conda activate dj
cd autodl-tmp/better_synth_baseline_autoDL
dj-process --config ./image_split_10.yaml
dj-process --config ./image_captioning_10.yaml
- 安装 flash-attn
执行如下命令
cd toolkit/training
pip install -e .
pip install flash-attn --no-build-isolation
cd ..
推理和评测
在终端当中运行并执行如下命令
bash train_mgm_2b_stage_one_card.sh ### 大概需要3小时
下面是相应的运行内容的展示
运行完成结果如下:
打包输出运行结果
cd ../submit
cp -r /root/autodl-tmp/better_synth_baseline_autoDL/solution .
cp -r /root/autodl-tmp/better_synth_baseline_autoDL/output/eval_results output/
cp -r /root/autodl-tmp/better_synth_baseline_autoDL/output/train.sh output/
cp /root/autodl-tmp/better_synth_baseline_autoDL/output/training_dirs/MGM-2B-Pretrain-*/pretrain.log output/training_dirs/MGM-2B-Pretrain-image_recaption/
cp /root/autodl-tmp/better_synth_baseline_autoDL/output/training_dirs/MGM-2B-Finetune-*/finetuning.log output/training_dirs/MGM-2B-Finetune-image_recaption/
zip -r submit.zip solution output
打开submit文件夹之后下载即可
关闭实例(关机!关机!关机!),免得出现不必要的费用
提交结果
到比赛官网提交运行结果
查看成绩