Datawhale AI夏令营--从零入门多模态大模型数据合成Task1

news2025/1/15 20:48:50

从零入门多模态大模型数据合成

  • 报名赛事
    • 注意事项
  • 创建实例
  • 跑baseline(预计时间300分钟)
    • 改用无卡模式开机
      • 创建非指定镜像
    • 下载赛事所需文件包
    • 下载模型,数据集以及依赖软件
    • 下载模型和相关数据集
    • 下载BLIP图片描述模型
  • 数据处理与合成
  • 推理和评测
  • 打包输出运行结果
  • 提交结果

报名赛事

比赛相应连接:
天池Better Synth多模态大模型数据合成挑战赛
在这里插入图片描述

注意事项

本赛事会消耗大量的算力,光是跑baseline就需要消耗比较长的时间,需要有一定的心理准备

创建实例

使用AutoDL算力云
在这里插入图片描述
选择租用新实例

  • 选择 [北京B区]
  • 挑选120GB内存,可以进行扩容的主机
  • 在扩容的选项当中选择扩容100G
  • 在选择社区镜像时要注意查找Better-Synth
  • 创建实例
    ps:最好大家在创建这个实例的时候最好环境选择一样的社区镜像,不然后续相对来说会比较麻烦
    在这里插入图片描述

跑baseline(预计时间300分钟)

改用无卡模式开机

关机之后选择无卡模式开机,然后点击jupyterLab进入到环境当中

在这里插入图片描述

创建非指定镜像

这里讲一下如果创建了非指定镜像的话,就要注意了,会有以下这几个要求:
运行如下命令

conda create -n dj python=3.10

conda init bash  
source ~/.bashrc

bash install.sh #大概需要1小时

下载赛事所需文件包

conda activate dj
cd autodl-tmp/
git clone https://www.modelscope.cn/datasets/Datawhale/better_synth_baseline_autoDL.git

这几行的要求就是先激活这个dj的虚拟环境,然后跳转到autodl-tmp/目录下进行克隆赛事的包
可以通过ls命令查看到是否有所需要的文件夹
在这里插入图片描述

下载模型,数据集以及依赖软件

运行如下命令即可

apt update
apt install axel zip file
pip install modelscope

在这里插入图片描述

下载模型和相关数据集

在终端当中执行如下命令

cd better_synth_baseline_autoDL
bash download.sh  ###大概需要50分钟

在这里插入图片描述

下载BLIP图片描述模型

执行完上述步骤之后运行该命令

python download_blip.py

数据处理与合成

关机,然后进行带卡开机
如果发现GPU不足的话最好要进行以下克隆,这里需要注意的是克隆的话要带上数据盘,不然就没有办法进行数据处理了
在这里插入图片描述
复制如下命令,在终端当中运行

conda activate dj
cd autodl-tmp/better_synth_baseline_autoDL
dj-process --config ./image_split_10.yaml
dj-process --config ./image_captioning_10.yaml

在这里插入图片描述

  • 安装 flash-attn
    执行如下命令
cd toolkit/training
pip install -e .
pip install flash-attn --no-build-isolation
cd ..

在这里插入图片描述

推理和评测

在终端当中运行并执行如下命令

bash train_mgm_2b_stage_one_card.sh   ### 大概需要3小时

下面是相应的运行内容的展示
在这里插入图片描述
运行完成结果如下:
在这里插入图片描述

打包输出运行结果

cd ../submit

cp -r /root/autodl-tmp/better_synth_baseline_autoDL/solution .

cp -r /root/autodl-tmp/better_synth_baseline_autoDL/output/eval_results output/

cp -r /root/autodl-tmp/better_synth_baseline_autoDL/output/train.sh output/

cp /root/autodl-tmp/better_synth_baseline_autoDL/output/training_dirs/MGM-2B-Pretrain-*/pretrain.log output/training_dirs/MGM-2B-Pretrain-image_recaption/

cp /root/autodl-tmp/better_synth_baseline_autoDL/output/training_dirs/MGM-2B-Finetune-*/finetuning.log output/training_dirs/MGM-2B-Finetune-image_recaption/


zip -r submit.zip solution output

打开submit文件夹之后下载即可
在这里插入图片描述
关闭实例(关机!关机!关机!),免得出现不必要的费用

提交结果

到比赛官网提交运行结果
在这里插入图片描述
查看成绩
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2038211.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Open3D 计算点云的协方差矩阵(原理详细版)

目录 一、概述 1.1协方差矩阵的定义 1.2实现步骤 1.3应用 二、代码实现 1.1实现代码 2.2协方差应用案例 2.2.1主成分分析法的应用 2.2.2平面拟合 三、疑问解答 3.1为什么计算协方差矩阵要去质心? 3.1.1原因 3.1.2区别 Open3D点云算法汇总及实战案例汇总…

WordPress建站之头像及字体错误修正

目录 一、谷歌字体 二、头像网址 三、后续使用中的“坑” 网站建设好以后,会发现有些卡顿,网速好的环境感觉不明写,但是差的环境就难以忍受了。这是打开网页的控制台(Console)会发现有报错信息: 这些报错…

数组---怎么样定义和引用数组

一怎么定义数组 例 int a[10]; //定义了一个一维数组,数组名为a,此数组包含10个整型元素 所以我们了解到数组的基本定义为 类型符 数组名 [常量表达式] 定义数组可以包括常量和符号常量如 int [ 35 ];但是不能利用变量定义如 int n; …

数据结构(6_1_1)——图的基本概念

图的定义 图G由顶点集V和边集E组成,记为G(V,E),其中V(G)表示图G中顶点的有限非空集;E(G)表示图G中顶点之间的关系(边)集合。若V{v1,v2,.....,vn},则用|V|表示图G中顶点的个数,也称图G的阶, ,用|E|表示图G中的边的条数 注意&…

【产品那些事】The OX Active ASPM Platform

文章目录 前言关于OX Security产品理念 流程体验Complete Visibility:将安全无缝嵌入到SDLC中PBOMOSC&R coverageContextualized Prioritization:快速解决最关键的风险Accelerated Response:简化安全流程See Beyond the Code:…

idea vue项目删除node_modules时报文件损坏且无法读取,导致删除失败

解决办法,查看node_modules所在盘,右击点击属性-工具,点击检查驱动,查完后修复即可, 就能够成功删除损坏的文件了

实时降水、降雨量接口对接,预报未来2小时有没有下雨

可实现的效果图 接口请求地址: http://ykyrain.tianqiapi.com 请求示例: http://ykyrain.tianqiapi.com/?versionrain&appid17256853&appsecretYtFbK6VP&lng114.302953&lat30.585411 请求参数 参数名必选类型说明备注(示…

[ 烧录教程 ]Phy6212-ST17H66快捷烧录调试-体验蓝牙烧写调试助手

目录 一、前言 二、任务要求 三、实现步骤 3.1 打开基本任务例程 3.2 编辑任务代码 3.3 通过蓝牙烧写调试助手查看效果 3.4 修改完善代码 3.5 继续烧写调试 四、总结 一、前言 基于Phy6212或ST17H66芯片的烧写的繁琐性,因此我将使用蓝牙调试助手完成本文中…

CentOS部署Oracle19c(rpm方式)

软件包下载地址 一共需要两个软件包 # oracle数据库企业版 oracle-database-ee-19c-1.0-1.x86_64.rpm# Oracle Database 19c的预安装RPM包,它主要用于在正式安装Oracle数据库之前准备系统环境 oracle-database-preinstall-19c-1.0-3.el7.x86_64.rpmhttps://yum.or…

图像复原算法

7.1 逆滤波 (Inverse Filtering) 介绍 逆滤波是一种基本的图像复原方法,用于从退化图像中恢复原始图像。它通过逆向应用退化过程中的滤波器来恢复图像。 原理 逆滤波假设图像在退化过程中受到线性且时不变的滤波器影响,并尝试通过逆向应用该滤波器来…

营销归因软件实战指南:提升营销ROI的关键步骤

在当今这个数据驱动的时代,营销归因已成为企业优化广告投放、提升营销回报率(ROI)不可或缺的工具。营销归因软件通过精准分析客户旅程中的每一个触点,帮助企业理解哪些营销活动真正驱动了转化,从而指导资源分配&#x…

有什么蓝牙耳机值得推荐一下吗?百元开放式耳机选购指南

在当下科技日新月异的时代,耳机已然融入我们的日常生活,成为不可或缺的存在。开放式耳机作为耳机界的新锐势力,凭借其别具一格的设计与显著优势,赢得了众多消费者的喜爱。 但是,当面对市场上琳琅满目的开放式耳机品牌与…

Linux静态进程和动态进程查看管理

1.静态进程的查看PS PPID:谁启动的父亲ID USER:运行进程的用户名称 PID:进程ID %CPU:CPU的占用比例占用资源 %MEM:内存使用的占用比例 VSZ:占用虚拟内存多少 RSS:占用实际内存多少 TTY:…

相见恨晚:四款良心无广的办公黑科技软件,小众而且太实用了

Quicker 这是一款综合类的效率神器,很难直接定义这是一款什么类型的软件,是右键增强,还是鼠标手势,总之是一款非常强大的软件。 可以设置相对应软件当中的快捷菜单,还有右键滑动轮盘,可以在轮盘或者菜单内…

人工智能系统测试生命周期详解之测试执行

前面的文章里我们已经整体介绍过了人工智能测试的生命周期,它需要经历测试需求的分析、测试环境的准备、数据的准备与验证、测试的执行预分析以及上线后的监控这样一个过程。已经为大家介绍了人工智能系统测试生命周期的“需求分析”环节、“测试环境准备”环节和“…

海山数据库(He3DB)技术分享:客户端认证

客户端认证核心参数 1.pg_hba.conf 参数文件定义了允许哪些主机以什么样的方式连接到哪些数据库。主要参数如表1.1所示: 表1.1 pg_hba.conf 参数 名称概述type连接类型,如 host(通过 TCP/IP 连接)、local(Unix 域套接…

高质量数据集的“高质量”包含哪些要素

近日,全国两会召开,关于人工智能领域的建议备受备受瞩目,除了关于通用大模型、人工智能、AIGC等议题,优质中文语料的缺失也是很多媒体关注的焦点。 所谓的语料就是我们俗称的“AI训练数据集”,AI训练数据集是现代数据…

Unity WebGL平台Hybrid Generate All报错undefined symbol sendfile

详细报错信息如下: Library\Bee\artifacts\WebGL\build\debug_WebGL_wasm\build.js: undefined symbol: sendfile (referenced by top-level compiled C/C code) UnityEditor.BuildPipeline:BuildPlayer (UnityEditor.BuildPlayerOptions) HybridCLR.Editor.Comman…

光速穿梭JavaScript特效代码

光速穿梭JavaScript特效代码https://www.bootstrapmb.com/item/15085 创建一个看起来像“光速穿梭”的JavaScript特效通常涉及到HTML、CSS和JavaScript的结合。下面我将提供一个简单的示例,展示如何使用这些技术来创建一个动画效果,模拟光速穿梭的感觉。…

场景感知如何做到成为智能时代下的生活新维度

在日新月异的智能科技浪潮中,场景感知正逐步成为连接物理世界与数字世界的桥梁,深刻改变着我们的生活方式与交互体验。场景感知,简而言之,是指智能系统通过多种传感器和数据分析技术,实时理解并适应当前环境及用户状态…