Datawhale AI 夏令营——从零入门多模态大模型数据合成——Task1学习笔记

Datawhale AI 夏令营——从零入门多模态大模型数据合成——Task1学习笔记

news2025/1/12 13:46:47

天池Better Synth 官方赛事链接：天池Better Synth多模态大模型数据合成挑战赛_算法大赛_天池大赛-阿里云天池的赛制

一、内容提要

天池Better Synth多模态大模型数据合成挑战赛 是 Datawhale 2024 年 AI 夏令营第四期的学习活动——

适合想 入门并实践多模态大模型、数据处理、模型训练 的学习者参与

学习内容提要：使用已有大模型和技术，在限定的计算资源下合成高质量训练数据，以增强多模态大模型的图像理解能力。

二、资源总结

本人baseline运行所使用的资源：

PAI-DSW 试用，获得 5000算力时！有效期3个月！
+ 额外扩充磁盘空间，至少需要增加50G，需0.1元每小时，
+ 模型训练和评测阶段，需要跑大概3小时，购置阿里云188G内存的GPU规格，大概需要15元每小时

训练完成总共消费了 63.56 大洋，环境总共运行时间为 9小时38分，配置环境确实很繁琐、也遇到了一些配置上的问题，就在这里总结一下，希望能帮助到大家。

三、问题总结

附上 Datawhale提供的 300 分钟跑通baseline指南：

Datawhalehttps://linklearner.com/activity/14/13/27

Step2里下载多模态base模型及数据集部分（大概50分钟） 因为网速和欠费的原因，失败了2次。

下载BLIP图片描述模型部分（约20分钟左右） ，需要执行 python download_blip.py 命令，但我之前拉取得git仓库资料里还没有，当时我就懵了，后面在文档里看到最新得git仓库有，就去下载这个文件。

附上仓库链接：魔搭社区汇聚各领域最先进的机器学习模型，提供模型探索体验、推理、训练、部署和应用的一站式服务。https://www.modelscope.cn/datasets/Datawhale/better_synth_challenge_baseline/files

数据处理与合成部分（约1小时左右），运行 dj-process --config solution/image_captioning.yaml 代码时，

感觉自己的（后面这张）和教程提供的不一样，这里应该是因为，之前运行过一次， 10k的样本应该已经处理好了。

后面就是 执行模型训练 & 推理测评（3-4小时左右）、打包zip文件、提交zip文件，跟着教程走就行。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2045274.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

java 实现-使用OpenFeign 实现远程调用外部接口（调用swgager）接口

java 实现-使用OpenFeign 实现远程调用外部接口（调用swgager）接口

首先根据提供的swagger路径，在网页中查看相关接口方法打开接口后我们可以看见，接口的路径/online/list 以及可以看见入参和出参根据所有提供的参考方法和路径，拼接出整体路径URL（http://ip:端口/online/list） 注意…

阅读更多...

一键生成PPT、漫画、长文：橙篇让创意一触即发

一键生成PPT、漫画、长文：橙篇让创意一触即发

橙篇如何快速高效地创作优质内容，成为了每个创作者都在思考的问题。而今天，我们要介绍的这款神器——橙篇，或许就是解开这个难题的钥匙。它不仅能让你的创意一触即发，更能将你的灵感瞬间化为现实。橙篇多样化功能橙篇不仅仅…

阅读更多...

21款奔驰GLS450升级原厂香氛负离子系统，提升车内空气质量

21款奔驰GLS450升级原厂香氛负离子系统，提升车内空气质量

奔驰原厂香氛系统激活原车自带系统，将香气加藏储物盒中，通过系统调节与出风口相结合，再将香味传达至整个车厢，达到净化车厢空气的效果，让整个车厢更加绿色健康，清新淡雅。产品功能：香氛负离子…

阅读更多...

Java JDVC编程

Java JDVC编程

1、Java的数据库编程：JDBC JDBC（Java Database Connectivity）是Java中用来与数据库进行交互的一种标准API（应用程序编程接口）。它为开发人员提供了一种统一的方式来访问各种类型的数据库管理系统（DBMS&…

阅读更多...

火锅店管理系统

火锅店管理系统

TOC springboot260火锅店管理系统第1章绪论 1.1选题动因当前的网络技术，软件技术等都具备成熟的理论基础，市场上也出现各种技术开发的软件，这些软件都被用于各个领域，包括生活和工作的领域。随着电脑和笔记本的广泛运用&am…

阅读更多...

（24）(24.3) MSP OSD（二）

（24）(24.3) MSP OSD（二）

文章目录前言 3 OSD面板项目配置 4 使用SITL测试OSD 5 使用任务规划器配置布局 6 视频前言 ArduPilot 支持 MSP OSD 协议，该协议允许在 DJI 护目镜上显示飞行数据，就像许多自动驾驶仪中的外部 MAVLink OSD 或内部集成模拟 OSD 一样。如果配置了 …

阅读更多...

世界顶级思想家起名大师颜廷利：金融离不开银行，灵魂离不开引航

世界顶级思想家起名大师颜廷利：金融离不开银行，灵魂离不开引航

在《升命学说》一书中,山东济南的杰出人物、被广泛认为是最有影响力的哲学家之一的颜廷利教授,提出了一系列深奥而又实用的生命哲学。这些理念不仅是对传统文化的传承,也是对现代社会的深刻洞察。世界伟大人民的哲学家思想家教育家,山东籍当代文化名人颜廷利教授提出,生命的本…

阅读更多...

winApi与QtApi的共享内存通信

winApi与QtApi的共享内存通信

目的就是A程序是QT的程序用的QT的接口读取共享内存，B程序是WinApi创建的共享内存，两个程序进行共享内存；其间还有信号量，信号量，统一用的winApi的信号量。就是下边这种情况：下边的这个例子，就针对两块重点，进行分析： 1、QT侧的共享内存与win Api的共享内存如何…

阅读更多...

音频剪辑新纪元：探索2024年人人都在用的音乐编辑工具

音频剪辑新纪元：探索2024年人人都在用的音乐编辑工具

当你计划为视频添加旁白或投身有声书录制领域时，音乐剪辑软件便成为了不可或缺的关键工具。挑选一款既简单易上手又功能全面的音频编辑软件，将极大地加速并优化你创作理想音频文件的过程。 1.福昕音频剪辑链接直达>>https://www.foxitsoftware.…

阅读更多...

OJ题——二叉树（前序遍历）

OJ题——二叉树（前序遍历）

🍬个人主页：Yanni.— 🌈数据结构：Data Structure. 🎂C语言笔记：C Language Notes 计算结点数首先得算出这个结点有多少，不然数组的空间无法开辟出来。利用递归算法，…

阅读更多...

案例精选 | 某省级第二人民医院恶意外连监测与治理项目

案例精选 | 某省级第二人民医院恶意外连监测与治理项目

某省级第二人民医院，是某省卫健委直属三级甲等医疗机构，一所集医疗、科研、教学、预防、保健为一体的大型现代化综合医院。医院设施设备先进，‌技术服务领先，‌现有开放床位1400余张，临床医技科室90余个。并且&#xf…

阅读更多...

漏洞复现-K26-1开源-证书查询系统-任意文件读取

漏洞复现-K26-1开源-证书查询系统-任意文件读取

1 产品简介某开源的证书查询系统不少平台在使用 2 漏洞概述攻击者可以通过构造恶意的请求来利用该漏洞，从而读取或下载他们本来无权访问的文件，如密码、私钥、证书等，会提供攻击者更多可用信息，提高被入侵的风险。 3 复现环…

阅读更多...

【北京迅为】《i.MX8MM嵌入式Linux开发指南》-第五篇文件系统构建篇-第七十九章 Ubuntu20文件系统

【北京迅为】《i.MX8MM嵌入式Linux开发指南》-第五篇文件系统构建篇-第七十九章 Ubuntu20文件系统

i.MX8MM处理器采用了先进的14LPCFinFET工艺，提供更快的速度和更高的电源效率;四核Cortex-A53，单核Cortex-M4，多达五个内核 ，主频高达1.8GHz，2G DDR4内存、8G EMMC存储。千兆工业级以太网、MIPI-DSI、USB HOST、WIFI/BT…

阅读更多...

如何进行数据中心的负载测试规划和设计

如何进行数据中心的负载测试规划和设计

负载测试是数据中心规划和设计的重要组成部分，它可以帮助评估系统在高负载条件下的性能表现。以下是进行数据中心负载测试规划和设计的步骤： 1. 确定目标：首先，需要明确负载测试的目标。这可能包括评估系统的最大处理能力&#xf…

阅读更多...

2024年省市县乡镇村行政边界矢量数据分享，数据获取在文末

2024年省市县乡镇村行政边界矢量数据分享，数据获取在文末

今天给大家分享的是【2024乡镇区划矢量边界数据】！数据更新自2024年6月，同上一年对比乡镇数量有所调整。现阶段的我国行政区划行政区划的划分确实是为了更有效地进行行政管理和服务，使得国家的治理能够更加有序和高效。行政区划的合理设定…

阅读更多...

将ios 无线投屏至windows 10

将ios 无线投屏至windows 10

尝试通过wsa安装乐播安桌盒子版， 没有成功，有帖为证， 但是却给win10带来了wsa的特性， 有帖为证： https://blog.csdn.net/weixin_62598385/article/details/141260431 尝试通过wsa安装乐播安桌盒子版， 没有成…

阅读更多...

深入理解指针（五）

深入理解指针（五）

一、一维数组传参的本质首先从一个问题开始，我们之前都是在函数外部计算数组的元素个数，那我们可以把数组传给一个函数后，在函数内部求数组的元素个数吗？ 我们来看一下下面的代码： #include<stdio.h> void te…

阅读更多...

springboot+JTA+atomikos多数据源分布式事务管理

springboot+JTA+atomikos多数据源分布式事务管理

一、项目需求 1、同时操作两个数据库，一个在本地服务器，一个在云服务器。 2、数据库数据是同步的，两个数据库同时做update、insert等操作时，无论哪个数据库操作失败，要求两个数据库数据同时回滚。 3、两个数据库均为SQ…

阅读更多...

整理酷炫 Flutter 优质布局、交互开源App

整理酷炫 Flutter 优质布局、交互开源App

xtimer-flutter-app Flutter 计时器应用项目地址：https://github.com/pedromassango/xtimer-flutter-app 项目Demo：https://download.csdn.net/download/qq_36040764/89631382

阅读更多...

＜数据集＞骑行头盔识别数据集＜目标检测＞

＜数据集＞骑行头盔识别数据集＜目标检测＞

数据集格式：VOCYOLO格式图片数量：5026张标注数量(xml文件个数)：5026 标注数量(txt文件个数)：5026 标注类别数：3 标注类别名称：[helmet, without_helmet, two_wheeler] 序号类别名称图片数框数1helm…

阅读更多...

推荐文章

最新文章