Datawhale X 魔搭 AI夏令营第四期-魔搭生图task1学习笔记

news2025/1/11 0:44:34

根据教程提供的链接,进入相应文章了解魔搭生图的主要工作是通过对大量图片的训练,生成自己的模型,然后使用不同的正向、反向提示词使模型输出对应的图片

1.官方跑baseline教程链接:Task 1 从零入门AI生图原理&实践

2.简单列举一下赛事的要求以及任务

  1. 参赛者需在可图Kolors 模型的基础上训练LoRA 模型,生成无限风格,如水墨画风格、水彩风格、赛博朋克风格、日漫风格......

  2. 基于LoRA模型生成 8 张图片组成连贯故事,故事内容可自定义;基于8图故事,评估LoRA风格的美感度及连贯性

 下面详细展示一下,跑baseline的每一步操作

1.开通阿里云交互式建模PAI-DSW

阿里云免费试用 - 阿里云

9ec67b5df7ab495380ad8c91a5410871.png247c2a01de954915847280e5036f2066.png

                4218d90ef0b0467cabb6611677cbfb60.png

2.在魔塔社区进行授权:

https://www.modelscope.cn/my/mynotebook/authorization

5cdd5c9f11574c22a053cd7d1d1781e9.png3104924f7c1248c2980527e7357d5262.pngf75a64b2a0734e1884707f29df4fd367.pngfa308b2164d1423b9873073dc4956429.png

上面的过程图片是取自官方链接,由于个人在操作过程中并没有及时保存,所以将官方图片放置在这里记录一下操作过程

授权成功,选择我的notebook->魔塔平台免费实例->方式二

这里阐明一下选择方式二的原因:新手一定要按教程走,不要自己去尝试在本地跑,我当时拿到任务后就想着是需要在自己电脑上搭建环境再把代码一行行敲进去跑,先使用git把库clone了下来,然后使用pycharm去安装需要的几个包,其中data-juicer这个东西就装了几个小时一直提示包名不对。后来放弃了本地,使用这个平台选了方式一,运行!pip命令下载data-juicer就会出错

解决了安装data-juicer出错之后又在后期使用data-juicer时说没有这个包,折腾了好几个小时都不行,每次到那个地方就会出错。解决了包的问题,后期又在加载模型时,出现“RuntimeError: Found no NVIDIA driver on your system. Please check that you have an NVIDIA GPU”错误   。根据经验,建议选择方式二(血的教训),不过也是我这个小白第一次接触这种工具出现的问题,佬们多担待

ecb123a22ace4a3781bd00892b88c945.png

选择之后,点击启动

0d106bad246c4e5fb97e72207b34703c.png

ec561776d3334c9fb5660035df5484b0.png

选择终端,先使用git命令将我们需要的库下载下来

0525c5325eb340109cf9783cda7a1222.png

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git

上面的这两行命令可以一起复制粘贴之后运行:

acf02aa66e5b4964a2fcaea3300fddf6.png

再次出现rootxxxxxx这个用户名就代表下载成功:

34e6f95293ec4b23819054cf4f0b8881.png

左侧菜单栏出现kolors这个文件夹,打开kolors文件夹->baseline.ipynb

834cbdfce51f4b748bc51fcb665c70db.png

选择kernel

ea9388ac9950474d90ebb1d14ac7439a.png

重启一下内核,红色和绿色两种方式都可以

0433d83a3d9d431abab95881528ce211.png

e9ae46670dc445d7aa137616983a5b48.png

开始跑代码:

如果小伙伴们运行顺利的话,直接点击重启内核那个弯曲箭头->双箭头叠加,之后就可以静等代码运行,运行完成就得到了结果

但是我还是那个bug频出的小白,总结下来就是先把第一块pip的所有包安装完成

30aef2346fd14aae9fa1423b425da313.png

 在运行第二块代码之前,手动重置一下内核,之后一直点击,使其运行到最后一行,每一块我都进行了好多次,因为开始几次没有注意每一块的输出,导致到后面出错不知道该怎么办,所以下面给出我每一块运行的结果图片,不一样及时找错误,看是包没下好多下几次,第二步之前重置内核没有(很重要)

执行下载数据集完成后,左侧新增了一个data文件夹

d9b311fb806641f0b79006004308f34f.png

执行处理数据集代码完成:

f3f9bde1808f48bc8402b16c9232a092.png

保存数据集:

9f98a9b8332d4ddba700bcac84771ca3.png

下载模型:

7b66c333c8a34728a71f16f8a27fa878.png开始训练:

 383a12d522904fd4aceac26b79f063cf.png

加载模型:

每次出错都在这个地方,可能就是因为第二步那里的重启内核问题

红线那一行代码出来之后,就出现了CUDA的这个错误

d6ac568f9ee24ce4bd4fef74a78e3276.png

b72aa67f67d442aa80f9ccbfd42de623.png

最后根据描述输出对应图片基本上没有出错,结果成功输出:

4fad5c38153e4403b5a592048d8fc943.png

总结一下,可能就是一开始只是按照自己的想法走没有严格按教程,所以过程出现了很多问题

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2033021.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Material-UI】Floating Action Button (FAB) 详解:基础用法

文章目录 一、Floating Action Button (FAB) 简介1. FAB 的定义2. FAB 的特点 二、Basic FAB 的基础用法1. 基础 FAB 按钮2. 次要颜色的 FAB 按钮3. 扩展变体的 FAB 按钮4. 禁用状态的 FAB 按钮 三、FAB 按钮的高级自定义1. 自定义按钮大小2. 调整按钮的悬浮位置 四、FAB 的无障…

研究报告系列二:供应链安全风险原因分析及相关新质生产力重要技术探讨

随着软件开发的复杂性和动态性不断增加,软件供应链的安全风险成为了一个亟需重视的重要议题,而在技术的飞速发展和广泛应用下,新质生产力相关领域同样存在着软件供应链安全方面的问题,作为《2023软件供应链安全研究报告》系列中的…

js逆向——2024最新金山词霸(练习二)

首先还是看响应,返回了一串加密数据 继续放大招hook JSON,详细流程在上一篇文章 然后直接跟栈找到解密位置 var t 1 (null e || void 0 e ? void 0 : e.status) ? A(A({}, e), {}, {content: JSON.parse((0,_.B6)(e.content))}) : e; t是解密之后…

护眼大路灯哪个牌子好?公认五款最好护眼大路灯分享

护眼大路灯哪个牌子好?很多家长都是为了孩子的视力健康而置换的护眼大路灯,但是有一部分孩子用了之后反而会和家长说出现眼睛不太舒服,甚至近视加深的情况。而引发这种情况的大多数为产品不达标或非专业台灯,因为专业护眼大路灯是…

白屏检测系统的设计与实现

目录 一、 什么是白屏问题?二、 问题分析与拆解2.1 人工判定一个白屏问题的逻辑2.2 自动化判定一个白屏问题的算法思想 三、 白屏检测算法3.1 图像灰度化3.2 图像二值化3.3 计算(判定为白屏)置信度 四、 白屏检测系统的设计与实现4.1 UI自动化…

某通用系统0day审计过程

前言 代码审计篇章都是自己跟几个师傅们一起审计的1day或者0day(当然都是小公司较为简单),禁止未经允许进行转载,发布到博客的用意主要是想跟师傅们能够交流下审计的思路,毕竟审计的思路也是有说法的,或者是相互源码共享也OK&…

51单片机之动态数码管显示

一、硬件介绍 LED数码管是一种由多个发光二极管(LED)封装在一起,形成“8”字型的显示器件。它广泛用于仪表、时钟、车站、家电等场合,用于显示数字、字母或符号。 通过控制点亮a b c d e f g dp来显示数字,本实验开发板…

最长的一帧学习(待补)

文章目录 一、osgViewer:: ViewerBase:: frame()1.osgViewer:: View:: init()2.osgViewer::Viewer::realize(),窗口和场景的“设置”工作part1 GraphicsContextpart1.1 通过阅读osgViewer::View::setUpViewInWindow()了解osg最基础的操作 part2 DisplaySettingspart…

《机器学习by周志华》学习笔记-决策树-03

1、连续值处理 到目前为止,我们在决策树01、02中仅讨论了基于离散属性来生成决策树,而现实任务中常会遇到连续属性,所以在本章的学习中,我们将会讨论如何在决策树学习中使用连续属性。 1.1、概念 取值范围是连续的实数值或者整数值的属性就是「连续属性」,与离散属性相对…

Java全栈开发知识图谱(概要)

Java全栈开发知识图谱 基础知识 Java基础 语法面向对象编程(OOP)异常处理集合框架并发编程JVM原理 下列的只是图谱来源与网路 ,仅作为学习笔记使用,侵删。 数据结构和算法 常用数据结构(数组、链表、栈、队列、树等…

通过提示词越狱解锁学习提示词的新姿势

一、什么是提示词越狱 提示词越狱是一种针对语言模型的攻击方法,攻击者通过设计特定的提示词或查询,诱导模型生成不当或有害的内容。这类攻击通常利用模型的脆弱性,绕过其内置的安全机制。通过巧妙的措辞或特殊的结构,攻击者能够…

【ML】为什么multi-lingual bert 有跨语言的能力?M-BERT有什么特点

【ML】为什么multi-lingual bert 有跨语言的能力? 1. Multi-lingual BERT的跨语言能力解析1.1 什么是Multi-lingual BERT?1.2 为什么Multi-lingual BERT有跨语言的能力?1.3 结论 2. 数据量减少对BERT识别能力的影响及Multi-lingual BERT的跨…

删除git中的.idea

删除git中的.idea 1. 修改 .gitignore 文件内容,添加 .idea echo .idea >> ./gitignore2. 删除本地暂存区的 .idea [git rm命令用于从Git仓库中删除文件或目录, 而--cached选项告诉Git仅删除Git索引中的.idea目录,并不会删除本地文件系…

【大数据】重塑时代的核心技术及其发展历程

🐇明明跟你说过:个人主页 🏅个人专栏:《大数据前沿:技术与应用并进》🏅 🔖行路有良友,便是天堂🔖 目录 一、引言 1、什么是大数据 2、大数据技术诞生的背景 二、大…

Java并发编程(七)—ThreadLocal的原理及应用详解

目录 一、ThreadLocal的原理 1、ThreadLocal对象 2、ThreadLocalMap 3、Thread 对象 4、get() 和 set() 方法 5、内存管理 二、ThreadLcoal的应用 三、ThreadLocal扩展问题 四、总结 ThreadLocal 类在 Java 中提供了一种机制,可以在每个线程中存储独立的变…

【Python】基础语法介绍

目录 一、标识符和关键字 二、注释 三、缩进 四、输入和输出 五、字符串操作 六、基本数据类型 七、复合数据类型 7.1 列表 7.2 元组 7.3 字典 7.4 集合 八、数据类型转换 九、运算符 8.1 算术运算符 8.2 比较运算符 8.3 赋值运算符 8.4 位运算符 8.5 逻辑运…

网络编程day1

一、思维导图 网络基础

wordpress全局自适应网址导航整站打包源码,含主题和数据库

wordpress全局自适应网址导航整站打包源码,含主题和数据库。直接恢复就可以使用了。 这个是自适应的布局设计,体验还不错。用网址导航是可以的。 代码免费下载:百度网盘

golang for range time.Ticker 和 time.Timer时间通道使用示例 - 每隔指定时间执行一次,执行指定时长后退出执行

golang中的 ticker和timer时间通道除了可以使用for select case语句来执行外, 还可以使用 for range语句来执行ticker或者timer时间通道。 for range time.Ticker 和 time.Timer时间通道使用示例 下面的示例演示了time.Ticker 和 time.Timer的区别和使用演示。 Ti…

《向量数据库指南》——向量数据库技术积累与商业机会

一豪:Charles提到了一个关键点,就是RAG技术结合模型对非结构化数据的理解和搜索能力,甚至可以很好地架接在传统结构化数据的解决方案中。作为向量数据库的核心技术点,对数据本身特别是非结构化数据的向量化、精炼和压缩,我相信Zilliz等公司有很多独门技巧和技术积累。随着…