【深度学习】【Lora训练2】StabelDiffusion,Lora训练过程,秋叶包,Linux,SDXL Lora训练

news2024/12/22 18:57:28

文章目录

  • 一、如何为图片打标
    • 1.1. 打标工具
      • 1.1.1. 秋叶中使用的WD1.4
      • 1.1.2. 使用BLIP2
      • 1.1.3. 用哪一种
  • 二、 Lora训练数据的要求
    • 2.1 图片要求
    • 2.2 图片的打标要求
  • 三、 Lora的其他问题
    • qa1
    • qa2
    • qa3
    • qa4
    • qa5
  • 四、 对图片的处理细节
    • 4.1. 图片尺寸问题
    • 4.2. 图片内容选取问题
    • 4.3. 什么是一张合适的图?
      • 4.3.1. 解决水印问题——inpainting
      • 4.3.2. 解决边界的问题——裁剪
      • 4.3.3. 解决主体多的问题——删除
      • 4.3.4. 解决审美的问题——删除
  • 问询、帮助

上篇文谈论了一些基础使用,接下来实验一些更细节的问题。

文章链接:

kohya_ss:

https://qq742971636.blog.csdn.net/article/details/138135484

秋叶包基础:

https://qq742971636.blog.csdn.net/article/details/138195344

一、如何为图片打标

1.1. 打标工具

1.1.1. 秋叶中使用的WD1.4

一种词汇打标器,原始训练数据应该是来源于Danbooru 图像, Danbooru 就类似于分类,表述图中有的元素单词,这种倾向于是一个一个的单词(tag)来打标图片。

在这里插入图片描述
图片打标结果展示如下,一行是一个图片的打标:

solo, monochrome, 1girl, portrait, greyscale, short hair, realistic, traditional media, lips, smile

no humans, monochrome, greyscale, traditional media

1.1.2. 使用BLIP2

BLIP2,这个在kohya_ss中有可视化界面,或者使用程序:

https://huggingface.co/Salesforce/blip2-opt-2.7b

BLIP2的提示语更倾向于是一个短语短句子。

1.1.3. 用哪一种

都差不多,最终都会被CLIP转为嵌入量,只要打标准确达意就好。

二、 Lora训练数据的要求

参考资料:https://zhuanlan.zhihu.com/p/676456908

2.1 图片要求

数量我觉得质量越好、数量越多肯定是最好的。

分辨率适中,勿收集极小图像。

数据集需要统一的主题和风格的内容,图片不宜有复杂背景以及其他无关人物。

图像人物尽量多角度,多表情,多姿势。

凸显面部的图像数量比例稍微大点,全身照的图片数量比例稍微小点。

堆糖:https://www.duitang.com
花瓣:https://huaban.com
pinterest:https://www.pinterest.com

通常,准备数百张图像是理想的(图像数量太少会导致类别图像无法被归纳,特征也不会被学习)。

如果要使用生成的图像,生成图像的大小通常应与训练分辨率(更准确地说,是bucket的分辨率,见下文)相匹配。

2.2 图片的打标要求

如果想要用文字自由控制头发是什么颜色,那么tag中对头发颜色的描述就可以保留。

如果是某个特定的人物ID或者画风,不想要文字控制,想要Lora直接就有效果,那么就需要删除这种描述文字。

在这里插入图片描述

三、 Lora的其他问题

qa1

为什么lora有附加提示词?:如之前的概念,附加提示词是为了更好触发Lora功能,如果在后续Lora使用中,加上这个附加提示词去生图,那么就嘎嘎被控出Lora风格,附加提示词最好整点与众不同的词。

qa2

lora训练多少轮合适?:10轮,20轮。看到还有200轮的,loss收敛就好。

qa3

Lora模型的不同之处:网络结构(LoRA/LoCon/LoHa/DyLoRA)?:详细看秋叶包的解释。

qa4

Lora的正则化数据,这种训练数据可以用模型生成或者自己找,比如画风Lora训练中,只想生成卡通人物,那么正则数据就可以选真实人物。

qa5

你为什么会觉得BLIP2的标记更好?

WD1.4的打标是一些tag词,比如我训练的素描风格数据,WD1.4给的tag词里有很多相同的词,比如“monochrome, greyscale, traditional media ”,这些词导致了在后续我使用Lora生图过程中,我需要加这种描述词才能很好地触发Lora风格。而BLIP2的标记只会描述物体内容,就不至于出现这种问题。

只能说,各有长处,每个标记txt文件或许要审查一下更好,偷懒地话用BLIP2或许可以更懒一点。

在这里插入图片描述

四、 对图片的处理细节

比如我要训练SDXL的Lora,这种Lora可以将图片改为素描风格,我需要什么样的图片?我应该如何处理图片?哪种图片适合?

4.1. 图片尺寸问题

我需要的是高清图,要有足够的细节。SDXL本身是1024*1024的适应,所以我找的图不能太小,最小也应该有个768的大小。这一点上,可以借助一些超分算法和美化算法来调整图片尺寸,让图片有足够多的细节。故图片最小边大于512就足够好了,不用苛刻太多。

4.2. 图片内容选取问题

基本概念是,模型学习的是一种映射关系,对于没见过怎么转换的,迁移能力不是很强。比如我训练了中国墨水化的Lora,都是用的一些风景图片训练的,那么用这个Lora去生成人物是很垃圾的。模型见过类似的图片映射,才能聪明起来,这是训练的核心。

基于此,如果我想要的是画风Lora,那么我搞的数据应该尽量是各种各样的数据都来点;如果我想要的是某个人物的样貌Lora,那么最好搞的数据就全是这个人物的图片。

在素描风格中,我找了一些乱七八糟的图,我希望Lora学习到的是一种笔触风格:
在这里插入图片描述

4.3. 什么是一张合适的图?

基本原则是,凡是带有干扰的图,我都不会要,我都会修改。我要纯粹表达Lora的意向,图片要纯粹

4.3.1. 解决水印问题——inpainting

下图的红圈内都是不想要的图片内容,需要想办法去除:

在这里插入图片描述
win10企业版本的图片查看器可以一定程度修改这种情况:

在这里插入图片描述
可以看到擦出了很多,有人问下图还有擦不掉的怎么做,当然是直接把这张图扔垃圾桶里。

在这里插入图片描述

4.3.2. 解决边界的问题——裁剪

人物或者画风的Lora训练都需要遵循“图片要纯粹”。

比如画风中这张图的边界其实是一个很差的点,我们绝对不想要Lora指导生图出来的图中有这种难看的边界:

在这里插入图片描述
裁剪掉即可:

在这里插入图片描述

人物Lora训练也有类似的情况,比如这张图,如果是人物Lora,就需要裁剪这张图,因为要突出纯粹的核心内容。

在这里插入图片描述

裁剪后是这样的图才行,甚至不想绘制手,也可以把下半身裁剪一些,毕竟Lora那么傻,这么复杂的腿部姿势构图它可能学不会。

在这里插入图片描述

4.3.3. 解决主体多的问题——删除

训练素描风格,下面这个图不合适,主体太多,提示词tag很难形成映射。类似地人物Lora也是一样的道理,不要乱七八糟的无关人物干扰最好,否则就删除那张图。
在这里插入图片描述

4.3.4. 解决审美的问题——删除

训练素描风格,下面这个图不合适,需要删除。原因在于太丑,我不希望Lora指导绘图绘制出来这么拙略的出图。Lora只是一个小孩子,学映射没那么聪明,这种干扰不要当训练数据给进去,不然Lora学不好。

人物Lora也是类似地,人物如果丑,角度不好,就尽量不要用来当训练数据。

在这里插入图片描述

问询、帮助

你如果需要帮助,请看这里:

https://docs.qq.com/sheet/DUEdqZ2lmbmR6UVdU?tab=BB08J2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1657725.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深入浅出,一文搞懂向量数据库工作原理和应用

大家好,在今天这个数据复杂性日益增长和高维信息丰富的时代,传统数据库在高效处理和提取复杂数据集方面已显得捉襟见肘。向量数据库,作为一项应运而生的技术创新,成功解决了数据领域在不断扩展过程中所面临的挑战。 1.向量数据库…

常见的一些RELAXED MODEL CONCEPTS

释放一致性(release consistency, RC) RC的核心观点是:使用 FENCE 围绕所有同步操作是多余的 同步获取 (acquire) 只需要一个后续的 FENCE,同步释放 (release) 只需要一个前面的 FENCE。 对于表 5.4 的临界区示例,可以省略 FENCE F11、F14…

Vue3专栏项目 -- 一、第一个页面(下)

一、Dropdown 组件(下拉菜单组件)编码 1、基本功能:展示出下拉按钮和下拉菜单栏的样式 我们可以通过bootstrap来实现这个下拉框,需要注意它这个只是有样式,是没有行为的 然后这个下拉按钮的文字展示是根据用户名称展…

洗地机什么品牌好?洗地机怎么选?618洗地机选购指南

随着科技的飞速发展,洗地机以其高效的清洁能力、稳定的性能和用户友好的设计而闻名,不仅可以高效吸尘、拖地,还不用手动洗滚布,已经逐渐成为现代家庭不可或缺的清洁助手。然而,在众多品牌和型号中,如何选择…

Python专题:七、函数初探

代码的重用,重复的机械性功能 封装性,不用了解其组成原理 易于维护,更新 def是关键词,函数定义,add3函数名(自定义)三个数相加,a,b,c是函数的形式参数,需要注意的是,在出现三个点号之后,还需再输入一个回车,出现三个尖括号,才算函数定义完成,定义完之后就可以使…

MySQL 通过 systemd 启动时 hang 住了……

mysqld:哥,我起不来了…… 作者:贲绍华,爱可生研发中心工程师,负责项目的需求与维护工作。其他身份:柯基铲屎官。 爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编…

网工内推 | 技术支持工程师,最高15k,加班有补贴

01 星网信通 招聘岗位:售前技术支持 职责描述: 1、售前技术支持:技术交流、产品选型报价、方案制作等工作; 2、招投标支持:项目招标参数撰写、标书质疑、应标文件技术部分撰写及资质文件归纳准备、现场讲标及技术澄清…

95、动态规划-编辑距离

递归暴力解法 递归方法的基本思想是考虑最后一个字符的操作,然后根据这些操作递归处理子问题。 递归函数定义:定义一个递归函数 minDistance(i, j),表示将 word1 的前 i 个字符转换成 word2 的前 j 个字符所需的最小操作数。 递归终止条件…

命运交织的节点:分布式事务最终一致性的心跳共鸣纪实

关注微信公众号 “程序员小胖” 每日技术干货,第一时间送达! 引言 在当今云计算和微服务架构大行其道的时代,分布式系统成为了构建高可用、高性能应用的基石。然而,随着系统规模的扩张,数据的一致性问题如同幽灵般萦…

Linux字符设备驱动(一) - 框架

字符设备是Linux三大设备之一(另外两种是块设备,网络设备),字符设备就是字节流形式通讯的I/O设备,绝大部分设备都是字符设备,常见的字符设备包括鼠标、键盘、显示器、串口等等,当我们执行ls -l /dev的时候,就能看到大量…

C++容器之vector类

目录 1.vector的介绍及使用1.1vector的介绍1.2vector的使用1.2.1 vector的定义1.2.2 vector iterator 的使用1.2.3 vector 空间增长问题1.2.4 vector 增删查改1.2.5vector 迭代器失效问题1.2.6 vector 在OJ中的使用。 2.vector深度剖析及模拟实现2.1 std::vector的核心框架接口…

Kotlin基础知识总结(三万字超详细)

1、条件语句 (1)if条件 if条件表达式,每一个分支最后一条语句就是该分支的返回值。适用于每个分支返回值类型一致这种情况。 fun getDegree(score: Int): String{val result: String if(score 100){"非常优秀"}else if(score …

【2024全国青少年信息素养大赛初赛时间以及模拟题】

2024全国青少年信息素养大赛时间已经出来了 目录 全国青少年信息素养大赛智能算法挑战赛初中模拟卷 全国青少年信息素养大赛智能算法挑战赛初中模拟卷 1、比赛时间和考试内容: 算法创意实践挑战赛初中组于5月19日举行,检录时间为10:30-11:00&#xf…

OS复习笔记ch5-3

引言 上一节我们学习了关于信号量机制的一些内容,包括信号量的含义,对应的PV操作等。 如图所示,上一节主要是针对信号量的互斥,其实信号量机制还可以做很多事情,比如实现进程同步和前驱关系,这一节我们先复…

leetcode每日一题第七十二天

class Solution { public:TreeNode* searchBST(TreeNode* root, int val) {if(!root) return root;if(root->val val) return root;else if(root->val > val) return searchBST(root->left,val);else return searchBST(root->right,val);} };

新能源汽车动力电池热管理方案直冷方案原理简介

前言 随着新能源汽车的快速发展,动力电池作为其核心部件之一,对于其性能和寿命具有重要影响。动力电池在工作过程中会产生大量的热量,如果不能有效地进行热管理,将会导致电池温度升高、性能下降甚至损坏。因此,热管理…

C语言【文件操作 2】

文章目录 前言顺序读写函数的介绍fputc && fgetcfputcfgetc fputs && fgetsfputsfgets fprintf && fscanffprintffscanf fwrite && freadfwritefread 文件的随机读写fseek函数偏移量ftell函数rewind函数 文件的结束判断被错误使用的feof 结语 …

哈希题目总结

以下列举了可以用哈希方法(包括但不限于用HashMap和HashSet)的题目,实质上是把东西丢给这些数据结构去维护。请注意有些题目中用哈希是最优解,有些题目中不是最优解,可以自行探索其时间复杂度和空间复杂度的区别&#…

【Java】还不会数组?一文万字全搞定

前言:前面两章我们详细讲解了Java基本程序设计结构中的基本知识,,包括:一个简单的Java应用,注释,数据类型,变量与常量,运算符,字符串,输入输出,控…

探索精酿啤酒:从经典到创新

Fendi club啤酒一直以来都以其卓着的品质和与众不同的口感深受消费者喜爱。而随着时代的变迁和消费者口味的不断变化,Fendi club啤酒也在不断地探索和创新,以满足市场的多样化需求。 在经典的口感和风味基础上,Fendi club啤酒不断地尝试新的原…