使用Kohya_ss训练Stable Diffusion Lora

news2025/2/26 5:02:24

Stable Diffusion模型微调方法

Stable Diffusion主要有 4 种方式:Dreambooth, LoRA, Textual Inversion, Hypernetworks。

Textual Inversion (也称为 Embedding),它实际上并没有修改原始的 Diffusion 模型, 而是通过深度学习找到了和你想要的形象一致的角色形象特征参数,通过这个小模型保存下来。这意味着,如果原模型里面这方面的训练缺失的,其实你很难通过嵌入让它“学会”,它并不能教会 Diffusion 模型渲染其没有见过的图像内容。

Dreambooth 是对整个神经网络所有层权重进行调整,会将输入的图像训练进 Stable Diffusion 模型,它的本质是先复制了源模型,在源模型的基础上做了微调(fine tunning)并独立形成了一个新模型,在它的基本上可以做任何事情。缺点是,训练它需要大量 VRAM, 目前经过调优后可以在 16GB 显存下完成训练。

LoRA (Low-Rank Adaptation of Large Language Models) 也是使用少量图片,但是它是训练单独的特定网络层的权重,是向原有的模型中插入新的网络层,这样就避免了去修改原有的模型参数,从而避免将整个模型进行拷贝的情况,同时其也优化了插入层的参数量,最终实现了一种很轻量化的模型调校方法, LoRA 生成的模型较小,训练速度快, 推理时需要 LoRA 模型+基础模型,LoRA 模型会替换基础模型的特定网络层,所以它的效果会依赖基础模型。

Hypernetworks 的训练原理与 LoRA 差不多,与 LoRA 不同的是,Hypernetwork 是一个单独的神经网络模型,该模型用于输出可以插入到原始 Diffusion 模型的中间层。 因此通过训练,我们将得到一个新的神经网络模型,该模型能够向原始 Diffusion 模型中插入合适的中间层及对应的参数,从而使输出图像与输入指令之间产生关联关系。

硬件配置

显卡选择建议:显存在10GB以上,也就是RTX3060等级以上的GPU。

准备训练数据

图片收集

  • 训练用的图片最少最少要准备10张。
  • 分辨率适中,勿收集极小图像。
  • 数据集需要统一的主题和风格的内容,图片不宜有复杂背景以及其他无关人物。
  • 图像人物尽量多角度,多表情,多姿势。
  • 凸显面部的图像数量比例稍微大点,全身照的图片数量比例稍微小点。

图片预处理

(1)裁切图片

下载图片后,要将训练图片裁切成512x512像素。你可以选择用SD WebUI自动裁切,或是手动裁切。

  1. 将要裁切的图片放到同一个目录下。
  2. 打开SD WebUI,进到Train → Preprocess images页面。
  3. 第一个字段Source directory填写原始图片的路径。
  4. 第二个字段Destination directory填写输出路径。
  5. Width和Height设置为512x512。
  6. 点击Preprocess ,图片即会自动裁切。在那之后原始图片就可以删除,只留下裁切后的图片。
(2)预先给图片上提示词(图片打标)

接着要给图片预先上提示词,这样AI才知道要学习哪些提示词。

  1. 启动SD WebUI,进入Train页面。
  2. 进入Preprocess页面,Source输入裁切图片的路径,Destination填处理后图片输出的路径。
  3. 接着勾选Create Flipped Copies,创建翻转图片提升训练数量。
  4. 然后用Stable Diffusion训练真实图片的勾选Use BLIP for caption;训练动漫人物改勾选Use DeepBooru for caption。
  5. 点击Preprocess,约几分钟后便会处理完成。输出的目录里面会含有每张图片对应的提示词txt档。
  6. 图片标注完成之后,会在图像文件夹里生成与图片同名的txt文件。点击打开txt文件,将觉得无关,多余的特征都给删除掉。

安装kohya_ss

环境准备

安装 Python 3.10,git

拉取代码

git clone https://github.com/bmaltais/kohya_ss

进入kohya_ss目录

cd kohya_ss

运行设置脚本

.\setup.bat

启动GUI

gui.bat

允许远程访问

gui.bat --listen 0.0.0.0 --server_port 7860 —headless

配置路径

需要配置以下三个目录:

  • image folder:存放训练集
  • logging folder:存放日志文件
  • output folder:存放训练过的模型

首先在image文件夹中新建一个名为100_xxxx的文件夹,100用来表示单张图片训练100次。然后将之前标注好的训练数据都放入文件夹中。

详细的配置如下:


​​​​​​​

配置训练参数:

kohya_ss提供了很多可以调节的参数,比如batchsize,learning rate, optimizer等等。可以根据自己实际情况进行配置。 

参数说明:

  • train_batch_size:训练批处理大小,指定同时训练图像的数量,默认值1,数值越大,训练时间越短,消耗内存越多。
  • Number of CPU threads per core:训练期间每个CPU核心的线程数。基本上,数字越高,效率越高,但有必要根据规格调整设置。
  • epoch:训练周期,假设想通过10次阅读50张图片来学习。在这种情况下,1个周期是50x10=500个训练。如果是2个周期,这将重复两次,因此它将是500x2=1000次学习。对于LoRA来说,2-3个时期的学习就足够了
  • Save every N epochs:每隔N个周期保存一次,如果不需要创建中间LoRA,将值设置为与“Epoch”相同。
  • Mixed precision:指定训练期间权重数据的混合精度类型。权重数据最初以32位为单位,但如有必要,通过混合16位单位数据进行学习将节省大量内存并加快速度。fp16是精度为其一半的数据格式,bf16是设计用于处理与32位数据相同的数字宽度的数据格式。可以在fp16上获得足够高的准确度。
  • Save precision:指定要保存在LoRA文件中的权重数据的类型。float为32位,fp16和bf16为16位单元。默认值为fp16。
  • Learning rate:学习率,稍微改变权重,以融入更多的给定图片。默认值为0.0001。
  • LR Scheduler:调度器是关于如何改变学习速率的设置,默认值为cosine。

LR Scheduler取值说明:

  • adafactor:一边学习,一边根据情况自动调整学习率以保存VRAM
  • constant:学习率从头到尾都没有变化
  • constant_with_warmup:从0的学习率开始,在热身时逐渐向学习率的设定值增加,在主学习时使用学习率的设置值。
  • cosine:在绘制余弦曲线时,逐渐将学习率降低到0
  • cosine _with_restarts:多次重复余弦
  • linear:线性,从学习率设置开始,并向0线性下降
  • polynomial:多项式,与线性行为相同,但减少起来有点复杂

完整的训练参数参考:

LoRA training parameters · bmaltais/kohya_ss Wiki · GitHubContribute to bmaltais/kohya_ss development by creating an account on GitHub.icon-default.png?t=N7T8https://github.com/bmaltais/kohya_ss/wiki/LoRA-training-parameters

适配Intel显卡

kohya_ss最新版本在Linux/WSL上添加Intel ARC GPU支持与IPEX支持

  • Mixed precision选择BF16
  • Optimizer选择AdamW(或任何其他非8位)
  • CrossAttention选择SDPA

 

运行setup.sh:

./setup.sh --use-ipex

运行gui.sh:

./gui.sh --use-ipex

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1214797.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android 14 Beta 1

Android 14的第一个 Beta 版,围绕隐私、安全、性能、开发人员生产力和用户定制等核心主题构建,同时继续改进平板电脑、可折叠设备等大屏幕设备的体验。我们一直在完善 Android 14 的功能和稳定性方面取得稳步进展,现在是时候向开发者和早期采…

软件系统集成指南

软件产品集成是将各种软件组件、模块和代码组装成最终可执行、可应用的软件产品的过程。这个过程涉及到将工作产品转化为产品的组装过程。在软件工程中,产品集成是一个重要的环节,通过持续性集成,将产品集成的过程常态化、自动化。做好产品集…

收集整理微信小程序源码精选8500套(不同行业的源码集合)/带后台+含搭建开发教程

这下面分享的是精心收集整理的微信小程序源码精选8500套,它含有不同行业的源码集合,带后台,而且含搭建开发教程。可以转存起来,需要的时候直接搜索关键词查找就行了,方便得很。 很多伙伴学习小程序不知怎么开始&#…

【Vue-Demo】倒计时3秒后返回首页

首页path:/ 倒计时结束后要清除计时器&#xff0c;防止内存泄漏&#xff1a; if (this.count 0) {clearInterval(this.timer); }<!-- ErrorJump.vue --> <template><h2>Error&#xff1a;找不到页面&#xff01;</h2><h4>{{ count }}S后<R…

01序列 卡特兰数

解法&#xff1a; 将01序列置于坐标轴上&#xff0c;起始点为原点。0表示向右走&#xff0c;1表示向上走。这样就可以将前缀0的个数不少于1的个数就可以转换为路径上的点&#xff0c;横坐标大于纵坐标&#xff0c;也就是求合法路径个数。 注意题目mod的数是质数&#xff0c;所…

【嵌入式项目应用】__单片机STM32有什么好的裸机程序架构思路推荐?

目录 前言 没设计好程序架构&#xff0c;根本做不稳定。 按照我的思维&#xff0c;我会这样去设计程序&#xff1a; 那这样的好处是什么&#xff1f; (*&#xffe3;︶&#xffe3;)创作不易&#xff01;期待你们的 点赞、收藏和评论喔。 前言 在我刚出来的时候&#x…

Android笔记(十三):结合JetPack Compose和CameraX实现视频的录制和存储

在“Android笔记&#xff08;八&#xff09;&#xff1a;基于CameraX库结合Compose和传统视图组件PreviewView实现照相机画面预览和照相功能”&#xff0c;文中介绍了拍照功能的实现&#xff0c;在本文中将介绍结合JetPack Compose和CameraX实现视频的录制。 新建一个项目 在项…

nn.Embedding()的原理

nn.Embedding()的原理&#xff1a; 定义一个Embedding&#xff1a; embeddings nn.Embedding(num_embeddings10, embedding_dim3)vocab_size : 10 输出维度为&#xff1a; 3 假定输入inputs如下&#xff1a; inputs torch.tensor([[1,3,6, 8],[9,1,3,5] ],dtypetorch.lo…

达索系统SOLIDWORKS Electrical机电一体化协同设计

一秒读懂 SOLIDWORKS Electrical 问题点 电气、机械设计各自为政数据传递困难&#xff0c;存在设计错误 CHALLENGE电气设计面临挑战 问题点&#xff1a;电气、机械设计各自为政数据传递困难&#xff0c;存在设计错误 原理图绘制完毕后&#xff0c;再绘制接线图,人工统计BOM&a…

Valgrind——程序分析工具

目录 Valgrind一.摘要二.安装Valgrind三,简单上手和分析程序1(C程序):使用未初始化的内存程序2(C程序):在内存被释放后进行读/写程序3(C程序): 内存泄露程序4(C程序): 不匹配使用malloc free 和 new delete程序5(C程序): 两次释放内存 四.Qt中使用Valgrind五.内存泄露分析 Valg…

Java学习day12:static关键字,字符串声明,字符串常量池

声明&#xff1a;该专栏本人重新过一遍java知识点时候的笔记汇总&#xff0c;主要是每天的知识点题解&#xff0c;算是让自己巩固复习&#xff0c;也希望能给初学的朋友们一点帮助&#xff0c;大佬们不喜勿喷(抱拳了老铁&#xff01;) 往期回顾&#xff1a; Java学习day11&…

HBase中的数据表是如何用CHAT进行分区的?

问CHA&#xff1a;HBase中的数据表是如何进行分区的&#xff1f; CHAT回复&#xff1a; 在HBase中&#xff0c;数据表是水平分区的。每一个分区被称为一个region。当一个region达到给定的大小限制时&#xff0c;它会被分裂成两个新的region。 因此&#xff0c;随着数据量的增…

Unity | 运行时显示调试信息

「公众号&#xff1a;游戏开发手记」 1 简介 在 Unity 编辑器中&#xff0c;我们可以通过点击 Stats 按钮来查看 Statistics 面板&#xff0c;这个面板显示了许多关于游戏渲染的信息&#xff0c;如每帧的渲染时间、Tris 和 Verts 的数量、SetPass Calls 的数量等。但在其他运…

Spring6(五):Resources、i18n、Validation

文章目录 7. 资源操作&#xff1a;Resources7.1 Resource接口7.2 Resource的实现类7.2.1 UrlResource访问网络资源7.2.2 ClassPathResource 访问类路径下资源7.2.3 FileSystemResource 访问文件系统资源7.2.4 其他 7.3 Resource类图7.4 ResourceLoader 接口7.5 ResourceLoaderA…

EV代码签名证书

为了增强软件的安全性和可信度&#xff0c;EV代码签名证书&#xff08;Extended Validation Code Signing Certificate&#xff09;成为了一种具有最高级别保障的关键工具。 EV代码签名证书是一种由受信任的证书颁发机构&#xff08;CA&#xff09;或证书供应商提供的高级别代…

linux之shell

一、是什么 Shell是一个由c语言编写的应用程序&#xff0c;它是用户使用 Linux 的桥梁。Shell 既是一种命令语言&#xff0c;又是一种程序设计语言 它连接了用户和Linux内核&#xff0c;让用户能够更加高效、安全、低成本地使用 Linux 内核 其本身并不是内核的一部分&#x…

创建SpringBoot项目后无法运行Java文件的解决方法

目录 1.无法运行 &#xff08;1&#xff09;解决方法一 &#xff08;2&#xff09;解决方法二 2.包无法下载 &#xff08;1&#xff09;查看pom.xml文件中包是否存在的方法 &#xff08;2&#xff09;如果仓库存在包的处理方式 1.无法运行 当我们创建好一个SpringBoot项目…

make和makefile

一、认识make和Makefile 1、会不会写makefile&#xff0c;从一个侧面说明了一个人是否具备完成大型工程的能力 2、一个工程中的源文件不计数&#xff0c;其按类型、功能、模块分别放在若干个目录中&#xff0c;makefile定义了一系列的规则来指定&#xff0c;哪些文件需要先编译…

借助Spire.Doc for Java控件,将 ODT 转换为 PDF。

在通过电子邮件发送或与其他人共享 ODT 文件之前&#xff0c;您可能需要将该文件转换为 PDF&#xff0c;以便任何人都可以跨多个操作系统访问该文件。在本文中&#xff0c;您将学习如何使用Spire.Doc for Java在 Java 中将 ODT 转换为 PDF。 Spire.Doc 是一款专门对 Word 文档…

中国生态功能保护区shp数据

代码 名称 类型 1 秦岭山地生态功能保护区 水涵养生态功能保护区 2 若尔盖一玛曲生态功能保护区 水涵养生态功能保护区 3 滇西北生态功能保护区 水涵养生态功能保护区 4 珠江源&#xff08;云南部分&#xff09;生态功能保护区 水涵养生态功能保护区 5 雅鲁藏布…