在 Stable Diffusion 1.5 中 Lora, Dreambooth, Textual Inversion的详解指北

news2024/9/19 8:04:09

Lora, Dreambooth and Textual Inversion 说明

您是否想象过您可爱的宠物与埃菲尔铁塔合影的画面,或者想象过如何生成一张带有您朋友面孔的人工智能图像? 是的,通过稳定扩散技术的微调,这完全是可能的!

创建这些场景的整个过程看似复杂,因为它涉及到以一种看似自然和毫不费力的方式将描绘的特定主题或对象融入新的环境中。 最初,"稳定扩散 "可以生成人脸图像,但往往会生成陌生人的图像。 即使提示名人或人物的名字,结果的准确率也不会达到 90%。 很可能生成的图像相似度低于 50%。

利用稳定扩散技术,可以轻松帮助实现这些图像。 稳定扩散支持通过使用 Lora、Dreambooth 和 Textual Inversion 技术来训练主题。 用户广泛使用这四种训练技术来训练机器,生成准确而具体的主题。 模型训练并不局限于人脸,它可以训练人脸、动物、车辆、家里的花瓶甚至是图片风格等任何类型的主题。

现在,很多人主要用它来训练人脸图像或图片风格(波普艺术风格、矢量风格等)。 Lora、Dreambooth 和 Textual Inversion 是人工智能算法技术的一部分,用于支持稳定扩散等扩散模型的训练和完善。 它的工作原理是将特定对象作为输入输入到模型中。 这是对每种微调如何彼此不同的另一种技术解释。

在这里插入图片描述

  • Dreambooth
    Dreambooth 由谷歌研究团队于 2022 年首次发布。 Dreambooth 可以捕捉主体,并将其整合到任何想要的环境中。 它源于摄影棚的理念,一旦捕捉到主体,就可以重现梦境。

在这里插入图片描述

Dreambooth — https://dreambooth.github.io/

在这里插入图片描述

Dreambooth — https://dreambooth.github.io/

谷歌团队在一篇研究论文中展示了 Dreambooth 的功能,他们仅使用了 4 张柯基犬的照片作为输入。 结果,Dreambooth 模型能够在多种场景下生成许多柯基犬的图像。 DreamBooth 功能强大,可以从任何艺术作品中捕捉图片或风格的精髓。 它允许用户微调和自定义文本到图像的模型以及相应的类名(如 “狗”、“人”、“建筑”)。

Dreambooth 能够产生高质量和多样化的输出。 有人说,Dreambooth 是捕捉特定事物/人物本质的绝佳工具。 梦之窗的训练方法是,它需要使用一个特定的、罕见的、没有太多含义的词来进行主题训练。 之所以需要这样做,是因为这样可以防止人工智能将其与常见的和其他已学过的单词混淆。 其次,Dreambooth 也有先验保护类方法。 基本上,这就是所谓的 “保存图像”,我们将模型中需要防止修改的部分放入类图像中,而将需要训练的部分排除在类图像之外。 但是,如果设置不正确,输出结果可能会与类图像完全相同,或者与训练图像过于相似。 与 LoRA 和文本反转相比,Dreambooth 更容易扭曲色彩平衡和特定对象。

DreamBooth 是一种功能强大的培训方法,它能保留主体身份并忠实于提示。 不过,使用起来可能会令人沮丧,而且需要至少 12GB 的 VRAM。 自定义模型偏重于特定主题或风格,可以生成比标准模型更高质量的图像。 梦ooth 有其局限性,因为它只能生成经过训练的图像,而详细的风格模型可能无法生成任何不熟悉的图像。 梦ooth 的输出通常是 .ckpt (检查点)模型格式。

例如,"Anything "模型可以生成很好的结果,但它只能生成带有图像的背景。 如果我们要求它创建一个 “普通背景”,它是做不到的,因为它不知道那是什么。 这意味着在生成任何不熟悉的东西(如人物、地点或事物)时,细节风格模型可能会失败。 尽管有其局限性,DreamBooth 仍然可以产生很好的效果,但不能取代 LoRA 或文本反演等其他方法。 LoRa 模型被广泛使用,但 DreamBooth 仍然被认为在图像质量方面更胜一筹,因为它可以接受更多的图像输入到自定义模型中。

用户需要确保所有图像都贴有适当的标签,使用较小的学习率,应用事先保存损失,并注意不要过度拟合数据,等等。

很多人不使用 Dreambooth 训练的原因是,它比其他训练方法更 “昂贵”。 训练时间通常在 15 到 20 分钟左右,主要生成高质量和多样化的输出结果,文件大小从 3 GB 到 8 GB 不等,取决于输入图像的质量和数量。 此外,Dreambooth 还能更好地捕捉有关图像风格、模型的所有信息,这些信息都集中在一个检查点上,并具有非常详细的主体特征。

  • LORA (Low-Rank Adaptation)
    在这里插入图片描述
    与其他微调模型相比,LoRA 是一种减少最新发布的训练参数数量的数学技术。 这相当于创建了一个不同的模型,而不是保存整个模型。 微软的研究人员开发了 LoRA,Simo(一种新的图像生成模型)也在稳定扩散中使用了它。 LoRa 就像是模型中的一个补丁或注入的一部分,虽然不如 Checkpoints 那样细致入微,但根据大多数人的共识,它与 Checkpoints 模型(Dreamboooth)的性能相差约 95%。

在这里插入图片描述
在阅读了多个论坛之后,许多评论认为 LoRa 模型优于文本反演。 LoRa 是首选,因为它与 Dreambooth 一样强大,但训练时间更快、内存消耗更少、磁盘空间占用更小。 另一方面,Dreambooth 可以改变色彩平衡和对象,而 LORA 和 TI 却无法做到这一点。 值得注意的是,LoRa 可以与任何在 SD 1.4 或 1.5 上训练过的模型一起使用,无论 Chilloutmix 或其他模型是用来嵌入 LoRa 文件的。 不过,如果 LoRa 模型是在用于生成最终输出的同一模型上训练的,则可获得最佳效果。

强烈建议将 LoRa 用于多个模型,它的大小较小,低于 150MB,甚至可以小到 1MB。 使用 LoRa 进行训练的速度也更快(5-10 分钟不等),训练时所需的 VRAM 也更少。 它非常适合训练只有 5-10 张图像的小型数据集,图像质量越高,效果越好。 LoRa 最适合用于训练人脸和风格,但不建议用于训练逼真的人脸。 不过,如果 LoRa 模型是在用于生成最终输出的相同模型上进行训练,效果会更好。

要创建自己的可重用 LoRA 概念,我们建议您使用 WebUI 进行培训。 需要记住的是,LoRA 模型不能单独使用,需要与检查点模型同时使用。 在文本提示中使用 LoRA 时,我们注意到其格式通常为 <lora:模型名称:LoRA 权重>,例如,它可以像这样 lora:AngelinaJolieV1:0.8。

在这里插入图片描述
模型名称后面的 0.8 表示您希望在输出图像中加入多少 LoRA 权重。 0.8 代表 80%。 权重越高,人工智能就会尽量保留模型的特征。 如果 LoRA 基于动漫人物模型,而 Checkpoint 模型基于真实的 3D 图像,这有时会带来麻烦。 有时它生成的输出会有轻微失真。 通常第一次尝试时,可以将权重设定在 0.6-0.7 之间,以检查 LoRA 是否能与模型很好地融合。

LoRa 模型的一个潜在缺点是,它们似乎高度依赖于所使用的特定训练数据。 例如,基于 ChillOutMix 训练的 LoRA 模型可能在 ChillOutMix 模型上表现良好,但在 Dreamshaper 模型上却不行。 另一方面,Textual Inversion 在各种基于 1.5 的模型中似乎都能很好地发挥作用。

在这里插入图片描述

  • Textual Inversion

Textual Inversion 是一种在小文件中向模型教授概念(如人或物)的方法。 它的优点是占用磁盘空间小,使用方便。 文本反转的优点是体积小,在提示中使用方便。 文本反转的最小输出大小仅为 40 至 100 kb(千字节),如果您没有大容量存储设备,但又想用电脑进行各种科目的训练,那么文本反转就非常有用。

一般来说,文本反演包括捕捉物体或人物的图像,为其命名(例如,Abcdboy),并将其纳入稳定扩散,用于生成图像提示(例如,Abcdboy)。

在这里插入图片描述
在这里插入图片描述
使用 Textual Inversion 技术进行面部训练是一个极佳的选择,因为它比其他训练技术更具适应性,而且所需的空间也最小。 这种方法通过利用模型已有的知识来指导其获得所需的人物外观,从而使您能够事半功倍地获得类似的效果。 如果操作得当,它们的准确性非常可靠,使用起来也非常灵活。 Textual Inversion 最适合训练一个。

Textual Inversion 为生成器提供如何创建图像的指导,通常只包含 10-30k 的提示,而自定义模型可能包含几 GB 的数据。 要在如此有限的空间内包含如此多的信息,Textual Inversion 是不可行的。 因此,Textual Inversion 仅限于一个较小的 “概念”,而无法包含像 "动漫风格 "这样宽泛的概念。 动漫的 Textual Inversion 可能只能根据用于训练 Textual Inversion 的图片生成一到两个姿势,而不是自定义模型中的众多姿势。 建议在训练文字反演时只使用几张图片,因为过度训练或训练过度会使其失效。

Textual Inversion 可以影响整个图像,这一点是正确的,但同样的道理也适用于添加到提示中的任何单词。 与文字提示一样,Textual Inversion 的目的是引导图像生成器到达模型潜在空间中的特定位置,而自定义模型实际上是修改潜在空间本身,从而产生更显著的影响。

Textual Inversion 主要是通过充当提示语助手,向模型教授一个概念,如人或物。 这种方法也有其缺点,比如会占用提示符的标记位置,而且不适合完美复制。 不过,如果与一个好的模型相结合,Textual Inversion 可以产生极佳的效果。

需要注意的是,Textual Inversion 一般只适用于它所训练的模型,而且更适用于照片逼真的模型,而不是动漫模型。 Textual Inversion 本质上包含一个描述人的面部特征(如鼻子大小和眼睛形状)的向量,因此更适合逼真的模型。

在这里插入图片描述
我们甚至可以在一次提示中使用多个 Textual Inversion(不像Dreambooth,一次只能使用一个 checkpoint )。 不过,这些方法不如其他方法有效,因为它们对生成器的提示较少。 Textual Inversion 最适合逼真的脸部而非动画风格的脸部,因为它只包含有限的信息量。 此外,您不能同时使用两个检查点,因此必须以丢失部分信息为代价合并它们。 文本反转就像一个提示助手,可以引导图像生成器到达模型潜在空间中的某个位置。 当它与一个好的模型搭配时效果最佳,但它只适用于你训练它的模型。

这其中有许多因素在起作用,包括训练者的技能和输入资源的质量。 如果您只想训练特定的人或物体图像,我们建议用户使用 LoRA 作为稳定扩散的主要训练方法,因为它高效且易于实施。 与其他类型的训练方法相比,LoRA 的使用率更高。 这得益于较低的硬件要求和较短的训练时间。 这意味着模型创建者有更大的潜力和效率,有更多的机会进行实验和微调。 另一方面,如果您想训练主题和风格的整体概念,Dreambooth 将是利用完整训练方法的最佳选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2145840.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

NISP 一级 | 7.2 信息安全风险管理

关注这个证书的其他相关笔记&#xff1a;NISP 一级 —— 考证笔记合集-CSDN博客 0x01&#xff1a;信息安全风险 信息系统不可能达到绝对安全&#xff0c;但可以通过安全风险&#xff08;以下简称“风险”&#xff09;控制来实现符合个人或单位目标的一定程度的安全。信息安全管…

xxl-job、Quartz、power-job、elastic-job对比选型

一、框架对比 1. Quartz 优点&#xff1a;稳定性和可扩展性好&#xff0c;适用于企业级应用&#xff1b;调度功能丰富&#xff0c;满足多种需求。 缺点&#xff1a;本身不提供原生的分布式支持&#xff0c;需要通过扩展或与其他组件结合来实现分布式任务调度&#xff1b;调度…

树莓派驱动之spi回环测试

开启spi sudo raspi-config选择Interfacing options,选择spi打开 lsmod可以看到spi_bcm2835 短接MISO和MOSI 编写回环代码spitest.c #include <stdio.h> #include <unistd.h> #include <stdlib.h> #include <fcntl.h> #include <string.h>…

第六部分:1---进程间通信,匿名管道

目录 进程间通信 进程间通信的目的&#xff1a; 进程间通信的本质&#xff1a; 管道&#xff1a; 管道的定义&#xff1a; 匿名管道 单向通信的管道通路&#xff1a; 进程和文件之间的解耦&#xff1a; 单向管道的读写端回收问题&#xff1a; 管道通信主要实现动态数…

Python VS Golng 谁更胜一筹?

今天我们聊聊Python和Golang这俩到底谁更胜一筹。 这个话题我已经在各种技术论坛上看到无数次了&#xff0c;每次都能引起一波热烈的讨论。作为一个多年写代码的老程序员&#xff0c;今天就站在我的角度&#xff0c;和大家掰扯掰扯这两个语言各自的优缺点。 1. 性能与并发模型…

283. 移动零(快慢指针)

算法分析&#xff1a; 如果数组没有0&#xff0c;快慢指针同步移动&#xff0c;元素会被自己复制&#xff1b;如果有0&#xff0c;快指针找到非零元素&#xff0c;将其复制到慢指针位置最终将剩余位置填充为0。 代码&#xff1a; class Solution {public void moveZeroes(i…

Android Studio 2024 安装、项目创建、加速、优化

文章目录 Android Studio安装Android Studio项目创建Android Studio加速修改GRADLE_USER_HOME位置减少C盘占用空间GRADLE加速 修改模拟器位置减少C盘占用空间参考资料 Android Studio安装 下载android studio download android-studio-2024.1.2.12-windows.exe 或者 android-…

11 - TCPClient实验

在上一个章节的UDP通信测试中&#xff0c;尽管通信的实现过程相对简洁&#xff0c;但出现了通信数据丢包的问题。因此&#xff0c;本章节将基于之前建立的WIFI网络连接&#xff0c;构建一个基础的TCPClient连接机制。我们利用网络调试助手工具来发送数据&#xff0c;测试网络通…

[PICO VR眼镜]眼动追踪串流Unity开发与使用方法,眼动追踪打包报错问题解决(Eye Tracking/手势跟踪)

前言 最近在做一个工作需要用到PICO4 Enterprise VR头盔里的眼动追踪功能&#xff0c;但是遇到了如下问题&#xff1a; 在Unity里面没法串流调试眼动追踪功能&#xff0c;根本获取不到Device&#xff0c;只能将整个场景build成APK&#xff0c;安装到头盔里&#xff0c;才能在…

【技术解析】消息中间件MQ:从原理到RabbitMQ实战(深入浅出)

文章目录 【技术解析】消息中间件MQ&#xff1a;从原理到RabbitMQ实战(深入浅出)1.简介1.1 什么是消息中间件1.2 传统的http请求存在那些缺点1.3 Mq应用场景有那些1.4 为什么需要使用mq1.5 Mq与多线程之间区别1.6 Mq消息中间件名词1.7主流mq区别对比1.8 Mq设计基础知识 2.Rabbi…

C++ | Leetcode C++题解之第415题字符串相加

题目&#xff1a; 题解&#xff1a; class Solution { public:string addStrings(string num1, string num2) {int i num1.length() - 1, j num2.length() - 1, add 0;string ans "";while (i > 0 || j > 0 || add ! 0) {int x i > 0 ? num1[i] - 0 …

大数据Flink(一百一十八):Flink SQL水印操作(Watermark)

文章目录 Flink SQL水印操作&#xff08;Watermark&#xff09; 一、为什么要有WaterMark 二、​​​​​​​​​​​​​​Watermark解决的问题 三、​​​​​​​​​​​​​​代码演示 Flink SQL水印操作&#xff08;Watermark&#xff09; 一、​​​​​​​为什么…

【数据结构】数据结构系列学习笔记——导航篇

一&#xff1a;概述 数据结构是计算机科学中的核心概念之一&#xff0c;是优化算法性能和资源利用率的关键。在软件开发和数据处理中&#xff0c;选择合适的数据结构对于算法的效率至关重要。数据结构的选择通常基于数据的使用模式&#xff0c;包括数据元素之间的关系、数据的存…

日志框架的使用

一、日志概述 日志&#xff1a;用来记录程序运行过程中的信息&#xff0c;并可以进行永久存储。 开发过程中可能会出现以下需求&#xff1a; 希望系统能记住某些数据是被谁操作的&#xff0c;比如被谁删除了&#xff1f;想分析用户浏览系统的具体情况&#xff0c;以便挖掘用…

【深度学习】深度学习模型的加密及解密方案及源码

本文摘要 本文主要根据自己遇到的情况,例如:对于yolo或paddle训练的模型文件,对外使用,不想要别人拿到我的模型文件随意乱用,此时就涉及到对模型文件进行加密与解密 深度学习模型的加密保护非常重要,尤其在商业应用场景下。常见的模型加密方法包括模型文件加密、加密硬件…

图像分割基本知识

计算机视觉和图像处理 Tensorflow入门深度神经网络图像分类目标检测图像分割 图像分割 一、目标分割1.1 图像分割的定义1.2 任务类型1.2.1 任务描述1.2.2 任务类型 二、语义分割2.1 FCN网络2.1.1网络结构 2.2 Unet网络 三、UNet案例3.1 数据集获取3.1.1 设置相关信息3.1.2 图像…

nature communications |多层次蛋白质组分析揭示弥漫型和肠型胃癌之间的分子多样性

文章信息 发表期刊&#xff1a;nature communications 发表日期&#xff1a;2023年2月14日 影响因子&#xff1a;14.7 研究背景 胃癌是世界上主要的癌症类型之一。弥漫型胃癌(DGC)和肠型胃癌(IGC)是胃癌(GC)的主要组织学类型&#xff0c;DGC呈分散的细胞组织&#xff0c;黏…

比特币10年价格数据(2014-2024)分析(进阶2_时间序列分析)

数据入口&#xff1a;【每周挑战】比特币10年价格数据可视化和量化分析 - Heywhale.com 本数据集包含 2014 - 2024 的比特币美元价格数据&#xff0c;具体包含比特币每日的开盘价、最高价、最低价、收盘价以及成交量等关键信息。数据说明如下&#xff1a; 字段说明Date日期&a…

iPhone 16系列:摄影艺术的全新演绎,探索影像新境界

在科技的浪潮中&#xff0c;智能手机摄影功能的进化从未停歇。 苹果公司即将推出的iPhone 16系列&#xff0c;以其卓越的相机升级和创新特性&#xff0c;再次站在了手机摄影的前沿。 从硬件到软件&#xff0c;从拍照体验到图像处理&#xff0c;iPhone 16系列都展现了其在移动…

camtasia2024绿色免费安装包win+mac下载含2024最新激活密钥

Hey, hey, hey&#xff01;亲爱的各位小伙伴&#xff0c;今天我要给大家带来的是Camtasia2024中文版本&#xff0c;这款软件简直是视频制作爱好者的福音啊&#xff01; camtasia2024绿色免费安装包winmac下载&#xff0c;点击链接即可保存。 先说说这个版本新加的功能吧&#…