【stable diffusion】保姆级入门课程01-Stable diffusion(SD)文生图究竟是怎么一回事

news2024/11/27 22:37:11

目录

学前视频

0.本章素材

1.什么是文生图

2.界面介绍

2.1切换模型的地方

2.2切换VAE

2.3功能栏

2.4提示词

1.提示词的词性

2.提示词的语法

3.提示词的组成

4.提示词的权重调整

2.5参数调整栏

1.采样方法

2.采样迭代步数

3.面部修复

4.平铺图

5.高清修复

6.宽度和高度

7.生成批次和每批数量

8.提示词引导系数(CFGScale)

9.随机种子

2.6模板操作区

3.结语

4.课后训练


学前视频

stable diffusion 文生图讲解

0.本章素材

anything模型(二次元模型)百度地址:https://pan.baidu.com/s/1VvDJOP_MbUcR7lCSasQ19Q?pwd=g5uk提取码:g5uk夸克地址:https://pan.quark.cn/s/09719485f653提取码:PWLu
vae:vae-ft-mse-840000-ema-pruned百度网盘链接:https://pan.baidu.com/s/1XnZoRd7n4NV0SFjslpjM_w?pwd=gu4f 提取码:gu4f夸克网盘:https://pan.quark.cn/s/db59977509f8提取码:mehy
通用提示词模板:夸克网盘:https://pan.quark.cn/s/fb90a9853507

 1.什么是文生图

        stablediffustion并不是自己就能平白无故生成一张图,stablediffustion只是一个执行者,既然是执行者,那么就需要对应的指令去告诉SD,我们需要做什么,比如说我需要一个在山里的女孩的图片

        我输入1girl,inthemountain,那么SD就会输出背景是山,一个女孩的图片了,文生图,就是从文字概述中生成对应的图片信息.

图片

        由于SD不认识中文,提示词都必须是英文,而且看上去混乱无章,很多人刚刚入门时,会觉得一头雾水,不知道要怎么写,也不知道该写什么,看到界面这么多参数,也不知道该点什么.不用担心.接下来,我将通过细致的讲解,让同学们一步一步学会甚至熟练使用。 


2.界面介绍

图片


2.1切换模型的地方

        模型简单来说就是决定你出图效果,一些模型是出3D图片效果很好,一些模型是二次元图片效果很好,但是需要注意的事,如果用建筑类的模型去生成二次元图片,会大大增加崩坏图片的几率,因为模型出图的效果是基于训练的素材,建筑类的模型,一般是大量的使用建筑图片给模型进行训练.

        模型常见的尾缀为ckpt,safetensors,大小一般是2G到7G

存放路径是x:\xxx\sd-webui-aki-v4\models\Stable-diffusion

常见的模型下载网站有:

https://civitai.com/(C站,国内无法正常访问)

国内可用:

https://www.liblibai.com/(类似C站的国内镜像网站)

https://huggingface.co/(抱脸网)

图片
带有checkpoint的是模型

2.2切换VAE

        VAE简单的理解可以是增强画质的工具,(多数情况下,可以增加画质,但是也有可能会导致画质变得更差)类似滤镜,或者智能P图,多数模型都会自带有对应的VUE模型,会自动识别.

        简短来说就是图没有灰色,或者画质过差,不用切换VAE

存放地址:X:\\XX\sd-webui-aki-v4\models\VAE

图片


2.3功能栏

        主要是Stablediffusion各种功能的切换,本章讲解文生图功能


2.4提示词

        提示词是控制图片绘制的核心要素,也是本章的重点内容,会分多个小点进行讲解


1.提示词的词性

       在文生图界面中提示词分为两种,一种是正向提示词(Prompt),一种是反向提示词(NegativePrompt)。

  • 正向提示词的意思是:我需要什么(图片中出现什么)。

  • 反向提示词的意思是:我不需要什么(图片中不出现什么)。

例如hair(头发)在正向提示词输入框中,则说明生成的图片中需要头发,反之在反向提示词输入框中,则说明图片中不要出现头发,一个词语是正向提示词还是反向提示词取决于词语在什么输入框(反向提示词未必一定会生效,比如加了缺少胳膊,出的图一定几率也会出没有手)


2.提示词的语法

1.sd支持单词,短语,简单的句子这几种模式

  • 单词:1girl,longhair,in the mountain(一个女孩,长发,在山里);

  • 短语:Agirlhaslonghair,in the mountain(一个女孩有长发,在山里);

  • 句子:Agirl with long hair is in the mountains(一个长发女孩在山里);

以上这几种的效果都是一样的,都会生成相同效果的图片,而我们常用的是使用单词进行编写提示词,因为更容易进行调试修改

2.不同提示词之间需要用英文逗号进行分割,并且前后有空格或者换行是不影响效果的

3.提示词越在前面,权重越高,所以主体应该放在前面


3.提示词的组成

  1. 基础词:通用的词语,主要是对画质的提示,通常无论哪种图片都可以加上,也称为起手式常用的有bestquality,ultra-detailed,masterpiece,finelydetail,highres,8kwallpaper(最好的质量,超细节,杰作,精细的细节,高分辨率,8k壁纸).

  2. 主体词:对画面的主体进行描述的词语,比如环境描述,光线描述,图片包含什么的描述,比如1petitegirl,outdoors,Purplefog(一个娇小的女孩,户外,紫雾).

  3. 细节词:对于主体的更加细节描述,比如眼睛的大小,瞳孔的颜色,衣服的描述,发色的描述,身材的描述等比如redeyes,eyehighlights,dress,shortpuffysleeves(红眼睛,挑亮眼睛,裙子,蓬松的短袖)

正向提示词从本质上说就是基础词+主体词+细节词的描述,也许你会说我一下子想不出这么丰富的词语,那么你可以从最简单的开始:

一个女孩在户外->生成图片->查看图片->添加细节->一个娇小的女孩,有着红色的眼睛,穿着裙子和蓬松的短袖->循环的生成图片->不停的调整细节->生成图片

有个反向提示词需要注意:nsfw,反向提示词加上这个词语可以很大程度上减少少儿不宜的图片出现,避免社死.

提示词网站:https://prompthero.com/stable-diffusion-prompts


4.提示词的权重调整

在生成图片的时候我们可能需要某个细节更加突出或者减弱,此时我们可以使用权重去进行控制

1.固定权重调整

  1. 权重上升()(xxx)包含的词语是指权重增加1.1倍,()可以进行叠加,每叠加一次就增加1.1倍,例如((xxx))就是1.1*1.1,(((xxx)))就是1.1*1.1*1.1

  2. 权重微量上升{}{xxx}包含的词语权重增加1.05倍,同时也可以叠加,{{xxx}}就是1.05*10.5

  3. 权重下降[][xxx]每套一层,额外x0.9同时也可以叠加,[[xxx]]就是0.9*0.9

2.动态权重调整

括号加数字(xxx:1.5)当数字大于1时权重上升,1.5则是1.5倍的意思,数字小于1时,权重下降(xxx:0.5)权重是原来的0.5倍

图片

图片


2.5参数调整栏

这里就是对文生图绘制的细节调整,每一个参数都有自己对应的含义,也会对结果图有一定的影响。


1.采样方法

采样方式就是指sd用什么算法进行图片生成,影响出图质量以及出图速度。

以下是各种采样方式的出图效果:

图片

  • Euler a速度和质量都非常不错,适合快速出图,但是要注意自己的提示词,因为快也很容易出一些崩坏图

  • DDIMEuler则需要一定的好的运气,需要反复抽卡

  • DPM++2系列算法则以相对步数就可以达到其他算法的质量甚至更高(一般来说带++的都是升级版)

  • LMS、DPMfast、LMSKarrasPLMS这几个算法则不太推荐

 一般细心的模型都会有推荐采样算法,大家也可以上模型的详情进行查看例如:

图片


2.采样迭代步数

采样迭代步数越高,图片则会越精细,但是需要申明采样迭代步数并不是越高越好,图片的质量是有上限的,过高的采样迭代步数只会增加出图的速度以及增加崩坏的几率,但是也有研究表明,过高的迭代步数有助于手部的生成,但是大部分情况下,过高的迭代步数并不会有较大的收益.

对于不同的模型也有各种不同的采样迭代步数:

·DDIMEulerA一般为30以上40以下;

·DPM2A则一般为60以上;

·DPM系列则一般为20以上30以下;

但是有个异类DPMadaptive这个采样方式,采样迭代步数对于这个采样方法是不生效的.

当然这个并不是通用的,更多是一种参考值,更加具体的,可以参考模型的推荐步数.


3.面部修复

一般是用于三次元图片的面部修复,但是对于二次元图片的面部修复支持效果不是很好,三次元图片可以勾选,二次元图片不要勾选,二次元修复效果不好


4.平铺图

就是一张图片中会出现重复的元素,特定场景会使用.


5.高清修复

这个可是神器之一,可以把模糊的照片变清晰

图片

 sd用放大倍率进行等比例放大,这样图片的细节会更加清晰,质量更加高,如果放大倍数是2时图片分辨率会从512*512变为1024*1024,高清修复的时候不要直接拉动宽度和高度.

常用的放大算法三次元的用R-ESRGAN4x+,二次元用R-ESRGAN4x+Anime6B,高分迭代步数为0则是用原图的意思,重绘幅度一般0.5到0.7最佳,过高会导致原图和修复后的图片有较大区别.


6.宽度和高度

这个应该很容易理解吧,就是图片的宽度和高度,配置太低的不要调太大,会无法出图,并且如果宽高设置过大,会出现多人,多手,多脚,多头等奇异画风,这个主要是因为模型训练时大多数是使用小图进行训练,当生成图片过大,AI会认为这是多张图合并而成,当需要生成大图时,建议使用高清修复功能.

当515*512时,大概率会生成大头照,而需要生成全身照时,需要将高度调高到700以上,并且加上提示词“fullbody”.


7.生成批次和每批数量

这个需要一起说明,生成批次是指生成多少次,每批数量是指一次生成多少张,生成批次对显存要求不高,但是每批数量对显存的要求较高,一般我们需要出多张图时,只设置生成批次即可,每批数量过多容易导致爆显存,生成批次只会影响出图速度.


8.提示词引导系数(CFGScale)

就是SD多大程度上会听从你的指令.

1-基本上不理会你的提示;

3-更具创造性;

7-在遵守提示和自由之间取得良好的平衡(默认值);

15-更加遵守提示;

30-严格遵守提示;


9.随机种子

你可以认为这个就是图片的编码,当为-1的时候,则是随机生成一个编号,相同的随机种子出的图会大致一致.

图片

图片


2.6模板操作区

图片


3.结语

至此文身图的讲解就到这里结束了,下一章,我们开始了解什么是图生图


4.课后训练

  1. 使用anythiny模型构建一张小女孩在月光下微笑的图片(512*512大小)

  2. 通过更换采样模式查看相同图片的生成效果是否一致(seed需要一致)

  3. 图片不变的情况下,生成一张1024x1024的高清图

  4. 同时生成五张小女孩在月光下微笑的图片

  5. 提示词不变的情况下,通过调节引导系数,查看图片的变化情况

    图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/769623.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据中心机房建设,务必确定这13个关键点

下午好,我的网工朋友。 关于机房、机架的相关内容,给你们说了不少。 今天再给你补充个知识点,机房建设,要怎么做。 熟悉机房建设的网工朋友可能都知道,一个全面的数据中心机房建设工程一般包括: 综合布…

多线程——互斥和同步

多线程—互斥和同步 文章目录 多线程—互斥和同步多线程互斥互斥量mutex互斥量的接口初始化互斥量静态分配动态分配:pthread_mutex_init初始化互斥量 销毁互斥量int pthread_mutex_destroy销毁互斥量 互斥量加锁和解锁pthread_mutex_lock加锁pthread_mutex_trylock非…

IPv4 与 IPv6:网络性能和带宽的比较

网络连接已经成为我们生活中不可或缺的一部分,而IP地址是网络连接中最基本和最重要的部分。IPv4和IPv6是两种常用的IP地址协议,它们之间有着很大的差异。 首先,让我们了解一下IPv4和IPv6的基本概念。IPv4是互联网上使用最广泛的IP地址协议&am…

(栈队列堆) 剑指 Offer 30. 包含min函数的栈 ——【Leetcode每日一题】

❓ 剑指 Offer 30. 包含min函数的栈 难度:简单 定义栈的数据结构,请在该类型中实现一个能够得到栈的最小元素的 min 函数在该栈中,调用 min、push 及 pop 的时间复杂度都是 O ( 1 ) O(1) O(1)。 示例: MinStack minStack new MinStack()…

Hadoop——HDFS的Java API操作(文件上传、下载、删除等)

1、创建Maven项目 2、修改pom.xml文件 <dependencies><!-- Hadoop所需依赖包 --><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>2.7.0</version></dependency&…

linux之Ubuntu系列(四)用户管理 用户和权限 chmod 超级用户root, R、W、X、T、S

r(Read&#xff0c;读取)&#xff1a;对文件而言&#xff0c;具有读取文件内容的权限&#xff1b;对目录来说&#xff0c;具有浏览目 录的权限。 w(Write,写入)&#xff1a;对文件而言&#xff0c;具有新增、修改文件内容的权限&#xff1b;对目录来说&#xff0c;具有删除、移…

DNS基础知识(前端工程师必备知识)

DNS 在工作中&#xff0c;经常切换本地和服务器&#xff0c;添加各种解析。遇到DNS引起的一些问题。发现网上资料很混乱&#xff0c;用心整理写了下&#xff0c;希望对大家有帮助。 DNS&#xff08;Domain Name System&#xff0c;域名系统&#xff09;&#xff0c;最初&…

ipad可以使用其他品牌的手写笔吗?平价ipad手写笔推荐

我是一个拥有多年数码经验的爱好者&#xff0c;我知道一些关于电容笔的知识。我认为&#xff0c;苹果原装的电容笔与普通的电容笔最大的不同之处&#xff0c;就是其所带来的压感不同。由于“重力压感”的特殊性&#xff0c;我们能很快地把色彩填充到画面中。除此之外&#xff0…

tql!红队批量脆弱点信息搜集工具

功能如下 指纹识别:调用“三米前有香蕉皮“前辈工具&#xff0c;他的工具比finger好用 寻找资产中404&#xff0c;403&#xff0c;以及网页中存在的其他薄弱点&#xff0c;以及需要特定路径访问的资产 后续会把nuclei加进来 目前只有windows可以用 关注【Hack分享吧】公众号&a…

6款好用的在线原型图设计工具推荐

在线原型图的核心功能是可视化需求&#xff0c;因此一个易于使用的在线原型图工具对原型图设计至关重要。对于熟悉的Photoshop和iIlustrator来说&#xff0c;虽然它们功能强大&#xff0c;但界面太复杂&#xff0c;初学者很难快速启动&#xff0c;面对批量调整的在线原型图&…

模型驱动的深度学习方法

本篇文章是博主在人工智能等领域学习时&#xff0c;用于个人学习、研究或者欣赏使用&#xff0c;并基于博主对人工智能等领域的一些理解而记录的学习摘录和笔记&#xff0c;若有不当和侵权之处&#xff0c;指出后将会立即改正&#xff0c;还望谅解。文章分类在学习摘录和笔记专…

MySQL高阶语句之一

目录 模版表 一、ORDER BY语法 1.1语法 1.2升序 1.3降序 1.4多高字段排序 二、AND/OR--且/或 2.1AND 2.2OR 2.3嵌套/多条件 三、distinct 查询不重复记录 3.1语法 四、GROUP BY语法 4.1语法 五、限制结果条目&#xff08;limit&#xff09; 5.1语法 5.2实验 五、设…

mac怎么转换音频格式为mp3

mac怎么转换音频格式为mp3&#xff1f;熟悉音频文件的人都知道&#xff0c;音频格式有许多不同种类。尽管有多种音频格式&#xff0c;但最受欢迎且最通用的是MP3格式。无论在哪个播放器上&#xff0c;MP3格式的音频都能轻松打开。而其他格式可能会出现不兼容无法打开的情况。因…

高斯误差线性单元激活ReLU以外的神经网络

高斯误差线性单位&#xff08;GELU&#xff09;激活函数由加州大学伯克利分校的Dan Hendrycks和芝加哥丰田技术研究所的Kevin Gimpel于2018年引入。激活函数是触发神经元输出的“开关”&#xff0c;随着网络的深入&#xff0c;其重要性也随之增加。最近几周&#xff0c;机器学习…

如何在Microsoft Excel中使用SORT函数

虽然 Microsoft Excel 提供了一个内置的数据排序工具,但你可能更喜欢函数和公式的灵活性。 使用 SORT 函数的好处是,你可以在不同的位置对数据进行排序。如果你想在不干扰原始数据集的情况下操作项目,你会喜欢 Excel 中的 SORT 函数。但是,如果你喜欢对项目进行原位排序,…

Path Finder for Mac:提升你的文件管理效率

作为一名 Mac 用户&#xff0c;你可能已经意识到原生的 Finder 文件管理器在某些方面存在一些限制。如果你正在寻找一个更强大、更灵活的文件管理工具&#xff0c;那么 Path Finder for Mac 是一个值得考虑的选择。 Path Finder for Mac是一款专为 Mac 设计的高级文件管理工具…

p2p大豆计数模型

前面学习了一下论文&#xff1a;Improved Field-Based Soybean Seed Counting and Localization with Feature Level Considered 论文链接&#xff1a;https://spj.science.org/doi/10.34133/plantphenomics.0026 解读链接&#xff1a;论文阅读--考虑特征水平的改进的基于田间…

SQL语句GROUP BY、HAVING、EXISTS、SQL函数(Null判断、日期相关、计算数值和字符串操作 )

目录 GROUP BY HAVING EXISTS SQL函数 Null判断函数 日期数据类型及函数 计算数值和字符串操作函数 AVG(平均值) COUNT(数据条数) FIRST/LAST(第一条数据) MAX/MIN(最大值) SUM(列总和) UCASE/ LCASE (转换大小写) MID(截取字符串) LEN(字符值的长度) ROUND(数…

Java版知识付费-轻松拥有知识付费平台

Java版知识付费-轻松拥有知识付费平台 多种直播形式&#xff0c;全面满足直播场景需求 公开课、小班课、独立直播间等类型&#xff0c;满足讲师个性化直播场景需求&#xff1b;低延迟、双向视频&#xff0c;亲密互动&#xff0c;无论是互动、答疑&#xff0c;还是打赏、带货、…

开放式耳机别人能听到吗?开放式蓝牙耳机的优缺点?

​开放式耳机在近几年越来越受欢迎&#xff0c;而市面上的不入耳开放式耳机就分为气传导和骨传导两大类。开放式耳机不入耳设计&#xff0c;佩戴上耳更加稳固舒适&#xff0c;长时间没有压力&#xff0c;而传统入耳式耳机则在封闭情况下听音会容易闷耳&#xff0c;长时间佩戴还…