SD文生图超详参数使用技巧和方法-看这一篇就懂了!!!

news2024/9/20 6:01:51

【Stable Diffusion】文生图超详参数使用技巧和方法推荐

仁者见仁,智者见智,一千个读者,一千个哈姆雷特。
此章为记录学习和分享,为后继初学者提供便利。

作者:AI时代社
链接:https://zhuanlan.zhihu.com/p/629910090
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 

操作界面介绍

典型的Stable Diffusion操作界面如下图:

可以看到里面的参数非常多。

但新手小白其实只需要知道两个参数就行。

基础参数介绍

提示词(Prompt)和反向提示词(Negative Prompt)

提示词内输入的东西就是你想要画的东西,反向提示词内输入的就是你不想要画的东西

提示框内只能输入英文,所有符号都要使用英文半角,词语之间使用半角逗号隔开

反向提示词

这里重点提一下反向提示词,与提示词相反,反向提示词输入的是你不希望SD产生的。这是SD的一个非常强大但未被充分利用的功能。有时候你正面提示词写一堆,出来的效果也不理想,但是加上一个反向提示词就能获得理想的结果。

一般负面提示:低分辨率、错误、裁剪、最差质量、低质量、jpeg伪像、帧外、水印、签名

General: lowres, error, cropped, worst quality, low quality, jpeg artifacts, out of frame, watermark, signature

人物肖像的负面提示:变形、丑陋、残缺、毁容、文本、额外的四肢、面部切割、头部切割、额外的手指、额外的手臂、绘制不佳的脸、突变、比例不良、头部裁剪、四肢畸形、手突变、融合手指、长脖子

Negative prompts for people portraits: deformed, ugly, mutilated, disfigured, text, extra limbs, face cut, head cut, extra fingers, extra arms, poorly drawn face, mutation, bad proportions, cropped head, malformed limbs, mutated hands, fused fingers, long neck

逼真图像的负面提示:逼真:插图、绘画、素描、艺术、素描'

Negative prompts for photorealistic images: Photorealistic: illustration, painting, drawing, art, sketch’

基本上,掌握了提示词和反向提示词的书写,AI绘画就算是入门了(至少可以画出东西来了!)但如果想要更加一步的,请继续往下看(哪怕你是老手,下面的文章也值得你一看哦~)。

采样迭代步数(Steps)

Stable-Diffusion通过从充满噪点的画布开始创建图像,然后逐渐去噪以达到最终输出。Steps就是控制这些去噪步骤的数量。通常,越高越好,但一般情况下,我们使用的默认值是20个步骤,这其实已经足以生成任何类型的图像。

以下是有关在不同情况下使用steps的一般指南:

a 如果你正在测试新提示并希望获得快速结果来调整输入,请使用10-15个steps。

b 找到所需的提示后,将步骤增加到20-30,很多人的习惯是28

c 如果你正在创建带有毛皮或任何具有详细纹理的主题的面部或动物,并且觉得生成的图像缺少其中一些细节,请尝试将其提高到40或者更高

特别提示:

有些人习惯于一上来就创建具有100或150步的图像,这对于LMS等采样器很有用,但除非你有很强的显卡,否则很多时候都是浪费时间。先用小步骤去测试,找到合适的提示词后再提升步数才是正确的方法。

而且,使用改进的快速采样器(如 DDIM 和 DPM++系列)一般用100以内的步数就完全OK了,通过对这些采样器使用大量步骤,很可能只会浪费时间和GPU算力,而不会提高图像质量

采样方法(Sampler)

正如我们之前提到的,SD通过对起始噪声画布进行降噪来工作。这就是扩散采样器发挥作用的地方。简单来说,这些采样器是算法,它们在每个步骤后获取生成的图像并将其与文本提示请求的内容进行比较,然后对噪声进行一些更改,直到它逐渐达到与文本描述匹配的图像。

用户最常用的三个采样器分别是Euler a,DDIM和DPM++系列。你可以尝试这三个,看看哪个更适合你的提示。

由于采样器的规则过于学术化,仔细讲解也未必能说出一个123来,这里以相同的参数,不同的采样器去测试了同一张图,分别出来的效果如上,仅供参考。

总体而言,欧拉采样器(Euler a)具有更平滑的颜色和较少定义的边缘,使其更具“梦幻”外观,因此如果这是你在生成的图像中喜欢的效果,请使用Euler a。

DPM2和DPM++系列更加写实。

LMS、DPM fast 虽然出图快,但有可能人是不完整的。

生成批次和生成数量

生成批次是显卡一共生成几批图片。

每批数量是显卡每批生成几张图片。

也就是说你每点击一次生成按钮,生成的图片数量=批次*数量

需要注意的是每批数量是显卡一次所生成的图片数量,速度要比调高批次快一点,但是调的太高可能会导致显存不足导致生成失败,而生成批次不会导致显存不足,只要时间足够会一直生成直到全部输出完毕。

输出分辨率(宽度和高度)

图片分辨率非常重要,直接决定了你的图片内容的构成和细节的质量。

a.输出大小

输出大小决定了画面内容的信息量,很多细节例如全身构图中的脸部,饰品,复杂纹样等只有在大图上才能有足够的空间表现,如果图片过小,像是脸部则只会缩成一团,是没有办法充分表现的。

但是图片越大ai就越倾向于往里面塞入更多的东西,绝大多数模型都是在512*512分辨率下训练的,少数在768*768下训练,所以当输出尺寸比较大比如说1024*1024的时候,ai就会尝试在图中塞入两到三张图片的内容量,于是会出现各种肢体拼接,不受词条控制的多人,多角度等情况,增加词条可以部分缓解,但是更关键的还是控制好画幅,先画中小图,再放大为大图

大致的输出大小和内容关系参考:

1.约30w像素,如512*512,大头照和半身为主

2.约60w像素,如768*768,单人全身为主,站立或躺坐都有

3.越100w像素,如1024*1024,单人和两三人全身,站立为主

4.更高像素,群像,或者直接画面崩坏

b.宽高比例

宽高比例会直接决定画面内容,同样是1girl的例子:

1.方图512*512,会倾向于出脸和半身像

2.高图512*768,会倾向于出站着和坐着的全身像

3.宽图768*512,会倾向于出斜构图的半躺像

所以要根据想要的内容来调整输出比例。

提示词相关性(CFG Scale)

CFG这个参数可以看作是“创造力与提示”量表。较低的数字使AI有更多的自由发挥创造力,而较高的数字迫使它更多地坚持提示词的内容。

默认的CFG是7,这在创造力和生成你想要的东西之间是最佳平衡。通常不建议低于5,因为图像可能开始看起来更像AI的幻觉,而高于16可能会开始产生带有丑陋伪影的图像。

那么何时使用不同的CFG刻度值呢?CFG量表可以分为不同的范围,每个范围适用于不同的提示类型和目标。

1.CFG 2–6:创意,但可能过于失真,没有按照提示进行操作。对于简短的提示可能很有趣且有用;

2.CFG 7–10:建议用于大多数提示。创造力和引导式生成之间的良好平衡;

3.CFG 10–15:当你确定提示很详细并且非常清楚你希望图像的外观时(有些纯风景和建筑类的图片可能需要的CFG会比较高,大家可以参考相应的模型说明);

4.CFG 16–20:除非提示非常详细,否则通常不建议使用。可能会影响一致性和质量;

5.CFG >20:几乎从不使用

随机种子(seed)

随机种子是一个决定我们之前讨论的初始随机噪声的数字,由于随机噪声决定了最终图像,这就是为什么每次在StableDiffusion系统上运行完全相同的提示时都会得到不同的图像,以及为什么如果多次使用相同的提示运行相同的seed的时候,你会得到相同的生成图像。

由于相同的种子和提示组合每次都提供相同的图像,因此我们可以通过多种方式利用此属性:

a.控制角色的特定特征:在这个例子中,我们改变了情绪,但这也适用于其他物理特征,如头发颜色或肤色,但变化越小,它就越有可能被改变。

b.测试特定单词的效果:如果你想知道提示中的特定单词发生了哪些变化,则可以使用相同的种子和修改后的提示进行测试,最好通过每次更改单个单词或短语来测试提示。

c.更改样式:如果你喜欢图像的构图,但想知道它以不同的样式显示效果。这可用于肖像、风景或你创建的任何场景。

IMG 2 IMG参数

Img2img 功能的工作方式与 txt2img 完全相同,唯一的区别是你提供了一个用作起点的图像,而不是种子编号产生的噪声。

噪点被添加到你用作 img2img 的初始化图像的图像中,然后根据提示继续扩散过程。添加的噪声量取决于“重绘幅度(Denoising)”这个参数,该参数的范围从0到1,其中0根本不添加噪声,你将获得添加的确切图像,1完全用噪声替换图像,几乎就像你使用普通的txt2img而不是img2img一样。

那么如何决定使用什么力量呢?这是一个带有示例的简单指南:

a.要创建图像的变体,建议使用的强度为 0.5-0.75,并且具有相同的提示。当你喜欢创建的图像的构图但某些细节看起来不够好,或者你想创建与你在其他软件(如 Blender或 photoshop)中创建的图像相似的图像时,这可能很有用(在这种情况下,提示将是对原有图像的描述)。

b.要更改图像样式,同时使其与原始图像相似,你可以多次使用较低强度的img2img,与具有较高强度的单个img2img相比,可以获得更好的图像保真度。

在这个例子中,我们使用0.25的强度4次,所以每次我们生成图像时,我们都会将生成的图像重新插入img2img中,并以相同的提示和强度重新运行它,直到我们得到我们需要的样式。如果在img2img中使用相同的图像,强度更高,你将很快失去图像相似性。

 最后想说

AIGC(AI Generated Content)技术,即人工智能生成内容的技术,具有非常广阔的发展前景。随着技术的不断进步,AIGC的应用范围和影响力都将显著扩大。以下是一些关于AIGC技术发展前景的预测和展望:

1、AIGC技术将使得内容创造过程更加自动化,包括文章、报告、音乐、艺术作品等。这将极大地提高内容生产的效率,降低成本。2、在游戏、电影和虚拟现实等领域,AIGC技术将能够创造更加丰富和沉浸式的体验,推动娱乐产业的创新。3、AIGC技术可以帮助设计师和创意工作者快速生成和迭代设计理念,提高创意过程的效率。

未来,AIGC技术将持续提升,同时也将与人工智能技术深度融合,在更多领域得到广泛应用。感兴趣的小伙伴,赠送全套AIGC学习资料和安装工具,包含AI绘画、AI人工智能等前沿科技教程。

对于从来没有接触过AI绘画的同学,我已经帮你们准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

AIGC学习必备工具和学习步骤

工具都帮大家整理好了,安装就可直接上手

现在AI绘画还是发展初期,大家都在摸索前进。

但新事物就意味着新机会,我们普通人要做的就是抢先进场,先学会技能,这样当真正的机会来了,你才能抓得住。

如果你对AI绘画感兴趣,我可以分享我在学习过程中收集的各种教程和资料。

学完后,可以毫无问题地应对市场上绝大部分的需求。

这份AI绘画资料包整理了Stable Diffusion入门学习思维导图Stable Diffusion安装包120000+提示词库,800+骨骼姿势图,Stable Diffusion学习书籍手册AI绘画视频教程AIGC实战等等。

【Stable Diffusion安装包(含常用插件、模型)】

img

【AI绘画12000+提示词库】

img

【AI绘画800+骨骼姿势图】

img

【AI绘画视频合集】

img

这份完整版的stable diffusion资料我已经打包好,点击下方卡片即可免费领取!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1814960.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

hot100 -- 栈

目录 🚩有效的括号 🌼最小栈 AC 栈 AC 链表 🌼字符串解码 🐻每日温度 🍒柱状图中的最大矩形 解释 AC 单调栈 🚩有效的括号 20. 有效的括号 - 力扣(LeetCode) 1&#xf…

Seal^_^【送书活动第6期】——《Docker快速入门》

Seal^_^【送书活动第6期】——《Docker快速入门》 一、参与方式二、本期推荐图书2.1 作者荐语2.2 编辑推荐2.3 图书简介2.4 前 言2.5 目 录 三、正版购买 从Docker Desktop入手,快速掌握容器技术!!!! 一、参与方式 1、…

HALCON-从入门到入门-阈值分割定位算子综合运用

1.废话 之前我的一个师兄告诉我,针对图像上想要定位的内容,机器视觉中定位的方式有很多种,但是如果用阈值分割定位可以做的,就不要用模板匹配了。因为基于形状的模板匹配始终会存在匹配不到的风险,那如果打光效果可以…

VS2022使用C语言代码访问MariaDB数据库

第一步,先安装数据库服务器,如果你不想安装这个服务器,请看结尾: 第二步,建立数据库 第三步,配置VS2022 第四步,写代码 ,这里其实使用的是MariaDB 的C语言 API #include <stdio.h> #include <window

python添加两组实验显著性

Python-statannotations库添加显著性标注&#xff1a; 1、官网资料&#xff1a;https://github.com/trevismd/statannotations 官网例子&#xff1a; import seaborn as snsfrom statannotations.Annotator import Annotatordf sns.load_dataset("tips") x "…

使用 C# 学习面向对象编程:第 7 部分

多态性 我们在程序中使用多态的频率是多少&#xff1f;多态是面向对象编程语言的第三大支柱&#xff0c;我们几乎每天都在使用它&#xff0c;却不去想它。 这是一个非常简单的图表&#xff0c;它将解释多态性本身。 简单来说&#xff0c;我们可以说&#xff0c;只要我们重载类…

机器学习模型评价、模型与算法选择(综述)

摘要&#xff1a;本文主要讨论了模型评估、模型选择和算法选择的重要性&#xff0c;并回顾了解决这些任务的不同技术。文章强调了在小数据集上不推荐使用留出方法&#xff0c;而应使用bootstrap技术来评估性能的不确定性。在讨论偏差-方差权衡时&#xff0c;文章比较了leave-on…

【紧急警示】Locked勒索病毒利用最新PHP远程代码执行漏洞大规模批量勒索!文末附详细加固方案

1. Locked勒索病毒介绍 locked勒索病毒属于TellYouThePass勒索病毒家族的变种&#xff0c;其家族最早于2019年3月出现&#xff0c;擅长利用高危漏洞被披露后的短时间内&#xff0c;利用1Day对暴露于网络上并存在有漏洞未修复的机器发起攻击。该家族在2023年下半年开始&#xf…

给Windows软件添加异常捕获模块生成dump文件(附源码)

软件在运行过程中会时常发生内存越界、内存访问为例、stack overflow线程栈溢出、空指针与野指针等异常崩溃,仅仅是依靠Debug和Release下的调试是远远不够的,因为有些崩溃不是必现的,或者是Debug下很难出现的。所以我们需要在软件中添加异常捕获的模块,在捕获到异常时生成包…

盐酸酸洗废水合理的处理手段

盐酸酸洗废水处理是工业生产中一项重要的环保措施&#xff0c;特别是在钢铁、金属加工等行业中&#xff0c;酸洗废水因其高酸性和高金属离子含量而需要得到妥善处理。以下是对盐酸酸洗废水处理的详细分析和讨论。 一、盐酸酸洗废水的特性 盐酸酸洗废水主要来源于钢材的酸洗线&a…

一文读懂CRM系统到底怎么选?

CRM系统&#xff08;即客户关系管理系统&#xff09;能够帮助企业有效管理客户关系、提升客户满意度、增加销售机会以及优化业务流程。然而&#xff0c;面对市场上众多的CRM供应商&#xff0c;企业如何选择最适合自身需求的CRM软件显得尤为重要。 选择不当的CRM系统可能导致一系…

WordPress——Argon主题美化

文章目录 Argon主题美化插件类类别标签页面更新管理器文章头图URL查询监视器WordPress提供Markdown语法评论区头像设置发信设置隐藏登陆备份设置缓存插件 主题文件编辑器页脚显示在线人数备案信息(包含备案信息网站运行时间)banner下方小箭头滚动效果站点功能概览下方Links功能…

AI大模型的战场:通用与垂直的较量

AI大模型的战场&#xff1a;通用与垂直的较量 引言&#xff1a;AI界的“通才”与“专家” 在AI的大千世界里&#xff0c;有这样两类模型&#xff1a;一类是像瑞士军刀一样多功能的通用大模型&#xff0c;另一类则是像手术刀一样精准的垂直大模型。它们在AI战场上展开了一场激…

【Ardiuno】实验使用ESP32单片机实现高级web服务器暂时动态图表功能(图文)

接下来&#xff0c;我们继续实验示例代码中的Wifi“高级web服务器”&#xff0c;配置相关的无线密码后&#xff0c;开始实验 #include <WiFi.h> #include <WiFiClient.h> #include <WebServer.h> #include <ESPmDNS.h>const char *ssid "XIAOFE…

docker-compose启动oracle11、并使用navicat进行连接

一、docker-compose.yml version: 3.9 services:oracle:image: registry.cn-hangzhou.aliyuncs.com/helowin/oracle_11grestart: alwaysprivileged: truecontainer_name: oracle11gvolumes:- ./data:/u01/app/oracleports:- 1521:1521network_mode: "host"logging:d…

[数据集][目标检测]胸部解剖检测数据集VOC+YOLO格式100张10类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;100 标注数量(xml文件个数)&#xff1a;100 标注数量(txt文件个数)&#xff1a;100 标注类别…

代理IP的稳定性与安全性应如何保障?

在数字化时代&#xff0c;代理IP作为访问网络的重要工具&#xff0c;其稳定性和安全性对于保障网络使用体验和隐私保护具有至关重要的意义。今天IPIDEA就为大家分享保障代理IP的稳定性与安全性的几个关键点。 一、选择可靠的代理服务提供商 确保代理IP稳定性的关键是选择一家可…

【工具】拉取或者review github上别人提的未合入开源项目的PR代码

一、pr id 链接后加.patch 举个例子说下吧。 比如我们有下面的PR链接&#xff1a; https://github.com/apache/hadoop/pull/6871/files 其界面如下所示&#xff1a; 我们只需要把URL改成&#xff1a; https://github.com/apache/hadoop/pull/6871.patch 它就会自动跳转后变…

解决el-table表格拖拽后,只改变了数据,表头没变的问题

先看看是不是你想要解决的问题 拖拽后表头不变的bug修复 这个问题一般是使用v-for对column的数据进行循环的时候&#xff0c;key值绑定的是个index导致的&#xff0c;请看我上篇文章&#xff1a;eleplus对el-table表格进行拖拽(使用sortablejs进行列拖拽和行拖拽)&#xff1a;-…

html和css创建一个简单的网页

html代码及解析 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>CSS Example</title><lin…