Stable Diffusion 系列教程 - 2 WebUI 参数详解

news2024/11/30 1:34:42

Stable Diffusion 的整个算法组合为: UNet + VAE + 文本编码器

UNet:就是我们大模型里的核心。

文本编码器:将我们的prompt进行encoder为算法能理解的内容(可以理解为SD外包出去的项目CLIP)。

VAE:对UNet生成的图像作后处理。

上图中红框代表的是大模型,可以通过下拉的方式来替换自己所需要的大模型。该参数控制着出图内容的基调,如真实场景、二次元或建筑模型。我们可以将其理解为拥有无数图像的数据库,根据prompt拿出一堆相关图像拼到一起生成出最终的图像。也就是说想要生成什么样的内容,就得需要一个什么样的数据库。通常,我们所使用的大模型都是在最原始的大模型SD1.5或者XL1.0上进行微调的,如dreambooth,其大小一般在2G,4G或7G不等。其存放目录如下所示:

大模型本身是自带VAE的,正常情况下蓝框只需要选择无或自动匹配即可。如果蓝框做了选择,即使用了外挂VAE,那么大模型本身的VAE就不会起作用

CLIP(Contrastive language-image pre-training):其作用是将文字和图像转化为AI能够识别的数据后再将它们一一对应。在蓝框旁边,有一个“CLIP跳过层”选项。主要作用是将CLIP模型提前停止。数值设几就代表在倒数第几层停止。通俗一点来说,CLIP模型的推理是一个添加N次提示词的内容,每添加一次,生成的内容就越接近prompt。因此这个数值可以控制prompt和生成图片的相关程度,但不会控制图像风格的变化。实际作用大不大,只能说仁者见仁,智者见智。因为有时候前向跑的过多了反而含义就错了。

以下是对文生图的部分使用说明:

提示词和反向提示词:控制着生成图片中想要的元素和不想要的元素。

采样迭代步数和采样方法:在说这个前,我们首先得明白SD的工作原理。首先,模型会生成一张完全随机的噪声图像。随后噪声预测器将生成需要剔除部分的噪声并和原始图像运算得到下一步的输出。随后不断重复这个过程,得到最终的结果。整个去噪的过程就是采样的过程,每次采样就算迭代一次,去噪的手段就是采样方法。其中采样器有以下几个:

  • 经典ODE采样器:Eular采样器:欧拉采样方法,好用却不太准确。Heun采样器:欧拉的一个更准确但更慢的版本。LMS采样器:线性多步法,与欧拉采样器速度相仿,但是更准确。
  • DPM:扩散概率模型求解器。DPM会自适应调整步长,不能保证在约定的采样步骤内完成任务,速度较慢。DPM++相对来说结果更准确,但速度更更慢。
  • 祖先采样器:名称中带有a标识的采样器都是祖先采样器。这一类采样器在每个采样步中都会向图像添加噪声,导致结果具有随机性。部分没有带a的采样器也属于祖先采样器,如Eular a,DPM2 a,DPM++2S a,DPM++2S a KARRAS,DPM++ SDE,DPM++SDE KARRAS。
  • Karras Noise Schedule:带有Karras字样的采样器,最大的特色是使用了Karras论文中的噪声计划表,主要表现是去噪的程度在开头会比较高,在接近尾声时会变小,有助于提升图像质量。
  • UniPC:统一预测矫正器。一种可以在5~10步实现高质量图像的方法。
  • DPM Adaptive:采样器不会跟着步数去收敛,会一直收敛至最好的效果。

有一个知乎大佬对采样方法做了测试得到以下结论:

  • Eular和Heun:日常训练中,只想看一看出图的内容是什么样的,相对准确且快。
  • DPM++2M KARRAS和UniPc:能够输出一张各方面均衡且高质量的图片。
  • DPM++SDE KARRAS:能够输出一张有一定随机变化的且高质量的图片。

关于采样步数的设定:不要太大也不要太小。太小则来不及把细节都画完,太大则容易在某一个地方不断的精细化导致光斑或裂缝。推荐50以下

面部修复:解决SD1.5在画人脸上的一些问题。对真人的人脸进行一定程度的调整,有效但不绝对。尤其是画特定脸时就不要开启这个面部修复了。

平铺分块:生成的图像复制多份时能够彼此无缝衔接。

高清修复:解决SD1.5无法生成像素较高的图像。除去XL1.0模型是以1024分辨率为基础的。常用的SD1.5的底模是512分辨率的,导致出图时只有接近512的像素才会得到一个比较好的效果(增大尺寸可能会导致多头多手)。高清修复采样次数如果为0,则以采样迭代步数作为实际步数。重绘幅度如果为0就代表修复后的图片不会有任何变化。对于放大算法的选择:

  • 4x-UltraSharp:基于ESRGAN做了优化模型,更适合常见的图片格式真人模型最佳选择。各方面能力出众,目前最实用,最优的选择,更贴合真实效果。
  • SwinIR 4x:使用SwinTransformer模型,拥有局部自适应的内容,更好的提取可特征,提高图像细节,保证放大图片真实感稳定训练,很全面却没有一方面超过别的算法。
  • Nearest:非常传统的归类找近似值的方法,计算新的东西和旧的东西的相似度,以最相似的内容去出图,大数据时效果好,实际一般。
  • Lanczos:把正交矩阵将原始矩阵变换为一个三对角矩阵,一种用于对称矩阵的特征值分解的算法,比起其他几种算法没有什么优势。
  • R-ESRGAN 4x+基于RealESRGAN的优化模型,针对照片效果不错。提高图像分辨率的同时,也可以增强图像的细节和纹理,并且生成的图像质量比传统方法更高。
  • R-ESRGAN 4x+ Anime6B:基于RealESRGAN的优化模型,在生成二次元图片时更加准确且高效。
  • Latent:一种基于原始图像编码图像增强算法,对其进行随机采样和重构,从而增强图像的质量、对比度和清晰度。显存消耗比较小,效果中上,且贴合提示词。
  • ESRGAN:对SRGAN关键部分网络结构、对抗损失、感知损失的增强。从这里开始就不是单纯的图像算法,进入人工智能的领域了。实测确实增加了很多看上去很真实的纹理,但是有时又会把一张图片弄得全是锯齿或怪异的纹理。可能对待处理的图片类型有要求。
  • ESRGAN 4x:它是ESRGAN算法的一种改进版本,可以将低分辨率的图像通过神经网络模型增强到4倍的分辨率,在增强图像的细节信息和保留图像质量方面有了明显的提升。
  • LDSR:潜在扩散超分辨率,效果写实,但是慢。

提示词相关性(CFG Scale):越低越自由越放飞,越高则越严格按照prompt。太高也容易产生撕裂和光斑。推荐7~9。

Denoising strength:给一张原图,想在原图的基础上画新的图。越低则越忠于原图,越高则越放飞自我

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1290781.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

现货白银简单介绍

在贵金属投资领域,现货白银是当前国际上最为流行、交投最为活跃的白银投资方式,其交易市场遍布全球,包括伦敦、苏黎世、纽约、芝加哥及香港等主要市场,是一种以杠杆交易和做市商的形式进行的现货交易。 现货白银可以说是当下交易模…

ELK的日志解决方案

ELK的日志解决方案 ELK是什么 ELK 是一个缩写,代表 Elastic Stack,而不是三个独立的产品名称。Elastic Stack 是一个开源的数据处理和分析平台,用于实时搜索、分析和可视化大规模数据。ELK 是由三个主要的组件构成: Elasticsea…

分享一个基础面试题---手写call

分享一个基础面试题---手写call 手写call笔记第一步第二步第三步 手写call笔记 call():在使用一个指定的this值和若干个指定的参数值的前提下调用某个函数或方法。 let foo {value:1 }; function bar(){console.log(this.value); } bar.call(foo);//1注意两点&…

Vue2与Vue3的语法对比

Vue2与Vue3的语法对比 Vue.js是一款流行的JavaScript框架,通过它可以更加轻松地构建Web用户界面。随着Vue.js的不断发展,Vue2的语法已经在很多应用中得到了广泛应用。而Vue3于2020年正式发布,带来了许多新的特性和改进,同时也带来…

unity 2d 入门 飞翔小鸟 飞翔脚本(五)

新建c#脚本 using System.Collections; using System.Collections.Generic; using UnityEngine;public class Fly : MonoBehaviour {//获取小鸟(刚体)private Rigidbody2D bird;//速度public float speed;// Start is called before the first frame up…

浅谈web性能测试

什么是性能测试? web性能应该注意些什么? 性能测试,简而言之就是模仿用户对一个系统进行大批量的操作,得出系统各项性能指标和性能瓶颈,并从中发现存在的问题,通过多方协助调优的过程。而web端的性能测试…

【华为数据之道学习笔记】2-建立企业级数据综合治理体系

数据作为一种新的生产要素,在企业构筑竞争优势的过程中起着重要作用,企业应将数据作为一种战略资产进行管理。数据从业务中产生,在IT系统中承载,要对数据进行有效治理,需要业务充分参与,IT系统确保遵从&…

若依项目前后端部署记录

前言 本文较乱,用于笔者记录项目部署过程,对于想学习若依项目部署的同学看文章可能会导致误导,建议读者多查资料,保持疑问并谨慎验证。 项目官方指导: 环境部署 | RuoYi 1、环境部署相关 JDK > 1.8 (推荐1.8版本…

TIMO后台管理系统 Shiro 反序列化漏洞复现

0x01 产品简介 TIMO 后台管理系统,基于SpringBoot2.0 + Spring Data Jpa + Thymeleaf + Shiro 开发的后台管理系统,采用分模块的方式便于开发和维护,支持前后台模块分别部署,目前支持的功能有:权限管理、部门管理、字典管理、日志记录、文件上传、代码生成等,为快速开发后…

记录 | vscode pyhton c++调试launch.json配置

下面提供 vscode 中 python 和 c 调试配置的 launch.json (好用,已用好几年,建议收藏) {// 使用 IntelliSense 了解相关属性。 // 悬停以查看现有属性的描述。// 欲了解更多信息,请访问: https://go.microsoft.com/fwlink/?linkid830387&qu…

多人聊天UDP

服务端 package 多人聊天;import java.io.BufferedReader; import java.io.InputStream; import java.io.InputStreamReader; import java.io.OutputStream; import java.io.PrintStream; import java.net.ServerSocket; import java.net.Socket; import java.util.ArrayList;…

神经网络 模型表示(一)

神经网络 模型表示 模型表示一 为了构建神经网络模型,我们需要首先思考大脑中的神经网络是怎样的?每一个神经元都可以被认为是一个处理单元/神经核(processing unit/Nucleus),它含有许多输入/树突(input/…

分布式分布式事务分布式锁分布式ID

目录 分布式分布式系统设计理念目标设计思路中心化去中心化 基本概念分布式与集群NginxRPC消息中间件(MQ)NoSQL(非关系型数据库) 分布式事务1 事务2 本地事务3 分布式事务4 本地事务VS分布式事务5 分布式事务场景6 CAP原理7 CAP组…

PACS源码,医学影像传输系统源码,全院级应用,支持放射、超声、内窥镜、病理等影像科室,且具备多种图像处理及三维重建功能

​三维智能PACS系统源码,医学影像采集传输系统源码 PACS系统以大型关系型数据库作为数据和图像的存储管理工具,以医疗影像的采集、传输、存储和诊断为核心,集影像采集传输与存储管理、影像诊断查询与报告管理、综合信息管理等综合应用于一体的…

Arrarys类的相关细节与知识点

Arrarys类在Java中存储了一些对数组操作的一些方法,比如Sort(),toString,BinarySearch(),copyof(),fill(),equals(),aList这几种方法,这里面最重要的可能就是Sort()方法,…

AWS 日志分析工具

当您的网络资源托管在 AWS 中时,需要定期监控您的 AWS CloudTrail 日志、Amazon S3 服务器日志和 AWS ELB 日志等云日志,以降低任何潜在的安全风险、识别严重错误并确保满足所有合规性法规。 什么是 Amazon S3 Amazon Simple Storage Service&#xff…

汽车网络安全--ISO\SAE 21434解析(二)

1.风险评估方法 书接上文,我们正式开始对车灯系统的TARA分析,首先回顾下整车关于车灯系统描述: 可以比较肯定的是,我们定义的item为车灯系统,因此可以看到上图中画出了item boundary;同时定义出运行环境,个人理解,这块就是为TARA分析提供足够的环境支撑,不管是直接还…

RabbitMQ创建新用户,并给用户添加角色和授权

一、进入容器 1.1 查看运行容器的详细信息 docker ps -a1.2 进入容器命令 docker exec -it 容器ID /bin/bash 或 docker exec -it 容器name bash 1.3 退出容器命令 exit 或者 CtrlQP 二、操作RabbitMQ 2.1 查看用户列表 注:先进入到容器内部 rabbitmqctl list_user…

区块链媒体:Web3.015个方法解析-华媒舍

Web3.0是第三代互联网的发展阶段,相较于Web2.0,它具有更高的可信性、安全性和去中心化特点。在Web3.0时代,推广变得更为重要,因为吸引用户和提高品牌知名度对于在竞争激烈的市场中脱颖而出至关重要。本文将揭秘推广Web3.0的15个秘…