Stable Diffusion AI 绘画入门指南

市面上用的最多的AI绘画工具是 Stable-Diffusion（SD） 和 Midjourney（Mid），SD是在本地运行的服务，开源，门槛高，但自控性极高。而Mid作为在线的服务，门槛低，效果好，但可控性不够强。

Stable Diffusion（简称SD）是当今最流行的免费、开源的AI绘图模型，可以在电脑本地上离线运行，很多收费的AI绘图底层就使用了Stable Diffusion。而 Stable Diffusion WebUI（简称SDW）是基于Stable Diffusion制作的一个友好的 Web 图形化界面，解决了Stable Diffusion用命令行操作的麻烦。SD用户能够随心所欲地训练自己的模型和LORA，乃至引入ControlNet用各类工具来控制AI绘画出图的内容。甚至还可以指定区域重绘。

在线体验

Stable Diffusion Demo，这是官方发布的一个简单的体验版，无需登录只需要提示词，然后点击生成按钮即可。

本机安装

要顺利运行 stable-diffusion-webui 和模型，需要足够的显存，最低配置4GB显存，基本配置6GB显存，推荐配置12GB显存。电脑内存也不能太小，最好大于16GB

安装 Python 3.10.6
下载 WebUI 源码：git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
在 webui-user.bat 中修改启动参数

set COMMANDLINE_ARGS=  --xformers

拷贝相关主模型及微调模型到指定目录。
运行 webui-user.bat，会自动创建 Python 虚拟环境、下载安装依赖包，30分钟左右。失败可再次执行。
点击上图http://127.0.0.1:8960, 打开后界面如下图，可选择基础模型及设置提示词等参数，点击生成（Generate）按钮：

文生图参数

参数	说明
Prompt	提示词（正向）
Negative prompt	消极的提示词（反向）
Width & Height	要生成的图片尺寸。尺寸越大，越耗性能，耗时越久。
CFG scale	AI 对描绘参数（Prompt）的倾向程度。值越小生成的图片越违背你的描绘，但越契合逻辑；值越大则生成的图片越契合你的描绘，但或许不契合逻辑。
Sampling method	采样方法。有许多种，但仅仅采样算法上有不同，没有好坏之分，选用合适的即可。
Sampling steps	采样步长。太小的话采样的随机性会很高，太大的话采样的功率会很低，拒绝概率高(能够理解为没有采样到,采样的结果被放弃了)。
Seed	随机数种子。生成每张图片时的随机种子，这个种子是用来作为确认分散初始状况的基础。不明白的话，用随机的即可。

模型

不同的模型会带来不同的画风、认识不同的概念（人物/物体/动作 … …），这是模型众多的原因。常见的模型可以分为两大类：主模型，用于微调主模型的小型模型。常见模型后缀名有如下几种：1. ckpt ，2. pt ，3. pth，4. safetensors，这几种后缀名都是标准的模型，从后缀名是无法判断具体是哪一种类的模型。

由于想要炼制、微调（finetune）主模型十分困难，需要好显卡、算力，所以更多的人选择去炼制小型模型，这些小型模型通过作用在大模型的不同部分，来简单的修改大模型，从而达到定制目的。常见的用于微调的小型模型又分为以下几种：Textual inversion (常说的 Embedding 模型)、Hypernetwork 模型、LoRA 模型。

主模型

主模型对于AI绘画的影响是最大的，SD系列，比如sd-v1-4、sd-v1-5、sd-v2（简写成SD1.5、SD2.0）之类的大模型，这些是 Stable-Diffusion 自带的大模型。基本没有人会用自带的大模型，因为效果很差。如果想自己练大模型的话，SD系列是不错的基础模型，因为他们比较庞杂，什么风格都有，属于中性模型。

目前比较流行和常见的 checkpoint 模型有 Anything 系列、ChilloutMix、Deliberate、国风系列等等。这些 checkpoint 模型是从 Stable Diffusion 基本模型训练而来的。目前，大多数模型都是从 v1.4 或 v1.5 训练的。它们使用其他数据进行训练，以生成特定风格或对象的图像。

模型文件名含 pruned 是指完整版，emaonly 是剪枝版。剪枝版比完整版通常小很多，方便下载。如果只是使用的话，两者差别不大，如果是想要自己练模型的话，需要下载完整版。

Anything 系列是一个以二次元漫画为主打的模型。
Cetus-Mix 是一个二次元的混合模型。
Chilloutmix 是大名鼎鼎的亚洲美女模型，你看到的大量的AI美女，基本上都是这个模型生成的。
Deliberate 系列，目前最新版本是 deliberate_v2，这个模型是一个万能模型，可以画能任何你想要的东西。风格上偏油画和数绘风格。值得注意的是，这个模型的提示词必须非常详细地填写。
Realistic Vision 系列是写实风格的模型，比较适合人物和动物，不过相对也比较万金油。
PerfectWorld 欧美版的 Chilloutmix，主要绘制欧美风格的美女，偏 2.5D 介于动漫和写实之间。
GuoFeng 是一个中国华丽古风风格模型，也可以说是一个古风游戏角色模型，具有 2.5D 的质感。

LoRA

文件后缀: .ckpt、.safetensors、.pt
存放路径: models/Lora

当下最火的微调模型，可以将某一类型的人物或者事物的风格固定下来，使用了某种 LORA 那么风格就趋近于它。它们通常为10-200 MB。必须与 checkpoint 模型一起使用。现在比较火的 Korean Doll Likeness、Taiwan Doll Likenes、Cute Girl mix 都是真人美女 LoRA 模型，效果很惊艳。还有一些特定风格的 LoRA 也非常受欢迎，最著名的有墨心等。

模型训练器: https://github.com/Akegarasu/lora-scripts

VAE美化模型/变分自编码器

文件后缀: .pt
存放路径: models/VAE

VAE，全名Variational autoenconder，中文叫变分自编码器。作用是：滤镜+微调。

有的大模型是会自带 VAE 的，比如 Chilloutmix。如果再加 VAE 则可能画面效果不会更好，甚至适得其反。默认的 VAE 是 animevae，效果一般，建议可以使用 kl-f8-anime2 或者 vae-ft-mse-840000-ema-pruned。anime2 适合画二次元，840000 适合画写实人物。

Embedding/Textual lnversion

文件后缀: .safetensors, .pt
存放路径: embeddings

Textual lnversion 中文翻译过来叫文本反转，通过仅使用的几张图像，就可以向模型教授新的概念。用于个性化图像生成。Embeddings 是定义新关键字以生成新人物或图片风格的小文件。它们很小，通常为10-100 KB。必须将它们与 checkpoint 模型一起使用。比如 EasyNegative 这个 Embeddings，里面包含了大量的负面词，可以减少你每次打一堆负面词的痛苦。

模型下载

C站镜像: https://civitai.space/
https://www.liblibai.com/
http://www.i-desai.com/
https://www.ai016.com/
https://tusi.art

ControlNet

ControlNet 是一个用于控制 AI 图像生成的插件。在 ControlNet 出现之前，我们在生成图片之前，永远的不知道 AI 能给我们生成什么，就像抽卡一样看运气。ControlNet 出现之后，我们就能通过模型精准的控制图像生成，比如进行填色渲染，控制人物的姿态等等。提示词的作用是奠定整个图的大致画面,Lora 的作用是让图片主体符合我们的需求，ControNet 的作用是精细化控制整体图片的元素——主体、背景、风格、形式等。

比如你提供一个图片，可以选择采集图片中人物的骨架，从而在新的图片中生成出一样姿势的人，可以选择采集图片中画面的线稿，从而在新的图片中生成一样线稿的画面，可以选择采集图片中已有的风格，从而在新的图片中生成一样风格的画面。

参考：15种ControlNet模型

提示词 Prompt

提示词示例

提示词：
solo, 1girl, portrait, looking at viewer, masterpiece, best quality, 8k,
反向提示词:
(worst quality, low quality:1.4), (bad-image-v2-39000:0.75), (bad_prompt_v2:0.85), (censored, bar censor), cropped, mature,

通用提示词

广泛适用于二次元风格，可以考虑搭配不同模型使用！

正面提示词后添加：

(masterpiece:1,2), best quality, masterpiece, highres, original, extremely detailed wallpaper, perfect lighting,(extremely detailed CG:1.2), drawing, paintbrush,

负面提示词后添加：

NSFW, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, (ugly:1.331), (duplicate:1.331), (morbid:1.21), (mutilated:1.21), (tranny:1.331), mutated hands, (poorly drawn hands:1.5), blurry, (bad anatomy:1.21), (bad proportions:1.331), extra limbs, (disfigured:1.331), (missing arms:1.331), (extra legs:1.331), (fused fingers:1.61051), (too many fingers:1.61051), (unclear eyes:1.331), lowers, bad hands, missing fingers, extra digit,bad hands, missing fingers, (((extra arms and legs))),

Counterfeit-V2.5 二次元示例

提示词:

(((masterpiece))),(((best quality))), ((ultra-detailed)), (best illustration), 1girl, solo,  blush, smug, smile, purple eyes, choker, gradient eyes, no pupils, multicolored_hair, pink hair, blue hair, long hair,<lora:sangonomiyaKokomi_v10:0.5>, sangonomiya kokomi, ((kimono)), outdoors, sakura trees, sakura, facing towards viewer, front view

负面提示词:

EasyNegative,extra fingers, fewer fingers, extreme fingers,wrong hand,wrong tail, missing male, extra legs, extra arms, missing legs, missing arms, weird legs, weird arms, watermark, logo, long hand, (poorly drawn hands:1.331), (bad anatomy:1.21), (bad proportions:1.331), (fused fingers:1.61051), (too many fingers:1.61051), extra digit, fewer digits,(mutated hands and fingers:1.5 ), fused fingers, one hand with more than 5 fingers, one hand with less than 5 fingers, one hand with morethan 5 digit, one hand with less than 5 digit, extra digit, fewer digits, fused digit, missing digit,text,watermark,

参数:

Size: 512x512, Seed: 1396898128, Model: CounterfeitV25_25, Steps: 20, Sampler: DPM++ 2S a Karras, CFG scale: 7, Model hash: a074b8864e, Hires steps: 20, Hires upscale: 2, Hires upscaler: Latent (nearest-exact), Denoising strength: 0.7

工具

解析器: https://spell.novelai.dev/ ，可用于查看模型文件类型，图片文件生成时的参数
提示器: https://prompt.qpipi.com/ ，帮助编写提示词

课程

咖啡猫CuteCat: https://space.bilibili.com/3493136342977164/channel/collectiondetail?sid=1261907
Nenly同学: BV1Fu4y1o7F1
惫懒の欧阳川: BV1ms4y1y7Mx
SD题词技巧: BV1Fu4y1o7F1
流畅使用GPT: BV13s4y1v7BE
SD高清放大: BV1Ch4y147WE
汉字艺术海报: BV1fh4y1u7x9

秋葉aaaki