Stable Diffusion 超详细讲解

news2026/2/13 2:05:44

Stable Diffusion 超详细讲解

这篇文章是《Stable Diffusion原理详解》的后续，在《Stable Diffusion原理详解》中我更多的是以全局视角讲解了 Stable Diffusion 的原理和工作流程，并未深入步骤细节。本文将在《Stable Diffusion原理详解》和《Diffusion Model 深入剖析》这两篇文章的基础上，进一步细致地讲解 Stable Diffusion 的算法原理。

在这里插入图片描述

文章目录

- Diffusion Model
- - Diffusion Model 概览
  - 正向扩散过程
  - 逆向扩散过程
  - 训练
  - 采样
  - 扩散速度问题
- Stable Diffusion
- - 潜在空间
  - Latent Diffusion
  - 调节机制
  - 训练
  - 采样
- 架构对比
- - 纯扩散模型
  - Stable Diffusion (潜在扩散模型)
- 总结

Diffusion Model

Stable Diffusion 脱胎于 Diffusion 模型。因此在搞懂 Stable Diffusion 之前，先搞懂 Diffusion Model 模型非常有必要。这一部分我会带大家大致过一遍 Diffusion Model。如果你想了解 Diffusion Model 的全部细节，可以阅读我之前的文章：《Diffusion Model 深入剖析》。

Diffusion Model 概览

在这里插入图片描述

图1. 扩散模型原理概要

Diffusion Model的训练可以分为两部分：

正向扩散过程 → 为图像添加噪声。
反向扩散过程 → 去除图像中的噪声。

正向扩散过程

正向扩散过程将高斯噪声逐步添加到输入图像中。我们使用以下闭合公式（推导过程详见《Diffusion Model 深入剖析》）更快地完成噪声添加，从而直接获得特定时间步长 $t$ 的噪声图像：
$x_t=\sqrt{\bar{\alpha_t}}x_0+\sqrt{1-\bar{\alpha}_t}\varepsilon$

逆向扩散过程

由于逆向扩散过程不可直接计算（计算代价太高），我们通过训练神经网络 $p_\theta(x_{t-1}|x_t)$ 来近似。

训练目标（损失函数）如下：
$L_{\text{simple}} = \mathbb{E}_{t,x_0,\varepsilon}\Big[||\varepsilon_t-\varepsilon_\theta(x_t,t)||^2\Big]\\ x_t=\sqrt{\bar{\alpha_t}}x_0+\sqrt{1-\bar{\alpha}_t}\varepsilon$

训练

每一轮训练过程如下：

为每个训练样本（图像）选择一个随机时间步长 $t$ 。
将高斯噪声（对应于 $t$ ）应用于每个图像。
将时间步长转换为嵌入（向量）。

在这里插入图片描述

图2. 训练数据集

下面详细解释一下训练步骤是如何工作的：

在这里插入图片描述

图3. 训练步骤图解

采样

采样意味着从高斯噪声图中绘制出图像。下图展示了我们如何使用经过训练的 U-Net 生成图像：

在这里插入图片描述

图4. 采样过程图解

扩散速度问题

如你所见，扩散（采样）过程迭代地将全尺寸图像提供给 U-Net 来获得最终结果。当总扩散步数 $T$ 和图像很大时，这种纯扩散模型会非常慢。

为了解决这个问题，Stable Diffusion 应运而生。