深度学习（生成式模型）——DDIM：Denoising Diffusion Implicit Models

news2026/2/15 14:36:23

文章目录

前言
为什么DDPM的反向过程与前向过程步数绑定
DDIM如何减少DDPM反向过程步数
DDIM的优化目标
DDIM的训练与测试

前言

上一篇博文介绍了DDIM的前身DDPM。DDPM的反向过程与前向过程步数一一对应，例如前向过程有1000步，那么反向过程也需要有1000步，这导致DDPM生成图像的效率非常缓慢。本文介绍的DDIM将降低反向过程的推断步数，从而提高生成图像的效率。

值得一提的是，DDIM的反向过程仍然是马尔可夫链，但论文里有讨论非马尔可夫链的生成模型。本博文只总结DDIM如何提高DDPM的生成图像效率。

为什么DDPM的反向过程与前向过程步数绑定

DDPM反向过程的推导公式为

$\begin{aligned} q(\hat x_{t-1}|\hat x_{t})&=q(\hat x_{t-1}|\hat x_{t},\hat x_0)\\ &=\frac{q(\hat x_{t-1},\hat x_t,\hat x_0)}{q(\hat x_t,\hat x_0)}\\ &=\frac{q(\hat x_{t}|\hat x_{t-1},\hat x_0)q(\hat x_{t-1},\hat x_0)}{q(\hat x_t|\hat x_0)q(\hat x_0)}\\ &=\frac{q(\hat x_{t}|\hat x_{t-1},\hat x_0)q(\hat x_{t-1}|\hat x_0)q(\hat x_0)}{q(\hat x_t|\hat x_0)q(\hat x_0)}\\ &=\frac{q(\hat x_{t}|\hat x_{t-1},\hat x_0)q(\hat x_{t-1}|\hat x_0)}{q(\hat x_t|\hat x_0)}\\ &=\frac{ q(\hat x_{t}|\hat x_{t-1})q(\hat x_{t-1}|\hat x_0)}{q(\hat x_t|\hat x_0)} \end{aligned}$

值得一提的是，反向过程的马尔可夫状态 $\hat x_t$ 、 $\hat x_{t-1}$ 不一定要与前向过程一致，如下图所示，反向过程的状态 $\hat x_T$ 、 $\hat x_{T-1}$ 对应前向过程的 $x_T$ 、 $x_{T-2}$ 。
在这里插入图片描述
从上述公式构成来看，反向过程的概率图形式与 $q(\hat x_t|\hat x_{t-1})$ 有关。而在DDPM中， $q(\hat x_t|\hat x_{t-1})$ 与前向过程 $q(x_t|x_{t-1})$ 一致，这就导致DDPM的概率图为

因此利用DDPM推导的 $q(\hat x_{t-1}|\hat x_{t})$ 进行反向过程时，状态转移步数必须与前向过程一致。

DDIM如何减少DDPM反向过程步数

在上一节中，我们说明了反向过程的马尔可夫状态与前向过程不需要一致，这表明 $q(\hat x_{t-1}|\hat x_{t})$ 的概率密度函数有多种。找到合适的概率密度函数，我们即可减少反向过程的迭代步数，同时保持生成图像的质量，这便是DDIM的出发点。以下的推导中，我们将用 $x_t、x_{t-1}$ 来表示反向过程的马尔可夫状态。

本章节的所有符号定义与深度学习（生成式模型）——DDPM：denoising diffusion probabilistic models一致

为了书写方便，除非特殊提及，在以下的所有推导中，所有的 $x$ 、 $\epsilon$ 符号都表示随机变量，而不是一个样本。

在DDPM的前向过程里有
$\begin{aligned} x_{t-1}&=\sqrt{\bar \alpha_t}x_0+\sqrt{1-\bar\alpha_t}\epsilon_{t-1}\tag{2.0} \end{aligned}$
已知两个均值为0的高斯分布相加具备以下性质

$\mathcal N(0,\delta_1^2)+\mathcal N(0,\delta_2^2)=\mathcal N(0,\delta_1^2+\delta_2^2)$

依据重参数化技巧，已知
$\begin{aligned} \sqrt{1-\bar\alpha_{t}-\delta_t^2}\epsilon_{t}&\sim \mathcal N(0,1-\bar\alpha_{t}-\delta_t^2)\\ \delta_t\epsilon&\sim \mathcal N(0,\delta_t^2)\\ \sqrt{1-\bar\alpha}\epsilon_{t-1}&\sim \mathcal N(0,1-\bar \alpha_{t-1}) \end{aligned}$
则有
$\begin{aligned} x_{t-1}&=\sqrt{\bar \alpha_{t-1}}x_0+\sqrt{1-\bar\alpha_t}\epsilon_{t-1}\\ &=\sqrt{\bar \alpha_{t-1}}x_0+\sqrt{1-\bar\alpha_{t}-\delta_t^2}\epsilon_{t}+\delta_t\epsilon\\ &=\sqrt{\bar \alpha_{t-1}}x_0+\sqrt{1-\bar\alpha_{t}-\delta_t^2}\frac{x_t-\sqrt{\bar \alpha_t}x_0}{\sqrt{1-\bar\alpha_t}}+\delta_t\epsilon \end{aligned}\tag{2.1}$

依据重参数化公式，式2.1可表征为
$\begin{aligned} q(x_{t-1}|x_{t})&=q(x_{t-1}|x_t,x_0)\\ &=\mathcal N(x_{t-1};\sqrt{\bar \alpha_{t-1}}x_0+\sqrt{1-\bar\alpha_{t}-\delta_t^2}\frac{x_t-\sqrt{\bar \alpha_t}x_0}{\sqrt{1-\bar\alpha_t}},\delta_t^2\mathcal I)\tag{2.2} \end{aligned}$
注意式2.2的推导过程绕过了贝叶斯公式，而且没有指定反向过程的状态转移图，因此式2.1是一个反向过程的概率密度函数族，不同的 $\delta_t$ 表示不同的概率密度函数，对应反向过程不同的马尔可夫状态转移链。

结合式2.0，式2.2可进一步变化为
$\begin{aligned} q(x_{t-1}|x_t)&=q(x_{t-1}|x_t,x_0)\\ &=N(x_{t-1};\sqrt{\bar \alpha_{t-1}}\frac{x_t-\sqrt{1-\bar \alpha_t}\epsilon_t}{\sqrt{\bar\alpha_t}}+\sqrt{1-\bar\alpha_{t}-\delta_t^2}\epsilon_t,\delta_t^2\mathcal I)\tag{2.3} \end{aligned}$

DDIM的优化目标

由于DDIM与DDPM一样，前向过程与反向过程均为马尔科夫链，因此优化目标也一致。从上一篇博客，我们可知DDPM的优化目标为
$\begin{aligned} L&=\sum_{t=2}^TD_{KL}(q(x_{t-1}|x_t,x_0)||p_\theta(x_{t-1}|x_t))\\ &=\sum_{t=2}^T(\frac{1}{2}(n+\frac{1}{\delta_t^2}||\mu_t-\mu_\theta||^2-n+log1)\\ &=\sum_{t=2}^T(\frac{1}{2\delta_t^2}||\mu_t-\mu_\theta||^2)\\ \end{aligned}$

设网络预测的噪声为 $\epsilon_\theta(x_t)$ ，则DDIM的优化目标为：
$\begin{aligned} L&=\sum_{t=2}^T(\frac{1}{2\delta_t^2}||\mu_t-\mu_\theta||^2)\\ &=\sum_{t=2}^T(\frac{1}{2\delta^2}||\sqrt{\bar \alpha_{t-1}}x_0+\sqrt{1-\bar\alpha_{t}-\delta_t^2}\epsilon_t-(\sqrt{\bar \alpha_{t-1}}x_0+\sqrt{1-\bar\alpha_{t}-\delta_t^2}\epsilon_\theta(x_t))||^2)\\ &=\sum_{t=2}^T(\frac{1-\bar\alpha_t-\delta_t^2}{2\delta_t^2}||\epsilon_t-\epsilon_{\theta}(x_t)||^2) \end{aligned}$

结合上式以及坐标下降法，可得DDIM最终优化目标 $L$ 为
$L=||\epsilon_t-\epsilon_\theta(\sqrt{\bar \alpha_t}x_0+\sqrt{1-\bar\alpha_t}\epsilon_t)||^2$

与DDPM一致

DDIM的训练与测试

DDIM的训练过程与DDPM一致，反向过程的采样公式变为
$x_{t-1}=\sqrt{\bar \alpha_{t-1}}\frac{x_t-\sqrt{1-\bar \alpha_t}\epsilon_\theta(x_t)}{\sqrt{\bar\alpha_t}}+\sqrt{1-\bar\alpha_{t}-\delta_t^2}\epsilon_\theta(x_t)+\delta_t\epsilon\tag{4.0}$