【扩散模型】4、Improved DDPM | 引入可学习方差和余弦加噪机制来提升 DDPM

news2026/2/14 7:07:26

在这里插入图片描述

论文：Improved Denoising Diffusion Probabilistic Models

代码：https://link.zhihu.com/?target=https%3A//github.com/openai/improved-diffusion

时间：2021.02.18

Improved DDPM 贡献：

一、背景

首先回顾一下 DDPM

前向传播过程：

通过给输入 $x_0$ 进行 $t$ 次加噪 $\beta_t \in (0,1)$ ，得到最终的 $x_t$
假设给定一个足够大的 $T$ 和一个变化规则良好的 $\beta_t$ ，则 $x_T$ 就近似一个各向同性高斯分布。
假设已知 $q(x_{t-1}|x_t)$ ，就是能直接从 $x_t$ 推出 $x_{t-1}$ ，那么就能一路反推得到 $q(x_0)$ ，从而采样出 $x_0$ ，但是没有办法直接推出来，所以只能使用神经网络来估计出来每次反推的结果：
将 q 和 p 结合起来就是一个变分自编码器，可将变分下界（variational lower bound, VLB）写成如下形式：
公式 4 中，除了 L0 以外，其他每项都是两个高斯分布的 KL 散度
从 $x_0$ 可以直接得到 $x_t$ ，且边界分布如下，噪声的系数是方差，可以用这个系数来描述噪声的 schedule
基于贝叶斯理论，可以计算后验分布如下：

实际训练过程：

目标函数 4 是多个独立项之和，每一项 $L_{t-1}$ 基本都是真实噪声和预测噪声的 KL 散度
怎么预测噪声均值 $\mu_{\theta}$ 呢，之前的方法大都是直接使用神经网络来预测，还有一种方法是通过预测 $x_0$ ，然后基于公式 11 来预测。此外，还能通过使用公式 9 和 11 来得到：
DDPM 中发现预测噪声能做的比较好，尤其是使用 reweighted loss 函数，下面的函数 14 可以看做从公式 4 中重加权得到的，且发现直接优化下面的公式 14 比优化 4 更好：

尽管 DDPM 在 FID 和 Inception Score 上获得很很好的效果，但在 Log-likelihood 上没有得到很高的得分

Log-likelihood 也是生成式任务上一个很重要的衡量指标，一般认为优化 Log-likelihood 能够让生成式模型捕捉数据分布的整体信息，所以，探索 DDPM 为什么在 Log-likelihood 上表现的不好还是很重要的

其理论出处文中给的是 VQ-VAE2：

在这里插入图片描述

DDPM 在优化 $L_{sample}$ 的时候，设置的固定的方差 $\sigma_t^2I$ ，方差是没有学习的，当 $\sigma_t^2=\beta_t$ 或 $\sigma_t^2=\~{\beta}_t$ 时，采样质量没什么差别。

所以 DDPM 设置的 $\sigma_t^2=\beta_t$ ，T=1000 的情况下，在 ImageNet 64x64 上训练 200k iter 时， log-likelihood = 3.99。

本文作者尝试将 T=4000 时，log-likelihood 提升到了 3.77。

将固定方差变成可学习的方差：

在 DDPM 中， $\sum_{\theta}(x_t,t)=\sigma_t^2I$ ，其中 $\sigma_t$ 是不可学习的，是固定成了 $\sigma_t=\beta_t$ ，且和 $\sigma_t^2=\~{\beta}_t$ 时的采样效果没什么大的差别
一般来说， $\beta_t$ 和 $\~{\beta}_t$ 表示了两种相反的极端，但为什么这种选择不会影响采样结果呢。如图 1 所示，展示了两者相除的结果，可以看出 $\beta_t$ 和 $\~{\beta}_t$ 除了在 t=0 附近不太相同以外，在后面的部分相除的结果都接近于 1，且随着 T 的增大，这两者更加接近。这就说明在无限增大扩散步骤时， $\sigma_t$ 的选择对采样质量影响不大。也就是在使用更多的扩散步骤时，模型的平均值 $\mu_{\theta}(x_t, t)$ 比方差 $\sum_{\theta}(x_t,t)$ 更能决定这个分布。
Improved DDPM 想如何改进：本文作者认为，虽然 DDPM 中证明了固定的 $\sigma_t$ 基本上不会影响采样的效果，但没说不会影响 log-likelihood 啊！所以，Improved DDPM 作者觉得可能会影响 log-likelihood，于是就在图 2 中展示了扩散模型的前几个 step 对变分下界的影响，而且发现了前几个 step 对变分下届的贡献最大，所以，似乎可以通过选择更好的 $\sum_{\theta}(x_t,t)$ 来提高 log-likelihood，所以，Improved DDPM 选择了学习 $\sum_{\theta}(x_t,t)$ ，而非固定的模式。

如何学习 $\sum_{\theta}(x_t,t)$ ：

如图 1 所示， $\sum_{\theta}(x_t,t)$ 的变化范围很小，所以很难直接使用神经网络来预测这个值
本文作者发现将其参数化为在 $\beta_t$ 和 $\~{\beta}_t$ 在 log domain 之间的插值，也就是说模型输出一个向量 $v$ ，每个维度包含一个元素，使用如下的方式将输出变成方差：
而且没有对 $v$ 进行额外的约束，但其也不会越界。所以最终的目标函数如下，且 $\lambda=0.001$