详解 Diffusion (扩散) 模型

news2026/2/12 12:28:41

扩散模型是跨不同深度学习领域使用的生成模型。目前，它们主要用于图像和音频生成。最值得注意的是，这些模型是令人印象深刻的图像生成模型（例如 Dalle2 和稳定扩散）背后的驱动力。我相信您已经看过这些模型生成的闪烁图像。令人惊叹的结果证明了深度学习的进步是多么令人兴奋。

什么是Diffusion？

在物理学中，扩散只是任何事物的整体运动。（原子，能量）从较高浓度的区域到较低浓度的区域。现在想象一下，将一小滴油漆滴入一杯水中，油漆的密度将集中在一个位置，但随着时间的推移，该滴将扩散到水中直至达到平衡。如果我们能逆转这个过程不是很好吗？不幸的是，这是不可能的。但扩散模型试图拟合一个模型，其最终目标是逆转这一过程。

其基本思想是通过迭代前向扩散过程系统地、缓慢地破坏数据分布中的结构。然后，我们学习反向扩散过程，恢复数据结构，产生高度灵活且易于处理的数据生成模型。

扩散模型尝试通过向原始图像迭代添加噪声来重现扩散过程。我们不断添加噪声，直到图像变成纯噪声。噪声由马尔可夫事件链定义。马尔可夫链是一种事件模型，其中每个时间步仅取决于前一个时间步。马尔可夫性质定义如下：

P(Xₙ = iₙ | Xₙ₋₁)

因此，任意满足上述条件的随机变量序列X₀，X₁，X2，…，Xₙ都可以被视为马尔可夫链。这种马尔可夫假设使得学习添加的噪声变得容易处理。在训练模型来预测每个时间步的噪声后，该模型将能够从高斯噪声输入生成高分辨率图像。总结一下：我们不断向图像添加噪声，直到只剩下纯粹的噪声。然后我们训练一个神经网络来消除噪音。因此扩散模型由两个阶段组成：

前向扩散过程
逆扩散过程

前向扩散过程

前向扩散过程是数据结构被破坏的阶段。这是通过应用从正态分布采样的噪声来完成的 - 最终图像随后将收敛到纯噪声 z ~ N(0, 1)。每个时间戳应用的噪声量不是恒定的。使用时间表来缩放平均值和方差。 OpenAI 的原始 DDPM 论文应用了线性调度。但 OpenAI 的研究人员再次发现，这会导致许多冗余的扩散步骤。因此，在他们的《改进的去噪扩散概率模型》论文中，他们实现了自己的余弦计划。

前向过程定义为 q(xₜ|xₜ₋₁)。该函数只是在每个时间步 t 添加噪声。前向过程的数学定义如下：q(xₜ|xₜ₋₁) = N(xₜ; sqrt{1-βₜ}xₜ, βₜI)。您可能还记得在统计课上，正态分布是由均值和方差参数化的。 sqrt{1-βₜ}xₜ 是平均值。 βₜI 是方差。您在此等式中看到的 beta 只是范围在 0–1 之间的值 0<β₁<β2<…<β_T<1；贝塔值并不是恒定的，并且受“方差表”的调节。通常，您希望对每个时间步 t 重复此过程。只需一步即可完成这一过程将为我们节省大量计算量。让我们看看它是如何完成的。首先，我们定义 αₜ = 1-βₜ。然后我们可以定义所有 alpha 的累积乘积 α⁻ₜ = ∏aₛ 现在，使用重新参数化技巧，我们可以将上述公式重写如下：

使用 alpha，我们可以将其重写为：

正如您所猜测的，我们现在可以将其扩展到之前的时间步骤：

使用所有 alpha 的乘积，最终方程将采用以下形式：

逆扩散过程

如果通过计算 q(xₜ₋₁|xₜ) 来反转上述过程，那就太好了。不幸的是，这个计算需要每个时间步长。因此，我们恢复到学习近似这些条件概率的神经模型。在相反的过程中，神经网络将预测给定图像的平均值。神经网络将查看图像并尝试确定前向过程中该图像来自的图像分布。

我们的扩散模型损失函数就是 -log(pθ(x₀))。问题在于扩散模型是潜变量模型，其形式如下：

正如你所想象的，这种形式没有封闭的解决方案。解决这个问题的方法是计算变分下界。请注意，了解 VAE 的推导可以帮助您理解以下公式。整个逆过程定义为：

由于这是联合分布，我们必须将每个逆过程相乘。请记住，pθ(xₜ₋₁|xₜ) 将您从“噪声较大”的图像变为“噪声较小”的图像。我提到了变分下界，但它是什么？在较高的层面上，假设我们有一个难以处理的函数 f(x)。如果我们能证明我们有一个小于 f(x) 的函数 g(x)。然后通过最大化 g(x)，我们可以确定 f(x) 也会增加。让我们通过将 KL 散度添加到原始函数 f(x) = -log(pθ(x₀)) 来比较 -log(pθ(x₀))。

通过贝叶斯定理重写KL散度，我们得到：

所以我们的变分下界变成：

我们现在的目标是将右侧转换为可分析计算的。让我们首先将日志重写为产品：

使用对数乘积法则，我们可以重写右侧：

取出求和的第一项，得到以下结果：

使用贝叶斯定理重写 q(xₜ|xₜ₋₁) 并在 t = 0 时对输入图像进行调节：

替代

使用乘积法则：

第二个求和可以进一步简化。取 T 等于任何数字，您会发现大部分项都被抵消了，您将得到以下结果：

替换

使用商规则，我们可以重写最后两项：

您可以看到第一项和最后一项相互抵消。使用商规则的另一种用法来整理我们的公式：

我们现在可以写出 KL 散度的对数项：

DDPM 论文的作者忽略了第一项。如上所述，项 pθ(xₜ₋₁|xₜ) 可以重写为预测均值的神经网络：

q(xₜ₋₁|xₜ, x₀) 具有如前所述的闭式解。我们可以将其写为：

作者在实际 μ 和预测 μ 之间采用了简单的均方误差。他们使用超出本博客文章范围的定义来证明，得出以下结论：

使用上面的定义，我们可以将均方误差简化为：

这就是我们采取梯度下降步骤的术语！所有这些简化，我们得出以下结论：预测噪声。最终的目标函数采用以下形式：

什么是 Stable Diffusion？

稳定扩散是 OpenAI Dalle.2 的开源替代品。由于稳定扩散是一种潜在扩散模型，因此我将尝试对 LDM 进行高级解释。还记得反向扩散过程如何使用神经网络逐渐降低噪声吗？稳定扩散使用 U-Net，这是一种基于卷积的神经网络，可将图像下采样到较低的维度，并在上采样期间重建它。在下采样层和上采样层之间添加跳跃连接以获得更好的梯度流。通过将从语言模型生成的文本嵌入连接到图像表示，将提示注入到模型中。 U-Net 中的注意力层允许模型通过交叉注意力来关注文本标记。

顾名思义，LDM 不适用于原始像素。相反，图像通过编码器被编码到更小的空间中。然后通过解码器将图像解码回其原始空间。这允许扩散过程在小/潜在空间上工作并完成该空间中的去噪。您可以将其视为包含扩散过程的自动编码器。这就是为什么它被称为潜在扩散；我们不是在像素中而是在潜在空间中实现扩散过程。下图应该足以概括 LDM：