[大模型]Diffusion扩散式生成模型

news2025/4/27 18:14:04

一、概述

扩散式生成模型相较于GAN网络的对抗式生成模型，有更高的精度，也更符合人类的视觉和审美罗技，且风格化能力更强。现行的所有Diffusion模型都是基于2020年的论文DDPM来实现的。

GAN网络通过使生成器(Generator)生成的模型 ${X}'$ 尽可能的逼近真实图片 $X$ 来实现以假乱真的效果。而相较于GAN，Diffusion的生成模式略有不同。Diffusion包含两个步骤：①前向扩散（为模型添加噪声）；②反向扩散（由噪声生成图像）。这两个过程互为反向运算，通过学习，模型能更好的从初始的高斯噪声中拟合出合适的图像。与其说Diffusion是在学习如何画画，倒不如说它是在学习如何为图像去噪。

二、前向扩散

前向扩散可以概述为向原始图片 $X_0$ 不断添加高斯噪声，让它最终变为随机噪声 $X_T$ 的过程，其公式可以表述为 $x_{t-1}\rightarrow x_t$ 的递归公式：

$x_t=\sqrt{\alpha_t}x_{t-1}+\sqrt{1-\alpha_t}\epsilon _{t-1}$

其中， $\alpha_t$ 是一个值很小的超参数， $\epsilon _{t-1}$ 是一个0-1的高斯噪声，并且可以将其推倒为：

$X_t=\sqrt{\bar{\alpha}}X_0+\sqrt{1-\bar{\alpha_t}}\epsilon$

其中， $\bar{\alpha}=\prod ^t_{i=1}\alpha_i$ ， $\epsilon$ 同样是一个0-1的高斯噪声。

三、反向扩散

反向扩散可以理解为前向扩散的逆操作，这一功能在实际计算中通过预测噪声 $\epsilon _T$ 来实现，并通过这个预测噪声逐步将随机噪声 $X_T$ 还原成原始图像 $X_0$ 。其公式可以表述为递归公式：

$x_{t-1}=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{1-\alpha_t}{\sqrt{1-\bar{\alpha_t}}}\epsilon _\theta(x_t,t))+\sigma _tz$

其中， $\epsilon _\theta$ 为噪声估计函数（用于估计真实噪声 $\epsilon$ ， $\theta$ 是模型的训练参数）， $\sigma _t z$ 表示预测噪声和真实噪声之间的误差（ $z \in N(0,1)$ ）。可见Diffusion模型的训练主要是训练噪声估计模型 $\epsilon _\theta(x_t,t)$ ，并使用它来估计真实噪声 $\epsilon$ 。