DDPM扩散模型（模型结构图与公式推导）

DDPM扩散模型

一、前置知识

1. 条件概率知识

$\frac{P(AB)}{P(B)}$

$P (A BC) = P (C ∣ B A) P (B A) = P (C ∣ B A) P (B ∣ A) P (A)$

$P (BC ∣ A) = P (B ∣ A) P (C ∣ A, B)$

$\frac{P(BC| A)}{P(B|A)}$

2. 基于马尔科夫假设的条件概率

如果满足马尔科夫链关系 $A - > B - > C$ 那么有

$P (A BC) = P (C ∣ B A) P (B A) = P (C ∣ B) P (B ∣ A) P (A)$

$P (BC ∣ A) = P (B ∣ A) P (C ∣ B)$

3. 高斯分布的KL散度公式

对于两个单一变量的高斯分布 P 和 Q 而言，它们的 KL 散度为： $\log{\frac{\sigma_1}{\sigma_2}} + \frac{\sigma_1^2 + (\mu_1 - \mu_2)^2}{2 \sigma_2^2} - \frac{1}{2}$

KL 散度，又称为相对熵，描述两个概率分布P和Q的差异和相似性，用 $D_{KL}(P||Q)$ 表示

显然，散度越小，说明概率Q与概率P之间越接近，那么估计的概率分布与真实的概率分布也就越接近。

KL 散度的性质：

非对称性： $D_{KL} \neq D_{KL}(Q || P)$
$D_{KL}(P || Q) \geq 0$ ，仅在 $P = Q$ 时等于0

4. 参数重整化

如果希望从高斯分布 $N(\mu, \sigma^2)$ 中采样（ $\mu$ ：表示均值， $\sigma^2$ ：表示方差），可以先从标准分布 $N (0, 1)$ 采样处 $z$ ，再得到 $\sigma \times z + \mu$ ，这样做的好处是将随机性转移到了 $z$ 这个常量上了，而 $\sigma$ 和 $\mu$ 则当做仿射变换网络的一部分。

二、Diffusion Model流程

在这里插入图片描述

$x_0$ 是初始数据（一个初始的图片）， $x_T$ 是最终的图片（一个纯噪声的图片）。

$x_0 \sim x_T$ 的过程是一个加噪过程，每次从 $q(x_t|x_{t - 1})$ 分布中取噪声，然后添加到前一个时间步的图片数据中，这样经过T个时间步，我们就能得到一个纯噪声的图片了。
$x_T \sim x_0$ 的过程是一个去噪过程，每次从 $p_\theta(x_{t - 1}|x_t)$ 分布中取噪声，然后使前一个时间步的图片数据减去该噪声，这样经过T个时间步，我们就能得到原始的图片了。

其中 $q(x_t|x_{t - 1})$ 是自己设定的一个加噪分布，而 $p_\theta(x_{t - 1}|x_t)$ 是需要神经网络去学习的一个分布，我们会使用参数分布来去对该分布做估计，由于使用了参数重整化的思想（ $\sigma \times \epsilon + \mu$ ，其中 $\sigma$ 是分布的方差， $\mu$ 表示的是分布的均值， $\epsilon$ 是从标准正态分布中随机采样的一个值），我们加噪过程是从一个标准正态分布中随机采样一个值，然后再进行参数重整化，依据 $\mu$ 和 $\sigma$ 得到特定分布下的噪声，而去噪过程是利用神经网络学习这个噪声，然后在每个时间步上减去预测出的噪声。

三、加噪过程

给定初始数据分布 $x_0 \sim q(x)$ ，可以不断地向分布中添加高斯噪声，该噪声的方差是以固定值 $\beta_t$ 而确定的，均值是以固定值 $\beta_t$ 和当前 $t$ 时刻的数据 $x_t$ 决定的。这个过程是一个马尔科夫链过程，随着 $t$ 的不断增大，不断的向数据中添加噪声，最终数据分布 $x_t$ 变成了一个各向独立的高斯分布。

噪声的分布可以表示如下：

$q(x_t|x_{t - 1}) = N(x_t; \sqrt{1 - \beta_t}\cdot x_{t - 1}, \beta_tI)$ 其中 $\sqrt{1 - \beta_t}\cdot x_{t- 1}$ 表示该分布的均值， $\beta_t I$ 表示方差（ $I$ 表示单位矩阵）。

那么有： $x_t = \sqrt{1 - \beta_t}x_{t - 1} + \sqrt{\beta_t} z_t$ ，其中 $\sqrt{1 - \beta_t}$ 是一个控制噪声强度的系数， $\beta_t$ 是一个添加噪声比例的系数，论文中说明，当分布越来月接近噪声分布的时候，可以将 $\beta_t$ 变得大一点，这样做可以再初始的时候 $\beta_t$ 很小，那么添加的噪声也就很小，而 $\sqrt{1 - \beta_t}$ 会很大，那么将会保留更多原来数据的特征，再最后的时候 $\beta_t$ 很大，那么添加的噪声也会更大，而 $\sqrt{1 - \beta_t}$ 也就会更大，那么将会去除掉更多原来数据的特征。

设定噪声的方差 $\beta_t \in (0, 1)$ ，并且 $\beta_t$ 随着 $t$ 的增大而增大。

通过上述的分布，我们可以将原始数据图片 $x_0$ 通过 $q(x_1| x_0)$ 分布进行加噪，从而得到 $x_1$ ，然后再通过 $q(x_2| x_1)$ 分布进行对 $x_1$ 加噪，从而得到 $x_2$ ，并以此类推，我们可以得到最终纯噪声的高斯分布。

上述过程时比较麻烦的，因为我们需要得到 $t - 1$ 时刻的数据分布才能得到 $t$ 时刻加噪后的数据分布，其实任意时刻的 $q(x_t)$ 数据分布可以直接基于 $x_0$ 和 $\beta_t$ 而计算出来，而不需要一步一步的迭代，其推导过程如下：

正态分布叠加性质：正态分布 $\sim N(\mu_1, \sigma_1^2)$ 和 $\sim N(\mu_2, \sigma_2)$ 线性叠加后的分布为 $Z = a X + bY$ ，则叠加后分布的均值为 $a\mu_1 + b\mu_2$ ，方差为 $a^2\sigma_1^2 + b^2\sigma_2^2$ ，即 $\sim N(a\mu_1 + b\mu_2, a^2\sigma_1^2 + b^2\sigma_2^2)$ 。

推导公式：

在这里插入图片描述

有正态分布的叠加性质可知： $\sqrt{\alpha_t - \alpha_t\alpha_{t - 1}} \cdot z_{t - 2} + \sqrt{1 - \alpha_t}\cdot z_{t - 1}$ 可以参数重整化成只含一个随机变量 $z$ 构成的 $\sqrt{1 - \alpha_t}\cdot z_{t - 1}$ 可以参数重整化为只含一个随机变量 $z$ 构成的 $\sqrt{1 - \alpha_t\alpha_{t - 1}}\cdot z$ 的形式，以此类推可以化简为一个最终的结果。

上述公式中的 $z_{t -1}、z_{t - 2}、\cdots$ 都是一个从正态分布中随其采样的数据。

最终可以得到： $q(x_t | x_0) = N(x_t; \sqrt{\bar{\alpha_{t}}}\cdot x_0, (1 - \bar{\alpha_{t}}) I)$ ，此时我们只需要知道初始的数据分布即可直接计算处任意时刻加噪后的数据分布，而不需要一个一个迭代求得。

四、去噪过程

去噪过程是加噪过程的逆过程，是从高斯噪声中恢复原始数据的过程，我们可以假设去噪的噪声也是取自一个高斯分布，我们无法逐步地去直接拟合分布，因此需要构建一个参数分布来去做估计，逆扩散过程仍然是一个马尔科夫链过程。

从 $x_T$ （纯噪声数据）恢复到初始图片数据 $x_0$ 的公式： $p_\theta(x_{0\cdots T}) = p(x_T)\prod\limits_{t = 1}^{T}p_\theta(x_{t - 1}| x_t)$

其中 $p_\theta(x_{t - 1}| x_t) = N(x_{t - 1};\mu_\theta(x_t, t), \sigma_\theta^2(x_t, t))$ ，里面有两个未知的参数，分别是 $t$ 时刻的 $\mu_\theta$ 和 $\sigma_\theta$ ，这两个参数就是需要神经网络需要拟合的参数。

我们无法直接知道 $q(x_{t -1}|x_t)$ ，但是 $q(x_{t - 1}| x_t, x_0)$ 分布是可以用 $q(x_{t}|x_0)$ 和 $p(x_t|x_{t - 1})$ 进行表示，也就是说知道了 $x_t$ 和 $x_0$ ，我们是可以计算出 $x_{t - 1}$

知识回顾

高斯分布的概率密度函数
$\frac{1}{\sqrt{2 \pi}\cdot \sigma}\cdot e^{- \frac{(x - \mu)^2}{2 \sigma^2}}$
其中一个重要的转换： $\exp{(-\frac{(x - \mu)^2}{2\sigma_2})}$ = $\exp{(-\frac{1}{2}(\frac{1}{\sigma^2}x^2) - \frac{2\mu}{\sigma^2}x + \frac{\mu^2}{\sigma^2})}$

二次函数的转换：
$ax^2 + bx = a(x + \frac{b}{2a})^2 + C$
转换后的数据最后 $+ C$ 表示数据转换后的一些常数项，其中 $\frac{b}{2a}$ 是二次函数的对称轴部分，高斯分布中为均值部分。

我们假设 $q(x_{t - 1}| x_t, x_0)$ 也是一个高斯分布，并且其分布如下：均值是一个与 $x_t$ 和 $x_0$ 相关的数据，方差是一个与 $\beta_t$ 相关的数据。
$q(x_{t - 1}| x_t, x_0) = N(x_{t - 1};\widetilde{\mu}(x_t, x_0), \widetilde{\beta_t}I)$
我们可以进行如下推导：
在这里插入图片描述

上述公式的具体推导过程如下：

我们已知：

将已知条件带入到公式中可得：

根据高斯分布重要的转换公式，我们可以得到方差： $\widetilde\beta_t = \frac{1}{(\frac{\alpha_t}{\beta_t} + \frac{1}{1 - \bar{\alpha_{t-1}}}) } = \frac{1 - \bar{\alpha_{t - 1}}}{1 - \bar{\alpha_{t}}} \cdot \beta_t$

根据二次函数的转换，我们可以得到均值： $\widetilde{\mu}(x_t, x_0) = (\frac{\sqrt{\alpha_t}}{\beta_t}x_t + \frac{\sqrt{\bar{\alpha_t}}}{1 - \bar\alpha_t}x_0)/ (\frac{\alpha_t}{\beta_t} + \frac{1}{1 - \bar{\alpha_{t - 1}}}) = \frac{\sqrt{\alpha_t(1 - \bar{\alpha_{t - 1}})}}{1 - \bar{\alpha_t}}x_t + \frac{\sqrt{\bar{\alpha_{t - 1}}} \beta_t}{1 - \bar{\alpha_t}}x_0$

此时可以将 $q(x_{t - 1}|x_t, x_0)$ 的分布写为：
$q(x_{t - 1}|x_t, x_0) \sim N(x_{t - 1};\frac{(1 - \bar{\alpha_{t - 1}})\sqrt{\alpha_t}}{1 - \bar{\alpha_t}}x_t + \frac{\beta_t \sqrt{\bar{\alpha_{t - 1}}}}{1 - \bar{\alpha_t}}x_0, \frac{1 - \bar{\alpha_{t - 1}}}{1 - \bar{\alpha_t}}\beta_t)$
可以看到， $q(x_{t - 1}|x_t, x_0)$ 的分布方差是知道的，我们只需要求得均值即可求出该参数分布，我们继续求解均值。

根据前面的 $x_0$ 与 $x_t$ 之间的关系（ $x_t = \sqrt{\bar{\alpha_t}}\cdot x_0 + \sqrt{1 - \bar{\alpha_t}}\cdot z_t$ ），我们可以知道：
$x_0 = \frac{1}{\sqrt{\bar{\alpha_{t}}}}(x_t - \sqrt{1 - \bar{\alpha_t}}\cdot z_t)$
将 $x_0$ 的表达式代入到 $q(x_{t - 1} | x_t, x_0)$ 的分布式中，可以重新给出该分布的均值表达式，也就是说，在给定 $x_0$ 的条件下，后验条件高斯分布的均值计算只与 $x_t$ 和 $z_t$ 有关。 $z_t$ 是从第 $t$ 个时间步的正态分布中采样出来的样本。
$\widetilde{\mu_t} = \frac{\sqrt{\alpha_t}(1-\bar{\alpha_{t - 1}})}{1 - \bar{\alpha_t}}x_t + \frac{\sqrt{\bar{\alpha_{t - 1}}}\beta_t}{1 - \bar{\alpha_t}} \frac{1}{\sqrt{\bar{\alpha_t}}}(x_t - \sqrt{1 - \bar{\alpha_t}}z_t) = \frac{1}{\sqrt{\alpha_t}}(x_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha_t}}}z_t)$

得到最终的 $q(x_{t - 1}|x_t, x_0)$ 分布为：
$q(x_{t - 1}|x_t, x_0) = N(x_{t - 1}; \frac{1}{\sqrt{\alpha_t}}(x_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha_t}}}z_t), \frac{1 - \bar{\alpha_{t - 1}}}{1 - \bar{\alpha_t}}\beta_t)$

五、损失函数

我们可以在负对数似然函数的基础上加一个KL散度，于是就构成了负对数似然的上界了，上界越小，负对数似然自然也就越小，那么对数似然就越大了。

在这里插入图片描述

等式两边都加上 $E_{q(x_0)}$ 可以得到得到： $E_{q(x_{0:T})}[\log{\frac{q(x_{1:T} | x_0)}{p_\theta(x_{0:T})}}] \geq -E_{q(x_0)}\log{p_\theta(x_0)}$

我们令 $L_{VLB} = E_{q(x_{0:T})}[\log{\frac{q(x_{1:T} | x_0)}{p_\theta(x_{0:T})}}] \geq -E_{q(x_0)}\log{p_\theta(x_0)}$

现在我们只需要简化交叉熵上界即可，对 $L_{VBL}$ 进行化简：

已知：

在这里插入图片描述

最终化简为： $L_{VLB}= \underbrace{E_q[D_{KL}(q(x_T|x_0) || p_\theta(x_T))}_{L_T}+ \sum\limits_{t = 2}^T \underbrace{D_{KL}(q(x_{t-1}|x_t, x_0)|| p_\theta(x_{t - 1}| x_t)}_{L_{t - 1}} -\underbrace{\log{p_\theta(x_0|x_1)}}_{L_0}]$

$L_T$ 部分： $q(x_T|x_0)$ 是不含参的，可以由 $\beta_t$ 计算出来，是一个完全高斯分布。

$L_0$ 部分：这一部分是 $\log{p_\theta(x_0|x_1)}$ ，也就是说从 $x_1$ 分布推理出 $x_0$ 分布的一个分布，现在我们要使 $-\log{p_\theta(x_0|x_1)}$ 尽可能小，也就是使 $\log{p_\theta(x_0|x_1)}$ 的值越大，说明要从 $x_1$ 推理出 $x_0$ 的概率更大，也就是 $x_0$ 的分布要与 $x_1$ 的分布越相似，这一步我们在设定参数时就已经考虑了这一情况，即（ $\beta_t$ 随时间 $t$ 而增大）。

$L_{t -1}$ 部分：是涉及参数的主要部分。

可以知道参数主要存在于 $L_{t - 1}$ 中，这里论文将 $p_\theta(x_{t - 1} | x_t)$ 分布的方差设置成了一个与 $\beta$ 相关的常数，因此可训练的参数只存在于其均值中，对于两个单一变量的高斯分布 $p$ 和 $q$ 而言，它们的 KL 散度为： $\log{\frac{\sigma_1}{\sigma_2}} + \frac{\sigma^2 + (\mu_1 - \mu_2)^2}{2 \sigma_2^2} - \frac{1}{2}$ ，我们将 $L_{t - 1}$ 展开，并且只取 $(\mu_1 - \mu_2)^2$ 部分，其它的部分都用一个常数 $C$ 来表示。

在这里插入图片描述

我们将 $\mu_\theta$ 同样写为 $\widetilde\mu$ 的形式，这样参数从均值 $\mu$ 转移到了变量 $\epsilon$ 上。

在这里插入图片描述

将上述 $\mu_\theta(x_t, t)$ 带入到 $L_{t - 1} - C$ 中可得：

$E_{x_0, \epsilon}[\frac{\beta_t^2}{2\sigma_t^2\alpha_t(1 - \bar\alpha_t)}|| \epsilon - \epsilon_\theta(\sqrt{\bar{\alpha_t}}x_0 + \sqrt{1 - \bar{\alpha_t}}\epsilon, t)||^2]$
在论文中，作者声明可以将系数部分完全丢掉，这样训练会更加稳定，质量会更好，因此最终的损失函数可以写为：
$L_{simple}(\theta) = E_{t, x_0, \epsilon}[|| \epsilon - \epsilon_\theta(\sqrt{\bar{\alpha_t}}x_0 + \sqrt{1 - \bar{\alpha_t}}\epsilon, t)||^2]$
这样我们只需要将加噪过程中的 $\epsilon$ 与预测过程中的 $\epsilon_\theta$ 的误差不断减小即可。