Diffusion 公式推导

Diffusion：通过扩散和逆扩散过程生成图像的生成式模型中已经对 diffusion 的原理进行了直观地梳理，本文对其中的数学推导进行讲解，还是基于 DDPM。

一. 预备知识

1. 重参数技巧

重参数技巧 (Reparametrization Trick) 是一种在深度学习中用于训练概率模型的技术，通常用于变分推断和概率生成模型，如变分自动编码器 (Variational Autoencoders, VAE)。这些模型的部分参数是使用特定概率分布随机采样得到的而不是确定性的值，在梯度下降反向优化时难以计算。

因此引入了重参数技巧，通过重新引入可微变换来参数化随机变量，将采样操作转换为模型参数和一个固定的噪声项的函数，使得梯度计算变得可行。举个例子 ¹，如果要从高斯分布 $\sim \mathcal{N}\left(z ; \mu_\theta, \sigma_\theta^2 \mathbf{I}\right)$ 中采样一个 $z$ ，可以写成：
$z=\mu_\theta+\sigma_\theta \odot \epsilon, \epsilon \sim \mathcal{N}(0, \mathbf{I})$

其中， $\mu_\theta$ 表示分布的均值， $\sigma_\theta$ 表示分布的标准差， $\odot$ 表示对矩阵的逐元素相乘， $\epsilon$ 是从标准高斯分布中采样的噪声项。这样，我们可以对 $\mu_\theta$ 和 $\sigma_\theta$ 进行梯度计算，而不需要对采样操作进行梯度计算。

重参数技巧的使用可以使得概率模型的训练更加高效和稳定。

2. 高斯分布的可加性

两个互相独立的高斯分布之和仍为高斯分布，即：
$X_1 \sim N(\mu_1, \sigma_1^2)\\X_2 \sim N(\mu_2, \sigma_2^2)$

则：
$X_1+X_2 \sim N(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2)\\X_1-X_2 \sim N(\mu_1-\mu_2, \sigma_1^2+\sigma_2^2)$

两个高斯分布的和本质上就是二维连续型随机变量函数的分布，可以通过计算其概率密度函数证明，见证明两个互相独立的高斯分布之和仍为高斯分布。

3. 扩散递推式的由来

不知道有多少读者和我一样，阅读 DDPM 时对扩散的递推式 $q(x_t \mid x_{t-1})=\mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t \bold I)$ 感到疑惑，文中也没有解释这是怎么来的，网上的很多公式讲解也都是直接引用了该式进行推导。本节参考一文解释 Diffusion Model (一) DDPM 理论推导，对扩散过程的递推式的由来进行梳理。²

基于 diffusion 的原理，扩散过程是一个不断加噪的过程，因此相邻图像应该满足线性关系，且图像信息应当被不断减弱，形如：
$\boldsymbol{x}_t=a_t \boldsymbol{x}_{t-1}+b_t \boldsymbol{\varepsilon}_t, \quad \boldsymbol{\varepsilon}_t \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) \\$

因为 $\boldsymbol{x}_t$ 中包含的图像信息相较 $\boldsymbol{x}_{t-1}$ 更少，因此衰减系数 $0<a_t<1$ 。同样，噪声系数 $0<b_t<1$ 。

将 $\boldsymbol{x}_{t-1}$ 代入 $\boldsymbol{x}_t$ 可以得到：
$\begin{aligned} \boldsymbol{x}_t & =a_t \boldsymbol{x}_{t-1}+b_t \boldsymbol{\varepsilon}_t \\ & =a_t\left(a_{t-1} \boldsymbol{x}_{t-2}+b_{t-1} \varepsilon_{t-1}\right)+b_t \varepsilon_t \\ & =a_t a_{t-1} \boldsymbol{x}_{t-2}+a_t b_{t-1} \boldsymbol{\varepsilon}_{t-1}+b_t \boldsymbol{\varepsilon}_t \\ & =\ldots \\ & =\left(a_t \ldots a_1\right) \boldsymbol{x}_0+\left(a_t \ldots a_2\right) b_1 \varepsilon_1+\left(a_t \ldots a_3\right) b_2 \varepsilon_2+\cdots+a_t b_{t-1} \varepsilon_{t-1}+b_t \varepsilon_t \\ \end{aligned}$

$\boldsymbol{x}_t$ 的第一项关于原始图像 $\boldsymbol{x}_0$ ，其余余项可以利用高斯分布的可加性进行整合，满足高斯分布 $\mathcal{N}(\mathbf{0}, (\left(a_t \ldots a_2\right)^2 b_1^2+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2)\mathbf{I})$ 。于是可以将 $\boldsymbol{x}_t$ 写成：
$\begin{aligned} \boldsymbol{x}_t & =\left(a_t \ldots a_1\right) \boldsymbol{x}_0+\left(a_t \ldots a_2\right) b_1 \varepsilon_1+\left(a_t \ldots a_3\right) b_2 \varepsilon_2+\cdots+a_t b_{t-1} \varepsilon_{t-1}+b_t \varepsilon_t \\ & =\left(a_t \ldots a_1\right) \boldsymbol{x}_0+\sqrt{\left(a_t \ldots a_2\right)^2 b_1^2+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2} \overline{\boldsymbol{\varepsilon}}_t, \\ \end{aligned}$

其中 $\overline{\varepsilon}_t \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ ，服从标准高斯分布。

接下来再看 $\overline{\varepsilon}_t$ 前面的系数，为了一般性表示，在前面添加 $\left(a_t \ldots a_1\right)^2$ 项，最后再减去即可：
$\begin{aligned} & \left(a_t \ldots a_1\right)^2+\left(a_t \ldots a_2\right)^2 b_1^2+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2 - \left(a_t \ldots a_1\right)^2\\ =& \left(a_t \ldots a_2\right)^2 a_1^2+\left(a_t \ldots a_2\right)^2 b_1^2+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2 - \left(a_t \ldots a_1\right)^2\\ =& \left(a_t \ldots a_2\right)^2\left(a_1^2+b_1^2\right)+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2 - \left(a_t \ldots a_1\right)^2\\ =& \left(a_t \ldots a_3\right)^2\left(a_2^2\left(a_1^2+b_1^2\right)+b_2^2\right)+\cdots+a_t^2 b_{t-1}^2+b_t^2 - \left(a_t \ldots a_1\right)^2\\ =& a_t^2\left(a_{t-1}^2\left(\ldots\left(a_2^2\left(a_1^2+b_1^2\right)+b_2^2\right)+\ldots\right)+b_{t-1}^2\right)+b_t^2 - \left(a_t \ldots a_1\right)^2\\ \end{aligned}$

为了表示的简洁以及便于书写，加一个限制条件： $a_i^2+b_i^2=1$ ，就可以将 $\boldsymbol{x}_t$ 大大简化：
$\begin{aligned} \boldsymbol{x}_t & =\left(a_t \ldots a_1\right) \boldsymbol{x}_0+\sqrt{\left(a_t \ldots a_2\right)^2 b_1^2+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2} \overline{\boldsymbol{\varepsilon}}_t, \\ & = \left(a_t \ldots a_1\right) \boldsymbol{x}_0 + \sqrt{1-\left(a_t \ldots a_1\right)^2} \overline{\boldsymbol{\varepsilon}}_t \end{aligned}$

记 $\overline{\alpha}_t = \left(a_t \ldots a_1\right)^2$ ，则有：
$\boldsymbol{x}_t=\sqrt{\overline{\alpha}_t} \boldsymbol{x}_0+\sqrt{1-\overline{\alpha}_t} \overline{\varepsilon}_t, \quad \overline{\varepsilon}_t \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$

上式和（7）式相同。

二. 扩散过程

1. 背景声明

记原始图像为 $x_0$ ，扩散过程累计 $T$ 次对其添加高斯噪声，得到 $x_1, x_2, \dots, x_T$ ；
记 $x_t \sim q(x_t)$ ，表示其服从的概率分布而不是一个具体的特定值；
根据 diffusion 模型的原理， $x_T \sim \mathcal{N}(0, \bold I)$ ，其中 $\bold I$ 为单位矩阵；
扩散过程添加的噪声都满足均值为 0 的高斯分布，方差是超参数，用来调整扩散效果。引入方差系数为 $\beta_1, \beta_2, \dots, \beta_T, \beta_t \in (0,1)$ ，具体实现是从 0.0001 到 0.02 线性插值。文中定义扩散过程如下：
$q(x_t \mid x_{t-1})=\mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t \bold I) \tag{1}$
因为扩散过程是马尔科夫过程，因此有：
$q(x_{1:T} \mid x_{0})=\prod_{t=1}^T q(x_t \mid x_{t-1}) \tag{2}$

直观来讲， $x_t$ 在 $x_{t-1}$ 的基础上乘上系数 $\sqrt{1-\beta_t}$ ，相当于一个变淡的过程；再加上扰动 $\beta_t \epsilon_{t-1}$ ，就能够让图像向标准高斯分布靠近。
为了表示方便，记 $\alpha_t = 1- \beta_t$ ， $\overline{\alpha}_t = \prod_{i=1}^t \alpha_i$ ；

2. 公式推导

将（1）式使用重参化技巧表示：
$x_t = \sqrt{1-\beta_t}x_{t-1} + \sqrt{\beta_t} \epsilon_{t-1} \quad \text{ 其中 }\epsilon_{t-1} \sim \mathcal{N}(0, \bold I) \tag{3}$

将 $x_{t-1}$ 代入 $x_{t}$ 得到：
$\because \quad x_t = \sqrt{1-\beta_t}x_{t-1} + \sqrt{\beta_t} \epsilon_{t-1}\\ \quad\quad x_{t-1} = \sqrt{1-\beta_{t-1}}x_{t-2} + \sqrt{\beta_{t-1}} \epsilon_{t-2}\\ \begin{aligned} \therefore \quad x_t & = \sqrt{1-\beta_t}(\sqrt{1-\beta_{t-1}}x_{t-2} + \sqrt{\beta_{t-1}} \epsilon_{t-2}) + \sqrt{\beta_t} \epsilon_{t-1}\\ & = \sqrt{(1-\beta_t)(1-\beta_{t-1})} x_{t-2} + \sqrt{(1-\beta_t)\beta_{t-1}} \epsilon_{t-2} + \sqrt{\beta_t} \epsilon_{t-1}\\ & = \sqrt{\alpha_t\alpha_{t-1}} x_{t-2} + \sqrt{\alpha_t(1-\alpha_{t-1})} \epsilon_{t-2} + \sqrt{1-\alpha_{t}} \epsilon_{t-1} \tag{4} \end{aligned}$

如果 $\epsilon_{t}$ 是特定值，后面的余项就不能继续处理。但 $\epsilon_{t}$ 是重参化过程中引入的标准高斯分布中采样，结合高斯分布的可加性，有：
$\because \quad \sqrt{\alpha_t(1-\alpha_{t-1})} \epsilon_{t-2} \sim \mathcal{N}(0, \alpha_t(1-\alpha_{t-1})\bold I)\\ \sqrt{1-\alpha_{t}} \epsilon_{t-1} \sim \mathcal{N}(0, (1-\alpha_{t}) \bold I)\\ \therefore \quad \sqrt{\alpha_t(1-\alpha_{t-1})} \epsilon_{t-2} + \sqrt{1-\alpha_{t}} \epsilon_{t-1} \sim \mathcal{N}(0, (1-\alpha_t\alpha_{t-1})\bold I)$

因此可以将余项合并，改写成：
$\sqrt{\alpha_t(1-\alpha_{t-1})} \epsilon_{t-2} + \sqrt{1-\alpha_{t}} \epsilon_{t-1} = \sqrt{1-\alpha_t\alpha_{t-1}} \overline \epsilon_{t-2} \tag{5}$

其中 $\overline \epsilon_{t-2} \sim \mathcal{N}(0, \bold I)$ ，作为余项的统一表示。代入（4）式，得到：
$\begin{aligned} x_t & = \sqrt{\alpha_t\alpha_{t-1}} x_{t-2} + \sqrt{\alpha_t(1-\alpha_{t-1})} \epsilon_{t-2} + \sqrt{1-\alpha_{t}} \epsilon_{t-1}\\ & = \sqrt{\alpha_t\alpha_{t-1}} x_{t-2} + \sqrt{1-\alpha_t\alpha_{t-1}} \overline \epsilon_{t-2} \end{aligned} \tag{6}$

同理继续向下推导，可以得到 $x_t$ 的通项：
$\begin{aligned} x_t & = \sqrt{\alpha_t} x_{t-1} + \sqrt{1-\alpha_t} \overline \epsilon_{t-1}\\ & = \sqrt{\alpha_t\alpha_{t-1}} x_{t-2} + \sqrt{1-\alpha_t\alpha_{t-1}} \overline \epsilon_{t-2}\\ & = \cdots \\ & = \sqrt{\alpha_t\alpha_{t-1}\cdots\alpha_1} x_{0} + \sqrt{1-\alpha_t\alpha_{t-1}\cdots\alpha_1} \overline \epsilon_{0}\\ & = \sqrt{\overline{\alpha}_t} x_{0} + \sqrt{1-\overline{\alpha}_t} \overline \epsilon_{0}\\ \end{aligned} \tag{7}$

由此可以看出，扩散过程通过马尔科夫性质可以一步到位，这也是 diffusion 正向扩散的核心。

三. 逆扩散过程

Diffusion：通过扩散和逆扩散过程生成图像的生成式模型中已经说了：逆扩散 $(x_{t-1} \mid x_t)$ 是未知的，需要用 U-Net 学习 $p_\theta (x_{t-1} \mid x_t)$ 来近似；学习过程中使用 $(x_{t-1} \mid x_0x_t)$ 来指导 $p_\theta (x_{t-1} \mid x_t)$ 进行训练。

1. 背景声明

$(x_{t-1} \mid x_t)$ 是不可知的，但 $(x_{t-1} \mid x_0, x_t)$ 是可知的，记：
$q\left(x_{t-1} \mid x_t, x_0\right)=\mathcal{N}\left(x_{t-1} ; \tilde{\mu}\left(x_t, x_0\right), \tilde{\beta}_t \mathbf{I}\right) \tag{8}$
使用 $(x_{t-1} \mid x_0x_t)$ 来指导 $p_\theta (x_{t-1} \mid x_t)$ 进行训练；
根据马尔科夫性质，有：
$p_\theta\left(x_{0: T}\right)=p\left(x_T\right) \prod_{t=1}^T p_\theta\left(x_{t-1} \mid x_t\right) \tag{9}$
使用 U-Net 表示 $p_\theta (x_{t-1} \mid x_t)$ ：
$p_\theta\left(x_{t-1} \mid x_t\right)=\mathcal{N}\left(x_{t-1} ; \mu_\theta\left(x_t, t\right), \Sigma_\theta\left(x_t, t\right)\right) \tag{10}$

2. 公式推导

都说 $(x_{t-1} \mid x_0, x_t)$ 是可知的，下面推导其表达式。根据贝叶斯公式，有：
$q\left(x_{t-1} \mid x_t, x_0\right)=q\left(x_t \mid x_{t-1}, x_0\right) \frac{q\left(x_{t-1} \mid x_0\right)}{q\left(x_t \mid x_0\right)} \tag{11}$

其中 $q\left(x_{t-1} \mid x_t, x_0\right)$ 为后验概率， $q\left(x_t \mid x_{t-1}, x_0\right)$ 为似然估计， $q\left(x_{t-1} \mid x_0\right)$ 为先验概率， $q\left(x_t \mid x_0\right)$ 为证据（evidence）。这一步贝叶斯公式巧妙地将逆向过程全部变回了前向。 注意，这里的表示和普通的贝叶斯公式有所不同（多了 $x_0$ 项）是因为先验概率和证据无法直接求解，需要结合 $x_0$ 求解得到。

根据扩散过程推出的 $x_t$ 的通项，即（7）式，有：
$\begin{aligned} q\left(x_{t-1} \mid x_0\right)&=\sqrt{\overline{\alpha}_{t-1}} x_0+\sqrt{1-\overline{\alpha}_{t-1}} \epsilon \sim \mathcal{N}\left(\sqrt{\overline{\alpha}_{t-1}} x_0, 1-\overline{\alpha}_{t-1}\right) \\ q\left(x_t \mid x_0\right)&=\sqrt{\overline{\alpha}_t} x_0+\sqrt{1-\overline{\alpha}_t} \epsilon \sim \mathcal{N}\left(\sqrt{\overline{\alpha}_t} x_0, 1-\overline{\alpha}_t\right) \\ \end{aligned} \tag{12}$

根据（3）式，有：
$q\left(x_t \mid x_{t-1}, x_0\right)=q\left(x_t \mid x_{t-1}\right)=\sqrt{\alpha_t} x_{t-1}+\sqrt{1-\alpha_t} \epsilon \sim \mathcal{N}\left(\sqrt{\alpha_t} x_{t-1}, 1-\alpha_t\right) \tag{13}$

根据高斯分布定义式，有：
$\mathcal{N}\left(\mu, \sigma^2\right) \propto \exp \left(-\frac{(x-\mu)^2}{2 \sigma^2}\right) \tag{14}$

将（12）~（14）式代入（11），有：
$\begin{aligned} q\left(x_{t-1} \mid x_t, x_0\right)& =q\left(x_t \mid x_{t-1}, x_0\right) \frac{q\left(x_{t-1} \mid x_0\right)}{q\left(x_t \mid x_0\right)} \\ & \propto \exp \left(-\frac{1}{2}\left(\frac{\left(x_t-\sqrt{\alpha_t} x_{t-1}\right)^2}{\beta_t}+\frac{\left(x_{t-1}-\sqrt{\overline{\alpha}_{t-1}} x_0\right)^2}{1-\overline{a}_{t-1}}-\frac{\left(x_t-\sqrt{\overline{\alpha}_t} x_0\right)^2}{1-\overline{a}_t}\right)\right) \\ \end{aligned} \tag{15}$

因为 $q\left(x_{t-1} \mid x_t, x_0\right)$ 是关于 $x_{t-1}$ 的表达式，因此将（15）式中平方项展开，再按 $x_{t-1}$ 合并同类项，可得：
$\begin{aligned} & \exp \left(-\frac{1}{2}\left(\frac{\left(x_t-\sqrt{\alpha_t} x_{t-1}\right)^2}{\beta_t}+\frac{\left(x_{t-1}-\sqrt{\overline{\alpha}_{t-1}} x_0\right)^2}{1-\overline{a}_{t-1}}-\frac{\left(x_t-\sqrt{\overline{\alpha}_t} x_0\right)^2}{1-\overline{a}_t}\right)\right) \\ = & \exp \left(-\frac{1}{2}\left(\underbrace{\left(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\overline{\alpha}_{t-1}}\right) x_{t-1}^2}_{x_{t-1} \text { 方差 }} - \underbrace{\left(\frac{2 \sqrt{\alpha_t}}{\beta_t} x_t+\frac{2 \sqrt{\overline{a}_{t-1}}}{1-\overline{\alpha}_{t-1}} x_0 \right) x_{t-1}}_{x_{t-1} \text { 均值 }}+\underbrace{C\left(x_t, x_0\right)}_{\text {与 } x_{t-1} \text { 无关 }}\right)\right) \\ \end{aligned} \tag{16}$

其中 $C\left(x_t, x_0\right)$ 是与 $x_{t-1}$ 无关的表达式，可以提到 $\exp$ 外作为常数项，因此没有展开。

将（16）式与高斯分布定义式指数展开做对比：
$\exp \left(-\frac{(x-\mu)^2}{2 \sigma^2}\right)=\exp \left(-\frac{1}{2}\left(\frac{1}{\sigma^2} x^2-\frac{2 \mu}{\sigma^2} x+\frac{\mu^2}{\sigma^2}\right)\right)$

提取 $x_{t-1}$ 的平方项和一次项可得（8）式中方差 $\tilde{\beta}_t$ ：
$\because \frac{1}{\tilde{\beta}_t}=\frac{1}{\sigma^2}=\left(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\overline{\alpha}_{t-1}}\right)\\ \therefore \tilde{\beta}_t=\frac{1-\overline{\alpha}_{t-1}}{1-\overline{\alpha}_t} \cdot \beta_t \tag{17}$

同理可得均值 $\tilde{\mu}_t\left(x_t, x_0\right)$ ：
$\because \frac{2 \tilde{\mu}_t\left(x_t, x_0\right)}{\tilde{\beta}_t}=\frac{2 \mu}{\sigma^2}=\frac{2 \sqrt{\alpha_t}}{\beta_t} x_t+\frac{2 \sqrt{\overline{a}_{t-1}}}{1-\overline{\alpha}_{t-1}} x_0 \\ \therefore \tilde{\mu}_t\left(x_t, x_0\right)=\frac{\sqrt{\alpha}_t\left(1-\overline{\alpha}_{t-1}\right)}{1-\overline{\alpha}_t} x_t+\frac{\sqrt{\overline{\alpha}_{t-1}} \beta_t}{1-\overline{\alpha}_t} x_0 \tag{18}$

经过上面的分析， $x_{t-1}$ 可以通过 $x_0$ 和 $x_t$ 得到。然而，diffusion 逆向传播时并不知道 $x_0$ 的情况，因此需要对其进行替换。将（7）式代入，将 $x_0$ 替换成 $x_t$ 表示，于是有：
$\begin{aligned} \tilde{\mu}_t\left(x_t, x_0\right)&=\frac{\sqrt{\alpha}_t\left(1-\overline{\alpha}_{t-1}\right)}{1-\overline{\alpha}_t} x_t+\frac{\sqrt{\overline{\alpha}_{t-1}} \beta_t}{1-\overline{\alpha}_t} x_0\\ &=\frac{\sqrt{\alpha}_t\left(1-\overline{\alpha}_{t-1}\right)}{1-\overline{\alpha}_t} x_t+\frac{\sqrt{\overline{\alpha}_{t-1}} \beta_t}{1-\overline{\alpha}_t} \frac{x_t-\sqrt{1-\overline{\alpha}_t} \overline \epsilon_{0}}{\sqrt{\overline{\alpha}_t}}\\ &=\frac{1}{\sqrt{a_t}}\left(x_t-\frac{\beta_t}{\sqrt{1-\overline{a}_t}} \overline \epsilon_{0}\right)\\ \end{aligned}$

上式中已经消去了 $x_0$ ，只和 $t$ 有关，记为 $\tilde{\mu}_t$ ，即：
$\tilde{\mu}_t=\frac{1}{\sqrt{a_t}}\left(x_t-\frac{\beta_t}{\sqrt{1-\overline{a}_t}} \overline \epsilon_{0}\right) \tag{19}$

综上， $(x_{t-1} \mid x_0, x_t)$ 可以表示为高斯分布采样：
$q\left(x_{t-1} \mid x_t, x_0\right)=\mathcal{N}\left(x_{t-1} ; \frac{1}{\sqrt{a_t}}\left(x_t-\frac{\beta_t}{\sqrt{1-\overline{a}_t}} \overline \epsilon_{0}\right), \left(\frac{1-\overline{\alpha}_{t-1}}{1-\overline{\alpha}_t} \cdot \beta_t\right) \mathbf{I}\right) \tag{20}$

至此， $(x_{t-1} \mid x_0, x_t)$ 的高斯分布的均值和方差就都有了，只剩下（19）式中的 $\overline \epsilon_{0}$ ，交给 U-Net 使用深度学习方法进行预测。³

需要注意的是，逆扩散过程和扩散过程不同，扩散过程只需要代入（7）式就可以从 $x_0$ 直接到 $x_T$ ，但逆扩散需要使用（20）式逐步向前递推，从 $x_T$ 到 $x_{T-1}$ 一直到 $x_0$ 。
在这里插入图片描述

四. 训练过程

前两节分别介绍了 diffusion 正向和逆向扩散过程中的数学公式推导，留下了 $\overline \epsilon_{0}$ 需要 U-Net 进行预测。因为训练时正向扩散过程中添加的噪声在采样后是已知的，因此只需要训练 U-Net 的预测结果向所添加的噪声靠近即可。记训练过程中的噪声采样为 $\epsilon$ ，U-Net 的预测噪声为 $\epsilon_{\theta}(\sqrt{\overline{\alpha}_t} x_{0} + \sqrt{1-\overline{\alpha}_t} \epsilon, t)$ ，于是有训练过程：
在这里插入图片描述