五，逆扩散过程(Reverse Process)

逆过程是从高斯噪声中恢复原始数据，我们可以假设它也是一个高斯分布，但是无法逐步地去拟合分布，所以需要构建一个参数分布来取做估计。逆扩散过程仍然是一个马尔科夫链过程。
在这里插入图片描述
$p_{\theta}(\mathrm{x_{0:T}})=p(\mathrm{x_{T}})\prod\limits_{t=1}^{T}p_{\theta}(\mathrm{x_{t-1}|x_{t}})\quad\quad\quad p_{\theta}(\mathrm{x_{t-1}|x_{t}})=\mathcal{N}(\mathrm{x_{t-1};\mu_{\theta}(x_{t},t)}, \Sigma_{\theta}(x_{t},t)))$

因为在加噪的过程中 $\beta_{t}\in(0,1)$ 是一个很小的数，所以有理由假设逆扩散过程，即从 $x_{T}\rightarrow x_{0}$ 也是一个高斯分布，即假设 $p_{\theta}(\mathrm{x_{t-1}|x_{t}})=\mathcal{N}(\mathrm{x_{t-1};\mu_{\theta}(x_{t},t)}, \Sigma_{\theta}(x_{t},t)))$ , 但是无法去逐步拟合这个分布(需要生成一堆的 $x_{t}$ , 用类似于GMM那样去拟合 $x_{t-1}$ , 同样的方法，依次拟合出 $x_{t-2}\cdots x_{0}$ ,则整个过程需要遍历整个数据集，会比较麻烦)，所以我们希望 $\color{red}构建一个参数网络来做估计$ 。

假设现有含参 $\theta$ 这样的一个网络 $p_{\theta}(\mathrm{x_{t-1}|x_{t}})$ :

六，扩散过程中的后验的条件概率 $q(x_{t-1}|x_{t},x_{0})$

或者也可以叫：后验的扩散条件概率 $q(x_{t-1}|x_{t},x_{0})$ 分布是可以用公式表达的
也就是说，给定 $x_{t}$ 和 $x_{0}$ ，我们是可以计算出 $x_{t-1}$ 的, 并且我们假设它也是服从高斯分布的。

即正常的扩散过程的条件概率为 $q(x_{t-1}|x_{0})$ , 现在我们又知道了 $x_{t}$ 的信息，所以有后验的扩散条件概率 $q(x_{t-1}|x_{t},x_{0})$

注意：
高斯分布的概率密度函数是 $f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}}$
注意： $ax^{2}+bx=a(x+\frac{b}{2a})^{2}+C\quad\quad④$

$q(\mathrm{x_{t-1}}|\mathrm{x_{t}},\mathrm{x_{0}})=\mathcal{N}(\mathrm{x_{t-1}; {\color{blue}\overset{\sim}{\mu}}}(\mathrm{x_{t}},\mathrm{x_{0}}),{\color{red}\overset{\sim}{\beta_{t}}}\mathrm{I})$
Using Bayes’ rule, we have:

需要用到的前面的公式：
$q(x_{t}|x_{t-1})=\mathcal{N}(x_{t};\sqrt{1-\beta_{t}}x_{t-1},\beta_{t}I), \beta_{t}$ 是方差，标准差是 $\sqrt{\beta_{t}}$
$q(x_{t}|x_{0})=\mathcal{N}(x;\sqrt{\bar\alpha_{t}}x_{0},(1-\bar\alpha_{t})I)$ ,其中，方差为 $(1-\bar\alpha_{t})I$ , 即 $\sigma^{2}$
$ax^{2}+bx=a(x+\frac{b}{2a})^{2}+C$

$\begin{aligned} q(\mathrm{x_{t-1}}|\mathrm{x_{t}},\mathrm{x_{0}})&=q(\mathrm{x_{t}}|\mathrm{x_{t-1}},\mathrm{x_{0}})\frac{q(\mathrm{x_{t-1}}|\mathrm{x_{0}})}{q(\mathrm{x_{t}}|\mathrm{x_{0}})}\quad\quad{\color{red}（}q(\mathrm{x_{t}}|\mathrm{x_{t-1}},\mathrm{x_{0}})\xlongequal{Markov Property}q(\mathrm{x_{t}}|\mathrm{x_{t-1}}){\color{red} ）}\\ &\propto exp\left(-\frac{1}{2}\left(\frac{(\mathrm{x_{t}}-\sqrt{\alpha_{t}}\mathrm{x_{t-1}})^{2}}{\beta_{t}}+\frac{(\mathrm{x_{t-1}}-\sqrt{\bar\alpha_{t-1}}\mathrm{x_{0}})^{2}}{1-\bar\alpha_{t-1}}-\frac{(\mathrm{x_{t}}-\sqrt{\bar\alpha_{t}}\mathrm{x_{0}})^{2}}{1-\bar\alpha_{t}}\right)\right)\\ &=exp\left(-\frac{1}{2}\left({\color{red}\left(\frac{\alpha_{t}}{\beta_{t}}+\frac{1}{1-\bar\alpha_{t-1}}\right)}\mathrm{x_{t-1}^{2}}-{\color{blue}\left(\frac{2\sqrt{\alpha_{t}}}{\beta_{t}}\mathrm{x_{t}}+\frac{2\sqrt{\bar\alpha_{t-1}}}{1-\bar\alpha_{t-1}}\mathrm{x_{0}}\right)}\mathrm{x_{t-1}+C(x_{t},x_{0})}\right)\right) \end{aligned}$
where $\mathrm{C(x_{t},x_{0})}$ is some function not involving $\mathrm{x_{t-1}}$ and details are omitted. Following the standard Gaussian density funcion, the mean and variance can be parameterized as follows(由式④得):

由 $ax^{2}+bx=a(x+\frac{b}{2a})^{2}+C$ 易得, $\mu=-\frac{b}{2a},\sigma^{2}=\frac{1}{a}$
下面的 $\overset{\sim}{\beta_{t}}$ 即为 $\sigma^{2}$

$\overset{\sim}{\beta_{t}}=1/(\frac{\alpha_{t}}{\beta_{t}}+\frac{1}{1-\bar\alpha_{t-1}})=\frac{1-\bar\alpha_{t-1}}{1-\bar\alpha_{t}}.\beta_{t}$
$\mathrm{\overset{\sim}{\mu_{t}}(x_{t},x_{0})=(\frac{\sqrt{\alpha_{t}}}{\beta_{t}}x_{t}+ \frac{\sqrt{\bar\alpha_{t-1}}}{1-\bar\alpha_{t-1}}x_{0})/(\frac{\alpha_{t}}{\beta_{t}}+ \frac{1}{1-\bar\alpha_{t-1}})}=\frac{\sqrt{\alpha_{t}}(1-\bar\alpha_{t-1})}{1-\bar\alpha_{t}}x_{t}+\frac{\beta_{t}\sqrt{\bar\alpha_{t-1}}}{1-\bar\alpha_{t}}x_{0}$

由上式可知，求得的 $\overset{\sim}{\beta_{t}}$ 为一个常数

根据前面式③的 $x_{0}$ 和 $x_{t}$ 之间的关系式， $x_{t}=\sqrt{\bar\alpha_{t}}x_{0}+\sqrt{1-\bar\alpha_{t}}z_{t}$ ，我们可以知道： $x_{0}=\frac{1}{\sqrt{\bar\alpha_{t}}}(x_{t}-\sqrt{1-\bar\alpha_{t}}z_{t})$
将 $x_{0}$ 的表达式带入到 $q(x_{t-1}|x_{t},x_{0})$ 的分布中( $\color{red}则可以消去x_{0},即\overset{\sim}{\mu_{t}}(x_{t},x_{0})可以转化为\overset{\sim}{\mu_{t}}(x_{t},z_{t})$ )，可以重新给出此分布的均值表达式，这个时候表达式中不再含有 $x_{0}$ ,并且多了噪声项 $z_{t}$ ，这为后面我们设计神经网络提供了基础。也就是说，在给定 $x_{0}$ 的条件下，后验条件高斯分布的均值计算只与 $x_{t}$ 和 $z_{t}$ 有关。 $z_{t}$ 是 $t$ 时刻的随机正态分布变量，源自重参数化。
$\begin{aligned} \overset{\sim}{\mu_{t}}(\mathrm{x_{t},z_{t}})&=\frac{\sqrt{\alpha_{t}}(1-\bar\alpha_{t-1})}{1-\bar\alpha_{t}}\mathrm{x_{t}}+\frac{\sqrt{\bar\alpha_{t-1}}\beta_{t}}{1-\bar\alpha_{t}}.\frac{1}{\sqrt{\bar\alpha_{t}}}(\mathrm{x_{t}-z_{t}}\sqrt{1-\bar\alpha_{t}})\\ &={\color{blue}\frac{1}{\sqrt{\alpha_{t}}}(\mathrm{x_{t}-\frac{\beta_{t}}{\sqrt{1-\bar\alpha_{t}}}z_{t}})} \end{aligned}$

上面式子化简要用到的:
$\alpha_{t}=1-\beta_{t}\quad\quad\quad\quad\bar\alpha_{t}=\prod\limits_{i=1}^{t}\alpha_{i}$
$\frac{\sqrt{\bar\alpha_{t-1}}}{\sqrt{\bar\alpha_{t}}}=\frac{1}{\sqrt{\alpha_{t}}}$

所以现在我们得到了：
$q(\mathrm{x_{t-1}}|\mathrm{x_{t}},\mathrm{x_{0}})\sim\mathcal{N}(\,\overset{\sim}{\mu_{t}}(\mathrm{x_{t},\,\,z_{t}}),\overset{\sim}{\beta_{t}}\,)$ ,实际上， $\mathrm{x_{t}}$ 出现在条件上，说明 $\mathrm{x_{t}}$ 已知，也就是 $\overset{\sim}{\mu_{t}}$ 实际上是只关于 $\mathrm{z_{t}}$ 的函数，所以我们现在的问题就是： $\color{blue}用网络来预测 \,\mathrm{z_{t}}$

七，目标数据分布的似然函数

推导出似然函数就可以来进行网络优化了

我们可以在负对数似然函数的基础上加上一个KL散度(KL散度是非负的，KL散度非负证明)，于是就后成立负对数似然的上界了，上界越小，负对数似然自然也就越小，那么对数似然就越大了。
$\begin{aligned} -\log p_{\theta}\left(\mathbf{x}_{0}\right) & \leq-\log p_{\theta}\left(\mathbf{x}_{0}\right)+D_{\mathrm{KL}}\left(q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right) \| p_{\theta}\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)\right) \\ & =-\log p_{\theta}\left(\mathbf{x}_{0}\right)+\mathbb{E}_{\mathbf{x}_{1: T} \sim q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)}\left[\log \frac{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{0: T}\right) / p_{\theta}\left(\mathbf{x}_{0}\right)}\right] \\ & =-\log p_{\theta}\left(\mathbf{x}_{0}\right)+\mathbb{E}_{q}\left[\log \frac{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{0: T}\right)}+\log p_{\theta}\left(\mathbf{x}_{0}\right)\right] \\ & =\mathbb{E}_{q}\left[\log \frac{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{0: T}\right)}\right] \\ \text { Let } L_{\mathrm{VLB}} & =\underbrace{\mathbb{E}_{q\left(\mathbf{x}_{0: T}\right)}\left[\log \frac{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{0: T}\right)}\right]}_{交叉熵的上界} \geq \underbrace{-\mathbb{E}_{q\left(\mathbf{x}_{0}\right)} \log p_{\theta}\left(\mathbf{x}_{0}\right)}_{交叉熵} \end{aligned}$

上式中的第三行说明：
$\mathbb{E}_{\mathbf{x}_{1: T} \sim q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)}\log p_{\theta}(\mathbf{x_{0}})=\log p_{\theta}(\mathbf{x_{0}})\quad\quad$ 因为 $\mathbb{E}$ 的下面是关于 $\mathbf{x_{1:T}}$ 的分布，与 $\mathbf{x}_{0}$ 无关。
上式中最后一行说明：
在 $-\log p_{\theta}\left(\mathbf{x}_{0}\right)$ 的前面加上 $\mathbb{E}_{q(\mathbf{x_{0}})}$ , 所以不等式的右边的 $\mathbb{E}_{q\left(\mathbf{x}_{1: T}\right)}$ 就变为了 $\mathbb{E}_{q\left(\mathbf{x}_{0: T}\right)}$

进一步可以写出如上公式的交叉熵的上界，接下来，我们可以对交叉熵的上界进行化简：（注意，我们的 $\color{red}目的是为了最小化-\log p_{\theta}\left(\mathbf{x}_{0}\right)$ ，即最小化交叉熵的上界）

注意：
$q(x_{t}|x_{t-1})\xlongequal{Markov\,Property}q(x_{t}|x_{t-1},x_{0})=\frac{q(x_{t},x_{t-1},x_{0})}{q(x_{t-1},x_{0})}=\frac{q(x_{t-1}|x_{t},x_{0})q(x_{t}|x_{0})q(x_{0})}{q(x_{t-1},x_{0})}$

$\begin{aligned} L_{VLB}&=\mathbb{E}_{q(\mathbf{x}_{0:T})}\left[\log \frac{q(\mathbf{x}_{1:T}|\mathbf{x}_{0})}{p_{\theta}(\mathbf{x}_{0:T})}\right]\\ \\ &=\mathbb{E}_{q}\left[\log \frac{\prod_{t=1}^{T}q(\mathbf{x}_{t}|\mathbf{x}_{t-1})}{p_{\theta}(\mathbf{x}_{T})\prod_{t=1}^{T}p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t})}\right]\\ \\ &=\mathbb{E}_{q}\left[-\log p_{\theta}(\mathbf{x}_{T})+\log \frac{\prod_{t=1}^{T}q(\mathbf{x}_{t}|\mathbf{x}_{t-1})}{\prod_{t=1}^{T}p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t})}\right]=\mathbb{E}_{q}\left[-\log p_{\theta}(\mathbf{x}_{T})+\sum\limits_{t=1}^{T}\log \frac{q(\mathbf{x}_{t}|\mathbf{x}_{t-1})}{p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t})}\right]\\ \\ &=\mathbb{E}_{q}\left[-\log p_{\theta}(\mathbf{x}_{T})+\sum\limits_{t=2}^{T}\log \frac{q(\mathbf{x}_{t}|\mathbf{x}_{t-1})}{p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t})}+\log \frac{q(\mathbf{x_{1}|x_{0}})}{p_{\theta}(\mathbf{x_{0}|x_{1}})}\right]\\ \\ &=\mathbb{E}_{q}\left[-\log p_{\theta}(\mathbf{x}_{T})+\sum\limits_{t=2}^{T}\log \left(\frac{q(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})}{p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t})}.\frac{q(\mathbf{x}_{t}|\mathbf{x}_{0})}{q(\mathbf{x}_{t-1}|\mathbf{x}_{0})}\right)+\log \frac{q(\mathbf{x_{1}|x_{0}})}{p_{\theta}(\mathbf{x_{0}|x_{1}})}\right]\\ \\ &=\mathbb{E}_{q}\left[-\log p_{\theta}(\mathbf{x}_{T})+\sum\limits_{t=2}^{T}\log \frac{q(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})}{p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t})}+\sum\limits_{t=2}^{T}\log \frac{q(\mathbf{x}_{t}|\mathbf{x}_{0})}{q(\mathbf{x}_{t-1}|\mathbf{x}_{0})}+\log \frac{q(\mathbf{x_{1}|x_{0}})}{p_{\theta}(\mathbf{x_{0}|x_{1}})}\right]\\ \\ &=\mathbb{E}_{q}\left[-\log p_{\theta}(\mathbf{x}_{T})+\sum\limits_{t=2}^{T}\log \frac{q(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})}{p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t})}+\log \frac{q(\mathbf{x}_{T}|\mathbf{x}_{0})}{q(\mathbf{x}_{1}|\mathbf{x}_{0})}+\log \frac{q(\mathbf{x_{1}|x_{0}})}{p_{\theta}(\mathbf{x_{0}|x_{1}})}\right]\\ \\ &=\mathbb{E}_{q}\left[\log \frac{q(\mathbf{x}_{T}|\mathbf{x}_{0})}{p_{\theta}(\mathbf{x}_{T})}+\sum\limits_{t=2}^{T}\log \frac{q(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})}{p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t})}-\log p_{\theta}(\mathbf{x_{0}|x_{1}})\right]\\ \\ &=\underbrace{\mathbb{E}_{q}\left[\log \frac{q(\mathbf{x}_{T}|\mathbf{x}_{0})}{p_{\theta}(\mathbf{x}_{T})}\right]}_{D_{KL}(q(\mathbf{x}_{T}|\mathbf{x}_{0})||p_{\theta}(\mathbf{x}_{T}))}+\underbrace{\mathbb{E}_{q}\left[\sum\limits_{t=2}^{T}\log \frac{q(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})}{p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t})}\right]}_{\sum\limits_{t=2}^{T}D_{KL}(q(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})||p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t}))}- \underbrace{\mathbb{E}_{q}\left[\log p_{\theta}(\mathbf{x_{0}|x_{1}})\right]}_{L_{0}}\\ \\ &=\underbrace{D_{KL}(q(\mathbf{x}_{T}|\mathbf{x}_{0})||p_{\theta}(\mathbf{x}_{T}))}_{L_{T}}+ \sum\limits_{t=2}^{T}\underbrace{D_{KL}(q(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})||p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t}))}_{L_{t-1}}-\underbrace{\mathbb{E}_{q}\left[\log p_{\theta}(\mathbf{x_{0}|x_{1}})\right]}_{L_{0}}\\ \\ &=\underbrace{D_{KL}(q(\mathbf{x}_{T}|\mathbf{x}_{0})||p_{\theta}(\mathbf{x}_{T}))}_{L_{T}}+ \sum\limits_{t=1}^{T}\underbrace{D_{KL}(q(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})||p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t}))}_{L_{t-1}}\quad\quad⑥ \end{aligned}$

上面第五行说明：
$q(x_{t}|x_{t-1})\xlongequal{Markov Property}q(x_{t}|x_{t-1},x_{0})=\frac{q(x_{t},x_{t-1}|x_{0})}{q(x_{t-1}|x_{0})}=\frac{q(x_{t-1}|x_{t},x_{0}).q(x_{t}|x_{0})}{q(x_{t-1}|x_{0})}$
分析：

$L_{T}$ 项完全不含参：因为 $q$ 分布是完全无参的，而 $p_{\theta}(\mathbf{x}_{T})$ 最后是标准的正态分布(各向同性的高斯分布)，也不含参数
在倒数第2行的化简中， $L_{0}$ 可以放入 $L_{t-1}$ 中，因为在 $L_{t-1}$ 中， $t = 1$ 时，有 $D_{KL}(q(x_{0}|x_{1},x_{0})||p_{\theta}(x_{0}|x_{1}))\xlongequal{KL\,Divergence\,Definition}-\log p_{\theta}(x_{0}|x_{1})=-L_{0}$
$q(x_{0}|x_{1},x_{0})=1$ ，因为在条件中已经知道了 $x_{0}$

$q(\mathrm{x_{t-1}}|\mathrm{x_{t}},\mathrm{x_{0}})\sim\mathcal{N}(\,\overset{\sim}{\mu_{t}}(\mathrm{x_{t},\,\,z_{t}}),\overset{\sim}{\beta_{t}}\,)\quad\quad$ 实际上 $\mathrm{x_{t}},\overset{\sim}{\beta_{t}}$ 已知，即只有 $\color{red}\overset{\sim}{\mu_{t}}(z_{t})$ 未知

$p_{\theta}(\mathrm{x_{t-1}|x_{t}})\sim\mathcal{N}(\mathrm{x_{t-1};\mu_{\theta}(x_{t},t)}, \Sigma_{\theta}(x_{t},t)))$ 也为高斯分布；在论文中将其方差 $\Sigma_{\theta}(x_{t},t)$ 设置程一个与 $\beta$ 相关的常数，因此 $\color{red}可训练的参数只存在于其均值 \mu_{\theta}(x_{t},t)中$

由于上面的 $q,p_{\theta}$ 均为高斯分布，所以它们的KL Divergence一定可以求出来。

上式中， $L_{0}$ 在DDPM原论文中由于选择了固定方差，故 $L_{T}$ 为常数，而 $\color{red}L_{0}相当于从连续空间到离散空间的解码loss\quad????这里咋理解？$ , 这里可以仿照VAE或自回归模型中的做法，将连续的高斯分布转换成离散的分布，具体公式见DDPM论文Section3.3或者见Improved Diffusion源码讲解那期视频。

对于两个单一变量的高斯分布 $p$ 和 $q$ 而言，它们的KL散度为：

$KL(p,q)=log\frac{\sigma_{2}}{\sigma_{1}}+\frac{\sigma^{2}+(\mu_{1}-\mu_{2})^{2}}{2\sigma_{2}^{2}}-\frac{1}{2}\quad\quad⑤$
推导可以看这篇____高斯分布的KL散度公式

因为参数只在 $\overset{\sim}{\mu_{t}}$ 和 $\mu_{\theta}$ 中，所以我们只着重关注式⑤中间的那一项，其他的用常数C表示

$L_{t-1}=\mathbb{E}_{q}\left[\frac{1}{2\sigma_{t}^{2}}||\overset{\sim}{\mu_{t}}(\mathbf{x}_{t},\mathbf{x}_{0})-\mu_{\theta}(\mathbf{x}_{t},t)||^{2}\right]+C$

所以我们现在的训练目标就是：最小化 $L_{t-1}$ , 即 $\color{red}让\overset{\sim}{\mu_{t}}和\mu_{\theta}尽可能地接近$ 。

既然这里的loss是从KL divergence出发的，或者说是与分布有关的，那我们可以设计一个黑箱子神经网络，把它称之为 $D_{\theta}$ 网络。对于 $D_{\theta}$ 网络，输入是 $x_{t}$ 和时间编码 $t$ ， ( $x_{0}$ 是数据集，是已知的)，对于输出是什么，取决于我们的建模目标。

$\color{red}我的疑惑：$
对于扩散过程，为什么要弄出来个 $q(\mathrm{x_{t-1}}|\mathrm{x_{t}},\mathrm{x_{0}})$ ,为啥不直接用 $q(\mathrm{x_{t}}|\mathrm{x_{0}})$ 或者 $q(\mathrm{x_{t}}|\mathrm{x_{t-1}})$ ？难度是因为公式推导的过程中(式⑥)要用到 $q(\mathrm{x_{t-1}}|\mathrm{x_{t}},\mathrm{x_{0}})$ ？？？

而我们可以有多种建模目标：
【1】直观的做法是让 $D_{\theta}$ 网络的输出等于前向过程中的后验分布均值 $\overset{\sim}{\mu}(x_{t},x_{0})$ ，这种建模方法俗称预测后验分布的期望值；

【2】根据 $\overset{\sim}{\mu}(x_{t},x_{0})$ 的表达式，它里面的 $x_{0}$ 对于 $D_{\theta}$ 网络是未知的，因此第二种做法是让 $D_{\theta}$ 网络的输出等于 $x_{0}$ ，这种做法即直接预测原始数据。
有人问：既然可以通过 $D_{\theta}$ 网络直接预测 $x_{0}$ 了，那是不是采样过程就直接计算 $D_{\theta}(x_{T}, T)$ 的输出即可认为是生成了样本了呢？
答案是：直接一步到位，质量会比较差，还是需要通过马尔科夫高斯条件迭代而获得最终高质量的生成样本；

【3】当我们把 $\overset{\sim}{\mu}(x_{t},x_{0})$ 中的 $x_{0}$ 用 $x_{t}$ 去表示的时候， $\overset{\sim}{\mu}(x_{t},x_{0})$ 就变成了如下只包含 $x_{t}$ 和随机变量 $\epsilon$
的式子。其中 $x_{t}$ 对于D网络是已知的，而 $\epsilon$ 是未知的，因此这个时候，我们可以选择建模目标是让 $D_{\theta}$ 网络的输出等于 $\epsilon$ 了，这种建模方法俗称随机变量(噪音)法。
$\begin{aligned} L_{t-1}- C&=\mathbb{E}_{\mathbf{x}_{0},\epsilon}\left[\frac{1}{2\sigma_{t}^{2}}\Vert\overset{\sim}{\mu}\left(\mathbf{x}_{t}(\mathbf{x}_{0},\epsilon),\frac{1}{\sqrt{\bar\alpha_{t}}}(\mathbf{x}_{t}(\mathbf{x}_{0},\epsilon)-\sqrt{1-\bar\alpha_{t}}.\epsilon)\right)-\mu_{\theta}(\mathbf{x}_{t}(\mathbf{x}_{0},\epsilon),t) \Vert^{2}\right]\\ \\ &=\mathbb{E}_{\mathbf{x}_{0},\epsilon}\left[\frac{1}{2\sigma_{t}^{2}}\Vert\frac{1}{\sqrt{\alpha_{t}}}\left(\mathbf{x}_{t}(\mathbf{x}_{0},\epsilon)-\frac{\beta_{t}}{\sqrt{1-\bar\alpha_{t}}}.\epsilon\right)-\mu_{\theta}(\mathbf{x}_{t}(\mathbf{x}_{0},\epsilon),t) \Vert^{2}\right]\\ \end{aligned}$

在DDPM论文中，作者选择了方案【3】，即让 $D_{\theta}$ 网络的输出等于 $\epsilon$ , 预测噪音法。于是，新的逆向条件分布的均值可以表示成（下式中的 $\epsilon_{\theta}$ 相当于我们定义的广义的 $D_{\theta}$ 网络的具体目标形式）：
$\mu_{\theta}(\mathbf{x}_{t},t)=\overset{\sim}{\mu_{t}}\left(\mathbf{x}_{t},\frac{1}{\sqrt{\bar\alpha_{t}}}(\mathbf{x}_{t}-\sqrt{1-\bar\alpha_{t}}.\epsilon_{\theta}(\mathbf{x}_{t}))\right)=\frac{1}{\sqrt{\alpha_{t}}}\left(\mathbf{x}_{t}-\frac{\beta_{t}}{\sqrt{1-\bar\alpha_{t}}}.\epsilon_{\theta}(\mathbf{x}_{t},t)\right)$

于是 $L_{t-1}$ 可以化简成如下表达式：
$\mathbb{E}_{\mathbf{x}_{0},\epsilon}\left[\frac{\beta_{t}^{2}}{2\sigma_{t}^{2}\alpha_{t}(1-\bar\alpha_{t})}\left\|\epsilon-\epsilon_{\theta}(\sqrt{\bar\alpha_{t}}\mathbf{x}_{0}+\sqrt{1-\bar\alpha_{t}}\epsilon,t)\right\|^{2}\right]$

DDPM作者又发现，干脆将系数丢掉，训练更加稳定，质量更好，于是有了下面的 $L_{simple}$ :
$L_{simple}(\theta)=\mathbb{E}_{\mathbf{x}_{0},\epsilon}\left[\left\|\epsilon-\epsilon_{\theta}(\sqrt{\bar\alpha_{t}}\mathbf{x}_{0}+\sqrt{1-\bar\alpha_{t}}\epsilon,t)\right\|^{2}\right]$