一，条件概率公式与高斯分布的KL散度+重参数技巧

条件概率的一般形式

$P (A, B, C) = P (C ∣ B, A) P (B, A) = P (C ∣ B, A) P (B ∣ A) P (A)$

$P (B, C ∣ A) = P (B ∣ A) P (C ∣ A, B)$
基于马尔科夫假设的条件概率

如果满足马尔科夫链关系 $A\rightarrow B \rightarrow C$ ,则有：

$P (A, B, C) = P (C ∣ B, A) P (B, A) = P (C ∣ B, A) P (B ∣ A) P (A) = P (C ∣ B) P (B ∣ A) P (A)$

$P (B, C ∣ A) = P (B ∣ A) P (C ∣ A, B) = P (B ∣ A) P (C ∣ B)$
高斯分布的KL散度公式

对于两个单一变量的高斯分布 $p$ 和 $q$ 而言，它们的KL散度为：

$KL(p,q)=log\frac{\sigma_{2}}{\sigma_{1}}+\frac{\sigma^{2}+(\mu_{1}-\mu_{2})^{2}}{2\sigma_{2}^{2}}-\frac{1}{2}$
推导可以看这篇____高斯分布的KL散度公式
重参数技巧
如果想从高斯分布 $N(\mu,\sigma^{2})$ 中采样，可以先从标准分布 $N (0, 1)$ 采样出 $z$ , 再得到 $\sigma*z+\mu$ .这样做的好处是：将随机性转移到了 $z$ 这个常量上，而 $\sigma$ 和 $\mu$ 则当做仿射变换网络的一部分。

$\sigma * z$ 就把随机性加到了标准差 $\sigma$ 上， $z$ 取0附近的值的概率最大， $\sigma * z+\mu$ 就相当于在 $N(\mu,\sigma)$ 中采样了

二，VAE和多层VAE回顾

单层VAE的原理公式与置信下界

$x - > z$ 为后验，训练的过程，train
$z - > x$ 为inference过程，(丢掉train的过程)
$p(x)=\int_{z}p_{\theta}(x,z)dz=\int_{z}p_{\theta}(x|z)p(z)dz$
$p(x)=\int q_{\phi}(z|x).\frac{p_{\theta}(x|z)p(z)}{q_{\phi}(z|x)}dz =\mathbb{E}_{z\sim q_{\phi}(z|x)}\left[\frac{p_{\theta}(x|z)p(z)}{q_{\phi}(z|x)}\right]$
$log\,p(x)=log\,\mathbb{E}_{z\sim q_{\phi}(z|x)}\left[\frac{p_{\theta}(x|z)p(z)}{q_{\phi}(z|x)}\right]\overset{Jense \,Inequality}{\ge}\mathbb{E}_{z\sim q_{\phi}(z|x)}\left[log\,\frac{p_{\theta}(x|z)p(z)}{q_{\phi}(z|x)}\right]$
所以：
$log\,p(x)\ge\underbrace{\mathbb{E}_{z\sim q_{\phi}(z|x)}\left[log\,\frac{p_{\theta}(x|z)p(z)}{q_{\phi}(z|x)}\right]}_{ELBO}$

目的：使得 $x$ 出现的概率最大，即要最大化 $log\,p(x)$ ,那有Jensen不等式求得了 $log\,p(x)$ 的下界，现在只需要最大化下界即可。最大化下界了，那 $log\,p(x)$ 也就最大化了。即至此为止，我们要优化的目标函数已经找到了。
Jensen不等式：
$log\underset{i}{\sum}\lambda_{i}y_{i}\ge \underset{i}{\sum}\lambda_{i}log\,y_{i}\quad\quad其中，\lambda_{i}\ge0,\underset{i}{\sum}\lambda_{i}=1$

下界：
$\begin{aligned} &\mathbb{E}_{z\sim q_{\phi}(z|x)}\left[log\,\frac{p_{\theta}(x|z)p(z)}{q_{\phi}(z|x)}\right]\\ &=\mathbb{E}_{z\sim q_{\phi}(z|x)}\left[log\,p_{\theta}(x|z)-log\,\frac{q_{\phi}(z|x)}{p(z)}\right]\\ &=\mathbb{E}_{z\sim q_{\phi}(z|x)}\left[\underbrace{log\,p_{\theta}(x|z)}_{由inference可以容易得到}\right]- \underbrace{\int q_{\phi}(z|x) log\,\frac{q_{\phi}(z|x)}{p(z)}}_{KL(q_{\phi}||p)} \end{aligned}$
一般假设 $p, q$ 均为高斯分布，所以整个单层的VAE是可以求解的

多层VAE的原理公式与置信下界

分子分母同乘一个后验分布？？？？？？

$p(x)=\int_{z_{1}}\int_{z_{2}}p_{\theta}(x,z_{1},z_{2})dz_{1},dz_{2}$
$p(x)=\iint q_{\phi}\left(z_{1}, z_{2} \mid x\right) \frac{p_{\theta}\left(x, z_{1}, z_{2}\right)}{q_{\phi}\left(z_{1}, z_{2} \mid x\right)}dz_{1},dz_{2}=\mathbb{E}_{z_{1}, z_{2} \sim q_{\phi}\left(z_{1}, z_{2} \mid x\right)}\left[\frac{p_{\theta}\left(x, z_{1}, z_{2}\right)}{q_{\phi}\left(z_{1}, z_{2} \mid x\right)}\right]$
$\log p(x) \geq \underbrace{\mathbb{E}_{z_{1}, z_{2} \sim q_{\phi}\left(z_{1}, z_{2} \mid x\right)}\left[\log \frac{p_{\theta}\left(x, z_{1}, z_{2}\right)}{q_{\phi}\left(z_{1}, z_{2} \mid x\right)}\right]}_{ELBO}$
$q(z_{1},z_{2}|x)=q(z_{1}|x)q(z_{2}|z_{1},x)\xlongequal[]{马尔科夫性质}q(z_{1}|x)q(z_{2}|z_{1})$
同理：
$p(x,z_{1},z_{2})=p(x|z_{1})p(z_{1}|z_2)p(z_2)$

所以多层VAE的目标函数为： $\mathcal{L}(\theta, \phi)$

$\mathcal{L}(\theta, \phi)=\mathbb{E}_{q\left(z_{1}, z_{2} \mid x\right)}\left[\log p\left(x \mid z_{1}\right)-\log q\left(z_{1} \mid x\right)+\log p\left(z_{1} \mid z_{2}\right)-\log q\left(z_{2} \mid z_{1}\right)+\log p\left(z_{2}\right)\right]$

三，Diffusion Model 图示

Diffusion 的目标函数和多层VAE的目标函数很像。
从右往左：正向过程，q:条件概率分布(不含参数)，扩散过程，熵增过程，加噪过程，逐渐变为–>高斯分布
从左往右：反向过程/重建过程/生成过程：逆扩散过程， $p_{\theta}$ ：条件概率分布(含参数)，从噪声分布中推出目标分布，从目标分布中采样新样本，这样就可以生成新的图片。 $\color{red}在推理的时候只用到逆扩散过程$

在这里插入图片描述
${\color{red}目的:}{\color{blue}搞懂逆扩散过程是咋弄的，这样就可以由噪声来生成新图片了}$

在这里插入图片描述

Figure1.瑞士卷图解：

第一行为从左到右： $q(\mathrm{x}^{(0\cdots T)})$ : pic–> noise加噪过程
第二行为从右到左： $p(\mathrm{x}^{(0\cdots T)})$ : noise->pic去噪过程
第三行为漂移量： $q 和 p 之间的差$

四，扩散过程(Diffusion Process)

给定初始数据分布 $x_{0}\sim q(x)$ , 可以不断地向分布中添加高斯噪声，此噪声的标准差是以固定值 $\beta_{t}$ 而确定的，均值是以固定值 $\beta_{t}$ 和当前 $t$ 时刻的数据 $x_{t}$ 决定的。这个过程是一个马尔科夫链过程。

$x_{0}\sim q(x)$ 即训练集服从 $q (x)$ 分布，即扩散过程， $\beta_{t}$ 是已知的，确定的(像learning rate)，，它不是通过网络预测的。扩散过程不含参数。

随着 $t$ 的不断增大，最终数据分布 $x_{T}$ 变成了一个各项独立的高斯分布。

在这里插入图片描述
3. 任意时刻的 $q(x_{t})$ 推导也可以完全基于 $x_{0}$ 和 $\beta$ 来计算出来，而不需要做迭代。

注意：两个正态分布 $X\sim N(\mu_{1},\sigma_{1}^{2})$ 和 $Y\sim N(\mu_{2},\sigma_{2}^{2})$ 的叠加后的分布 $a X + bY$ 的均值为 $a\mu_{1}+b\mu_{2}$ , 方差为 $a^{2}\sigma_{1}^{2}+b^{2}\sigma_{2}^{2}$ 。所以 $\sqrt{\alpha_{t}-\alpha_{t}\alpha_{t-1}}z_{t-2}+\sqrt{1-\alpha_{t}}z_{t-1}$ 可以重参数化成只含一个随机变量 $z$ 构成的 $\sqrt{1-\alpha_{t}\alpha_{t-1}}z$ 的形式。

A nice property of the above process is that we can sample $\mathrm{x_{t}}$ at any arbitrary time step $t$ in a closed form using $\color{orange}\mathrm{reparameterization\,trick}$ . Let $\alpha_{t}=1-\beta_{t}$ and $\bar\alpha_{t}=\prod\limits_{i=1}^{t}\alpha_{i}$
在这里插入图片描述

$q(x_{t}|x_{t-1})=\mathcal{N}(x_{t};\sqrt{1-\beta_{t}}x_{t-1},\beta_{t}I), \beta_{t}$ 是方差，标准差是 $\sqrt{\beta_{t}}$
$\color{blue}如何生成x_{t}呢？利用重参数技巧$
先从正态分布中生成一个 $z_{t-1}$ , 然后把 $\sqrt{\beta_{t}}.z_{t-1}+\sqrt{1-\beta_{t}}x_{t-1}$ 作为 $x_{t}$ 的一个采样值，不断迭代得到 $x_{T}$ , 其中 $\beta_{t}$ 是随着 $t$ 不断增加的。

$--------{\color{blue}x_{t}的推导过程}-----------$
$x_{t}=\sqrt{1-\beta_{t}}x_{t-1}+\sqrt{\beta_{t}}.z_{t-1}\quad\quad\quad\quad\,\,\,\,①$
$x_{t-1}=\sqrt{1-\beta_{t-1}}x_{t-2}+\sqrt{\beta_{t-1}}.z_{t-2}\quad\quad②$
令 $\alpha_{t}=1-\beta_{t}, \bar\alpha_{t}=\prod\limits_{i=1}^{t}\alpha_{i}$ ,并将②带入①中得： $\color{red}疑惑：那\beta_{t}应该代表是是方差吧，即\sigma^{2}$
$\begin{aligned} x_{t}&=\sqrt{1-\beta_{t}}x_{t-1}+\sqrt{\beta_{t}}.z_{t-1}\\&=\sqrt{\alpha_{t}}x_{t-1}+\sqrt{1-\alpha_{t}}.z_{t-1}\\ &=\sqrt{\alpha_{t}\alpha_{t-1}}x_{t-2}+\underbrace{\sqrt{\alpha_{t}(1-\alpha_{t-1})}z_{t-2}+\sqrt{1-\alpha_{t}}.z_{t-1}}_{重参数技巧}\\ &=\sqrt{\alpha_{t}\alpha_{t-1}}x_{t-2}+\sqrt{1-\alpha_{t}\alpha_{t-1}}\bar z_{t-2}\\ &=\cdots\\ &=\sqrt{\bar\alpha_{t}}x_{0}+\sqrt{1-\bar\alpha_{t}}z \end{aligned}$

$q(x_{t}|x_{0})=\mathcal{N}(x;\sqrt{\bar\alpha_{t}}x_{0},(1-\bar\alpha_{t})I)$ ,其中，方差为 $(1-\bar\alpha_{t})I$ , 即 $\sigma^{2}$

因为所有的 $z$ 都是从正态分布 $N (0, 1)$ 中采样出来的，再由3中的两个正太分布的叠加提示得：
$Let\,\bar z_{t-2}=\left[\sqrt{\alpha_{t}(1-\alpha_{t-1})}z_{t-2}+\sqrt{1-\alpha_{t}}.z_{t-1}\right],then\, \, \bar z_{t-2}\sim\mathcal{N}(0,1-\alpha_{t}\alpha_{t-1})$
即 $z_{t-1}\sim\mathcal{N}(0,1),z_{t-2}\sim\mathcal{N}(0,1)$ ，所以aX+bY的均值为：0，方差为： $1-\alpha_{t}\alpha_{t-1}$ ，即 $\bar z_{t-2}$ 也是从高斯分布中采样得到的
$- - - - - - - - - - - - - - - - - - -$
总结： $x_{t}=\sqrt{\bar\alpha_{t}}x_{0}+\sqrt{1-\bar\alpha_{t}}z_{t}\quad\quad③$ ，那当T为多少时， $x_{T}$ 才能真变为各向独立的高斯分布呢？

即 $\bar\alpha_{t}\rightarrow1,\quad\quad1-\bar\alpha_{t}\rightarrow0$ 时， $q(x_{t}|x_{0})=\mathcal{N}(x;\sqrt{\bar\alpha_{t}}x_{0},(1-\bar\alpha_{t})I)$ 变为标准的高斯分布 $\mathcal{N}(0,1)$ , 由上式可以求出当 $t =$ 何值时， $q(x_{t}|x_{0})$ 约等于标准的高斯分布。

$\color{red}为什么要让最后的q(x_{t}|x_{0})约等于标准的高斯分布？$
因为让扩散过程扩散到最后，即不断加噪，然后最后变成标准高斯分布，这样逆扩散过程就可以由任意的一个标准高斯分布的初始状态通过逆扩散过程最后生成新的样本
Diffusion 过程完全不含参数
由式③得：只要给定初始分布 $x_{0}$ , 则任何时刻的采样值均可以算出，方法有两种：1.迭代；2.直接算(需要预先计算出 $\alpha_{t}$ )

与VAE的区别：

VAE：

$x\rightarrow z$ 并不是无参过程，而是通过后验网络给预测出来的
$z$ 和 $x$ 不一定完全无关，但diffusion model中最后的 $x_{T}$ 是一个标准的高斯分布，基本和 $x_{0}$ 完全无关
在VAE中的 $x$ 和 $z$ 的维度可以不一样，但diffusion model中的 $x_{1},x_{2},\cdots x_{T}$ 的维度始终保持不变。