08.Diffusion Model数学原理分析（上）

文章目录

Diffusion Model回顾
Diffusion Model算法
- Training
- Inference
图像生成模型的本质目标
MLE vs KL
VAE
- 计算 $P_\theta(x)$
- Lower bound of $\log P(x)$
DDPM
- 计算 $P_\theta(x)$
- Lower bound of $\log P(x)$
- - 原理
  - 数学推导

部分截图来自原课程视频《2023李宏毅最新生成式AI教程》，B站自行搜索。

Diffusion Model回顾

前情回顾[07.Diffusion Model概述](https://blog.csdn.net/oldmao_2001/article/details/1341964 78)
在这里插入图片描述
VAE和Diffusion Model在构架上比较相似：

Diffusion Model算法

Training

在这里插入图片描述
第一行的repeat代表循环，执行2~5行，直到收敛停止。
第二行的 $x_0\sim q(x_0)$ 中的 $x_0$ 表示清晰的图片，整个语句表示采样一张图片。
第三行表示从 $\{1,\cdots,T\}$ 中采样一个整数 $t$ ， $T$ 是一个很大的数字。
第四行表示从Normal Distribution中采样一个噪音 $\epsilon$
在这里插入图片描述
第五行比较复杂，先看：
$\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon$

这里表示将清晰的图片与噪音按权重进行相加得到的结果：
在这里插入图片描述

这里的权重： $\bar{\alpha}_t \in \xrightarrow[smaller]{\{\bar{\alpha}_1,\bar{\alpha}_2,\cdots,\bar{\alpha}_T\}}$
这里的 $\bar{\alpha}_1$ 到 $\bar{\alpha}_T$ 是从大到小的关系。若从 $T$ 中采样到的 $t$ 越大，则 $\sqrt{\bar{\alpha}_t}$ 越小， $\sqrt{1-\bar{\alpha}_t}$ 越大，表示二者相加时噪音占的权重就越大。
然后将权重相加结果丢进Noise predictor： $\epsilon_\theta$
$\epsilon_\theta(\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t)$
然后计算预测结果与真实噪音的差异，并更新Noise predictor参数，使其预测结果越接近真实噪音越好。
需要注意的是，和上节课程中讲的有亿点点不一样，之前原理课中介绍Diffusion模型加噪音是逐步加的，在论文的具体实作上却是一步到位的，后面有推导为什么可以这样做：
在这里插入图片描述

Inference

在这里插入图片描述
第一步，先从Normal Distribution中采样一个噪音 $x_T$ ：

第二步，循环执行3，4步，共 $T$ 次
第三步，再从Normal Distribution中采样一个噪音 $z$
第四步中：
$x_t$ 是第 $t$ 个步骤得到的结果：

第四步 $x_{t-1}$ 的公式可用下图表示，黄色部分忘记标上 $\delta_t$ ，此外还有两组权重： $\{\bar{\alpha}_1,\bar{\alpha}_2,\cdots,\bar{\alpha}_T\}$ 和 $\{{\alpha}_1,{\alpha}_2,\cdots,{\alpha}_T\}$

在这里插入图片描述
在开始数学推导之前，先简单回顾图像生成模型的本质（上节课其实有讲）。

图像生成模型的本质目标

从一个已知的简单分布，例如：mean是0，每个维度的variance是1的高斯分布，采样出一个向量 $z$ ，丢进网络 $G$ ，得到一张图片：
在这里插入图片描述
我们希望找到一个网络 $G$ ，使其生成的x与实际图片的分布越接近越好

对于文字生成图片任务也类似，只不过是多加了一个文字输入作为限制条件：

这里一段文字对应的图片可以有无数种答案，因此也是一个分布，比较上面两种模型，有没有其实差异并不大，因此后面的数学推导为了简便，先不考虑文字的输入。

MLE vs KL

上面考虑两个分布越接近越好，在数学上求解一种思路就是使用MLE（Maximum Likelihood Estimation），将网络 $G$ 的参数记为 $\theta$ ，则生成图片的结果记为： $P_\theta(x)$ ，而实际图片（训练数据）记为： $P_{data}(x)$
在这里插入图片描述
则任务可以描述为：
从训练数据 $P_{data}(x)$ 采样得到： $\{x^1,x^2,\cdots,x^m\}$ ，若可计算 $P_\theta(x^i)$ ，则根据MLE可知，我们要找到一组参数 $\theta^*$ ，使得：
$\theta^*=arg\max_\theta \prod_{i=1}^m P_\theta(x^i)$
也就是参数 $\theta^*$ 让网络产生这些真实图片 $\{x^1,x^2,\cdots,x^m\}$ 的几率最大。
注：这里的 $P_\theta(x^i)$ 实际上无法计算，因为它不是简单几个高斯叠加的GMM，而非常复杂。

证明：最大化MLE与最小化KL等价。
$\begin{aligned}\theta^*&=arg\max_\theta \prod_{i=1}^m P_\theta(x^i)\\ &=arg\max_\theta \log\prod_{i=1}^m P_\theta(x^i)\\ &=arg\max_\theta \sum_{i=1}^m \log P_\theta(x^i)\\ &\approx arg\max_\theta E_{x\sim P_{data}}[\log P_\theta(x)]\\ &= arg\max_\theta \int_x P_{data}(x)\log P_\theta(x)dx \end{aligned}$
先取对数，然后连乘变累加，结果与求期望值相近似，再根据期望的定义写成积分形式。这里将积分项减去一个与 $\theta$ 无关的项，不影响求最大值：
$\int_x P_{data}(x)\log P_{data}(x)dx$
这里 $P_{data}(x)$ 只和训练数据有关，与 $\theta$ 无关，减去积分项后就可以合并，然后就写成了最小化两个分布KL散度的形式。
$\begin{aligned} &= arg\max_\theta \int_x P_{data}(x)\log P_\theta(x)dx\\ &=arg\max_\theta \left(\int_x P_{data}(x)\log P_\theta(x)dx\ - \int_x P_{data}(x)\log P_{data}(x)dx\right)\\ &=arg\max_\theta \int_x P_{data}(x)\log \cfrac{P_\theta(x)}{P_{data}(x)}dx\\ &=arg\min_\theta KL\left(P_{data}(x)||P_\theta(x)\right) \end{aligned}$

VAE

先回顾 VAE的计算，因为VAE和Diffusion很像，有些推导的过程也可以借鉴。

计算 $P_\theta(x)$

在这里插入图片描述
VAE的 $P_\theta(x)$ 可以写成：
$P_\theta(x)=\int_z P(z)P_\theta(x|z)dz$
先求 $z$ 产生的概率，然后求在 $z$ 条件下产生 $x$ 的概率，然后是针对所有 $z$ 进行积分，就得到了 $P_\theta(x)$
其中 $P (z)$ 是已知的简单分布，对应上图中的粉红色圈圈。
$P_\theta(x|z)$ 如果采用如下定义：
$P_\theta(x|z)=\begin{cases} 1,\quad G(z)=x \\ 0,\quad G(z)\neq x \end{cases}$
表示 $z$ 通过网络刚好与我们要的图片完全相同，那么就记为1，否则记为0。在图像生成任务这样做会使得上面的表达大概率是0，因为图片即使有1个像素不同也会使得 $P_\theta(x|z)=0$
解决的方法就是用一个范围来表示网络的输出，如下图所示， $G (z)$ 表示一个高斯分布的Mean：
在这里插入图片描述
$P_\theta(x|z)$ 的定义就变成：
$P_\theta(x|z)\propto \exp(-||G(z)-x||_2)$
表示 $x$ 与高斯分布中心越近，产生它的概率越大。

Lower bound of $\log P(x)$

这里讲得比较简略，详细可以看这里：李宏毅学习笔记27.Unsupervised Learning.05: Deep Generative Model (Part II)
需要说明的是：概率 $P_\theta(x)$ 需要网络的参数 $\theta$ 才能计算出来，因此把其作为下标，后面很多地方都把下标 $\theta$ 进行了省略。
上来直接从损失函数那里往后推：
$\log P_\theta(x)=\int_zq(z|x)\log P(x)dz$
由于 $\log P(x)$ 和z无关，由于 $\int_zq(z|x)dz=1$ （这里的 $q (z ∣ x)$ 是任意一个分布，积分起来就是1），所以等式成立。
$\begin{aligned}&=\int_zq(z|x)\log\left(\frac{P(z,x)}{P(z|x)}\right)dz\\ &=\int_zq(z|x)\log\left(\frac{P(z,x)}{{\color{Blue} q(z|x)}}\frac{{\color{Blue} q(z|x)} }{P(z|x)}\right)dz\\ &=\int_zq(z|x)\log\left(\frac{P(z,x)}{q(z|x)}\right)dz+\int_zq(z|x)\log\left(\frac{q(z|x)}{P(z|x)}\right)dz\\ &\ge \int_zq(z|x)\log\left(\frac{P(z,x)}{q(z|x)}\right)dz=E_{q(z|x)}\left[\log\left(\frac{P(x,z)}{q(z|x)}\right)\right] \end{aligned}$
上面倒数第二行中的最后一项可以看成是两个分布的KL散度，两个分布由于不可能相似，所以该项大于0，所以就写成：
$KL(q(z|x)||P(z|x))\geq0$
所以才推导出整个式子的下限，最后可以写成期望的形式，其中的 $q (z ∣ x)$ 就是VAE中的Encoder。

DDPM

计算 $P_\theta(x)$

Diffusion模型生成图片理论上是从一张噪音图片 $x_T$ 开始，不断经过Denoise模块后得到最终结果。
在这里插入图片描述
中间第 $t$ 个单步的输入输出可以表示为：

数学上可以写为：
$P_\theta(x_{t-1}|x_t)\propto \exp(-||G(x_t)-x_{t-1}||_2)$
那么某张图片 $x_0$ 产生的概率可以写为：
$P_\theta(x_0)=\int_{x_1:x_T}P(x_t)P_\theta(x_{T-1}|x_T)\cdots P_\theta(x_{t-1}|x_t)\cdots P_\theta(x_{0}|x_1)dx_1:x_T$
积分号下面的 $x_1:x_T$ 表示从 $x_1$ 到 $x_T$ 逐个计算，上式中的第一个 $P$ 没有下标 $\theta$ ，因为噪音 $x_T$ 产生是从简单的高斯分布从采样的，没有经过Denoise模块，与参数 $\theta$ 无关。

Lower bound of $\log P(x)$

原理

DDPM中 $\log P(x)$ 的下界与VAE的推导一样，VAE的推导已省略，要想
$\text{Maximize} \log P_\theta(x_0)$
则要提高 $\log P(x)$ 的下界：
$\text{Maximize} E_{q(x_1:x_T|x_0)}\left[\log\left(\frac{P(x_0:x_T)}{q(x_1:x_T|x_0)}\right)\right]$
其中，表示Forward Process的 $q(x_1:x_T|x_0)$ 可以写为：
$q(x_1:x_T|x_0)=q(x_1|x_0)q(x_2|x_1)\cdots q(x_T|x_{T-1})$

VAE与DDPM二者的下界对比如下图，就不画表格了。
在这里插入图片描述
下面来看上面公式中Forward Process中的通项 $q(x_t|x_{t-1})$ 如何计算，在DDPM中， $x_t$ 与 $x_{t-1}$ 的关系如下图所示：

$\beta_1,\beta_2\cdots,\beta_T$ 是预先定义好的权重值（超参数），用来调整noise的占比，最右边的noise是从 $\mathcal{N}(0,I)$ 中采样得来。
整个 $q(x_t|x_{t-1})$ 是一个高斯分布，其Mean为： $\sqrt{1-\beta_t}x_t$ ，各个维度的Variance都一样，是： $\sqrt{\beta_t}$

Reverse Process的通项 $q(x_t|x_0)$ 在理论上应该是一步步计算的：
在这里插入图片描述
注： $q(x_t|x_0)$ 的意思是给定清晰图片 $x_0$ 的情况下，得到 $x_t$ 的分布概率。
但是实际上可以选择一步到位，看下图：

第一行是 $x_0$ 到 $x_1$ 的过程，第二行是 $x_1$ 到 $x_2$ 的过程，两次加的噪音都是从同一个高斯分布中采样出来的，但是是两次独立的采样（红色箭头），然后可以把第一行红框处的部分带入第二行的 $x_1$ ，得到：
在这里插入图片描述
由于两次采样是从同一个高斯分布而来，虽然乘了不同的系数，我们还是可以将两次采样合并为一个采样（如下图的红框合并为黄色采样结果）：

这样一来，本来两次的采样就合并为一次了，同理，如果有多次采样，也可以用相同的方法合并为一步到位，只不过前面的系数有变化而已。
在这里插入图片描述
如上图所示，第 $t$ 步的 $q(x_t|x_0)$ 系数分别为： $\sqrt{1-\beta_1}\cdots\sqrt{1-\beta_t}$ 和 $\sqrt{1-(1-\beta_1)\cdots(1-\beta_t)}$
为了简化表达，令：
$\alpha_t=1-\beta_t\\ \bar\alpha_t=\alpha_1\alpha_2\cdots\alpha_t$
上面的系数就可写成：
$\sqrt{\bar\alpha_t}\\ \sqrt{1-\bar\alpha_t}$

数学推导

然后就是从论文Understanding Diffusion Models: A Unified Perspective中摘抄过来的下限的推导：
$\begin{align*} \log P(x)&\ge E_{q(x_{1:T}|x_0)}\left[\log\frac{p(x_{0:T})}{q(x_{1:T}|x_0)}\right]\\ &=E_{q(x_{1:T}|x_0)}\left[\log\frac{p(x_T)\prod_{t=1}^Tp_\theta(x_{t-1}|x_t)}{\prod_{t=1}^Tq(x_t|x_{t-1})}\right]\\ &=E_{q(x_{1:T}|x_0)}\left[\log\frac{p(x_T)p_\theta(x_0|x_1)\prod_{t=2}^Tp_\theta(x_{t-1}|x_t)}{q(x_1|x_0)\prod_{t=2}^Tq(x_t|x_{t-1})}\right]\\ &=E_{q(x_{1:T}|x_0)}\left[\log\frac{p(x_T)p_\theta(x_0|x_1)\prod_{t=2}^Tp_\theta(x_{t-1}|x_t)}{q(x_1|x_0)\prod_{t=2}^Tq(x_t|x_{t-1},x_0)}\right]\\ &=E_{q(x_{1:T}|x_0)}\left[\log\frac{p(x_T)p_\theta(x_0|x_1)}{q(x_1|x_0)}+\log\prod_{t=2}^T\cfrac{p_\theta(x_{t-1}|x_t)}{q(x_t|x_{t-1},x_0)}\right]\\ &=E_{q(x_{1:T}|x_0)}\left[\log\frac{p(x_T)p_\theta(x_0|x_1)}{q(x_1|x_0)}+\log\prod_{t=2}^T\cfrac{p_\theta(x_{t-1}|x_t)}{\cfrac{q(x_{t-1}|x_t,x_0)q(x_t|x_0)}{q(x_{t-1}|x_0)}}\right]\\ &=E_{q(x_{1:T}|x_0)}\left[\log\frac{p(x_T)p_\theta(x_0|x_1)}{q(x_1|x_0)}+\log\prod_{t=2}^T\cfrac{p_\theta(x_{t-1}|x_t)}{\cfrac{q(x_{t-1}|x_t,x_0)\cancel{q(x_t|x_0)}}{\cancel{q(x_{t-1}|x_0)}}}\right]\\ &=E_{q(x_{1:T}|x_0)}\left[\log\frac{p(x_T)p_\theta(x_0|x_1)}{\cancel{q(x_1|x_0)}}+\log\cfrac{\cancel{q(x_1|x_0)}}{q(x_T|x_0)}+\log\prod_{t=2}^T\cfrac{p_\theta(x_{t-1}|x_t)}{q(x_{t-1}|x_t,x_0)}\right]\\ &=E_{q(x_{1:T}|x_0)}\left[\log\frac{p(x_T)p_\theta(x_0|x_1)}{q(x_T|x_0)}+\sum_{t=2}^T\log\cfrac{p_\theta(x_{t-1}|x_t)}{q(x_{t-1}|x_t,x_0)}\right]\\ &=E_{q(x_{1:T}|x_0)}\left[\log p_\theta(x_0|x_1)\right] +E_{q(x_{1:T}|x_0)}\left[\log\frac{p(x_T)}{q(x_T|x_0)}\right] +\sum_{t=2}^TE_{q(x_{1:T}|x_0)}\left[\log\cfrac{p_\theta(x_{t-1}|x_t)}{q(x_{t-1}|x_t,x_0)}\right]\\ &=E_{q(x_1|x_0)}\left[\log p_\theta(x_0|x_1)\right] +E_{q(x_T|x_0)}\left[\log\frac{p(x_T)}{q(x_T|x_0)}\right] +\sum_{t=2}^TE_{q(x_t,x_{t-1}|x_0)}\left[\log\cfrac{p_\theta(x_{t-1}|x_t)}{q(x_{t-1}|x_t,x_0)}\right]\\ &=\underset{\text{reconstruction term}}{\underbrace{E_{q(x_1|x_0)}\left[\log p_\theta(x_0|x_1)\right]}} -\underset{\text{prior matching term}}{\underbrace{D_{KL}(q(x_T|x_0)||p(x_T))}} -\sum_{t=2}^T\underset{\text{denoising matching term}}{\underbrace{E_{q(x_t|x_0)}\left[D_{KL}(q(x_{t-1}|x_t,x_0)||p_\theta(x_{t-1}|x_t)) \right]}} \end{align*}$
原文公式51的第一个 $p$ 多了一个 $\theta$
在这里插入图片描述

上面的结果中的第二项prior matching term可以忽略，原文中直接给0值，这项是衡量两个分布的相似度，一个分布是从搞屎采样出来的噪音 $x_T$ ，另外是给定清晰图片 $x_0$ 进行diffusion process得到 $x_T$ 的过程，该过程由我们自己操控，两个分布毫无相似度，因此为0。李老师在这里的解释是因为该表达式中没有包含网络参数 $\theta$ ，因此与要最大化的下限无关，可以忽略。
现在的下限等于第一项（reconstruction term）减去第三项（denoising matching term），要使得整体最大化，就是要第一项越大越好，第三项越接近0越好，这里推导第一项的过程与第三项相似，因此只推导第三项。