【AI学习】Lilian Weng：What are Diffusion Models?

news2025/7/15 6:10:21

读OpenAI 的 Lilian Weng博客《What are Diffusion Models?》
文章链接:https://lilianweng.github.io/posts/2021-07-11-diffusion-models/

通过浏览器的在线翻译，直接截图了。翻译的有些问题，但是基本能大概看明白了。
我只是个人的记录，大家如果觉得有益，也可以大概看看：）

以下是文章内容：

到目前为止，我已经写了三种类型的生成模型，GAN、VAE 和基于 Flow 的模型。它们在生成高质量样本方面取得了巨大成功，但每个样本都有自己的一些局限性。由于其对抗性训练性质，GAN 模型以潜在的不稳定训练和世代多样性较低而闻名。VAE 依赖于代理损失。流模型必须使用专门的架构来构建可逆转换。

扩散模型受到非平衡热力学的启发。他们定义了扩散步骤的马尔可夫链，以缓慢地向数据中添加随机噪声，然后学习反转扩散过程以从噪声中构建所需的数据样本。与 VAE 或流动模型不同，扩散模型是通过固定程序学习的，并且潜在变量具有高维数（与原始数据相同）。

在这里插入图片描述
图 1.不同类型的生成模型概述

什么是扩散模型？

已经提出了几种基于扩散的生成模型，其下有类似的想法，包括扩散概率模型（Sohl-Dickstein et al.， 2015）、噪声调节评分网络（NCSN;Yang & Ermon，2019 年）和去噪扩散概率模型（DDPM;Ho 等人，2020 年）。

前向扩散过程

在这里插入图片描述
（翻译校正：步长由方差计划表控制
随着步长t变大，数据样本逐渐失去可分辨的特征。）

在这里插入图片描述

与随机梯度 Langevin 动力学的联系

在这里插入图片描述

反向扩散过程

在这里插入图片描述
（这里不理解，为什么反向也是高斯过程）

在这里插入图片描述
值得注意的是，当基于条件x0时，反向条件概率是可处理的：

训练损失的Lt参数化

在这里插入图片描述

与噪声调节评分网络（NCSN）的连接

在这里插入图片描述
（没看懂，这段的具体含义）

参数化β

在这里插入图片描述

反向过程方差的参数化

在这里插入图片描述

条件生成

在使用条件信息（如 ImageNet 数据集）在图像上训练生成模型时，通常会生成以类标签或一段描述性文本为条件的样本。

分类器引导扩散

在这里插入图片描述

无分类器指南

在这里插入图片描述

加速扩散模型

在这里插入图片描述

潜在变量空间

潜在扩散模型（LDM;Rombach & Blattmann等人，2022年）在潜在空间而不是像素空间中运行扩散过程，从而降低训练成本并加快推理速度。其动机是图像的大部分位都有助于感知细节，并且在激进压缩后语义和概念构成仍然存在。LDM 通过生成建模学习松散地分解了感知压缩和语义压缩，首先用自动编码器修剪掉像素级冗余，然后在学习到的潜在物上用扩散过程操纵/生成语义概念。
在这里插入图片描述

放大生成分辨率和质量

在这里插入图片描述

模型架构

扩散模型有两种常见的主干架构选择： U-Net 和 Transformer 。
U-Net （Ronneberger et al. 2015）由一个下采样堆栈和一个上采样堆栈组成。
在这里插入图片描述

Diffusion Transformer（DiT;Peebles & Xie， 2023）的扩散建模对 latent patches进行操作，使用 LDM（潜在扩散模型）的相同设计空间。DiT 具有以下设置：