标题:High-Resolution Image Synthesis with Latent Diffusion Models
会议:CVPR2022
论文地址:https://ieeexplore.ieee.org/document/9878449/
官方代码:https://github.com/CompVis/latent-diffusion
作者单位:慕尼黑大学、海德堡大学、Runway ML
文章目录
- Abstract
- 1. Introduction
- 2. Related Work
- 3. Method
- 3.1. Perceptual Image Compression
- 3.2. Latent Diffusion Models
- 3.3. Conditioning Mechanisms
- 4. Experiments
- 4.1. On Perceptual Compression Tradeoffs
- 4.2. Image Generation with Latent Diffusion
- 4.3. Conditional Latent Diffusion
- 4.3.1 Transformer Encoders for LDMs
- 4.3.2 Convolutional Sampling Beyond 25 6 2 256^2 2562
- 4.4. Super-Resolution with Latent Diffusion
- 4.5. Inpainting with Latent Diffusion
- 5. Conclusion
Abstract
通过将图像的产生过程分解成去噪自编码器的连续应用,扩散模型(DM)在图像数据和其它方面实现了SOTA的合成结果。此外,它们的产生允许一个引导机制来控制图像生成过程,无需重新训练。然而,由于这些模型通常直接在像素空间中操作,优化强效的DM通常需要消耗数百个GPU天,并且由于顺序评估因而推理是昂贵的。为了能够在有限的计算资源上训练DM,同时保留它们的质量和灵活性,我们将它们应用到强大的预训练自编码器的潜在空间中。与以前的工作不同,在这样的表征上训练扩散模型首次允许了在复杂度降低和细节保留之间达到一个接近最优的点,大大提高了视觉保真度。通过在模型结构中引入交叉注意力(cross-attention)层,我们将扩散模型变成了强大而灵活的生成器,用于文本或边界框等一般条件输入,并以卷积方式实现高分辨率合成。我们的潜在扩散模型(latent diffusion models,LDMs)在图像修补和类别条件图像合成方面达到了SOTA水平,并在各种任务上表现出极具竞争力的性能,包括无条件图像生成、文本到图像(text-to-image)合成和超分辨率,同时与基于像素的DM相比显著降低了计算要求。
1. Introduction
图像合成是计算机视觉领域中最近发展最引人注目的领域之一,也是计算需求最大的领域之一。特别是对复杂自然场景的高分辨率合成,目前主要是扩大基于似然的(scaling up likelihood-based)模型,自回归(AR)transformers中可能包含数十亿参数。相比之下,GANs有前途的结果已被揭示大都局限于变化性相对有限的数据,因为它们的对抗学习过程不容易扩展到建模复杂的多模态分布。最近,由一系列去噪自编码器构建的扩散模型在图像合成和其它方面取得了令人印象深刻的结果,并确定了类别条件图像合成和超分辨率的SOTA。此外,与其它类型的生成模型相比,即使是无条件DM也可以很容易地应用于修补和着色或基于笔划的合成等任务。作为基于似然的模型,它们不像GANs那样表现出模式坍塌(mode-collapse)和训练不稳定,并且通过大量利用参数共享,它们可以像AR模型那样在不涉及数十亿参数的情况下建模高度复杂的自然图像分布。
使高分辨率图像合成大众化 DM属于基于似然的模型类别,其模式覆盖(mode-covering)行为使得它们倾向于花费过多的容量(从而计算资源)来建模数据中难以察觉的细节。尽管重新加权变分目标(reweighted variational objective)旨在通过对初始去噪步骤进行下采样来解决这个问题,但DM仍然在计算上要求很高,因为训练和评估这样的模型需要在RGB图像的高维空间中重复进行函数求值(和梯度计算)。例如,训练最强大的DM通常需要几百个GPU天(例如Classifier Guidance的150-1000个V100天),并且在输入空间的噪声版本上重复评估也会导致昂贵的推理,从而在单个A100 GPU上生成50k个样本大约需要5天。这对研究社区和用户总体来说有两个后果:首先,训练这样的模型需要大量的计算资源,仅适用于一小部分领域,并且会留下巨大的碳足迹(carbon footprint)。其次,评估一个已经训练好的模型在时间和内存上也是昂贵的,因为同一模型结构必须顺序运行大量步骤(例如Classifier Guidance中的25-1000步)。
为了增加这个强大的模型类别的易使用性,同时减少其显著的资源消耗,需要一种同时降低训练和采样的计算复杂度的方法。因此,在不影响DM性能的前提下降低其计算需求是提高其易使用性的关键。
潜在空间的出发点 我们的方法从分析像素空间中已经训练好的扩散模型开始:图2显示了训练好的模型的rate-distortion折衷。与任何基于似然的模型一样,学习可以大致分为两个阶段:首先是一个感知压缩(perceptual compression)阶段,它删除了高频细节,但仍然学习到少量的语义变化。在第二阶段,实际的生成模型学习数据的语义和概念构成(语义压缩)。因此,我们的目标是首先找到一个感知等效(perceptually equivalent)但计算上更合适的空间,在这个空间中我们将训练用于高分辨率图像合成的扩散模型。
遵循一般做法,我们将训练分为两个不同的阶段:首先,我们训练一个自编码器,它提供了一个更低维的(从而有效)表征空间,其与数据空间在感知上是等效的。重要的是,与以前的工作相比,我们不需要依赖过度的空间压缩,因为我们在学习到的潜在空间中训练DM,它在空间维度上表现出更好的扩展性质(scaling properties)。降低的复杂度也提供了来自潜在空间的高效图像生成,并且只用单次网络传播。我们将致使的模型类别称为潜在扩散模型(LDMs)。
这种方法一个值得注意的优点是只需要训练一次通用的自编码阶段,因此可以将其重用于多个DM训练或探索可能完全不同的任务。这使得针对各种图像到图像(image-to-image)和文本到图像(text-to-image)任务的大量扩散模型的高效探索成为可能。对于后者,我们设计了一种将transformers连接到DM的UNet主干的结构,并且支持任意类型的基于token的条件机制。
总之,我们的工作作出了以下贡献:
(i)与纯基于transformer的方法相比,我们的方法可以更优雅地扩展到更高维的数据,因此①可以在压缩水平上工作,其提供了比以前的工作更忠实和细节的重建(见图1)和②可以有效地应用于百万像素图像的高分辨率合成。
(ii)我们在多个任务(无条件图像合成、修补、随机超分辨率)和数据集上实现了具有竞争力的性能,同时显著降低了计算成本。与基于像素的扩散方法相比,我们也显著降低了推理成本。
(iii)我们表明,与之前的工作同时学习编码器/解码器结构和基于分数的先验不同,我们的方法不需要对重建和生成能力进行精巧的加权。这确保了极其忠实的重建,并且对潜在空间的正则化要求很低。
(iv)我们发现,对于超分辨率、修补和语义合成等密集条件任务,我们的模型可以以卷积的方式应用,并呈现出大的、一致的大约
102
4
2
1024^2
10242像素的图像。
(v)此外,我们设计了一个基于交叉注意力的通用条件机制,实现了多模态训练。我们使用它来训练类别条件、文本到图像和布局到图像(layout-to-image)模型。
(vi)最后,我们发布了预训练的潜在扩散模型和自编码模型,它们除了训练DM之外,还可以用于其它任务。
2. Related Work
用于图像合成的生成模型 图像的高维特性对生成模型提出了明显的挑战。生成式对抗网络(Generative Adversarial Networks,GAN)允许对具有良好感知质量的高分辨率图像进行高效采样,但难以优化,并且难以捕获完整的数据分布。相比之下,基于似然的方法强调良好的密度估计,从而使优化更加表现良好。变分自编码器(VAE)和基于流的模型实现了高分辨率图像的高效合成,但样本质量不如GANs。虽然自回归模型(ARM)在密度估计方面有很强的性能,但高计算要求的结构和顺序采样过程将其限制在低分辨率图像。由于基于像素的图像表征包含几乎无法感知的高频细节,最大似然训练花费了不成比例的容量对其进行建模,导致训练时间过长。为了扩展到更高的分辨率,一些两阶段方法使用ARMs来建模压缩的潜在图像空间,而不是原始像素。
最近,扩散概率模型在密度估计和样本质量方面取得了SOTA的结果。这些模型的生成能力源于当它们的底层神经主干被实现为UNet时,自然拟合了类似图像(image-like)数据的归纳偏置。当使用重新加权目标进行训练时,通常可以取得最好的合成质量。在这种情况下,DM类似于一个有损压缩器,允许以图像质量换取压缩能力。然而,在像素空间对这些模型进行评估和优化存在推理速度慢和训练成本高的缺点。虽然前者可以通过先进的采样策略和层次结构方法来部分解决,但在高分辨率图像数据上训练往往需要计算昂贵的梯度。我们用我们提出的LDM来解决这两个缺点,它在低维的压缩过的的潜在空间上工作。这使得训练在计算上更便宜,加快了推理速度,并且几乎没有降低合成质量(见图1)。
两阶段图像合成 为了弥补单个生成方法的不足,大量研究通过两阶段方法将不同方法的优势结合成更有效和性能更好的模型。VQ-VAE使用自回归模型在离散的潜在空间上学习一个表达先验。Ramesh等人通过学习离散的图像和文本表征的联合分布,将VQ-VAE扩展到文本到图像的生成。更广泛地,Rombach等人使用条件可逆网络来提供不同域潜在空间之间的通用迁移。与VQ-VAE不同,VQGAN采用具有对抗和感知目标的第一阶段,将自回归transformers扩展到更大的图像。然而,可行的ARM训练所需的高压缩率,引入了数十亿的可训练参数,限制了此类方法的整体性能,并且较少的压缩是以高昂的计算成本为代价的。我们的工作不需要考虑这种权衡,因为我们提出的LDM由于其卷积主干,可以更平缓地扩展到高维潜在空间。因此,我们可以自由地选择压缩水平,在学习一个强大的第一阶段之间起最佳中介作用,在保证高保真重建的同时,不会给生成扩散模型留下过多的感知压缩(见图1)。虽然使用基于分数的先验来联合学习编码/解码模型的方法已经存在,但它们仍然需要在重建和生成能力之间进行困难的加权,并且被我们的方法所超越。
3. Method
为了降低训练用于高分辨率图像合成的扩散模型的计算需求,我们观察到,尽管扩散模型允许通过对相应的损失项进行下采样来忽略感知上不相关的细节,但它们仍然需要在像素空间进行代价高昂的函数求值,这导致了计算时间和能源资源的巨大需求。
我们提出通过引入压缩与生成学习阶段的显式分离来避免这个缺点(见图2)。为了实现这一点,我们使用了一个自编码模型,该模型学习一个与图像空间在感知上等效的空间,但提供了显著降低的计算复杂度。
这种方法提供了几个优点:①通过离开高维图像空间,我们得到了计算效率更高的DM,因为采样是在低维空间进行的。②我们利用从UNet结构中继承下来的DM的归纳偏置,这使得它们对具有空间结构的数据特别有效,从而缓解了之前方法所要求的严重的、降低质量的压缩水平的需求。③最后,我们得到了通用的压缩模型,其潜在空间可以用来训练多个生成模型,也可以用于其它下游应用,如单幅图像CLIP引导的合成。
3.1. Perceptual Image Compression
我们的感知压缩模型基于之前的工作,包括由一个感知损失和一个基于patch的对抗目标组合训练的自编码器。这确保了通过增强局部真实性将重建限制在图像流形(image manifold)内,并且避免了仅仅依赖于像素空间损失(如
L
2
L_2
L2或
L
1
L_1
L1目标)而引入的模糊性。
更准确地说,给定一幅RGB空间中的图像
x
∈
R
H
×
W
×
3
x\in\mathbb{R}^{H×W×3}
x∈RH×W×3,编码器
E
\mathcal{E}
E将
x
x
x编码成一个潜在表征
z
=
E
(
x
)
z=\mathcal{E}(x)
z=E(x),解码器
D
\mathcal{D}
D从潜在表征中重建图像,得到
x
~
=
D
(
z
)
=
D
(
E
(
x
)
)
\tilde{x}=\mathcal{D}(z)=\mathcal{D}(\mathcal{E}(x))
x~=D(z)=D(E(x)),其中
z
∈
R
h
×
w
×
c
z\in\mathbb{R}^{h×w×c}
z∈Rh×w×c。重要的是,编码器通过一个系数
f
=
H
/
h
=
W
/
w
f=H/h=W/w
f=H/h=W/w对图像进行下采样,我们研究了不同的下采样系数
f
=
2
m
f=2^m
f=2m,其中
m
∈
N
m\in\mathbb{N}
m∈N。
为了避免随意高方差的潜在空间,我们用两种不同的正则化进行实验。第一种变体,KL-reg,对学习到的潜在空间施加一个接近标准正态分布的轻微KL惩罚项,类似于VAE,而VQ-reg在解码器中使用一个向量量化层。该模型可以理解成VQGAN,但量化层被解码器吸收。由于我们后续的DM是针对我们学习到的潜在空间
z
=
E
(
x
)
z=\mathcal{E}(x)
z=E(x)的二维结构进行设计的,因此我们可以使用相对温和的压缩率,实现非常好的重建效果。这与之前的工作不同,它们依赖学习到的空间
z
z
z的任意一维排序对其分布进行自回归建模,从而忽略了
z
z
z的大部分内在结构。因此,我们的压缩模型可以更好地保留
x
x
x的细节。完整的目标和训练细节可以在附录中找到。
3.2. Latent Diffusion Models
扩散模型是一种概率模型,旨在通过逐步去噪正态分布变量来学习数据分布
p
(
x
)
p(x)
p(x),相当于学习长度为
T
T
T的固定马尔科夫链的逆过程。对于图像合成,最成功的模型依赖于
p
(
x
)
p(x)
p(x)上的变分下界(variational lower bound)的重新加权变量(reweighted variant),它反映了去噪分数匹配(denoising score-matching)。这些模型可以理解成一个同等加权的去噪自编码器序列
ϵ
θ
(
x
t
,
t
)
;
t
=
1...
T
\epsilon_\theta(x_t,t);t=1...T
ϵθ(xt,t);t=1...T,它们被训练用来预测其输入
x
t
x_t
xt的去噪变体,其中
x
t
x_t
xt是输入
x
x
x的噪声版本。相应的目标可以简化为:
L
D
M
=
E
x
,
ϵ
∼
N
(
0
,
1
)
,
t
[
∣
∣
ϵ
−
ϵ
θ
(
x
t
,
t
)
∣
∣
2
2
]
(1)
L_{DM}=\mathbb{E}_{x,\epsilon\sim\mathcal{N}(0,1),t}\left[||\epsilon-\epsilon_\theta(x_t,t)||_2^2\right]\tag{1}
LDM=Ex,ϵ∼N(0,1),t[∣∣ϵ−ϵθ(xt,t)∣∣22](1)其中,
t
t
t是从
{
1
,
.
.
.
,
T
}
\{1,...,T\}
{1,...,T}中均匀采样。
潜在表征的生成建模 通过我们训练的由
E
\mathcal{E}
E和
D
\mathcal{D}
D组成的感知压缩模型,我们现在可以获得一个高效的、低维的潜在空间,其中高频的、不可感知的细节被抽象掉。与高维像素空间相比,该空间更适合基于似然的生成模型,因为它们现在可以①专注于数据重要的语义的bits,②在一个更低维度、计算效率更高的空间中训练。
与以前的工作不同的是,它们是在高度压缩、离散的潜在空间中依赖自回归、基于注意力的transformer模型,而我们可以利用我们模型提供的图像特定的归纳偏置。这包括主要从2D卷积层构建底层UNet的能力,并进一步使用重新加权边界将目标集中在感知上最相关的bits,现在改作:
L
L
D
M
:
=
E
E
(
x
)
,
ϵ
∼
N
(
0
,
1
)
,
t
[
∣
∣
ϵ
−
ϵ
θ
(
z
t
,
t
)
∣
∣
2
2
]
(2)
L_{LDM}:=\mathbb{E}_{\mathcal{E}(x),\epsilon\sim\mathcal{N}(0,1),t}\left[||\epsilon-\epsilon_\theta(z_t,t)||_2^2\right]\tag{2}
LLDM:=EE(x),ϵ∼N(0,1),t[∣∣ϵ−ϵθ(zt,t)∣∣22](2)我们模型的神经主干
ϵ
θ
(
∘
,
t
)
\epsilon_\theta(\circ,t)
ϵθ(∘,t)是照时间条件(time-conditional)UNet实现的。由于前向过程是固定的,因此在训练过程中可以从
E
\mathcal{E}
E中高效地获得
z
t
z_t
zt,并且来自
p
(
z
)
p(z)
p(z)的样本可以通过一次
D
\mathcal{D}
D解码到图像空间。
3.3. Conditioning Mechanisms
与其它类型的生成模型类似,扩散模型原则上能够对
p
(
z
∣
y
)
p(z|y)
p(z∣y)形式的条件分布进行建模。这可以用条件去噪自编码器
θ
(
z
t
,
t
,
y
)
θ(z_t,t,y)
θ(zt,t,y)来实现,并为通过输入
y
y
y来控制合成过程铺平了道路,例如文本、语义图或其它图像到图像的转变任务。
然而,在图像合成的背景下,将DM的生成能力与类别标签之外的其它类型的条件或输入图像的模糊变体相结合,是迄今为止研究不足的领域。
我们通过交叉注意力机制增强DM的底层UNet主干,使其成为更灵活的条件图像生成器,这对于学习各种输入模态的基于注意力的模型是有效的。为了预处理来自不同模态(如语言提示)的
y
y
y,我们引入了一个特定域的编码器
τ
θ
\tau_\theta
τθ,它将
y
y
y投射到中间表征
τ
θ
(
y
)
∈
R
M
×
d
τ
\tau_\theta(y)\in\mathbb{R}^{M×d_\tau}
τθ(y)∈RM×dτ,然后通过一个交叉注意力层将其映射到UNet的中间层,实现
A
t
t
e
n
t
i
o
n
(
Q
,
K
,
V
)
=
s
o
f
t
m
a
x
(
Q
K
T
d
)
⋅
V
\mathrm{Attention}(Q,K,V)=\mathrm{softmax}(\frac{QK^T}{\sqrt{d}})·V
Attention(Q,K,V)=softmax(dQKT)⋅V,其中:
Q
=
W
Q
(
i
)
⋅
φ
i
(
z
t
)
,
K
=
W
K
(
i
)
⋅
τ
θ
(
y
)
,
V
=
W
V
(
i
)
⋅
τ
θ
(
y
)
Q=W_Q^{(i)}·\varphi_i(z_t),K=W_K^{(i)}·\tau_\theta(y),V=W_V^{(i)}·\tau_\theta(y)
Q=WQ(i)⋅φi(zt),K=WK(i)⋅τθ(y),V=WV(i)⋅τθ(y)这里,
φ
i
(
z
t
)
∈
R
N
×
d
ϵ
i
\varphi_i(z_t)\in\mathbb{R}^{N×d_\epsilon^i}
φi(zt)∈RN×dϵi表示实现
ϵ
θ
\epsilon_\theta
ϵθ的UNet的(扁平化)中间表征,
W
V
(
i
)
∈
R
d
×
d
ϵ
i
W_V^{(i)}\in\mathbb{R}^{d×d_\epsilon^i}
WV(i)∈Rd×dϵi、
W
Q
(
i
)
∈
R
d
×
d
τ
W_Q^{(i)}\in\mathbb{R}^{d×d_\tau}
WQ(i)∈Rd×dτ和
W
K
(
i
)
∈
R
d
×
d
τ
W_K^{(i)}\in\mathbb{R}^{d×d_\tau}
WK(i)∈Rd×dτ是可学习的投射矩阵。可视化描述见图3。
基于图像条件对,然后我们通过下式学习条件LDM:
L
L
D
M
:
=
E
E
(
x
)
,
y
,
ϵ
∼
N
(
0
,
1
)
,
t
[
∣
∣
ϵ
−
ϵ
θ
(
z
t
,
t
,
τ
θ
(
y
)
)
∣
∣
2
2
]
(3)
L_{LDM}:=\mathbb{E}_{\mathcal{E}(x),y,\epsilon\sim\mathcal{N}(0,1),t}\left[||\epsilon-\epsilon_\theta(z_t,t,\tau_\theta(y))||_2^2\right]\tag{3}
LLDM:=EE(x),y,ϵ∼N(0,1),t[∣∣ϵ−ϵθ(zt,t,τθ(y))∣∣22](3)其中,
τ
θ
\tau_\theta
τθ和
ϵ
θ
\epsilon_\theta
ϵθ都是通过公式3联合优化的。这种条件机制是灵活的,因为
τ
θ
\tau_\theta
τθ可以由特定域的专家进行参数化,例如:当
y
y
y是文本提示时,可以是(unmasked)transformers。
4. Experiments
LDM提供了折衷灵活和易于计算的基于扩散的图像合成方法,也包括各种图像模态的高分辨率生成,我们在下面的实验中展示这一点。首先,我们分析了与基于像素的扩散模型相比,我们模型在训练和推理上的增益。有趣的是,我们发现在VQ-regularized潜在空间中训练的LDM取得了更好的样本质量,尽管VQ-regularized第一阶段模型的重建能力略低于连续模型,见表8。因此,除非另有说明,我们在文章的剩余部分对VQ-regularized LDM进行评估。第一阶段正则化方案对LDM训练的影响及其对分辨率高于 25 6 2 256^2 2562的泛化能力的直观比较见附录C.1。在D.2中,我们还列出了本节呈现的所有结果的结构、实现、训练和评估的细节。
4.1. On Perceptual Compression Tradeoffs
本节分析具有不同下采样系数
f
∈
{
1
,
2
,
4
,
8
,
16
,
32
}
f\in\{1,2,4,8,16,32\}
f∈{1,2,4,8,16,32}的LDM的表现(缩写为
L
D
M
LDM
LDM-
f
f
f,其中
L
D
M
LDM
LDM-
1
1
1对应于基于像素的DM)。为了获得可比较的测试领域(test-field),我们将计算资源固定成单个NVIDIA A100用于本节的所有实验,并以相同的steps使用相同的参数训练所有模型。表8显示了本节中比较的用于LDM第一阶段模型的超参数和重建性能。图5展示了ImageNet数据集上类别条件模型2M steps的样本质量随训练进程的变化。我们发现,①对于
L
D
M
LDM
LDM-
{
1
,
2
}
\{1,2\}
{1,2},较小的下采样系数会导致训练过程缓慢,而②过大的
f
f
f值会导致相对较少的训练步数后保真度停滞。再看上面的分析(图1和图2),我们将其归因于①将大部分感知压缩留给了扩散模型,②第一阶段压缩太强导致信息丢失,从而限制了可达到的质量。
L
D
M
LDM
LDM-
{
4
\{4
{4-
16
}
16\}
16}在效率和感知忠实结果之间取得了很好的平衡,这表现在经过2M的训练steps后,基于像素的扩散(
L
D
M
LDM
LDM-
1
1
1)和
L
D
M
LDM
LDM-
8
8
8之间的FID差距高达38。
在图6中,我们比较了在CelebA-HQ和ImageNet上训练的模型在使用DDIM采样器进行不同数量的去噪步骤时的采样速度,并将其与FID-scores进行对比。LDM- { 4-8 }优于感知压缩和概念压缩比例不合适的模型。特别是与基于像素的LDM - 1相比,它们实现了更低的FID分数,同时显著提高了样品吞吐量。
L
D
M
LDM
LDM-
{
4
\{4
{4-
8
}
8\}
8}的表现优于感知和概念压缩比例不合适的模型。特别是与基于像素的
L
D
M
LDM
LDM-
1
1
1相比,它们取得了更低的FID分数,同时显著提高了样品吞吐量。像ImageNet这样的复杂数据集需要降低压缩率以避免降低质量。综上,我们观察到
L
D
M
LDM
LDM-
4
4
4和-
8
8
8处于实现高质量合成结果的最佳表现组织方法。
4.2. Image Generation with Latent Diffusion
我们在CelebA-HQ、FFHQ、LSUN-Churches和-Bedrooms上训练
25
6
2
256^2
2562张图像的无条件模型,并使用①FID和②Precision-and-Reall评估了①样本质量和②它们对数据流形的覆盖。表1总结了我们的结果。在CelebA-HQ上,我们报告了FID的新SOTA,5.11,超过了以前基于似然的模型以及GANs。我们也优于LSGM,其中的潜在扩散模型与第一阶段是联合训练的。相比之下,我们在一个固定的空间中训练扩散模型,在潜在空间中避免了权衡重建质量和学习先验的困难,见图1-2。我们在所有数据集上超过了所有方法,除了LSUN-Bedrooms,但我们在上面的分数也接近ADM,尽管只使用了它一半的参数并且只需要4倍更少的训练资源(见附录D.3.5)。此外,LDM在Precision和Recall指标上一致超过基于GAN的方法,从而证实了其基于模式覆盖似然的训练目标相对于对抗方法的优势。在图4中,我们还展示了每个数据集上的定性结果。
4.3. Conditional Latent Diffusion
4.3.1 Transformer Encoders for LDMs
通过在LDM中引入基于交叉注意力的条件,我们为以前未被用于扩散模型的各种条件模态打开了大门。对于文本到图像的图像建模,我们在LAION-400M上训练了一个以语言提示为条件的1.45B参数的模型。我们使用BERT-tokenizer并将
τ
θ
\tau_\theta
τθ实现成transformer来推理潜在编码,通过交叉注意力将其映射到UNet中。这种用于学习语言表征的特定领域专家和视觉合成的结合产生了一个强大的模型,它可以很好地推广到复杂的、用户定义的文本提示,见图7。对于定量分析,我们遵循先前的工作,在MS-COCO验证集上评估文本到图像的生成,我们的模型超过了强大的AR和基于GAN的方法,见表2。值得注意的是,应用classifier-free的扩散引导极大地提升了样本质量。为了进一步分析基于交叉注意力的条件机制的灵活性,我们还在OpenImages上训练模型基于语义布局来合成图像,并在COCO上进行微调,如图7所示。
最后,根据之前的工作,我们在表3和图4评估了我们性能最好的类别条件ImageNet模型,其根据4.1节使用
f
∈
{
4
,
8
}
f\in\{4,8\}
f∈{4,8}。这里,我们优于SOTA的扩散模型ADM,同时显著减少了计算需求和参数量。
4.3.2 Convolutional Sampling Beyond 25 6 2 256^2 2562
通过将空间对齐的条件信息与
ϵ
θ
\epsilon_\theta
ϵθ的输入相拼接,LDM可以作为高效的通用图像到图像的转变模型。我们以此训练语义合成、超分辨率和修补模型。对于语义合成,我们使用与语义图配对的景观图像,并将语义图的下采样版本与
f
=
4
f=4
f=4模型(VQ-reg)的潜在图像表征进行拼接。我们在
25
6
2
256^2
2562(从
38
4
2
384^2
3842裁剪)的输入分辨率上进行训练,但发现我们的模型可以泛化到更大的分辨率,当以卷积方式评估时,可以生成高达百万像素的图像(见图8)。我们利用这种表现还应用到4.4节中的超分辨率模型和4.5节中的修补模型,以生成
51
2
2
512^2
5122到
102
4
2
1024^2
10242之间的大图像。对于这种应用,信噪比(由潜在空间的尺度诱导)显著影响结果。
4.4. Super-Resolution with Latent Diffusion
通过拼接,直接以低分辨率图像为条件,LDM可以被高效地训练用于超分辨率。在第一个实验中,我们遵循SR3,将图像退化固定为双三次插值4倍下采样,并按照SR3的数据处理pipeline在ImageNet上进行训练。我们使用OpenImages上预训练的
f
=
4
f=4
f=4的自编码模型(VQ-reg),将低分辨率条件
y
y
y与UNet的输入拼接起来,即
τ
θ
\tau_\theta
τθ是identity。我们的定性和定量结果(见图9和表4)显示出有竞争力的性能,LDM-SR在FID上优于SR3,而SR3具有更好的IS。一个简单的图像回归模型取得了最高的PSNR和SSIM分数;然而,这些指标并不能很好地符合人类的感知,并且倾向于模糊强度而不是不完全对齐的高频细节。进一步地,我们进行了像素baseline与LDM-SR对比的用户研究。我们遵循SR3,其中人类受试者在两张高分辨率图像之间显示一张低分辨率图像并询问偏好。表5中的结果肯定了LDM-SR的良好性能。PSNR和SSIM可以通过使用事后引导机制来推动,我们通过一个感知损失来实现这个基于图像的引导器。由于双三次退化过程并不能很好地推广到不遵循该预处理的图像,因此我们还使用更多样的退化来训练一个通用模型LDM-BSR。
4.5. Inpainting with Latent Diffusion
修补是用新的内容填补图像中被掩码的区域的任务,或者因为图像中的部分内容被损坏,或者替换图像中现有但不需要的内容。我们评估了我们用于条件图像生成的通用方法如何与用于此任务的更专门、更先进的方法进行比较。我们的评估遵循LaMa的协议,这是一个最近的修补模型,它引入了一个基于快速傅里叶卷积的专门结构。我们在D.2.2节中描述了Places上的确切训练和评估协议。
我们首先分析第一阶段不同设计选择的效果。我们比较了
L
D
M
LDM
LDM-
1
1
1(即基于像素的条件DM)和
L
D
M
LDM
LDM-
4
4
4,对于KL和VQ正则化以及VQ-LDM-4在第一阶段中没有任何注意力的情况下的修补效率(见表8),后者在高分辨率下减少了解码的GPU内存。为了便于比较,我们固定所有模型的参数数量。表6.报告了在分辨率为
25
6
2
256^2
2562和
51
2
2
512^2
5122时的训练和采样吞吐量,每个epoch的总训练时间(小时)和六个epoch后验证分割的FID分数。总的来说,我们观察到基于像素和基于潜在空间的扩散模型的速度至少提高了2.7倍,同时FID分数至少提高了1.6倍。
与其它修补方法的比较见表7,可以看出,与Suvorov等人的方法相比,我们的注意力模型提高了FID衡量下的整体图像质量。未掩码图像和我们的样本之间的LPIPS略高于Suvorov等人的方法。我们将其归因于Suvorov等人的方法只产生了单个结果,与我们的LDM产生的不同结果相比,它更倾向于恢复一个平均的图像。此外,在用户研究中(表5),与Suvorov等人的方法相比人类受试者更喜欢我们的结果。
基于这些初步结果,我们还在无注意力的VQ正则化第一阶段的潜在空间中训练了一个更大的扩散模型(表7中的big)。根据Classifier Guidance,该扩散模型的UNet在其特征层次的3个层上使用注意力层,使用BigGAN残差block进行上采样和下采样,参数由215M变为387M。训练后,我们注意到在分辨率为
25
6
2
256^2
2562和
51
2
2
512^2
5122时产生的样本质量存在差异,我们猜想这是由于额外的注意力模块造成的。然而,在分辨率为
51
2
2
512^2
5122的情况下,对模型进行半个epoch的微调,可以使得模型能够适应新的特征统计,并为图像修补的FID设置了新SOTA(表7中的big, w/o attn, w/ ft)。
5. Conclusion
我们提出了潜在扩散模型,一种简单高效的方法,在不降低去噪扩散模型质量的前提下,显著提高了模型的训练和采样效率。基于此和我们的交叉注意力条件机制,我们的实验可以在没有任务特定(task-specific)结构的广泛条件图像合成任务中展示出与SOTA方法相比的良好结果。