论文下载地址:https://arxiv.org/pdf/2112.10752.pdf
0 摘要
通过将图像形成过程分解为去噪自编码器的连续应用,扩散模型(DM)在图像数据及其他方面取得了最先进的合成结果。此外,它们的表述允许一种指导机制来控制图像生成过程,而无需重新训练。然而,由于这些模型通常直接在像素空间中操作,因此优化功能强大的扩散模型通常会消耗数百个GPU天,并且由于顺序评估而导致推理成本高昂。
- 为了使DM训练在有限的计算资源上同时保持其质量和灵活性,本文将它们应用于强大的预训练自编码器的潜在空间。
- 通过在模型架构中引入交叉注意层,本文将扩散模型转变为强大而灵活的生成器,用于一般条件输入(如文本或边界框),并以卷积方式实现高分辨率合成。
- 我们的潜在扩散模型(LDM)在图像绘制和类别条件图像合成方面取得了新的最先进的分数,并在各种任务上表现出极具竞争力的性能,包括文本到图像合成、无条件图像生成和超分辨率,同时与基于像素的DMs相比,显著降低了计算需求。
1 引言
本文做出了以下贡献:
- 我们在多个任务(无条件图像合成、图像绘制、随机超分辨率)和数据集上实现了具有竞争力的性能,同时显著降低了计算成本。与基于像素的扩散方法相比,我们还显著降低了推理成本。
- 设计了一种基于交叉注意的通用条件反射机制,实现了多模态训练。我们用它来训练类条件、文本到图像和布局到图像模型。
- 本文在 https://github.com/CompVis/latent-diffusion 上发布了预训练的潜在扩散和自动编码模型。 除了训练 DM 之外,它还可以重复用于各种任务。
2 方法
2.1 感知图像压缩
感知压缩模型基于之前的工作,由一个通过感知损失和基于补丁的对抗目标相结合训练的自动编码器组成。这确保了通过强制局部真实性将重建限制在图像流形内,并避免仅依赖像素空间损失(例如 L2 或 L1 目标)而引入的模糊。
更准确地说,给定 RGB 空间中的图像 x,编码器 E 将 x 编码为潜在表示 z = E(x),解码器 D 根据潜在图像重建图像,重要的是,编码器按因子 f = H/h = W/w 对图像进行下采样,本文研究了不同的下采样因子 f = 2 m f = 2^m f=2m,其中 m 为正整数。
2.2 潜在的扩散模型
扩散模型是概率模型,旨在通过逐渐对正态分布变量进行去噪来学习数据分布p(x),这对应于学习长度为T的固定马尔可夫链的逆过程。对于图像合成,最成功的模型 依赖于 p(x) 变分下界的重新加权变体,它反映了去噪分数匹配。
这些模型可以解释为去噪自动编码器 θ(xt; t) 的等权序列; t = 1~T,它们被训练来预测其输入xt 的去噪变体,其中 xt 是输入 x 的噪声版本。相应的目标可以简化为:
通过我们训练有素的由 E 和 D 组成的感知压缩模型,我们现在可以访问一个高效、低维的潜在空间,其中高频、不可察觉的细节被抽象出来。与高维像素空间相比,该空间更适合基于似然的生成模型,因为它们现在可以 (i)专注于数据的重要语义位,以及(ii)在较低维度进行训练,计算量大更高效的空间。
由于使用了编码器E,因此损失函数中的第t步的加噪图不再用xt表示,而用zt表示,即潜在空间的第t步的加噪图。于是LDM的训练目标函数可表示为:
2.3 条件机制
为了引入条件机制,作者设计了编码器Tθ对输入条件y进行编码;同时在原来的UNet网络中引入了多头注意力机制,使其能更好的学习相互之间的联系。
基于条件机制,引入了条件输入y,因此目标损失函数进一步改进为:
3 实验
本节分析具有不同下采样系数 f = 1;2;4;8;16;32 (缩写为LDM-f,其中LDM-1对应于基于像素的DM)。为了获得可比较的测试场,我们将本节中所有实验的计算资源固定到单个NVIDIA A100上,并以相同数量的步骤和相同数量的参数训练所有模型。
4 总结
本文提出了潜在扩散模型,这是一种简单有效的方法,可以显着提高去噪扩散模型的训练和采样效率,而不会降低其质量。基于这一点和本文的交叉注意力调节机制,与最先进的方法相比,本文的实验可以在没有特定任务架构的广泛条件图像合成任务中展示出良好的结果。