文本生成图像综述

本调查回顾了扩散模型在生成任务中广泛流行的背景下文本到图像的扩散模型。作为一份自成一体的作品，本调查首先简要介绍了基本扩散模型如何用于图像合成，然后介绍了条件或指导如何改善学习。基于这一点，我们介绍了文本到图像生成方面的最新方法。我们进一步总结了超越文本到图像生成的应用：文本指导的创意生成和文本指导的图像编辑。除了迄今为止所取得的进展，我们还讨论了现有的挑战和有前途的未来方向。

一图胜千言。正如这句老话所说，图像比纯文本更能讲述故事。当人类阅读文本中的故事时，他们可以通过想象力在脑海中绘制出相关的图像，这有助于他们更好地理解和享受。因此，设计一个能够从文本描述中自动生成视觉上逼真的图像的系统，即文本到图像的任务，是一项重要的里程碑任务，因此可以视为实现类人或通用人工智能的重要里程碑 [1]，[2]，[3]，[4]。随着深度学习的发展 [5]，文本到图像的任务已成为计算机视觉中最令人印象深刻的应用之一 [6]，[7]，[8]，[9]，[10]，[11]，[12]，[13]，[14]，[15]，[16]，[17]，[18]。

我们总结了代表性作品的文本到图像生成时间线，如图1所示。如图1所示，AlignDRAW [6]是生成自然语言图像的开创性工作，但结果不真实。之后，Text-conditional GAN [7]是第一个从字符级别到像素级别的端到端差分架构。与主要在小型数据集上的基于GAN的方法 [7]，[8]，[9]，[10]不同，自回归方法 [11]，[12]，[13]，[14]利用大规模数据生成文本到图像，具有代表性的方法包括来自OpenAI的DALL-E [11]和来自Google的Parti [14]。然而，自回归性质使这些方法 [11]，[12]，[13]，[14] 面临高计算成本和顺序误差累积的问题。

最近，有一种新兴的趋势，即扩散模型（DM）成为文本到图像生成领域的新技术前沿模型 [15]，[16]，[17]，[18]。基于扩散的文本到图像合成也在社交媒体上引起了广泛关注。过去一年中已经出现了大量关于文本到图像扩散模型的作品，而且预计在不久的将来会有更多作品出现。相关作品的数量使读者越来越难以跟上文本到图像扩散模型最新发展的步伐，除非进行全面调查。然而，据我们所知，目前还没有针对基于扩散的文本到图像生成最新进展的调查工作。相关调查工作分支 [19]，[20]，[21]，[22] 回顾了扩散模型在所有领域的进展，但它们仅限于提供有关文本到图像合成任务的有限覆盖。另一流派调查工作 [21]，[23]，[24] 专注于文本到图像任务，但仅限于基于GAN的方法，这使得它们在考虑最近扩散模型取代GAN的趋势时有些过时。本文填补了上述两个流派之间的空白，提供了基于扩散模型的文本到图像任务最新进展的全面介绍，以及对其未来发展方向的展望。

相关调查工作和论文结构。有多项工作 [19]，[22] 回顾了扩散模型在所有领域的进展，但缺乏对特定领域的详细介绍，一些工作深入研究了特定领域，包括音频扩散模型 [25] 和图扩散模型 [26]。与 [25]，[26] 相补充，本文对音频扩散模型进行了调查。通过 AI 生成内容（AIGC）的视角，这项调查还与生成 AI 的相关调查工作（参见 [27]）和 ChatGPT（参见 [28] 进行调查）有关。总体而言，本文是第一篇基于扩散模型的文本到图像任务进展的综述。我们组织了本文的其余部分如下。

第 2 节介绍了扩散模型的背景，包括对文本到图像合成很重要的指导方法。第 3 节讨论了基于扩散模型的文本到图像任务的开创性工作，包括 GLIDE [15]，Imagen [16]，Stable diffusion [17] 和 DALL-E2 [18]。第 4 节进一步讨论了第 3 节中开创性工作的后续研究，从各个方面进行了改进。通过总结最近的基准测试和分析，我们在第 5 节中从技术和伦理角度进一步评估了这些文本到图像方法。除了文本到图像生成外，我们还介绍了第 6 节中的相关任务，包括文本引导的创意生成（例如文本到视频）和文本引导的图像编辑。最后，我们回顾了超越文本到图像生成的各种应用，并讨论了面临的挑战以及未来的机会。

扩散模型（DM）也被称为扩散概率模型（diffusion probabilistic models） [29]，是一类基于马尔可夫链训练的生成模型，采用变分推断（variational inference）进行训练 [30]。DM 的学习目标是保留一个通过添加噪声对数据进行扰动的过程，即扩散，用于样本生成 [29]，[30]。作为里程碑式的工作，去噪扩散概率模型（DDPM） [30] 于 2020 年发表，随后在生成模型领域引发了指数式增长的兴趣。在这里，我们通过介绍 DDPM 之前的最相关进展和无条件 DDPM 如何工作以及作为具体示例的图像合成，提供了一个自包含的介绍。此外，我们还总结了指导在条件 DM 中如何起作用，这是理解文本条件 DM（用于文本到图像）的重要基础。

DDPM [30] 的出现主要归功于早期的两个尝试：2019 年研究的基于得分的生成模型（SGM） [31] 和早在 2015 年就出现的扩散概率模型（DPM） [29]。因此，在我们介绍DDPM之前，回顾DPM [29] 和 SDE [31] 的工作机制非常重要。

扩散概率模型（DPM）。DPM [29] 是第一项通过估计将数据映射到简单分布的马尔可夫扩散链的反转来建模概率分布的工作。具体来说，DPM [29] 定义了一个正向（推理）过程，该过程将复杂的数据分布转换为更简单的分布，然后通过反转扩散过程来学习映射。在多个数据集上的实验结果表明，DPM 在估计复杂数据分布时是有效的。可以将 DPM [29] 视为 DDPM [30] 的基础，而 DDPM [30] 通过改进实现来优化 DPM [29]。基于得分的生成模型（SGM）。关于改进基于得分的生成模型的技术也已在 [31]，[32] 中进行了研究。SGM [31] 提出通过不同幅度的随机高斯噪声对数据进行扰动。使用对数概率密度的梯度作为得分函数 [31]，SGM 生成样本以减少噪声水平，并通过估计噪声数据分布的得分函数来训练模型。尽管动机不同，SGM 与 DDPM 在训练过程中的优化目标相似，这一点在 [30] 中也有讨论，即在某种参数化下，DDPM 等同于 SGM 在训练过程中。[32] 探讨了 SGM 的改进变体，以便将其推广到高分辨率图像。

去噪扩散概率模型（DDPM）被定义为一种参数化的马尔可夫链，该模型在推理过程中经过有限次转换从噪声中生成图像。在训练过程中，转换核以与通过噪声扰动自然图像相反的方向进行学习，其中在每个步骤中向数据添加噪声，并将其作为优化目标进行估计。

正向传递。在正向传递中，DDPM是一个马尔可夫链，其中在每个步骤中向数据添加高斯噪声，直到图像被破坏。

反向传递。根据上述正向传递的定义，我们可以使用反向过程训练转换核。

考虑到DDPM和SGM之间的优化目标相似性，它们在[34]中从随机微分方程的视角统一起来，允许更灵活的采样方法。

标签提高了图像合成质量。早期关于生成对抗模型（GAN）的工作表明，类标签可以提高图像合成质量 [35]，[36]，[37]，[38]，[39]。作为一项开创性的工作，条件GAN [35]将类标签作为模型的额外输入层。此外，[40]在图像生成中应用了类条件归一化统计数据。此外，AC-GAN [38]明确添加了一个辅助分类器损失。换句话说，标签可以通过提供条件输入或通过辅助分类器指导图像合成，从而帮助提高GAN的图像合成质量。遵循这些成功的实践，[41]将类条件归一化和辅助分类器引入扩散模型。为了区分标签信息是作为条件输入还是作为带有梯度的辅助损失添加的，我们遵循 [41] 的定义，将条件扩散模型和指导扩散模型定义如下。条件扩散模型：条件扩散模型通过将附加信息（例如类和文本）作为模型输入来学习它们。指导扩散模型：在指导扩散模型的训练过程中，类诱导的梯度（例如通过辅助分类器）参与采样过程。无分类器指导。与利用额外分类器的指导扩散模型[41]不同，在[42]中，发现可以通过生成模型本身获得指导，而无需分类器，称为无分类器指导。具体来说，无分类器指导通过联合训练一个单一模型，其中包含无条件得分估计器εθ(x)和条件εθ(x,c)，其中c表示类标签。在无条件部分中放置一个空令牌∅作为类标签，即εθ(x) = εθ(x,∅)。实验结果在[42]中表明，无分类器指导在质量和多样性之间实现了与分类器指导类似的权衡。无需使用分类器，无分类器扩散可以促进更多模态，例如文本到图像中的文本作为指导。

在本节中，我们将介绍基于扩散模型的开拓性文本到图像框架，这些框架可以根据扩散先验在哪里进行大致分类，即像素空间或潜在空间。第一类方法直接从高维像素级别生成图像，包括 GLIDE [15] 和 Imagen [16]。另一类工作提议首先将图像压缩到低维空间，然后在这个潜在空间上训练扩散模型。属于潜在空间类别的方法包括 Stable Diffusion [17]、VQ-diffusion [43] 和 DALL-E 2 [18]。

GLIDE：基于扩散模型的第一篇文本到图像工作。本质上，文本到图像是文本条件下的图像合成。因此，将类条件扩散模型中的标签替换为文本，使采样生成依赖于文本是很直观的。如第2.3节所述，指导扩散可以改善条件扩散模型的样本的真实感 [41]，其无分类器变体 [42] 可以方便地处理自由形式的提示。受此启发，GLIDE [15] 通过将原始类标签替换为文本，在文本到图像中采用无分类器指导。GLIDE [15] 还研究了 CLIP 指导，但人类评估者不太喜欢它，因为它在样本真实感和标题相似性方面不如无分类器指导。作为他们框架中的一个重要组成部分，文本编码器被设置为具有24个残差块的变压器 [44]，宽度为2048（大约1.2B个参数）。实验结果表明，GLIDE [15] 在 FID 和人类评估方面都优于 DALL-E [11]。图2展示了由 GLIDE 生成的示例图像。

Imagen：

使用预训练语言模型进行文本编码。继 GLIDE [15] 之后，Imagen [16] 采用无分类器指导进行图像生成。GLIDE 和 Imagen 之间的核心区别在于它们选择文本编码器的不同，如图3所示。具体来说，GLIDE 使用成对的图像-文本数据与扩散先验一起训练文本编码器，而 Imagen [16] 采用预训练且冻结的大型语言模型作为文本编码器。冻结预训练编码器的权重有助于离线文本嵌入，这减少了文本到图像扩散先验在线训练的计算负担。此外，文本编码器可以在图像-文本数据（例如 CLIP [45]）或纯文本语料库（例如 BERT [46]、GPT [47]、[48]、[49] 和 T5 [50]）上进行预训练。纯文本语料库的规模远大于成对的图像-文本数据，这使得那些大型语言模型接触到丰富且分布广泛的文本。例如，BERT [46] 中使用的纯文本语料库大约为 20GB，而 T5 [50] 中使用的纯文本语料库大约为 800GB。使用不同大小的 T5 [50] 变体作为文本编码器，[16] 发现增加语言模型的大小比在 Imagen 中增大扩散模型的大小更能提高图像保真度和图像-文本对齐。

Stable Diffusion：里程碑式的潜在空间框架。训练潜在空间上的扩散模型的一个代表性框架是 Stable Diffusion，它是 Latent Diffusion Model (LDM) [17] 的一个扩展版本。遵循 Dall-E [11] 采用 VQ-VAE 学习视觉码本的思路，Stable Diffusion 在第一阶段应用了 VQ-GAN [51]。值得注意的是，VQ-GAN 通过添加对抗性目标来增加合成图像的自然度，从而改进了 VQ-VAE。使用预训练的 VAE，Stable Diffusion 逆转了通过添加噪声扰动潜在空间的正向扩散过程。Stable Diffusion 还引入了交叉注意力作为各种条件信号（如文本）的一般条件。实验结果 [17] 表明，在降低复杂度和保持细节方面，在潜在空间上进行扩散建模显著优于在像素空间上进行建模。类似的做法也已在 VQ-diffusion [43] 中进行了研究，其中采用了 mask-then-replace 的扩散策略。类似于像素空间方法中的发现，无分类器指导也在潜在空间上的文本到图像扩散模型中显著提高了性能 [17]、[52]。

DALL-E2：具有多模态潜在空间的模型

。在潜在空间上的文本到图像扩散模型的另一流派依赖于多模态对比模型 [45]、[53]、[54]，其中图像嵌入和文本编码在相同的表示空间中匹配。例如，CLIP [45] 是学习多模态表示的先驱工作，并在众多文本到图像模型中得到了广泛应用 [18]、[55]。应用CLIP的一个代表性工作是 DALL-E 2，也称为 unCLIP [18]，它采用 CLIP 文本编码器，但用从CLIP潜在空间生成图像的扩散模型替换CLIP图像编码器。这种编码器和解码器的组合与LDM中采用的VAE [51] 结构相似，尽管逆解码器是非确定性的 [18]。因此，剩下的任务是训练一个先验，以弥合CLIP文本和图像潜在空间之间的鸿沟，我们简称为文本-图像潜在先验。如 Figure 5所示，DALL-E2 [18] 发现这个先验可以通过自回归方法或扩散模型进行学习，但扩散先验取得了更好的性能。此外，实验结果表明，去掉这个文本-图像潜在先验会导致性能大幅下降 [18]，这突出了学习文本-图像潜在先验的重要性。受到DALL-E 2中文本-图像潜在先验的启发，clip2latent [55] 提出训练一个扩散模型，该模型弥合CLIP嵌入与预训练生成模型（例如 StyleGAN [56]、[57]、[58]）之间的鸿沟。具体来说，扩散模型被训练为从CLIP图像嵌入生成StyleGAN的潜在空间。在推理过程中，StyleGAN的潜在空间直接从文本嵌入生成，就像它们是图像嵌入一样，这使得语言无关的训练成为可能，与 [59]、[60] 中的文本到图像扩散相同。

在选择指导方面。除了无分类器指导外，一些工作 [15]、[61]、[62] 还探索了使用CLIP [45] 的跨模态指导。具体来说，GLIDE [15] 发现CLIP指导的性能不及无分类器指导的变体。相比之下，另一项工作UPainting [63] 指出，由于缺乏大规模的转换器语言模型，这些具有CLIP指导的模型难以编码文本提示并生成具有细节的复杂场景。通过结合大型语言模型和跨模态匹配模型，UPainting [63] 显著提高了生成的图像的样本保真度和图像-文本对齐。UPainting [63] 的通用图像合成能力使其能够生成简单和复杂场景中的图像。关于去噪器的选择。默认情况下，推理期间DM会在同一去噪器模型上重复去噪过程，这对于无条件图像合成是有意义的，因为目标只是获得高保真度的图像。

在文本到图像的合成任务中，生成的图像还需要与文本对齐，这意味着去噪器模型需要在两个目标之间进行权衡。具体来说，最近的两项工作 [64]、[65] 指出了一种现象：早期采样阶段强烈依赖于文本提示以达到与标题对齐的目标，但后期阶段则专注于提高图像质量，几乎忽略了文本指导。因此，他们放弃了在去噪过程中共享模型参数的做法，并提出采用多个专门针对不同生成阶段的去噪器模型。具体来说，ERNIE-ViLG 2.0 [64] 还通过文本解析器和对象检测器的指导缓解了对象-属性问题，提高了精细的语义控制。

尽管像Imagen [16]和DALL-E2 [18]这样的文本到图像的扩散模型具有前所未有的高图像保真度和标题相似性，但它们大多不提供对空间布局的精细控制。为此，SpaText [66]引入了空间文本（ST）表示，可以将其纳入到SOTA DM中进行微调，以适应其解码器。具体来说，新编码器对局部ST和现有全局文本进行条件化。因此，SpaText [66]的核心在于ST，其中扩散先验单独训练，以将CLIP中的图像嵌入转换为文本嵌入。在训练期间，ST通过使用输入分割图像对象的CLIP图像编码器直接生成。另一项并行工作 [67]提出通过简单的草图图像实现精细的局部控制。他们的方法的核心是一个潜在指导预测器（LGP），它是一个像素级的MLP，将噪声图像的潜在特征映射到其相应的草图输入的潜在特征。经过训练后（更多训练细节参见 [67]），LGP可以部署到预训练的文本到图像的扩散模型中，而无需进行微调。

关于文本到图像生成的最早工作 [15]、[16]、[17]、[18] 依赖于自然语言来描述生成图像的内容和风格。然而，有些情况下，文本无法准确地描述用户所需的语义，例如生成新的主题。为了合成具有某些概念或主题的新场景， [68]、[69] 引入了几个参考图像，其中包含所需的概念，然后将参考图像倒置为文本描述。具体来说， [68] 将一对参考图像中的共享概念倒置为文本（嵌入）空间中的“伪词”。生成的“伪词”可用于个性化生成。DreamBooth [69] 采用类似的技术，主要区别在于对预训练的DM模型进行微调（而不是冻结），以保留主体身份的关键视觉特征。

SOTA文本到图像模型的出色性能基于一个假设，即模型已经很好地接触到了描述常见实体的训练风格。然而，当实体很稀有，或者所需的风格与训练风格大相径庭时，这个假设就不再成立。为了缓解分布之外的性能下降，多篇论文 [70]、[71]、[72]、[73] 利用了外部数据库作为记忆的检索技术。这种技术最初在自然语言处理领域受到关注 [74]、[75]、[76]、[77]、[78]，最近在基于GAN的图像合成中也有所应用 [79]，将完全参数化的模型转变为半参数化的模型。受到这一启发，[70] 增强扩散模型与检索相结合。一个检索增强的扩散模型（RDM） [70] 包括一个条件扩散模型和一个图像数据库，该数据库被解释为模型的一个明确部分。通过使用CLIP进行距离测量，为每个查询（即训练样本）查询k-最近邻居。扩散先验由固定CLIP图像编码器的KNN邻居的更具信息性的嵌入指导，而不是文本嵌入。KNN-diffusion [71] 采用基本相似的做法，主要区别在于使扩散先验额外地根据文本嵌入进行条件化，以提高生成的样本质量。这一实践也被后续的Re-Imagen [73]所采用。与具有两阶段框架的RDM [70]和KNN-diffusion [71]相比，Re-Imagen [73]采用单阶段框架，并选择K-NN邻居的距离不是在潜在空间中测量。此外，Re-Imagen还允许检索到的邻居既可以是图像也可以是文本。如[73]所述，Re-Imagen在COCO基准数据集上比KNN-diffusion有很大优势。

图像质量和文本-图像对齐是评估文本到图像模型的两个主要标准，这表明了生成图像的逼真度和与文本语义的对齐情况。评估图像质量的常见指标是 Frechet Inception Distance (FID) [81]，它测量合成图像和真实世界图像之间的 Frechet 距离 [82]（也称为 Wasserstein-2 距离 [83]）。我们在表 1 中总结了 MS-COCO 数据集上代表性方法的评估结果，以供参考。FID 越小，图像逼真度越高。为了衡量文本-图像对齐，广泛使用了 CLIP 分数 [84]，该分数与 FID 相权衡。还有其他用于文本到图像评估的指标，包括用于图像质量的 Inception 分数 (IS) [85] 和用于文本到图像生成的 R-precision [9]。

最近的评估基准除了上述的自动指标外，还有多篇论文涉及人工评估，并提出了新的评估基准[14]、[16]、[63]、[73]、[80]、[86]、[87]。我们将在表2中总结代表性基准。为了更好地评估保真度和文本-图像对齐，DrawBench [16]、PartiPropts [14]和UniBench [63]要求人类评分员比较不同模型的生成图像。具体来说，UniBench [63]提议在简单和复杂场景下评估模型，并包括中文和英文提示词。PartiPropts [14]引入了1600多种（英文）提示词，并提出了一个挑战维度，强调为什么这个提示词是困难的。为了从更多方面评估模型，PaintSKills [80]除了评估图像质量和文本-图像对齐外，还评估了视觉推理技能和社交偏见。然而，PaintSKills [80]只关注未出现物体-颜色和物体-形状的情况[63]。EntityDrawBench [73]进一步评估了具有不同场景中不同罕见实体的模型。与PartiPropts [14]不同，Multi-Task Benchmark [86]提出了32个任务，这些任务评估不同的能力，并将每个任务分为三个难度级别。

数据集带来的伦理风险。文本到图像生成是一项高度数据驱动的任务，因此，在大量未经筛选的数据上训练的模型可能会加强数据集中的偏见，从而带来伦理风险。[88]在Stable diffusion [17]生成的图像中发现大量不适当的内容（例如，冒犯、侮辱或威胁性的信息），并首次建立了一个新的测试平台来评估它们。此外，它还提出了Safe Latent Diffusion，该方法通过额外的指导成功地删除和抑制了不适当的内容。另一个伦理问题是社交群体的公平性，已在[89]、[90]中进行了研究。具体来说，[89]发现文本描述中的简单同形替换会导致模型的文化偏见，即从不同文化中生成图像。[90]引入了一个Ethical NaTural Language Interventions in Text-to-Image GENeration（ENTIGEN）基准数据集，该数据集可以通过三个轴（性别、肤色和文化）评估伦理干预对生成图像的变化。通过干预文本提示，[90]从社会多样性的角度改进了diffusion模型（例如，Stable diffusion [17]）。

恶意滥用。文本到图像的扩散模型在生成高质量图像方面展示了其威力。然而，这也引发了一个很大的担忧，即生成的图像可能被用于恶意目的，例如伪造电子证据[91]。DE-FAKE [91]是第一个对文本到图像扩散模型的视觉伪造进行系统研究的项目，旨在区分生成的图像和真实的图像，并进一步追踪每个伪造图像的源模型。为了实现这两个目标，DE-FAKE [91]从视觉模态的角度进行分析，发现不同扩散模型生成的图像具有共同特征，并且也呈现了独特的模型指纹。两篇同时发表的作品[92]、[93]探讨了检测伪造图像的方法，既评估了现有检测方法在扩散模型生成的图像上的性能，又分析了GAN和扩散模型生成的图像的频率差异。与GAN相比，检测方法在扩散模型生成的图像上的性能大幅下降。此外，[92]认为现有方法的失败是由于扩散模型和GAN生成的图像之间高频的不匹配。另一篇作品[94]从艺术家的角度讨论了艺术图像生成的问题。虽然同意艺术图像生成可能是艺术发展的有前途的模态，[94]指出如果不妥善使用，艺术图像生成可能会导致抄袭和利润转移（艺术市场中的利润从艺术家转移到模型所有者）问题。

安全和隐私风险。虽然文本到图像的扩散模型引起了极大的关注，但迄今为止，安全和隐私风险一直被忽视。两篇开创性的作品[95]、[96]分别讨论了后门攻击和隐私问题。受[89]中发现的启发，一个简单的词替换可以改变模型的文化偏见，[95]提出了将后门注入预训练的文本编码器中，这将迫使生成的图像遵循特定的描述或包含某些属性，如果触发器存在于文本提示中。[96]是第一个分析文本到图像生成模型中的成员泄露问题，其中推断某个图像是否用于训练目标文本到图像模型。具体来说，[96]提出了关于成员信息的三个直观和相应的四种攻击方法。实验表明，所有提出的攻击方法都取得了令人印象深刻的结果，突出了成员泄露的威胁。

除了文本到图像的生成之外，扩散模型的最新进展还启发了多个有趣的应用，包括艺术绘画[72]、[72]、[97]、[98]、[99]、[100]、[101]、[102]和文本指导的图像编辑[103]、[104]、[105]。

艺术绘画是一个有趣且富有想象力的领域，可以从生成模型的成果中受益。尽管基于 GAN 的绘画取得了进展 [106]，但它们仍然受到 GAN 带来的不稳定训练和模型崩溃问题的困扰。最近，基于扩散模型的多项工作展示了令人印象深刻的绘画图像，研究了改进的提示和不同的场景。多模态引导艺术品扩散（MGAD） [97] 通过多模态引导（文本和图像）来优化扩散模型的生成过程，并在生成的数字艺术品的质量和多样性方面取得了出色的结果。为了保持输入图像的内容全局性，DiffStyler [98] 提出了一种可控的双扩散模型，该模型在内容图像的扩散过程中具有可学习的噪声。在推理过程中，可以通过两个扩散模型学习明确的内容和抽象美学。实验结果表明，DiffStyler [98] 在定量指标和手动评估方面均取得了优异的结果。为了提高 Stable Diffusion 模型的创造力，[99] 提出了文本条件扩展和模型重新训练的两个方向，使用 Wikiart 数据集，使用户能够要求著名艺术家绘制新颖的图像。[100] 通过使用一组图像进行美学风格的定制，使文本到图像的生成个性化。而 [101] 将生成的图像扩展为可缩放矢量图形（SVGs），用于数字图标或艺术。

文本到视频。由于视频只是一系列图像，文本到图像的一个自然应用就是根据输入的文本生成视频。从概念上讲，文本到视频的扩散模型（DM）位于文本到图像的扩散模型和视频扩散模型之间的交集。关于文本到视频的扩散模型，有两个开创性的工作：Make-A-Video [107] 将预训练的文本到图像的扩散模型适应于文本到视频，Video Imagen [108] 将现有的视频扩散模型扩展为文本到视频。Make-A-Video [107] 通过在预训练的文本到图像模型中包含时间信息来生成高质量的视频，并训练空间超分辨率模型和帧插值模型以提高视觉质量。利用预训练的文本到图像模型和无监督学习的视频数据，Make-A-Video [107] 成功地加速了文本到视频模型的训练，而不需要成对的文本-视频数据。相比之下，Imagen Video [108] 是一个由级联视频扩散模型组成的文本到视频系统 [109]。对于模型设计，Imagen Video [108] 指出，文本到图像中的一些最新发现（例如“冻结编码器文本条件”）可以转移到视频生成中，而视频扩散模型的发现（例如“v-prediction 参数化”）也为一般扩散模型提供了见解。文本到故事生成（故事合成）。文本到视频的成功自然激发了小说到电影的未来方向。Make-A-Story [110] 和 AR-LDM [111] 展示了 DM 在故事可视化方面的潜力，即生成与基于文本的故事相匹配的视频。与一般的文本到视频任务不同，故事可视化要求模型根据故事的进展情况，在每一帧中考虑是否保持帧与场景之间的人物和背景的一致性 [110]。为了解决这个问题，Make-A-Story [110] 提出了一种基于自回归扩散的框架，其中视觉记忆模块隐式地捕获帧中的人物和背景上下文。为了实现场景之间的连贯性，Make-A-Story [110] 提出了一种基于记忆的句子条件软注意力机制，用于解决视觉语言共指解析问题。另一项并行工作 AR-LDM [111] 也专注于基于稳定扩散模型的文本到故事生成任务 [17]。AR-LDM [111] 不仅受到当前标题的指导，还受到先前生成的图像（即每个帧的图像-标题历史）的指导。这使得 AR-LDM 能够生成跨帧的相关和连贯的图像。此外，AR-LDM [111] 显示了对未出现角色的连贯性，并且还显示了在新引入的数据集 VIST [112] 上进行真实世界故事合成的能力。

3D 对象生成。显然，3D 对象的生成比其 2D 对等物（即 2D 图像合成任务）要复杂得多。DeepFusion [113] 是第一个成功将扩散模型应用于 3D 对象合成的作品。受 Dream Fields [114] 的启发，该作品将 2D 图像-文本模型（即 CLIP）应用于 3D 合成，DeepFusion [113] 使用预训练的 2D 扩散模型（即 Imagen）对随机初始化的 NeRF [115] 进行训练。然而，根据 Magic3D [116] 的说法，NeRF 的低分辨率图像监督和极其缓慢的优化导致 DeepFusion [113] 的生成质量较低且处理时间较长。为了获得更高分辨率的结果，Magic3D [116] 提出了一个粗到细的优化方法，其中粗表示作为第一步的初始化，并使用高分辨率扩散先验优化网格表示。Magic3D [116] 还通过稀疏 3D 哈希网格结构加速了生成过程。3DDesigner [117] 关注另一个 3D 对象生成的议题，即一致性，它表示跨视对应关系。使用基于 NeRF 的条件模块的低分辨率结果作为先验，一个双流异步扩散模块进一步增强了一致性，并实现了 360 度一致的结果。

在 DM 变得流行之前，零样本图像编辑一直由 GAN 反转方法[45]、[118]、[119]、[120]、[121]、[122]、[123]与 CLIP 相结合所主导。然而，GAN 往往受到有限的反转能力的限制，导致图像内容发生意外的变化。

DiffusionCLIP [103] 是一个开创性的工作，通过将 DM 引入到缓解此问题。具体来说，它首先采用预训练的 DM 将输入图像转换为潜在空间，然后使用由两个项组成的损失（局部定向 CLIP 损失 [124] 和身份损失）对 DM 进行反向路径上的微调。前者用于指导目标图像与文本对齐，后者减少不必要的更改。为了实现完全反演，它采用了确定性 DDIM [125] 而不是 DDPM 反向过程 [30]。受益于 DM 出色的反演属性，DiffusionCLIP [103] 在域内和域外操作方面均表现出卓越的性能。DiffusionClip 的一个缺点是它需要模式进行微调以转移到新域。为了避免微调，LDEdit [104] 提出了 DDIM 和 LDM 的组合。具体来说，LDEdit [104] 在潜在空间中采用确定性正向扩散，然后使逆过程以目标文本为条件。尽管简单，但它在一系列广泛的图像编辑任务中表现出色，构成了一个通用的框架。

为了解决简单修改文本提示可能导致不同输出的问题，Prompt-to-Prompt [126] 提出在扩散过程中使用交叉注意力图，该图表示图像像素与文本提示中每个单词之间的关系。在图像到图像的翻译任务中，[127] 还研究了扩散潜在空间中的语义特征，并发现操纵模型内的空间特征和自注意力可以控制图像翻译过程。DiffusionIT [105] 还提出了一种无监督的图像翻译方法，该方法将风格和内容表示解耦。作为定义的重新表述，CycleDiffusion [128] 通过重新表述扩散模型的潜在空间统一了生成模型，并表明扩散模型可以与 GANs 类似地引导。

直接反演 [129] 采用了类似的两个步骤过程，即对图像进行编码以得到相应的噪声，然后使用反转噪声生成编辑后的图像。然而，直接反演 [129] 并不需要优化或模型微调。在生成过程中，扩散模型从噪声向量开始，可以通过迭代去噪来生成图像。对于图像编辑任务，需要从图像到噪声的精确映射过程。除了 DDPM [30]，DDIM [125] 已被广泛应用于其近乎完美的反演 [103]。然而，由于局部线性化假设，DDIM [125] 可能会导致错误图像重建的误差传播 [130]。为了缓解这个问题，Exact Diffusion Inversion via Coupled Transformations (EDICT) [130] 提出在扩散过程中维护两个耦合的噪声向量，并实现了比 DDIM [125] 更高的重建质量。然而，EDICT [130] 的计算时间几乎是 DDIM [125] 的两倍。另一项工作 Null-text In- version [131] 通过 Diffusion Pivotal Inversion 和 null-text 优化改进了图像编辑。受发现启发，DDIM [125] 中累积的误差在无条件扩散模型中可以忽略不计，但在图像编辑中应用大规模指导 w 的分类器引导时会放大。因此，[131] 提出将初始 DDIM 反转作为关键轨迹，并使用标准指导 w > 1 进行优化。此外，[131] 还提出将 null-text 的嵌入替换为优化的嵌入（Null-text 优化），以实现真实图像的高保真度编辑结果。

主要在局部（带掩码）区域上操作图像构成了图像编辑任务的主要挑战。难度在于保证带掩码区域与背景之间的无缝连贯性。类似于 [103]，Blended diffusion [132] 基于预训练的 CLIP，并采用两个损失项：一个用于促进带掩码图像与文本描述之间的对齐，另一个用于保持未带掩码区域不偏离其原始内容。值得注意的是，为了确保编辑区域与剩余部分之间的无缝连贯性，它以渐进的方式将带噪声的图像与局部文本引导的扩散潜在空间进行空间混合。这种方法进一步与 LDM [17] 结合，产生一种混合潜在扩散，以加速局部文本驱动的图像编辑 [133]。对于超高分辨率设置，还研究了 Blended diffusion 的多阶段变体 [134]。上述作品 [132]、[133]、[134] 需要手动设计的掩码，以便模型能够判断要编辑的部分。相比之下，DiffEdit [135] 提出自动生成掩码，以指示要编辑的部分。具体而言，通过查询文本和参考文本条件之间的噪声估计差异来推断掩码。使用推断的掩码，DiffEdit [135] 将感兴趣区域替换为与查询文本相对应的像素。

扩散模型在文本到图像合成领域的成功依赖于大量训练样本。一个有趣的话题是如何使用单张图像训练生成模型，例如 SinGAN [136]。SinGAN [136] 可以在单张图像上训练后，生成类似的图像，并在多个任务（例如图像编辑）上表现良好。还有一些关于使用单张图像训练扩散模型的研究 [137]、[138]、[139]。SinDDM [137] 提出了一个受多尺度 SinGAN [136] 启发的分层扩散模型。卷积去噪器在各种尺度的图像上进行训练，这些图像被多级噪声损坏。与 SDEdit [140] 相比，SinDDM [137] 可以生成不同尺寸的图像。相比之下，单图像扩散模型 (Sin- Diffusion) [138] 在单个图像的单个尺度上进行训练，避免了误差的累积。此外，Sin- Diffusion [138] 提出了块级接收场，这鼓励模型学习块统计信息，而不是在先前的扩散模型中记忆整个图像 [41]。与 [137]、[138] 从零开始训练模型不同，UniTune [139] 在单张图像上微调预先训练的大型文本到图像扩散模型（例如 Imagen）。

除了3D生成之外，3DDesigner [117] 还率先通过从单个视图进行编辑实现了360度操作。给定文本后，3DDesigner [117] 首先通过获得与2D局部编辑相结合的混合噪声来生成相应的文本嵌入，然后将混合噪声映射到与视图无关的文本嵌入空间。一旦获得相应的文本嵌入，就可以生成360度结果。DATID-3D [141] 致力于另一个主题，即3D对象的文本指导领域适应，但它存在三个限制：灾难性的多样性损失、较差的文本-图像对应关系和较差的图像质量 [141]。为了解决这些问题，DATID-3D [141] 首先使用扩散模型获得多样化的姿态感知目标图像，然后通过改进的 CLIP 和过滤过程修正获得的目标图像。与最新3D生成器 EG3D [142] 一起评估，DATID-3D [141] 实现了具有多视图一致性的高分辨率目标结果。

对于更复杂的编辑，Imagic [143] 是第一个对单个图像进行基于文本的语义编辑的系统。具体来说，Imagic [143] 首先为目标文本获得优化的嵌入，该嵌入生成与输入相似的图像。然后，Imagic [143] 使用优化嵌入和重建损失微调预先训练的扩散模型，并在目标文本嵌入和优化嵌入之间进行线性插值。然后将生成的表示发送到微调后的模型中以生成编辑后的图像。除了编辑图像的属性或样式外，还有关于图像编辑的其他有趣任务。例如，Paint by example [144] 提出了语义图像合成问题，参考图像在与其他图像混合之前进行语义转换和协调 [144]。此外，MagicMix [145] 提出了一个名为语义混合的新任务，该任务将两种不同的语义（例如柯基和咖啡机）混合在一起，以创建一种新的概念（类似于柯基的咖啡机）。受到扩散模型的性质启发，该模型的布局（例如形状和颜色）和语义内容分别出现在去噪的不同时间步中，MagicMix [145] 提议在不同时间步混合两种概念。InstructPix2Pix [146] 致力于根据人类编写的指令编辑图像的任务。基于大型模型（GPT-3）和文本到图像模型（稳定的扩散），[146] 首先为这项新任务生成一个数据集，并训练一个条件扩散模型InstructPix2Pix，该模型能够很好地泛化到真实图像。然而，[146] 承认仍然存在一些限制，例如模型受到生成数据集的视觉质量的限制。

数据集偏见带来的挑战。由于这些大型模型是在收集的文本-图像对数据上训练的，这不可避免地引入了数据偏见，例如种族和性别。此外，当前模型主要或完全采用英语作为输入文本的默认语言。这可能会进一步使那些不懂英语的人处于不利地位。更丰富多样和平衡的数据集以及新方法可以消除数据偏见对模型的影响。

数据和计算方面的挑战。众所周知，深度学习的成功在很大程度上取决于标注数据。在文本到图像的DM上下文中，这一点尤为如此。例如，DALL-E 2 [18]、GLIDE [15]、Imagen [16]等主要框架都使用数亿个图像-文本对进行训练[11]、[45]。此外，计算开销非常大，这使得大公司（如OpenAI [18]、Google [16]、百度[63]）有机会从头开始训练此类模型。值得注意的是，模型大小也很大，这阻止了它们在效率导向的环境中部署，例如边缘设备。

评估方面的挑战。尽管在评估标准方面做出了尝试，但多样化和高效的评估仍然具有挑战性。首先，现有的自动评估指标有其局限性，例如FID并不总是与感知质量保持一致[16]、[148]，并且发现CLIP分数在计数方面无效[16]、[45]。需要更可靠和多样化的自动评估标准。其次，人工评估依赖于评分者之间的审美差异，并且由于效率问题而限制了提示的数量。第三，大多数基准测试通过引入各种文本提示来从不同方面评估模型。然而，人工设计的提示中可能存在偏差，并且提示的质量可能尤其在评估复杂场景时有限制。

统一的多模态框架。文本到图像生成的核心是从文本生成图像，因此可以将其视为多模态学习的一部分。大多数工作都专注于文本到图像生成的单任务，但将多个任务统一到一个模型中可以是一个有前途的趋势。例如，UniD3 [149]和Versatile Diffusion [150]将文本到图像生成和图像字幕统一到一个单一的扩散模型中。统一的多模态模型可以通过更好地学习每个模态的表示来促进每个任务。

与其他领域的合作。在过去的几年中，深度学习在多个领域取得了巨大的进步，包括自监督学习中的掩码自编码器和自然语言处理领域的最新ChatGPT。如何将文本到图像扩散模型与这些最新研究领域的发现进行合作，是一个令人兴奋的探索主题。