在本章中,我们首先介绍其他5种重要的生成模型,包括变分自编码器抗网络、归一化流、自回归模型和基于能量的模型,分析它们的优点和局限性,并说明这些生成模型是如何通过纳入扩散模型而得到促进的。
1 .变分自编码器与扩散模型
变分自编码器(VAE)是一种生成模型,它可以通过学习数据的潜在空间表示来生成新的样本数据。与传统的自编码器相比,VAE 具有更强的概率建横能和更好的样本生成能力。VAE 有编码器(Encoder)和解码器(Decod两个部分。编码器将输入数据映射到潜在空间中的潜在变量,解码器则将这些潜在变量映射回原始数据空间,从而重建输入数据。在训练过程中,VAE通过最大化对数然的方式来学习模型参数。与标准自编码器不同的是,VAE还使用了一种称为“变推断”的技术来训练模型。
具体来说,VAE通过在潜在变量空间中引入一个先验分布来确保模型可以生成具有多样性的样本。这个先验分布通常是高斯分布或者混合高斯分布。在训练过程中VAE 尝试最大化重建数据的对数似然,同时最小化模型学习到的潜在变量与先验分布之间的差异。这个差异可以使用 KL 散度来度量,KL 散度是一种用于衡量两个分布之间差异的度量。VAE假设数据x可以由未观察到的潜在变量z使用条件分布p(x|z)广生,而z服从简单的先验分布π(z)。此外还需要q(z|x)来近似后验分布p(z|x),用样本x去推断z,为了保证有效雅理,我们使用变异贝叶斯方法以使证据下限(ELBO)最大化。只要参数化的似然函数p(x|z)能够以点到点的方式计算出来,并可随其参数而微分ELBO便可通过梯度下降法实现最大化。VAE的这种形式允许灵活选择编码器和解码器的模型。通营况下,这些模型表示了指数族分布,其参数是由多层神经网络生成的。VAE的核心问题是对近似后验分布q(z|x)的选取,如果选取的过于简单就无法近似真实实验,导致模型效果不好;而如果选得比较复杂,则对数似然又会很难计算。扩散模型先定义后验分布,然后通过学习生成器来匹配后验分布,这样就避免了优化后验分布,而直接优化生成器。
DDPM 可以被视作一个具有固定编码器(后验分布)的层次马尔可夫VAE。具体来说,DDPM 的前向过程对应于 VAE 中的编码器,但是这个过程的结构是一个确定的线性高斯模型。另一方面,DDPM 的逆向过程的功能就如同 VAE的解码器,但是解码器内的潜在变量与样本数据的大小相同,并且在多个解码步骤中共享同一个神经网络。
在连续时间的视角下,Song团队、Huang 团队、Kingma 团队证明了分数匹配的目标函数可以使用深度层次 VAE的证据下限(ELBO)来近似。因此,优化一个扩散模型可以被看作是训练一个无限深的层次VAE 模型。这一发现支持了一个被普遍接受的观点,即 Score SDE 扩散模型可以被视为层次化 VAE 的连续极限。
对于潜在空间中的扩散模型,潜在分数生成模型证明了 ELBO 可以被视为一个特殊的分数匹配目标。对于潜在空间中的扩散模型,ELBO 中的交叉熵项是难以处理的,但如果将基于分数的生成模型看作是一个无限深的 VAE,那么交叉熵项可以被转化为一个可处理的分数匹配目标。
2.生成对抗网络与扩散模型
生成对抗网络(GAN),通过训练两个神经网络来生成与训练数据相似的新数据。其中一个神经网络生成伪造的数据,而另一个神经网络评估这些伪造数据与真实数据的相似度。这两个神经网络同时进行训练,不断改进生成器的性能,使其生成的数据更加通真。GAN通常由两个神经网络组成:生成器G和判别器 D,生成器的目是生成与训练数据相似的新数据,而判别器的目标是区分生成器生成的伪造数据和实数据。在训练过程中,判别器会评估每个样本是否来自真实数据集,如果样本来真实数据集,则将其标记为1;如果样本来自生成器生成的数据,则将其标记为0。生成器的目标是生成与真实数据相似的样本使得判别器无法区分生成器生成的样本与真实样本的区别。对生成器G和判别器D的同时优化可以视作一个 min-max 问题。GAN的训练过程可以概括为以下几个步骤:
1.生成器接收一个随机噪声向量,并使用它来生成一些伪造数据。
2.判别器将真实数据和生成器生成的伪造数据作为输入,并输出对它们的判断结果。
3.根据判别器的结果,生成器被更新,以生成更接近真实数据的伪造数据,而判别器被更新,以更准确地区分生成器生成的伪造数据和真实数据。
GAN 有许多不同的变体和应用,可用于图像、音频和文本生成等。其中,最常见的 GAN 算法是 DCGAN(Deep Convolutional GAN),它是一种使用卷积神经网络(CNN)的 GAN 变体。除此之外,还有 WGAN(Wasserstein GAN)、CycleGAN、StarGAN等等。
GAN 的问题之一是训练过程中的不稳定性,这主要是由输入数据的分布和生成数据的分布之间不重叠导致的。一种解决方案是将噪声注入判别器的输入以扩大生成和判别器分布的支持集。利用灵活的扩散模型,Wang等人通过由扩散模型确定的自适应加噪策略表向判别器注入噪声。另一方面,GAN 可以促进扩散模型的采样速度。Xia等人证明了扩散模型采祥速度慢是由于去噪步骤中的高斯假设引起的,这个假设仅适用于小步长的情况,这就导致扩散模型需要大量去噪步骤。因此,他们提出每个去噪步骤都由条件 GAN 建模,从而允许更大的步长和更少的去噪步骤。在去噪过程的第t步,DDGAN(DenoisingDifsion GAN)使用一个生成器G(xt,t,z)来预测无噪声的原始样本x。其输入是当前有噪声的样本x和一个额外的服从标准高斯分布的潜在变量z。使用己知的高斯分布q(x-1|xt,x0')即可获得下一步去噪后样本。此外使用一个判别器D(xt-1,xt,t)来判断输入的xt-1是否为真实的去噪后样本,并与生成器进行对抗训练。实验结果表明,DDGAN在保证样本质量和多样性的同时,大大减小了需要的采样时间。