Wasserstein Generative Adversarial Networks

Abstract

我们引入了一种名为 WGAN 的新算法，它是传统 GAN 训练的替代方案。在这个新模型中，我们表明我们可以提高学习的稳定性，摆脱模式崩溃等问题，并提供对调试和超参数搜索有用的有意义的学习曲线。此外，我们表明相应的优化问题是合理的，并提供了大量的理论工作，强调了分布之间不同距离的深层联系。

1. Introduction

本文关注的问题是无监督学习的问题。主要是学习概率分布意味着什么？对此的经典答案是学习概率密度。这通常是通过定义一个参数密度族 (Pθ)θ∈Rd 并找到使我们的数据的可能性最大化的密度族来完成的：如果我们有真实的数据示例 {x(i)}m i=1，我们就可以解决问题

如果真实数据分布 Pr 承认密度，并且 Pθ 是参数化密度 Pθ 的分布，那么，渐近地，这相当于最小化 Kullback-Leibler 散度 KL(Pr||Pθ)。

为了使这一点有意义，我们需要模型密度 Pθ 存在。在我们处理低维流形支持的分布的相当常见的情况下，情况并非如此。那么模型流形和真实分布的支持度不太可能有不可忽略的交集（参见（Arjovsky & Bottou，2017）），这意味着 KL 距离未定义（或只是无限）

典型的补救措施是向模型分布添加噪声项。这就是为什么经典机器学习文献中描述的几乎所有生成模型都包含噪声成分。在最简单的情况下，假设高斯噪声具有相对较高的带宽，以便涵盖所有示例。例如，众所周知，在图像生成模型的情况下，这种噪声会降低样本的质量并使其变得模糊。例如，我们可以在最近的论文（Wu et al., 2016）中看到，当像素已经标准化时，在最大化似然时添加到模型中的噪声的最佳标准偏差对于生成图像中的每个像素约为 0.1 位于 [0, 1] 范围内。这是一个非常高的噪声量，以至于当论文报告其模型的样本时，他们没有添加报告似然数的噪声项。换句话说，添加的噪声项对于该问题显然是不正确的，但需要使最大似然方法发挥作用。

我们可以定义一个具有固定分布 p(z) 的随机变量 Z，并将其传递给参数函数 gθ : Z → X（通常是某种神经网络），而不是估计可能不存在的 Pr 的密度，该函数直接生成遵循特定分布 Pθ 的样本。通过改变 θ，我们可以改变这个分布，使其接近真实的数据分布 Pr。这有两个用途。首先，与密度不同，这种方法可以表示局限于低维流形的分布。其次，轻松生成样本的能力通常比了解密度的数值更有用（例如，在图像超分辨率或语义分割中，考虑给定输入图像的输出图像的条件分布）。一般来说，在给定任意高维密度的情况下生成样本在计算上是困难的（Neal，2001）。

变分自动编码器（VAE）（Kingma & Welling，2013）和生成对抗网络（GAN）（Goodfellow 等人，2014）是这种方法的众所周知的例子。由于 VAE 关注的是示例的近似可能性，因此它们具有标准模型的局限性，并且需要处理额外的噪声项。 GAN 在目标函数的定义方面提供了更大的灵活性，包括 Jensen-Shannon（Goodfellow 等人，2014 年）和所有 f 散度（Nowozin 等人，2016 年）以及一些奇异的组合（Huszar，2015 年）。另一方面，众所周知，训练 GAN 非常脆弱且不稳定，其原因在（Arjovsky & Bottou，2017）中进行了理论研究。

在本文中，我们将注意力集中在衡量模型分布与真实分布的接近程度的各种方法上，或者等效地，将注意力集中在定义距离或散度 ρ(Pθ, Pr) 的各种方法上。这些距离之间最根本的区别是它们对概率分布序列收敛的影响。当且仅当存在一个分布 P∞ 使得 ρ(Pt, P∞) 趋向于零时，分布序列 (Pt)t∈N 收敛，这取决于距离 ρ 的定义方式。非正式地说，当距离 ρ 使分布序列更容易收敛时，它会导致较弱的拓扑。第 2 节阐明了流行的概率距离在这方面有何不同。

为了优化参数 θ，当然需要以使得映射 θ → Pθ 连续的方式定义我们的模型分布 Pθ。连续性意味着当参数序列 θt 收敛到 θ 时，分布 Pθt 也收敛到 Pθ。然而，必须记住分布 Pθt 收敛的概念取决于我们计算分布之间距离的方式。这个距离越弱，就越容易定义从 θ 空间到 Pθ 空间的连续映射，因为分布更容易收敛。我们关心映射 θ → Pθ 是连续的主要原因如下。如果 ρ 是两个分布之间距离的概念，我们希望损失函数 θ → ρ(Pθ, Pr) 是连续的，这相当于使用距离时映射 θ → Pθ 是连续的分布 ρ 之间。

本文的贡献是：

• 在第2 节中，我们提供了关于地球移动器Earth Mover(EM) 距离与学习分布环境中使用的流行概率距离和散度的比较的全面理论分析。

• 在第 3 节中，我们定义了一种称为 Wasserstein-GAN 的 GAN 形式，它最小化了 EM 距离的合理且有效的近似，并且我们从理论上证明了相应的优化问题是合理的。

• 在第 4 节中，我们凭经验证明 WGAN 解决了 GAN 的主要训练问题。特别是，训练 WGAN 不需要在判别器和生成器的训练中保持仔细的平衡，也不需要仔细设计网络架构，并且还减少了 GAN 中常见的模式丢弃。 WGAN 最引人注目的实际好处之一是能够通过训练判别器达到最优来连续估计 EM 距离。因为它们与观察到的样本质量密切相关，所以绘制这些学习曲线对于调试和超参数搜索非常有用。

2. Different Distances

我们现在介绍我们的符号。令 X 为紧致度量集，即图像 [0, 1]d 的空间，并令 Σ 表示 X 的所有 Borel 子集的集合。令 Prob(X) 表示在 X 上定义的概率测度的空间。我们现在可以定义两个分布 Pr, Pg ∈ Prob(X) 之间的基本距离和散度：

以下示例说明了简单的概率分布序列如何在 EM 距离下收敛，但在上面定义的其他距离和散度下不收敛。

示例 1 给出了一种情况，我们可以通过对 EM 距离进行梯度下降来学习低维流形上的概率分布。这不能用其他距离和散度来完成，因为所得的损失函数甚至不是连续的。尽管这个简单示例的特征是具有不相交支撑的分布，但当支撑具有包含在一组测度零中的非空交集时，同样的结论成立。当两个低维流形在一般位置相交时就会出现这种情况（Arjovsky & Bottou，2017）。

由于 Wasserstein 距离比 JS 距离弱很多，我们现在可以问，在温和的假设下，W(Pr, Pθ) 是否是 θ 上的连续损失函数：

所有这些都表明，对于我们的问题来说，EM 是一个至少比 Jensen-Shannon 散度更明智的成本函数。以下定理描述了由这些距离和散度引起的拓扑的相对强度，KL最强，其次是JS和TV，EM最弱。

这凸显了这样一个事实：当学习低维流形支持的分布时，KL、JS 和 TV 距离不是合理的成本函数。然而，在该设置中，EM距离是合理的。这引导我们进入下一节，我们将介绍优化 EM 距离的实用近似。

3. Wasserstein GAN

事实上，EM 距离是连续且可微的 a.e. 意味着我们可以（并且应该）训练批评家直到最优。论证很简单，我们训练批评家越多，我们得到的 Wasserstein 梯度就越可靠，这实际上很有用，因为 Wasserstein 几乎在任何地方都是可微的。对于 JS，随着判别器变得更好，梯度变得更可靠，但真实梯度为 0，因为 JS 局部饱和，我们得到消失梯度，如本文的图 1 和 (Arjovsky & Bottou) 的定理 2.4 所示，2017）。在图 3 中，我们展示了这一点的概念证明，其中我们训练 GAN 判别器和 WGAN 批评器直至最优。鉴别器很快就能学会区分假货和真货，并且正如预期的那样，没有提供可靠的梯度信息。然而，批评者不能饱和，并且会收敛到一个线性函数，该函数在各处都给出非常干净的梯度。我们限制权重的事实限制了函数在空间的不同部分最多呈线性增长，迫使最优批评家具有这种行为。

也许更重要的是，我们可以训练批评家直到最优，这一事实使得我们不可能在这样做时崩溃模式。这是因为模式崩溃源于这样一个事实：固定判别器的最佳生成器是判别器分配最高值的点上的增量之和，如（Goodfellow 等人，2014 年）所观察到的，并在（梅茨等人，2016）。

在下一节中，我们将展示新算法的实际优势，并对其行为与传统 GAN 的行为进行深入比较。

4. Empirical Results

我们使用 Wasserstein-GAN 算法进行图像生成实验，结果表明，与标准 GAN 中使用的公式相比，使用它具有显着的实际好处。我们声称有两个主要好处：

• 与生成器收敛和样本质量相关的有意义的损失度量

• 提高优化过程的稳定性

4.1. Mixtures of Gaussians

在（Metz 等人，2016）中，作者提出了一个简单的高斯实验混合，其服务于非常具体的目的。在这种混合物中，GAN 的模式崩溃问题很容易可视化，因为正常的 GAN 会在混合物的不同模式之间旋转，并且无法捕获整个分布。在图 2 中，我们展示了 WGAN 算法如何近似找到正确的分布，而不会出现任何模式崩溃。

有趣的是，WGAN 似乎首先学习匹配数据的低维结构（近似圆），然后再放大真实密度的特定凹凸。与 Wasserstein 距离类似，WGAN 看起来更重视匹配低维支持，而不是密度之间的特定比率。

4.2. Experimental Procedure for Image Generation

我们对图像生成进行了实验。要学习的目标分布是 LSUN-Bedrooms 数据集（Yu et al., 2015）——室内卧室自然图像的集合。我们的基线比较是 DCGAN（Radford 等人，2015），这是一种具有卷积架构的 GAN，使用 -logD 技巧通过标准 GAN 程序进行训练（Goodfellow 等人，2014）。生成的样本是大小为 64x64 像素的 3 通道图像。我们在所有实验中都使用算法 1 中指定的超参数。

4.3. Meaningful loss metric

由于 WGAN 算法尝试在每次生成器更新（算法 1 中的第 10 行）之前相对较好地训练批评者 f（算法 1 中的第 2-8 行），因此此时的损失函数是 EM 距离的估计，最多为常数与我们限制 f 的 Lipschitz 常数的方式相关的因素。

我们的第一个实验说明了这个估计如何与生成样本的质量密切相关。除了卷积 DCGAN 架构之外，我们还进行了实验，用具有 512 个隐藏单元的 4 层 ReLU-MLP 替换生成器或生成器和批评器。

图 4 绘制了所有三种架构在 WGAN 训练期间 EM 距离的 WGAN 估计 (3) 的演变。这些图清楚地表明这些曲线与生成的样本的视觉质量密切相关。

据我们所知，这是 GAN 文献中首次展示这样的特性，即 GAN 的损失表现出收敛特性。在对抗性网络中进行研究时，这一属性非常有用，因为人们不需要盯着生成的样本来找出故障模式并获得有关哪些模型比其他模型做得更好的信息。

然而，我们并不认为这是一种定量评估生成模型的新方法。取决于批评家架构的恒定比例因子意味着很难将模型与不同批评家进行比较。更重要的是，在实践中，批评者没有无限的容量这一事实使得我们很难知道我们的估计与 EM 距离到底有多接近。话虽这么说，我们已经成功地使用损失度量来反复验证我们的实验，并且没有失败，我们认为这是训练 GAN 的巨大进步，而以前没有这样的设施。

相比之下，图 5 绘制了 GAN 训练期间 JS 距离的 GAN 估计的演变。更准确地说，在 GAN 训练期间，判别器被训练为最大化

这个数量显然与样本质量相关性较差。另请注意，JS 估计通常保持不变或上升而不是下降。事实上，它通常非常接近 log 2 ≈ 0.69，这是 JS 距离所取的最高值。换句话说，JS 距离饱和，鉴别器具有零损失，并且生成的样本在某些情况下是有意义的（DCGAN 生成器，右上图），而在其他情况下则崩溃为单个无意义的图像（Goodfellow 等人，2014）。最后一个现象已在 (Arjovsky & Bottou, 2017) 中得到了理论上的解释，并在 (Metz et al., 2016) 中得到了强调。

当使用 -logD 技巧（Goodfellow et al., 2014）时，鉴别器损失和生成器损失是不同的。附录 F 中的图 9 报告了 GAN 训练的相同图，但使用生成器损失而不是鉴别器损失。这不会改变结论。

最后，作为一个负面结果，我们报告说，当在批评者上使用基于动量的优化器（如 Adam（Kingma & Ba，2014）（β1 > 0））或使用高学习率时，WGAN 训练有时会变得不稳定。由于批评者的损失是非平稳的，基于动量的方法似乎表现更差。我们认为动量是一个潜在的原因，因为随着损失的增加和样本的恶化，Adam 步长和梯度之间的余弦通常会变成负值。该余弦唯一为负值的地方是在这些不稳定的情况下。因此，我们改用 RMSProp (Tieleman & Hinton, 2012)，即使在非常不稳定的问题上也能表现良好 (Mnih et al., 2016)。

4.4. Improved stability

WGAN 的好处之一是它允许我们训练批评家直到最优。当批评家训练完成时，它只是为生成器提供了一个损失，我们可以像任何其他神经网络一样训练该损失。这告诉我们，我们不再需要适当地平衡生成器和鉴别器的容量。批评家越好，我们用来训练生成器的梯度质量就越高。

我们观察到，当以某种方式改变生成器的架构选择时，WGAN 比 GAN 更稳健。我们通过在三种生成器架构上运行实验来说明这一点：(1) 卷积 DCGAN 生成器，(2) 没有批量归一化且具有恒定数量的滤波器的卷积 DCGAN 生成器（生成器的容量大大小于鉴别器的容量）），以及（3）具有 512 个隐藏单元的 4 层 ReLU-MLP。众所周知，后两者在 GAN 上的表现非常差。我们为 WGAN 批评器或 GAN 判别器保留卷积 DCGAN 架构。

图 6、7 和 8 显示了使用 WGAN 和 GAN 算法为这三种架构生成的示例。我们建议读者参阅附录 H 以获取完整的生成样本。样品不是经过精心挑选的。

在任何实验中，我们都没有看到 WGAN 算法模式崩溃的证据。