Wasserstein Generative Adversarial Networks

news2024/11/29 6:30:11

Abstract

我们引入了一种名为 WGAN 的新算法,它是传统 GAN 训练的替代方案。 在这个新模型中,我们表明我们可以提高学习的稳定性,摆脱模式崩溃等问题,并提供对调试和超参数搜索有用的有意义的学习曲线。 此外,我们表明相应的优化问题是合理的,并提供了大量的理论工作,强调了分布之间不同距离的深层联系。

1. Introduction

本文关注的问题是无监督学习的问题。 主要是学习概率分布意味着什么? 对此的经典答案是学习概率密度。 这通常是通过定义一个参数密度族 (Pθ)θ∈Rd 并找到使我们的数据的可能性最大化的密度族来完成的:如果我们有真实的数据示例 {x(i)}m i=1,我们就可以解决问题

如果真实数据分布 Pr 承认密度,并且 Pθ 是参数化密度 Pθ 的分布,那么,渐近地,这相当于最小化 Kullback-Leibler 散度 KL(Pr||Pθ)。

为了使这一点有意义,我们需要模型密度 Pθ 存在。 在我们处理低维流形支持的分布的相当常见的情况下,情况并非如此。 那么模型流形和真实分布的支持度不太可能有不可忽略的交集(参见(Arjovsky & Bottou,2017)),这意味着 KL 距离未定义(或只是无限)

典型的补救措施是向模型分布添加噪声项。 这就是为什么经典机器学习文献中描述的几乎所有生成模型都包含噪声成分。 在最简单的情况下,假设高斯噪声具有相对较高的带宽,以便涵盖所有示例。 例如,众所周知,在图像生成模型的情况下,这种噪声会降低样本的质量并使其变得模糊。 例如,我们可以在最近的论文(Wu et al., 2016)中看到,当像素已经标准化时,在最大化似然时添加到模型中的噪声的最佳标准偏差对于生成图像中的每个像素约为 0.1 位于 [0, 1] 范围内。 这是一个非常高的噪声量,以至于当论文报告其模型的样本时,他们没有添加报告似然数的噪声项。 换句话说,添加的噪声项对于该问题显然是不正确的,但需要使最大似然方法发挥作用。

我们可以定义一个具有固定分布 p(z) 的随机变量 Z,并将其传递给参数函数 gθ : Z → X(通常是某种神经网络),而不是估计可能不存在的 Pr 的密度,该函数直接生成遵循特定分布 Pθ 的样本。 通过改变 θ,我们可以改变这个分布,使其接近真实的数据分布 Pr。 这有两个用途。 首先,与密度不同,这种方法可以表示局限于低维流形的分布。 其次,轻松生成样本的能力通常比了解密度的数值更有用(例如,在图像超分辨率或语义分割中,考虑给定输入图像的输出图像的条件分布)。 一般来说,在给定任意高维密度的情况下生成样本在计算上是困难的(Neal,2001)。

变分自动编码器(VAE)(Kingma & Welling,2013)和生成对抗网络(GAN)(Goodfellow 等人,2014)是这种方法的众所周知的例子。 由于 VAE 关注的是示例的近似可能性,因此它们具有标准模型的局限性,并且需要处理额外的噪声项。 GAN 在目标函数的定义方面提供了更大的灵活性,包括 Jensen-Shannon(Goodfellow 等人,2014 年)和所有 f 散度(Nowozin 等人,2016 年)以及一些奇异的组合(Huszar,2015 年) 。 另一方面,众所周知,训练 GAN 非常脆弱且不稳定,其原因在(Arjovsky & Bottou,2017)中进行了理论研究。

在本文中,我们将注意力集中在衡量模型分布与真实分布的接近程度的各种方法上,或者等效地,将注意力集中在定义距离或散度 ρ(Pθ, Pr) 的各种方法上。 这些距离之间最根本的区别是它们对概率分布序列收敛的影响。 当且仅当存在一个分布 P∞ 使得 ρ(Pt, P∞) 趋向于零时,分布序列 (Pt)t∈N 收敛,这取决于距离 ρ 的定义方式。 非正式地说,当距离 ρ 使分布序列更容易收敛时,它会导致较弱的拓扑。第 2 节阐明了流行的概率距离在这方面有何不同。

为了优化参数 θ,当然需要以使得映射 θ → Pθ 连续的方式定义我们的模型分布 Pθ。 连续性意味着当参数序列 θt 收敛到 θ 时,分布 Pθt 也收敛到 Pθ。 然而,必须记住分布 Pθt 收敛的概念取决于我们计算分布之间距离的方式。 这个距离越弱,就越容易定义从 θ 空间到 Pθ 空间的连续映射,因为分布更容易收敛。 我们关心映射 θ → Pθ 是连续的主要原因如下。 如果 ρ 是两个分布之间距离的概念,我们希望损失函数 θ → ρ(Pθ, Pr) 是连续的,这相当于使用距离时映射 θ → Pθ 是连续的 分布 ρ 之间。

本文的贡献是:

• 在第2 节中,我们提供了关于地球移动器Earth Mover(EM) 距离与学习分布环境中使用的流行概率距离和散度的比较的全面理论分析。

• 在第 3 节中,我们定义了一种称为 Wasserstein-GAN 的 GAN 形式,它最小化了 EM 距离的合理且有效的近似,并且我们从理论上证明了相应的优化问题是合理的。

• 在第 4 节中,我们凭经验证明 WGAN 解决了​​ GAN 的主要训练问题。 特别是,训练 WGAN 不需要在判别器和生成器的训练中保持仔细的平衡,也不需要仔细设计网络架构,并且还减少了 GAN 中常见的模式丢弃。 WGAN 最引人注目的实际好处之一是能够通过训练判别器达到最优来连续估计 EM 距离。 因为它们与观察到的样本质量密切相关,所以绘制这些学习曲线对于调试和超参数搜索非常有用。

2. Different Distances

我们现在介绍我们的符号。 令 X 为紧致度量集,即图像 [0, 1]d 的空间,并令 Σ 表示 X 的所有 Borel 子集的集合。令 Prob(X) 表示在 X 上定义的概率测度的空间。我们 现在可以定义两个分布 Pr, Pg ∈ Prob(X) 之间的基本距离和散度:

以下示例说明了简单的概率分布序列如何在 EM 距离下收敛,但在上面定义的其他距离和散度下不收敛。

示例 1 给出了一种情况,我们可以通过对 EM 距离进行梯度下降来学习低维流形上的概率分布。 这不能用其他距离和散度来完成,因为所得的损失函数甚至不是连续的。 尽管这个简单示例的特征是具有不相交支撑的分布,但当支撑具有包含在一组测度零中的非空交集时,同样的结论成立。 当两个低维流形在一般位置相交时就会出现这种情况(Arjovsky & Bottou,2017)。

由于 Wasserstein 距离比 JS 距离弱很多,我们现在可以问,在温和的假设下,W(Pr, Pθ) 是否是 θ 上的连续损失函数:

所有这些都表明,对于我们的问题来说,EM 是一个至少比 Jensen-Shannon 散度更明智的成本函数。 以下定理描述了由这些距离和散度引起的拓扑的相对强度,KL最强,其次是JS和TV,EM最弱。

这凸显了这样一个事实:当学习低维流形支持的分布时,KL、JS 和 TV 距离不是合理的成本函数。 然而,在该设置中,EM距离是合理的。 这引导我们进入下一节,我们将介绍优化 EM 距离的实用近似。

3. Wasserstein GAN

事实上,EM 距离是连续且可微的 a.e. 意味着我们可以(并且应该)训练批评家直到最优。 论证很简单,我们训练批评家越多,我们得到的 Wasserstein 梯度就越可靠,这实际上很有用,因为 Wasserstein 几乎在任何地方都是可微的。 对于 JS,随着判别器变得更好,梯度变得更可靠,但真实梯度为 0,因为 JS 局部饱和,我们得到消失梯度,如本文的图 1 和 (Arjovsky & Bottou) 的定理 2.4 所示 ,2017)。 在图 3 中,我们展示了这一点的概念证明,其中我们训练 GAN 判别器和 WGAN 批评器直至最优。 鉴别器很快就能学会区分假货和真货,并且正如预期的那样,没有提供可靠的梯度信息。 然而,批评者不能饱和,并且会收敛到一个线性函数,该函数在各处都给出非常干净的梯度。 我们限制权重的事实限制了函数在空间的不同部分最多呈线性增长,迫使最优批评家具有这种行为

也许更重要的是,我们可以训练批评家直到最优,这一事实使得我们不可能在这样做时崩溃模式。 这是因为模式崩溃源于这样一个事实:固定判别器的最佳生成器是判别器分配最高值的点上的增量之和,如(Goodfellow 等人,2014 年)所观察到的,并在 (梅茨等人,2016)。

在下一节中,我们将展示新算法的实际优势,并对其行为与传统 GAN 的行为进行深入比较。

4. Empirical Results

我们使用 Wasserstein-GAN 算法进行图像生成实验,结果表明,与标准 GAN 中使用的公式相比,使用它具有显着的实际好处。 我们声称有两个主要好处:

• 与生成器收敛和样本质量相关的有意义的损失度量

• 提高优化过程的稳定性

4.1. Mixtures of Gaussians

在(Metz 等人,2016)中,作者提出了一个简单的高斯实验混合,其服务于非常具体的目的。 在这种混合物中,GAN 的模式崩溃问题很容易可视化,因为正常的 GAN 会在混合物的不同模式之间旋转,并且无法捕获整个分布。 在图 2 中,我们展示了 WGAN 算法如何近似找到正确的分布,而不会出现任何模式崩溃。

有趣的是,WGAN 似乎首先学习匹配数据的低维结构(近似圆),然后再放大真实密度的特定凹凸。 与 Wasserstein 距离类似,WGAN 看起来更重视匹配低维支持,而不是密度之间的特定比率。

4.2. Experimental Procedure for Image Generation

我们对图像生成进行了实验。 要学习的目标分布是 LSUN-Bedrooms 数据集(Yu et al., 2015)——室内卧室自然图像的集合。 我们的基线比较是 DCGAN(Radford 等人,2015),这是一种具有卷积架构的 GAN,使用 -logD 技巧通过标准 GAN 程序进行训练(Goodfellow 等人,2014)。 生成的样本是大小为 64x64 像素的 3 通道图像。 我们在所有实验中都使用算法 1 中指定的超参数。

4.3. Meaningful loss metric

由于 WGAN 算法尝试在每次生成器更新(算法 1 中的第 10 行)之前相对较好地训练批评者 f(算法 1 中的第 2-8 行),因此此时的损失函数是 EM 距离的估计,最多为常数与我们限制 f 的 Lipschitz 常数的方式相关的因素。

我们的第一个实验说明了这个估计如何与生成样本的质量密切相关。 除了卷积 DCGAN 架构之外,我们还进行了实验,用具有 512 个隐藏单元的 4 层 ReLU-MLP 替换生成器或生成器和批评器。

图 4 绘制了所有三种架构在 WGAN 训练期间 EM 距离的 WGAN 估计 (3) 的演变。 这些图清楚地表明这些曲线与生成的样本的视觉质量密切相关。

据我们所知,这是 GAN 文献中首次展示这样的特性,即 GAN 的损失表现出收敛特性。 在对抗性网络中进行研究时,这一属性非常有用,因为人们不需要盯着生成的样本来找出故障模式并获得有关哪些模型比其他模型做得更好的信息。

然而,我们并不认为这是一种定量评估生成模型的新方法。 取决于批评家架构的恒定比例因子意味着很难将模型与不同批评家进行比较。 更重要的是,在实践中,批评者没有无限的容量这一事实使得我们很难知道我们的估计与 EM 距离到底有多接近。 话虽这么说,我们已经成功地使用损失度量来反复验证我们的实验,并且没有失败,我们认为这是训练 GAN 的巨大进步,而以前没有这样的设施。

相比之下,图 5 绘制了 GAN 训练期间 JS 距离的 GAN 估计的演变。 更准确地说,在 GAN 训练期间,判别器被训练为最大化

这个数量显然与样本质量相关性较差。 另请注意,JS 估计通常保持不变或上升而不是下降。 事实上,它通常非常接近 log 2 ≈ 0.69,这是 JS 距离所取的最高值。 换句话说,JS 距离饱和,鉴别器具有零损失,并且生成的样本在某些情况下是有意义的(DCGAN 生成器,右上图),而在其他情况下则崩溃为单个无意义的图像(Goodfellow 等人,2014) 。 最后一个现象已在 (Arjovsky & Bottou, 2017) 中得到了理论上的解释,并在 (Metz et al., 2016) 中得到了强调。

当使用 -logD 技巧(Goodfellow et al., 2014)时,鉴别器损失和生成器损失是不同的。 附录 F 中的图 9 报告了 GAN 训练的相同图,但使用生成器损失而不是鉴别器损失。 这不会改变结论。

最后,作为一个负面结果,我们报告说,当在批评者上使用基于动量的优化器(如 Adam(Kingma & Ba,2014)(β1 > 0))或使用高学习率时,WGAN 训练有时会变得不稳定 。 由于批评者的损失是非平稳的,基于动量的方法似乎表现更差。 我们认为动量是一个潜在的原因,因为随着损失的增加和样本的恶化,Adam 步长和梯度之间的余弦通常会变成负值。 该余弦唯一为负值的地方是在这些不稳定的情况下。 因此,我们改用 RMSProp (Tieleman & Hinton, 2012),即使在非常不稳定的问题上也能表现良好 (Mnih et al., 2016)。

4.4. Improved stability

WGAN 的好处之一是它允许我们训练批评家直到最优。 当批评家训练完成时,它只是为生成器提供了一个损失,我们可以像任何其他神经网络一样训练该损失。 这告诉我们,我们不再需要适当地平衡生成器和鉴别器的容量。 批评家越好,我们用来训练生成器的梯度质量就越高。

我们观察到,当以某种方式改变生成器的架构选择时,WGAN 比 GAN 更稳健。 我们通过在三种生成器架构上运行实验来说明这一点:(1) 卷积 DCGAN 生成器,(2) 没有批量归一化且具有恒定数量的滤波器的卷积 DCGAN 生成器(生成器的容量大大小于鉴别器的容量) ),以及(3)具有 512 个隐藏单元的 4 层 ReLU-MLP。 众所周知,后两者在 GAN 上的表现非常差。 我们为 WGAN 批评器或 GAN 判别器保留卷积 DCGAN 架构。

图 6、7 和 8 显示了使用 WGAN 和 GAN 算法为这三种架构生成的示例。 我们建议读者参阅附录 H 以获取完整的生成样本。 样品不是经过精心挑选的。

在任何实验中,我们都没有看到 WGAN 算法模式崩溃的证据。

5. Related Work

我们建议读者参阅附录 D,了解与不同积分概率度量的联系(Müller,1997)。 (Montavon et al., 2016)

最近的工作探索了 Wasserstein 距离在学习离散空间受限玻尔兹曼机的背景下的使用。 尽管乍一看动机可能截然不同,但我们的两项工作的核心都希望以利用底层空间几何形状的方式来比较分布,Wasserstein 允许我们这样做。

最后,(Genevay 等人,2016)的工作展示了计算不同分布之间的 Wasserstein 距离的新算法。 我们认为这个方向非常重要,也许可以带来评估生成模型的新方法。

6. Conclusion

我们引入了一种我们称之为 WGAN 的算法,它是传统 GAN 训练的替代方案。 在这个新模型中,我们表明我们可以提高学习的稳定性,摆脱模式崩溃等问题,并提供对调试和超参数搜索有用的有意义的学习曲线。 此外,我们证明了相应的优化问题是合理的,并提供了大量的理论工作,强调了分布之间与其他距离的深层联系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2227326.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

pip命令行安装pytest 一直报错

其实就是切换不同镜像安装 我最终成功的是阿里云镜像 pip install --trusted-host mirrors.aliyun.com pytest 也可以用其他的 pip install -i https://pypi.org/simple pytest # 或者使用其他的镜像源 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pytest

v4.7版本使用线下付款方式不给管理员发送新订单通知问题修复

在app/api/controller/v1/order/StoreOrderController.php文件中,将红框内的代码注释,加上绿框的代码即可修复 if ($this->services->setOrderTypePayOffline($order[order_id])) {event(NoticeListener, [$order, admin_pay_success_code]);retur…

DIY可视化-uniapp悬浮菜单支持拖动、吸附-代码生成器

在Uniapp中,悬浮菜单支持拖动和吸附功能,可以为用户带来更加灵活和便捷的操作体验。以下是对这两个功能的详细解释: 悬浮菜单支持拖动 提高用户体验:用户可以根据自己的需要,将悬浮菜单拖动到屏幕上的任意位置&#x…

MySQL企业常见架构与调优经验分享

文章目录 一、选择 PerconaServer、MariaDB 还是 MYSQL二、常用的 MYSQL 调优策略三、MYSOL 常见的应用架构分享四、MYSOL 经典应用架构 观看学习课程的笔记,分享于此~ 课程:MySQL企业常见架构与调优经验分享 mysql官方优化文档 调优MySQL参数 一、选择 …

Stable Diffusion 3.5发布:图像生成新纪元,多模态AI的突破!

在人工智能的图像生成领域,我们刚刚迎来了一位新的明星——Stable Diffusion 3.5。这是一款由多模态扩散Transformer(MMDiT)驱动的文本到图像模型,它在图像质量、字体处理、复杂提示理解以及资源效率方面都实现了显著提升。今天&a…

华为ensp静态路由,浮动路由,缺省路由讲解及配置

🏡作者主页:点击! 🤖网络通信基础TCP/IP专栏:点击! ENSP专栏:点击! ⏰️创作时间:2024年10月24日0点15分 祝大家程序员节快乐~ 路由的选择与管理至关重要。静态路由…

少儿编程进入义务教育课程:培养信息科技素养的新政策解读

近年来,随着数字化进程的推进和人工智能技术的普及,编程教育逐渐走入中小学课堂。教育部在《义务教育课程方案和课程标准(2022年版)》中正式将编程与信息科技教育纳入小学和初中的课程体系中,强调培养学生的计算思维、…

js监听div尺寸,ResizeObserver

示例&#xff1a; <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><style>.observedDiv {width: 40vw;height: 50vh;background-color: lightblue;}</style></head><body><div id"…

NVR批量管理软件/平台EasyNVR多个NVR同时管理:H.265与H.264编码优势和差异深度剖析

在数字化安防领域&#xff0c;视频监控系统正逐步成为各行各业不可或缺的一部分。随着技术的不断进步&#xff0c;传统的视频监控系统已经难以满足日益复杂和多变的监控需求。下面我们谈及NVR批量管理软件/平台EasyNVR平台H.265与H.264编码优势及差异。 一、EasyNVR视频汇聚平台…

QT实时显示日志内容

性能有待提高&#xff1b; 能够读取指定目录下的日志文件&#xff0c;显示在下拉框中。 选择某一个日志之后&#xff0c;点击获取数据按钮&#xff0c;能够实时刷新日志内容。 但是每次刷新都会对整个文件进行读取&#xff0c;文本框重新加载文本。效率很低&#xff0c;影响性能…

Unity 编辑器扩展精髓 之 窗口创建与绘制基础组件

本专栏基础资源来自唐老狮和siki学院&#xff0c;仅作学习交流使用&#xff0c;不作任何商业用途&#xff0c;吃水不忘打井人&#xff0c;谨遵教诲 本文只需要知道三个重点即可 EditorWindow类负责操作窗口 OnGUI方法是进入GUI窗口绘制的关键函数 GUILayout类负责绘制具体内容 …

前端页面样式没效果?没应用上?

当我们在开发项目时会有很多个页面、相同的标签&#xff0c;也有可能有相同的class值。样式设置的多了&#xff0c;分不清哪个是当前应用的。我们可以使用网页的开发者工具。 在我们开发的网页中按下f12或&#xff1a; 在打开的工具中我们可以使用元素选择器&#xff0c;单击我…

项目管理软件:5款甘特图工具测评

在项目管理中&#xff0c;甘特图作为一种直观且高效的任务进度展示工具&#xff0c;被广泛应用于各个行业。以下是几款功能强大、易于使用的甘特图工具&#xff0c;它们能够帮助项目经理更好地规划、跟踪和管理项目进度。 1、进度猫 进度猫是国内项目管理新秀&#xff0c;是…

#渗透测试#SRC漏洞挖掘# 信息收集-Shodan进阶路由交换

免责声明 本教程仅为合法的教学目的而准备&#xff0c;严禁用于任何形式的违法犯罪活动及其他商业行为&#xff0c;在使用本教程前&#xff0c;您应确保该行为符合当地的法律法规&#xff0c;继续阅读即表示您需自行承担所有操作的后果&#xff0c;如有异议&#xff0c;请立即停…

你真的会使用万用表吗?

​更多电路设计&#xff0c;PCB设计分享及分析&#xff0c;可关注本人微信公众号“核桃设计分享”&#xff01; 前几天公司一个刚毕业出来的小伙伴在实验室用万用表测负载电流的时候&#xff0c;直接打火花&#xff0c;把他吓得不轻 我一看&#xff0c;好家伙&#xff0c;万用…

基于SSM的心理咨询管理管理系统(含源码+sql+视频导入教程+文档+PPT)

&#x1f449;文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 基于SSM的心理咨询管理管理系统拥有三个角色&#xff1a;学生用户、咨询师、管理员 管理员&#xff1a;学生管理、咨询师管理、文档信息管理、预约信息管理、测试题目管理、测试信息管理…

SpringBoot框架下的扶贫信息管理系统

1系统概述 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及&#xff0c;互联网成为人们查找信息的重要场所&#xff0c;二十一世纪是信息的时代&#xff0c;所以信息的管理显得特别重要。因此&#xff0c;使用计算机来管理精准扶贫管理系统的相关信息成为必然。开发…

如何用猿大师办公助手实现OA系统中Word公文/合同在线编辑及流转?

在OA系统或者合同管理系统中&#xff0c;我们会经常遇到网页在线编辑Word文档形式的公文及合同的情况&#xff0c;并且需要上级对下级的公文进行批注等操作&#xff0c;或者不同部门的人需要签字审核&#xff0c;这就需要用到文档流转功能&#xff0c;如何用猿大师办公助手实现…

2024年全国山洪径流模拟与洪水危险性评价技术及典型地区洪水淹没及损失分析——建议收藏!

原文链接&#xff1a;2024年全国山洪径流模拟与洪水危险性评价技术及典型地区洪水淹没及损失分析——建议收藏&#xff01;https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247624758&idx2&sn9f51a07adadc7a7af5ddfe79dd5dd22e&chksmfa8da9d1cdfa20c7305…

获取上传至DMS服务器上文件的URL

文件上传 DATA: lv_class TYPE toadv-doc_type,lv_objectid TYPE sapb-sapobjid.CALL FUNCTION ZARCHIV_CREATE_DIALOG_METAEXPORTINGarchiv_id Z1 "内容存储库IDar_object ZALLFILES "文档类型 * …