[翻译+笔记]生成对抗网络: 从GAN到WGAN

news2025/7/8 4:31:00

最近读了一篇社会力模型的论文, 里面用到了GAN, 发现自己不是很懂. 想翻译一下一个大神的博客, 做一下笔记. 并不是全文翻译, 只翻译一部分.

原文地址: from GAN to WGAN

1. K-L和J-S散度

在介绍GAN之前, 首先复习一下衡量两个概率分布相似度的两种指标.

(1) K-L散度: KL散度衡量了某个概率分布 $p$ 是取自(发散自, 来自)另一个期望的(理论的)概率分布 $q$ 的程度:

$D_{KL}(p||q)=\int_xp(x)\log{\frac{p(x)}{q(x)}}dx$

当 $p (x)$ 和 $q (x)$ 处处相等时, KL散度为0.

我们要注意到KL散度是非对称的( $D_{KL}(p||q) \ne D_{KL}(q||p)$ ), 而且当 $p (x)$ 接近0的时候, $q (x)$ 的作用就被忽略了. 这会在有时候造成很有问题的结果.

KL散度的本质就是互信息, 衡量两个概率分布的差别.

(2) J-S散度: JS散度是另一种衡量两个概率分布相似度的指标, 范围在 $[0, 1]$ 之间. JS散度是对称的, 而且更平滑. 定义如下:

$D_{JS}(p||q)=\frac{1}{2}D_{KL}(p||\frac{p+q}{2})+\frac{1}{2}D_{KL}(q||\frac{p+q}{2})$

二者差别如下图所示:

在这里插入图片描述
一些人认为GAN取得重大成功的原因之一是将损失函数从在极大似然方法中使用非对称的KL散度转成使用对称的JS散度.

2. 生成对抗网络GAN

GAN由两部分模型组成:

一个鉴别器D, 其用来估计一个给定的样本来自于真实数据集的概率. 它相当于一个评论者, 它被优化的目标是在真实的样本中区分出假的样本.
一个生成器G, 其输出虚假的样本(虚假意为并非来自真实数据集), 以噪声变量z为输入(z带来了潜在的输出多样性). 它被训练的目标是获取真实的数据分布以使得产生的样本更可能接近于真实的分布, 换句话说, 可以欺骗鉴别器, 让鉴别器以高概率认为是真实的样本.

在这里插入图片描述
这两个模型在训练过程中互相竞争: 生成器G努力去欺骗鉴别器D, 但鉴别器也努力不被欺骗. 这种有趣的零和博弈会促使两部分提高他们各自的功能.

假定以下符号:


$p_z$	噪声输入z的数据分布
$p_g$	生成器关于数据x的(输出)分布
$p_r$	真实样本x的分布

一方面, 我们想确保鉴别器D对于真实的数据的决定是非常精确的, 也就是最大化 $E_{x\sim p_r(x)}[\log D(x)]$ , 也就是说, 让 $D (x)$ 尽可能接近1. 同时, 给定一个假样本 $G (z)$ , 鉴别器会输出一个概率 $D (G (z))$ , 我们也希望鉴别器让这个概率接近0, 因此等价于最大化 $E_{z\sim p_z(z)}[\log (1-D(G(z))]$ .

另一方面, 生成器的目标是增大自己产生的样本被鉴别器识别为真实样本的概率, 也就是最小化 $E_{z\sim p_z(z)}[\log (1-D(G(z))]$ .

我们把两个方面都考虑进去, D和G就是玩了一个最大-最小游戏, 我们应该优化如下的损失函数:

在这里插入图片描述
之所以可以将第一项 $E_{x\sim p_r(x)}[\log D(x)]$ 也算入生成器的优化过程, 是因为其相当于常数项, 并不产生影响.

D的最佳值是什么?

我们现在有了一个定义良好的损失函数. 现在我们看看D的最佳值是什么.

在这里插入图片描述
为了表示方便, 我们记

在这里插入图片描述
之后, 在积分里面的项为(我们可以安全地忽略积分, 因为 $x$ 是从所有可能取值中采样的):

在这里插入图片描述
我们令导数为0, 我们可以得到鉴别器的最佳值:

$D^*(x)=\tilde{x}^*=\frac{A}{A+B}=\frac{p_r(x)}{p_r(x)+p_g(x)}$ .

我们当然希望生成器输出的概率分布 $p_g(x)$ 能与 $p_r(x)$ 十分接近, 此时 $D^*(x)=1/2$ (鉴别器相当于在瞎猜).

全局最优是什么?

当G和D都到达了最优的值, 也就是 $p_g(x)=p_r(x)$ , $D^*(x)=1/2$ , 损失函数变为:

在这里插入图片描述
因此GAN损失函数的理论下界为 $-2\log2$ .

损失函数代表了什么?

我们展开J-S散度:

$D_{JS}(p||q)=\frac{1}{2}D_{KL}(p||\frac{p+q}{2})+\frac{1}{2}D_{KL}(q||\frac{p+q}{2}) \\ =\frac{1}{2}[\int_xp(x)\log{\frac{p(x)}{(p(x)+q(x))/2}}dx+\int_xq(x)\log{\frac{q(x)}{(p(x)+q(x))/2}}dx]\\$
其中
$\int_xp(x)\log{\frac{p(x)}{(p(x)+q(x))/2}}dx=\int_xp(x)\log{\frac{p(x)}{p(x)+q(x)}}dx+\int_xp(x)\log{2}dx\\ =\log2 +\int_xp(x)\log{\frac{p(x)}{p(x)+q(x)}}dx$

另一部分同理, 代入得
$D_{JS}(p||q)=\frac{1}{2}[2\log2+\int_xp(x)\log{\frac{p(x)}{p(x)+q(x)}}+\int_xq(x)\log{\frac{q(x)}{p(x)+q(x)}}]$

当 $D$ 达到最优值即 $D^*(x)=\frac{p_r(x)}{p_r(x)+p_g(x)}$ 时, 损失函数为

$L(G,D^*)=\int_xp_r(x)\log{\frac{p_r(x)}{p_r(x)+p_g(x)}}+\int_xp_g(x)\log{\frac{p_g(x)}{p_r(x)+p_g(x)}}$

令 $p=p_r(x), q=p_g(x)$ , 代入得

$D_{JS}(p_r||p_g)=\frac{1}{2}[2\log 2+L(G,D^*)]$
所以
$L(G,D^*)=2D_{JS}(p_r||p_g)-2\log 2$

所以当一切达到最优的时候, JS散度是0, 损失函数到达理论下界 $-2\log 2$ .

3. GAN中存在的问题

难以达到纳什均衡(Nash equilibrium)

训练过程中两个模型(G和D)是非合作博弈, 各自达到各自的平衡点, 不会考虑另一个模型. 因此并不能保证模型最终可以收敛.

以一个简单的例子说明为什么在非合作博弈中很难寻找纳什均衡. 假设一个玩家的目标是 $f_1(x)=xy$ , 另一个玩家的目标是 $f_2(y)=-xy$ , 则根据梯度下降法, 玩家1每次的更新策略为 $x\leftarrow x-\eta y$ , 玩家2的策略为 $y\leftarrow y+\eta x$ , 因此二者的方向是相反的. 更新过程如下图所示.

在这里插入图片描述

低维度的支持

有人认为许多真实数据集的维度只是人为提高. 例如含有狗的图片, 两个耳朵一个尾巴可以代表狗, 实际上不需要很多自由的高维形式. 也就是说复杂的东西可以集中在低维流形中.

$p_g$ 也位于低维流形中, 例如输入是100维的向量, 要获取64x64的图像, 这4096像素上的颜色分布已经由100维小随机数向量定义，几乎无法填满整个高维空间. 因为鉴别器和生成器都在低维流形中，它们几乎肯定会不相交(如图, 低维流形很难在高维空间填充). 当它们具有不相交的支撑时，我们总是能够找到一个完美的鉴别器，可以 100% 正确地区分真假样本.
在这里插入图片描述