引言

上一节介绍了生成对抗网络，并介绍了其判别过程，本节将介绍关于模型参数的求解逻辑。

回顾：生成对抗网络的判别过程

生成对抗网络的计算图结构表示如下：
生成对抗网络——计算图结构
其中 $\mathcal G(\mathcal Z;\theta_{gene})$ 和 $\mathcal D(x;\theta_d)$ 表示不同的前馈神经网络结构：

$\mathcal G(\mathcal Z;\theta_{gene})$ 表示生成模型的计算图结构，它的主要功能是生成样本 $x$ ：
该样本区别于 $\mathcal P_{data}$ 中的真实样本，它是从模型 $\mathcal G(\mathcal Z;\theta_{gene})$ 中产生得到，该样本实际上也是一种幻想粒子(Fantasy Particle)
$\mathcal G(\mathcal Z;\theta_{gene})$
其中 $\mathcal Z$ 表示生成模型的输入部分；一般情况下，并不对输入样本 $\mathcal Z$ 的分布进行过多约束，通常以简单的高斯分布作为输入特征：
$\mathcal Z \sim \mathcal P(\mathcal Z) = \mathcal N(\mu_{init},\Sigma_{init})$
而 $\theta_{gene}$ 表示生成模型的参数信息；
$\mathcal D(x;\theta_d)$ 表示判别模型的计算图结构，它的主要功能是判别样本 $x$ 服从 $\mathcal P_{data}$ 分布的概率：
- 这里的样本 $x$ 可以是从 $\mathcal G(\mathcal Z;\theta_{gene})$ 中产生得到，也可以是从 $\mathcal P_{data}$ 分布对应的数据集合中得到。
- 表格中的 $\mathcal Y$ 表示给定样本 $x$ 的条件下，是否服从 $\mathcal P_{data}$ 的后验概率信息。这明显是一个‘软分类’。

$\mathcal Y \mid x$	$1$	$0$
$\mathcal P(\mathcal Y \mid x)$	$\mathcal D(x;\theta_d)$	$\mathcal D(x;\theta_d)$

关于生成对抗网络的判别过程主要包含两个部分：
(修改于2023/2/1)需要再次说明 $\mathop{\max}\limits_{\mathcal D}$ 和 $\mathop{\min}\limits_{\mathcal G}$ 中的 $\mathcal D,\mathcal G$ 就是 $\mathcal D(x;\theta_d),\mathcal G(\mathcal Z;\theta_{gene})$ 本身，而不是单纯的模型参数 $\theta_{d},\theta_{gene}$ .在上一节介绍过， $\mathcal D(x;\theta_d),\mathcal G(\mathcal Z;\theta_{gene})$ 是神经网络结构，从通用逼近定理的角度，可以将其视作两个复杂的函数;但从功能角度观察， $\mathcal D(x;\theta_d),\mathcal G(\mathcal Z;\theta_{gene})$ 就是两个概率分布，或者是概率模型。其中 $\mathcal G(\mathcal Z;\theta_{gene})$ 可看作生成样本 $x$ 的概率分布;而 $\mathcal D(x;\theta_d)$ 可看作是判别 $x$ 性质的概率分布。

判别模型的判别过程：
$\mathop{\max}\limits_{\mathcal D} \left\{\mathbb E_{x \sim \mathcal P_{data}} \left[\log \mathcal D(x;\theta_d)\right] + \mathbb E_{\mathcal Z \sim \mathcal P(\mathcal Z)} \left[\log \{1 - \mathcal D \left[\mathcal G(\mathcal Z;\theta_{gene});\theta_d\right]\}\right]\right\}$
生成模型的判别过程：
$\mathop{\min}\limits_{\mathcal G} \left\{\mathbb E_{\mathcal Z \sim \mathcal P(\mathcal Z)} \left[\log \{1 - \mathcal D[\mathcal G(\mathcal Z;\theta_{gene});\theta_d]\}\right]\right\}$

最终的目标函数可表示为：
(修改于2023/2/1)基于上面的描述,可以理解为:通过选择合适的模型参数 $\theta_{d},\theta_{gene}$ ,从而得到合适的概率分布 $\mathcal D,\mathcal G$ ,最终使得下面式子成立。
$\mathop{\min}\limits_{\mathcal G} \mathop{\max}\limits_{\mathcal D} \left\{\mathbb E_{x \sim \mathcal P_{data}} \left[\log \mathcal D(x;\theta_d)\right] + \mathbb E_{\mathcal Z \sim \mathcal P(\mathcal Z)} \left[ \log \left\{1 -\mathcal D [\mathcal G(\mathcal Z;\theta_{gene}) ;\theta_d]\right\}\right]\right\}$

关于生成对抗网络的一些特性

生成对抗网络的终极目标是让生成模型 $\mathcal G(\mathcal Z;\theta_{gene})$ 生成出的样本所对应的概率分布 $\mathcal P_{gene}$ 无限接近于真实分布 $\mathcal P_{data}$ 。
当然，这个目标不仅仅是生成对抗网络的目标，而是所有生成模型的共同目标。

很明显，它是一个概率生成模型。但该模型的构建思想与其他生成模型之间存在一些区别：

常规的生成模型，直接对 生成模型自身进行建模。
假设给定一组包含 $N$ 个样本的样本集合 $\mathcal X = \{x^{(i)}\}_{i=1}^N$ ，根据样本性质以及任务描述，我们会选择一个合适的模型结构对其进行建模。而模型参数的学习过程中，通常使用极大似然估计作为标准学习模型参数：
$\hat {\theta}_{gene} = \mathop{\arg\max}\limits_{\theta_{gene}} \left[\log \prod_{i=1}^N \mathcal P_{gene}(x^{(i)};\theta_{gene})\right]$
在面对不同约束下的模型结构，可能会采用不同的学习方法。如 $\text{EM}$ 算法，变分推断，蒙特卡洛方法等等。而极大似然估计的底层逻辑就是 让 $\mathcal P_{gene}(\mathcal X;\theta_{gene})$ 无限接近于真实分布 $\mathcal P_{data}(\mathcal X)$ ：
- 这里仅列出几个步骤，详细推导过程见配分函数——对比散度
- 蒙特卡洛方法的逆运算，将积分运算还原为期望形式。其中 $\sum_{i=1}^N$ 来自于真实分布样本，因此期望中的分布是 $x^{(i)} \sim \mathcal P_{data}$ .
- $\text{KL}\left[\mathcal P_{data}(\mathcal X) || \mathcal P_{gene}(\mathcal X;\theta_{gene})\right]$ 越小，意味着 $\mathcal P_{gene}(\mathcal X;\theta_{gene})$ 与 $\mathcal P_{data}(\mathcal X)$ 越接近。
$\begin{aligned} \hat {\theta}_{gene} & = \mathop{\arg\max}\limits_{\theta_{gene}} \left[\sum_{i=1}^N \log \mathcal P_{gene}(x^{(i)};\theta_{gene})\right]\\ & \approx \mathop{\arg\max}\limits_{\theta_{gene}} \left\{\mathbb E_{x^{(i)} \sim \mathcal P_{data}} \left[\log \mathcal P_{gene}(\mathcal X;\theta_{gene})\right]\right\} \\ & = \mathop{\arg\max}\limits_{\theta_{gene}} \int_{\mathcal X} \mathcal P_{data}(\mathcal X) \log \mathcal P_{gene}(\mathcal X;\theta_{gene}) d\mathcal X \\ & = \mathop{\arg\max}\limits_{\theta_{gene}} \int_{\mathcal X} \mathcal P_{data}(\mathcal X) \cdot \log \left[\frac{\mathcal P_{gene}(\mathcal X;\theta_{gene})}{\mathcal P_{data}(\mathcal X)}\right] d\mathcal X \\ & = \mathop{\arg\min}\limits_{\theta_{gene}} \{\text{KL} \left[\mathcal P_{data}(\mathcal X) || \mathcal P_{gene}(\mathcal X;\theta_{gene})\right]\} \end{aligned}$
而生成对抗网络同样也是生成模型，但并没有对生成模型 $\mathcal P_{gene}(\mathcal X;\theta_{gene})$ 自身进行建模，而是另构建了一个判别模型 $\mathcal D(\mathcal X;\theta_d)$ ，通过生成样本与真实样本的对抗学习来优化模型参数。

最优解的求解过程

再次观察目标函数，需要从理论上证明，该优化问题是否存在最优解 $\hat {\theta}_{gene}$ ，并且该最优解构成的概率分布 $\mathcal P_{gene}(\mathcal X;\hat {\theta}_{gene})$ 能否使得 $\mathcal P_{gene}(\mathcal X;\hat {\theta}_{gene}) \Rightarrow \mathcal P_{data}(\mathcal X)$ 。
实际上, $\mathcal G(\mathcal Z;\theta_{gene})$ 和 $\mathcal P_{gene}(\mathcal X;\theta_{gene})$ 所描述的概率分布是相同的，但因为 $\mathcal G$ 是神经网络结构，因此这里需要一组服从简单分布的样本 $\mathcal Z$ 作为 $\mathcal G(\mathcal Z;\theta_{gene})$ 的初始输入。在下一步的换元操作会对其进行描述。
$\mathop{\min}\limits_{\mathcal G} \mathop{\max}\limits_{\mathcal D} \left\{\mathbb E_{x \sim \mathcal P_{data}} \left[\log \mathcal D(x;\theta_d)\right] + \mathbb E_{\mathcal Z \sim \mathcal P(\mathcal Z)} \left[ \log \left\{1 -\mathcal D [\mathcal G(\mathcal Z;\theta_{gene}) ;\theta_d]\right\}\right]\right\}$

首先对第二项进行换元：由于 $\mathcal G(\mathcal Z;\theta_{gene})$ 最终生成的是样本 $x$ ，那么将 $\mathcal Z \sim \mathcal P(\mathcal Z)$ 中采样，再执行 $\mathcal G(\mathcal Z;\theta_{gene})$ 可看作 $\sim \mathcal P_{gene}$ 中直接进行采样，并执行 $x$ 的运算，最终可将上式转化为如下表达形式：
- 虽然两项中均有 $x$ ,但来自的分布并不相同。
- 发现公式中并不含 $\theta_{gene}$ ，其原因在于：既然能够写成该形式 $\sim \mathcal P_{gene}$ ,这意味着从 $\mathcal P_{gene}$ 中采样过程中分布不会发生变化，也就意味着当前状态下 $\theta_{gene}$ 被固定住了。
  $\mathcal V(\mathcal D,\mathcal G) = \mathbb E_{x \sim \mathcal P_{data}} \left[\log \mathcal D(x;\theta_d)\right] + \mathbb E_{x\sim \mathcal P_{gene}} \left\{\log [1 - \mathcal D(x;\theta_{d})]\right\}$
既然 $\theta_{gene}$ 已经被固定住，那么目标函数也发生相应的变化：
$\theta_{gene}$ 被暂时放下了。
$\begin{aligned} \mathop{\max}\limits_{\mathcal D} \mathcal V(\mathcal D,\mathcal G) = \mathop{\max}\limits_{\mathcal D} \left\{\mathbb E_{x \sim \mathcal P_{data}} \left[\log \mathcal D(x;\theta_d)\right] + \mathbb E_{x\sim \mathcal P_{gene}} \left\{\log [1 - \mathcal D(x;\theta_{d})]\right\}\right\} \end{aligned}$
将上式将期望按照积分形式展开：
- 这里的 $\mathcal X$ 指的是从不同分布 $\mathcal P_{data},\mathcal P_{gene}$ 产生的广义上的样本，不同积分号中的 $\mathcal X$ 来自的分布确实是不同的。
- 但从运算的角度观察，它们之间的运算是相互分开的。就相当与同一组样本分别执行了两种不同运算。因此这里是可以合并的。这是个人理解。
- 由于 $\mathcal P_{gene}$ 已被固定，因此使用 $\mathcal P_{gene}(\mathcal X)$ 替代 $\mathcal P_{gene}(\mathcal X;\theta_{gene})$ .

$\begin{aligned} \mathop{\max}\limits_{\mathcal D} \mathcal V(\mathcal D,\mathcal G) & = \int_{\mathcal X} \mathcal P_{data}(\mathcal X) \log \mathcal D(\mathcal X;\theta_d) d\mathcal X + \int_{\mathcal X} \mathcal P_{gene}(\mathcal X) \log [1 - \mathcal D(\mathcal X;\theta_d)] d\mathcal X \\ & = \int_{\mathcal X} \left\{\mathcal P_{data}(\mathcal X) \log \mathcal D(\mathcal X;\theta_d) + \mathcal P_{gene}(\mathcal X) \log [1 - \mathcal D(\mathcal X;\theta_d)]\right\} d\mathcal X \end{aligned}$

既然是通过调整 $\mathcal D$ 来获取该式子的最大值，该式子对 $\mathcal D$ 求解偏导：
牛顿-莱布尼兹公式，将积分号与偏导符号调换位置。
$\begin{aligned} \frac{\partial}{\partial \mathcal D} \left[\mathcal V(\mathcal D,\mathcal G)\right] & = \frac{\partial}{\partial \mathcal D} \int_{\mathcal X} \left\{\mathcal P_{data}(\mathcal X) \log \mathcal D(\mathcal X;\theta_d) + \mathcal P_{gene}(\mathcal X) \log [1 - \mathcal D(\mathcal X;\theta_d)]\right\} d\mathcal X \\ & = \int_{\mathcal X} \frac{\partial}{\partial \mathcal D}\left\{\mathcal P_{data}(\mathcal X) \log \mathcal D(\mathcal X;\theta_d) + \mathcal P_{gene}(\mathcal X) \log [1 - \mathcal D(\mathcal X;\theta_d)]\right\} d\mathcal X \\ & = \int_{\mathcal X} \left[\mathcal P_{data}(\mathcal X) \frac{1}{\mathcal D(\mathcal X;\theta_d)} - \mathcal P_{gene}(\mathcal X) \frac{1}{1 - \mathcal D(\mathcal X;\theta_d)} \right]d\mathcal X \end{aligned}$
令 $\frac{\partial}{\partial \mathcal D} \left[\mathcal V(\mathcal D,\mathcal G)\right] \triangleq 0$ ，则有：
其中 $\hat {\mathcal D}_{\mathcal G}(\mathcal X;\theta_d)$ 表示在模型结构 $\mathcal G$ 或者概率分布 $\mathcal P_{gene}(\mathcal X;\theta_{gene})$ 固定的条件下，通过调整参数 $\theta_d$ ,得到最优的判别模型分布。
$\begin{aligned} & \quad \mathcal P_{data}(\mathcal X) \frac{1}{\mathcal D(\mathcal X;\theta_d)} - \mathcal P_{gene}(\mathcal X) \frac{1}{1 - \mathcal D(\mathcal X;\theta_d)} = 0 \\ & \Rightarrow \mathcal P_{data}(\mathcal X) \frac{1}{\mathcal D(\mathcal X;\theta_d)} = \mathcal P_{gene}(\mathcal X) \frac{1}{1 - \mathcal D(\mathcal X;\theta_d)} \\ & \Rightarrow \hat {\mathcal D}_{\mathcal G}(\mathcal X;\theta_d) = \frac{\mathcal P_{data}(\mathcal X)}{\mathcal P_{data}(\mathcal X) + \mathcal P_{gene}(\mathcal X)} \end{aligned}$
可以看出， $\hat {\mathcal D}_{\mathcal G}(\mathcal X;\theta_d)$ 必然是存在的： $\mathcal P_{data}(\mathcal X)$ 是真实分布； $\mathcal P_{gene}(\mathcal X)$ 是 $\theta_{gene}$ 确定状态下的分布。
分布好不好求是一回事，存不存在是另一回事~这里只是验证最优解存在。
此时 $\hat {\mathcal D}_{\mathcal G}(\mathcal X;\theta_d)$ 已经求解，此时将其带回到原式，求解 $\mathcal G$ 的最优解：
$\begin{aligned} \mathop{\min}\limits_{\mathcal G} \mathop{\max}\limits_{\mathcal D} \mathcal V(\mathcal D,\mathcal G) & = \mathop{\min}\limits_{\mathcal G} \mathcal V[\hat {\mathcal D}_{\mathcal G}(\mathcal X;\theta_d),\mathcal G] \\ & = \mathop{\min}\limits_{\mathcal G} \left\{\mathbb E_{x \sim \mathcal P_{data}} \left[\log \left(\frac{\mathcal P_{data}(\mathcal X)}{\mathcal P_{data}(\mathcal X) + \mathcal P_{gene}(\mathcal X)}\right)\right] + \mathbb E_{x \sim \mathcal P_{gene}} \left[\log \left(\frac{\mathcal P_{gene}(\mathcal X)}{\mathcal P_{data}(\mathcal X) + \mathcal P_{gene}(\mathcal X)}\right)\right]\right\} \end{aligned}$
技巧性的部分：我们任意观察上式中大括号内的任意一项，这里以第一项为例：
将期望使用展开，将其转化为 $\text{KL Divergence}$ 的形式。
$\begin{aligned} & \quad \mathbb E_{x \sim \mathcal P_{data}} \left[\log \left( \frac{\mathcal P_{data}(\mathcal X)}{\mathcal P_{data}(\mathcal X) + \mathcal P_{gene}(\mathcal X)}\right)\right] \\ & = \int_{\mathcal X} \mathcal P_{data}(\mathcal X) \log \left[\frac{\mathcal P_{data}(\mathcal X)}{\mathcal P_{data}(\mathcal X) + \mathcal P_{gene}(\mathcal X)}\right] d\mathcal X \\ & = \text{KL} \left[\mathcal P_{data}(\mathcal X) || \mathcal P_{data}(\mathcal X) + \mathcal P_{gene}(\mathcal X)\right] \end{aligned}$
但实际上，这种表达是没有意义的。因为需要保证 $\mathcal P_{data}(\mathcal X),\mathcal P_{data}(\mathcal X) + \mathcal P_{gene}(\mathcal X)$ 均是概率分布才有意义。很显然 $\mathcal P_{data}(\mathcal X) + \mathcal P_{gene}(\mathcal X)$ 并不是一个概率分布，因为它的值域是 $[0, 2]$ 。
因为 $\mathcal P_{data}(\mathcal X),\mathcal P_{gene}(\mathcal X)$ 是两个独立的概率分布，它们的值域均是 $[0, 1]$ 。

但如果将 $\mathcal P_{data}(\mathcal X) + \mathcal P_{gene}(\mathcal X)$ 调整为 $\frac{\mathcal P_{data}(\mathcal X) + \mathcal P_{gene}(\mathcal X)}{2}$ ，那么这个 $\text{KL}$ 散度就可以使用了。具体表示如下：
- 这里没有必要纠结 $\frac{\mathcal P_{data}(\mathcal X) + \mathcal P_{gene}(\mathcal X)}{2}$ 的实际意义是什么，这里仅需要凑出 $\text{KL}$ 散度即可。
- 第二步仅展开了前一项，后一项的格式与前一项相同，这里就不展开了。并且常数的期望就是常数本身。
- $2\log\frac{1}{2}$

$\begin{aligned} \mathop{\min}\limits_{\mathcal G} \mathcal V[\hat {\mathcal D}_{\mathcal G}(\mathcal X;\theta_d),\mathcal G] & = \mathop{\min}\limits_{\mathcal G} \left\{\mathbb E_{x\sim \mathcal P_{data}} \left[\log \left(\frac{\mathcal P_{data}(\mathcal X)}{\frac{\mathcal P_{data}(\mathcal X) + \mathcal P_{gene}(\mathcal X)}{2}} \cdot \frac{1}{2}\right)\right] + \mathbb E_{x\sim \mathcal P_{gene}} \left[\log \left(\frac{\mathcal P_{gene}(\mathcal X)}{\frac{\mathcal P_{data}(\mathcal X) + \mathcal P_{gene}(\mathcal X)}{2}} \cdot \frac{1}{2}\right)\right]\right\} \\ & = \mathop{\min}\limits_{\mathcal G} \left\{\mathbb E_{x \sim \mathcal P_{data}} \left[\log \left(\frac{\mathcal P_{data}(\mathcal X)}{\frac{\mathcal P_{data}(\mathcal X) + \mathcal P_{gene}(\mathcal X)}{2}}\right)\right] + \underbrace{\mathbb E_{x\sim \mathcal P_{data}}\left[\log \frac{1}{2}\right]}_{=\log\frac{1}{2}} + \cdots\right\}\\ & = \mathop{\min}\limits_{\mathcal G} \left\{\text{KL}\left[\mathcal P_{data}(\mathcal X)||\frac{\mathcal P_{data}(\mathcal X) + \mathcal P_{gene}(\mathcal X)}{2}\right] + \text{KL}\left[\mathcal P_{gene}(\mathcal X) || \frac{\mathcal P_{data}(\mathcal X) + \mathcal P_{gene}(\mathcal X)}{2}\right] -\log4\right\} \\ & \geq -\log 4 \end{aligned}$
因为 $\text{KL Divergence}$ 存在下界 $0$ ，因此当 $\mathcal P_{data}(\mathcal X) = \mathcal P_{gene}(\mathcal X) = \frac{\mathcal P_{data}(\mathcal X) + \mathcal P_{gene}(\mathcal X)}{2}$ 时，可以取到最小值 $-\log 4$ 。
最小值取多少并不重要，而是概率分布 $\mathcal P_{data}(\mathcal X),\mathcal P_{gene}(\mathcal X)$ 相等，可以取得最优值。这也证明了最初目标函数的设计是可行的：
$\mathop{\min}\limits_{\mathcal G} \mathop{\max}\limits_{\mathcal D} \left\{\mathbb E_{x \sim \mathcal P_{data}} \left[\log \mathcal D(x;\theta_d)\right] + \mathbb E_{\mathcal Z \sim \mathcal P(\mathcal Z)} \left[ \log \left\{1 -\mathcal D [\mathcal G(\mathcal Z;\theta_{gene}) ;\theta_d]\right\}\right]\right\}$
将 $\mathcal P_{data}(\mathcal X)=\mathcal P_{gene}(\mathcal X)$ 条件带回至 $\hat {\mathcal D}_{\mathcal G}(\mathcal X;\theta_d)$ 中，有：
$\hat {\mathcal D}_{\mathcal G}(\mathcal X;\theta_d) = \frac{\mathcal P_{data}(\mathcal X)}{\mathcal P_{data}(\mathcal X)+ \mathcal P_{gene}(\mathcal X)} = \frac{1}{2}$
它的实际意义是：当判别模型判别该样本时，该样本服从 $\mathcal P_{data}(\mathcal X)$ 分布的概率是0.5，服从 $\mathcal P_{gene}(\mathcal X)$ 分布的概率也是0.5，它无法正确的分辨该样本服从哪个分布了。
如果回到上一节的例子，高水平鉴赏家判定一幅画是大师的画的概率是0.5，是我画的概率也是0.5，他已经无法分辨我的画与大师的画。
这个结果在神经网络反向传播的过程中，如果损失函数收敛至0.5，这意味着生成模型参数已经被学习完成了。