Proximal Policy Optimization (PPO)

2.1 策略梯度方法

策略梯度方法计算策略梯度的估计值并将其插入到随机梯度上升算法中。最常用的梯度估计器的形式如下：

$\hat{g} = \mathbb{E}_t \left[ \nabla_{\theta} \log \pi_{\theta}(a_t | s_t) \hat{A}_t \right] \tag{1}$

其中 $\pi_{\theta}$ 是一个随机策略， $\hat{A}_t$ 是时间步 $t$ 时刻优势函数的估计值。这里，期望 $\mathbb{E}_t[\cdot]$ 表示在有限样本批次上的经验平均，算法在采样和优化之间交替进行。使用自动微分软件的实现通过构造目标函数，其梯度为策略梯度估计器；估计器 $\hat{g}$ 是通过对目标进行微分得到的。

$L^{PG}(\theta) = \mathbb{E}_t \left[ \log \pi_{\theta}(a_t | s_t) \hat{A}_t \right] \tag{2}$

尽管执行多步优化以最小化此损失 $L^{PG}$ 看起来是有吸引力的，但这样做并不合理，从经验上看，这往往会导致破坏性的较大策略更新

2.2 信任域方法Trust Region Methods

在TRPO中，目标函数（即“替代”目标）在对策略更新的大小施加约束的条件下进行最大化。具体而言，

$\text{maximize}_{\theta} \mathbb{E}_t \left[ \frac{\pi_{\theta}(a_t | s_t)}{\pi_{\theta_{\text{old}}}(a_t | s_t)} \hat{A}_t \right] \tag{3}$

同时满足约束条件：

$\mathbb{E}_t \left[ \text{KL}[\pi_{\theta_{\text{old}}}(\cdot | s_t), \pi_{\theta}(\cdot | s_t)] \right] \leq \delta \tag{4}$

其中， $\theta_{\text{old}}$ 是更新前的策略参数向量。该问题可以通过共轭梯度算法高效求解，首先对目标函数进行线性逼近，并对约束条件进行二次逼近。
理论上，TRPO的正当性实际上建议使用惩罚项而不是约束条件，即解决无约束优化问题为某个系数 $\beta$ 。

$\text{maximize}_{\theta} \mathbb{E}_t \left[ \frac{\pi_{\theta}(a_t | s_t)}{\pi_{\theta_{\text{old}}}(a_t | s_t)} \hat{A}_t - \beta \text{KL}[\pi_{\theta_{\text{old}}}(\cdot | s_t), \pi_{\theta}(\cdot | s_t)] \right] \tag{5}$

这一理论依据源自于某些替代目标（它计算状态上的最大KL，而不是均值）形成了策略性能的下界（即悲观边界）。TRPO使用硬约束而不是惩罚项，因为选择一个在不同问题上表现良好的 $\beta$ 值是困难的，甚至在单一问题中，由于特征在学习过程中会发生变化。因此，为了实现目标，即使用一阶算法来模拟TRPO的单调改进，实验表明，仅仅选择一个固定的惩罚系数 $\beta$ 并优化带有惩罚项的目标函数（方程（5））与SGD方法相结合是不够的；需要进行额外的修改。

3 裁剪的替代目标

设 $r_t(\theta)$ 表示概率比率 $r_t(\theta) = \frac{\pi_{\theta}(a_t | s_t)}{\pi_{\theta_{\text{old}}}(a_t | s_t)}$ ，因此 $r(\theta_{\text{old}}) = 1$ 。TRPO最大化一个“替代”目标：

$L^{CPI}(\theta) = \hat{\mathbb{E}}_t \left[ \frac{\pi_{\theta}(a_t | s_t)}{\pi_{\theta_{\text{old}}}(a_t | s_t)} \hat{A}_t \right] = \hat{\mathbb{E}}_t \left[ r_t(\theta) \hat{A}_t \right] \tag{6}$

上标 $CP I$ 表示保守策略迭代（Conservative Policy Iteration），这是该目标提出的背景。在没有约束的情况下，最大化 $L^{CPI}$ 会导致过大的策略更新；因此，我们现在考虑如何修改目标，惩罚那些将 $r_t(\theta)$ 从1移开的策略变化。

我们提出的主要目标如下：

$L^{CLIP}(\theta) = \hat{\mathbb{E}}_t \left[ \min \left( r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon) \hat{A}_t \right) \right] \tag{7}$

其中， $\epsilon$ 是一个超参数，例如 $\epsilon = 0.2$ 。这个目标函数的动机如下：最小值内的第一项是 $L^{CPI}$ 。第二项， $\text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon)\hat{A}_t$ ，通过裁剪概率比率来修改替代目标，这样可以移除策略更新时 $r_t(\theta)$ 超出区间 $\epsilon, 1 + \epsilon]$ 的激励。最后，我们取裁剪和未裁剪目标的最小值，因此最终目标是未裁剪目标的下界（即悲观边界）。在这种方案中，我们仅在使目标变差时忽略概率比率的变化，并且当它使目标变坏时，我们会将其包括在内。注意， $L^{CLIP}(\theta) = L^{CPI}(\theta)$ 对于 $\theta$ 的第一次逼近（即 $r = 1$ ）是相同的，但随着 $\theta$ 偏离 $\theta_{\text{old}}$ ，它们变得不同。图1绘制了 $L^{CLIP}$ 中的单个项（即，单个 $t$ ）；请注意，概率比率 $r$ 会裁剪为 $\epsilon$ 或 $\epsilon$ ，这取决于优势是否为正或负。
在这里插入图片描述图1：绘制了替代目标函数 $L^{CLIP}$ 的单个项（即，单个时间步）相对于概率比率 $r$ 的图形，其中左侧表示正优势，右侧表示负优势。每个图上的红色圆圈表示优化的起始点，即 $r = 1$ 。注意， $L^{CLIP}$ 是这些项的总和。

图2提供了关于替代目标 $L^{CLIP}$ 的另一个直观理解。它展示了当我们沿着策略更新方向进行插值时，多个目标是如何变化的，这个方向是通过近端策略优化在一个连续控制问题上获得的。我们可以看到， $L^{CLIP}$ 是 $L^{CPI}$ 的下界，并且对于策略更新过大有惩罚。
在这里插入图片描述

4 自适应KL惩罚系数

另一种方法，可以作为裁剪替代目标的替代方案，或作为附加方案，是对KL散度施加惩罚，并调整惩罚系数，以便在每次策略更新时实现KL散度的目标值 $d_{targ}$ 。在我们的实验中，我们发现KL惩罚方法的表现优于裁剪的替代目标，然而我们仍将其包含在这里，因为它是一个重要的基线。

在该算法的最简单实现中，我们在每次策略更新时执行以下步骤：

使用几轮小批量SGD，优化KL惩罚目标：

$L^{KL PEN}(\theta) = \hat{\mathbb{E}}_t \left[ \frac{\pi_{\theta}(a_t | s_t)}{\pi_{\theta_{\text{old}}}(a_t | s_t)} \hat{A}_t - \beta \text{KL}[\pi_{\theta_{\text{old}}}(\cdot | s_t), \pi_{\theta}(\cdot | s_t)] \right] \tag{8}$

计算 $\hat{\mathbb{E}}_t[\text{KL}[\pi_{\theta_{\text{old}}}(\cdot | s_t), \pi_{\theta}(\cdot | s_t)]]$
- 如果 $d < d_{targ}/1.5$ ，则 $\beta \leftarrow \beta / 2$
- 如果 $d_{targ} \times 1.5$ ，则 $\beta \leftarrow \beta \times 2$

更新后的 $\beta$ 将用于下一个策略更新。使用这种方案，我们偶尔会看到策略更新，其中KL散度与 $d_{targ}$ 显著不同，但这些情况很少见，并且 $\beta$ 会快速调整。参数1.5和2是通过启发式选择的，但算法对它们并不特别敏感。 $\beta$ 的初始值是另一个超参数，但在实践中并不重要，因为算法会快速调整它。

5 算法

前面章节中的替代损失函数可以通过对典型的策略梯度实现进行少量修改来计算和求导。对于使用自动微分的实现，只需构造损失 $L^{CLIP}$ 或 $L^{KL PEN}$ ，代替 $L^{PG}$ ，然后对该目标执行多个随机梯度上升步骤。

大多数计算方差减少的优势函数估计的方法使用学习的状态值函数 $V (s)$ ；例如，广义优势估计[Sch+15a]，或[Mini+16]中的有限时域估计方法。如果使用共享策略和价值函数参数的神经网络架构，则必须使用结合策略替代函数和价值函数误差项的损失函数。该目标还可以通过添加一个熵奖励来进一步增强，以确保足够的探索，如过去的工作中所建议的[Wil92; Mini+16]。将这些项结合起来，我们得到如下目标函数，每次迭代时（大致）最大化：

$L^{CLIP+VF+S}_t(\theta) = \hat{\mathbb{E}}_t \left[ L^{CLIP}_t(\theta) - c_1 L^{VF}_t(\theta) + c_2 S[\pi_{\theta}](s_t) \right] \tag{9}$

其中， $c_1$ 和 $c_2$ 是系数， $S$ 表示熵奖励， $L^{VF}_t$ 是平方误差损失 $(V_{\theta}(s_t) - V_t^{\text{target}})^2$ 。
一种策略梯度实现方式，在[Mini+16]中流行并且适合与递归神经网络一起使用，为每个时间步运行策略（其中 $T$ 远小于回合长度），并使用收集到的样本进行更新。该方式需要一个不超出时间步 $T$ 的优势估计器。由[Mini+16]使用的估计器为：

$\hat{A}_t = -V(s_t) + r_t + \gamma r_{t+1} + \cdots + \gamma^{T - t + 1} r_{T-1} + \gamma^{T - t} V(s_T) \tag{10}$

其中 $t$ 指定时间索引范围为 $[0, T]$ ，在给定长度为 $T$ 的轨迹段内。推广此选择，我们可以使用广义优势估计的截断版本，当 $\lambda = 1$ 时简化为方程（10）：

$\hat{A}_t = \delta_t + (\gamma \lambda) \delta_{t+1} + \cdots + (\gamma \lambda)^{T - t + 1} \delta_{T-1}, \tag{11}$

其中，

$\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t) \tag{12}$
一种使用固定长度轨迹段的近端策略优化（PPO）算法如下所示。在每次迭代中，每个 $N$ （并行）演员收集 $T$ 时间步的数据。然后我们在这些 $NT$ 时间步的数据上构造替代损失，并使用小批量SGD（或通常为更好的性能，使用Adam [KB14]）优化它，进行 $K$ 轮迭代。

算法1 PPO，Actor-Critic Style

for iteration=1, 2, ... do
    for actor=1, 2, ..., N do
        # 在环境中运行策略$\pi_{\text{old}}$，共$T$时间步
        Run policy $\pi_{\text{old}}$ in environment for $T$ timesteps
        
        # 计算优势估计$\hat{A}_1, \dots, \hat{A}_T$
        Compute advantage estimates $\hat{A}_1, \dots, \hat{A}_T$
        
    end for
    
    # 优化替代目标$L$，与$\theta$，进行$K$轮，并使用小批量大小$M \leq NT$
    Optimize surrogate $L$ wrt $\theta$, with $K$ epochs and minibatch size $M \leq NT$
    
    # 更新$\theta_{\text{old}} \leftarrow \theta$
    $\theta_{\text{old}} \leftarrow \theta$
    
end for