传统策略梯度方法的弊端与PPO的改进：稳定性与样本效率的提升

news2025/4/2 5:42:32

为什么传统策略梯度方法（如REINFORCE算法）在训练过程中存在不稳定性和样本效率低下的问题

1. 传统策略梯度方法的基本公式

传统策略梯度方法的目标是最大化累积奖励的期望值。具体来说，优化目标可以表示为：
$\max_\theta J(\theta) = \mathbb{E}_\pi\left[\sum_{t=0}^{\infty} \gamma^t R_{t+1}\right]$
其中：

$J(\theta)$ 是策略性能，即累积奖励的期望值。
$\pi_\theta(a_t|s_t)$ 是在策略 $\pi$ 下，状态 $s_t$ 下选择动作 $a_t$ 的概率。
$R_{t+1}$ 是在时间步 $t + 1$ 获得的奖励。
$\gamma$ 是折扣因子，用于衡量未来奖励的当前价值。

为了实现这个目标，策略梯度定理提供了策略性能的梯度的解析表达式：
$\nabla_\theta J(\theta) = \mathbb{E}_\pi\left[\sum_{t=0}^{\infty} \gamma^t \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot G_t\right]$
其中：

$G_t$ 是从时间步 $t$ 开始的累积奖励：

$G_t = \sum_{k=t}^{\infty} \gamma^{k-t} R_{k+1}$

2. 不稳定性问题

（1）梯度估计的高方差

传统策略梯度方法（如REINFORCE算法）直接使用采样轨迹来估计策略梯度。具体更新规则为：
$\theta \leftarrow \theta + \alpha \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot G_t$
其中：

$\alpha$ 是学习率。
$T$ 是轨迹的长度。

问题分析：

高方差：累积奖励 $G_t$ 是一个随机变量，其值取决于具体的采样轨迹。由于环境的随机性和策略的随机性，不同轨迹的累积奖励 $G_t$ 可能差异很大，导致梯度估计的方差很高。高方差的梯度估计使得训练过程不稳定，容易出现剧烈波动。
更新过大：由于梯度估计的方差很高，每次更新可能会导致策略参数 $\theta$ 发生较大变化。这种过大的更新可能会使策略偏离最优策略，导致训练过程不稳定。

3. 样本效率低下的问题

（1）单次更新

传统策略梯度方法通常在每个数据批次上只进行一次更新。具体来说，每采样一条轨迹，就计算一次梯度并更新策略参数。这种单次更新的方式导致样本的利用效率较低。

问题分析：

样本利用率低：每个数据批次只使用一次，更新后就丢弃。这意味着每个样本只对策略更新贡献一次，没有充分利用样本的信息。
数据冗余：在复杂环境中，采样到的轨迹可能包含大量重复或相似的状态和动作，这些冗余数据没有被充分利用，导致样本效率低下。

4. PPO如何解决这些问题

PPO（Proximal Policy Optimization）通过以下两种主要机制解决了传统策略梯度方法的不稳定性和样本效率低下的问题：

（1）剪切机制（Clipping Mechanism）

PPO引入了一个剪切的目标函数，限制新策略与旧策略之间的概率比率。具体来说，PPO的目标函数为：
$L^{CLIP}(\theta) = \mathbb{E}_t\left[\min\left(r_t(\theta) A_t, \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon) A_t\right)\right]$
其中：

$r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$ 是新策略与旧策略的概率比率。
$A_t$ 是优势函数，表示在状态 $s_t$ 下采取动作 $a_t$ 的相对优势。
$\epsilon$ 是一个超参数，通常取值为0.1或0.2。

解决不稳定性的机制：

限制更新幅度：通过剪切操作 $\text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon)$ ，PPO限制了新策略与旧策略之间的概率比率，防止策略更新过大。这使得每次更新更加平滑，减少了训练过程中的波动。
降低方差：剪切机制通过限制概率比率的范围，减少了梯度估计的方差，使得训练过程更加稳定。