GPT3.5的PPO目标函数怎么来的：From PPO to PPO-ptx

news2025/7/5 19:21:56

给定当前优化的大模型 $\pi$ ，以及SFT模型 $\pi_{SFT}$

原始优化目标为: $\max E_{(s,a)\sim RL}[\frac{\pi(s,a)}{\pi_{SFT}(s,a)}A^{\pi_{SFT}}(s,a)]$

假设型 $\pi$ ，以及SFT模型 $\pi_{SFT}$ 的KL散度很小即 $\frac{\pi(s,a)}{\pi_{SFT}(s,a)}=1$

给定奖励模型 $r(s,a)\in [0,1]$ ,

假设整个事件的时间范围就1步所以 $Q (s, a) = R (s, a) = r (s, a)$

可以得到:

$\max E_{(s,a)\sim RL}[\frac{\pi(s,a)}{\pi_{SFT}(a|s)}A^{\pi_{SFT}}(a|s)] \\=\max E_{(s,a)\sim RL}[\frac{\pi(a|s)}{\pi_{SFT}(a|s)}(Q^{\pi_{SFT}}(s,a)-V^{\pi_{SFT}}(s))]\\=\max E_{(s,a)\sim RL}[\frac{\pi(a|s)}{\pi_{SFT}(a|s)}(r(s,a)-V^{\pi_{SFT}}(s))]\\=\max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)} V^{\pi_{SFT}}(s)]\\=\max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)}\int_{a} Q^{\pi_{SFT}}(s,a)]\\=\max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)}\int_{a} r(s,a)]\\=\max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)}]$
此外为了约束模型 $\pi$ 和 $\pi_{SFT}$ 之间不要差得太远还需要使用SFT的数据训练 $\pi$ ，等价于 $\max E_{(s,a)\sim \pi_{SFT}}[\pi(a|s)]$ 。因此优化目标就变成了:
$\max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)}]+E_{(s,a)\sim \pi_{SFT}}[\pi(a|s)]$
这一项和GPT3.5的优化目标基本一致:
在这里插入图片描述