ChatGLM-RLHF(五)-PPO（Proximal Policy Optimization）原理实现代码逐行注释

news2026/2/12 11:56:15

一，前言

从open AI 的论文可以看到，大语言模型的优化，分下面三个步骤，SFT，RM，PPO，我们跟随大神的步伐，来学习一下这三个步骤和代码实现，本章介绍PPO代码实现。

上章我们介绍了PPO算法的公式，其形式如下：

$J(\theta) = E_{\tau \sim p_{\mu}(\tau)}[\sum_{t=0}^T \rho_t A_t \log \pi_{\theta}(a_t|s_t)] +E_{\tau \sim p_{\theta_{old}}(\tau)}[\min(r_t(\theta)A_t, clip(r_t(\theta), 1-\epsilon, 1+\epsilon)A_t)]$

下面是这段公式与代码的对应关系：

一，优势函数（Advantage）计算公式里的At：

1. 优势函数用于衡量当前状态或行动相对于期望值的优劣程度。A(s,a) = Q(s,a) - V(s)，

2. $A_t$ 表示时间步 t 的优势函数，计算时使用当前策略 $\pi_{\theta}(a_t|s_t)$ 和旧策略 $\pi_{\theta_{\text{old}}}(a_t|s_t)$ 分别计算出 $r_t(\theta)$ ，然后使用 $A_t$ 和 $r_t(\theta)$ 计算出 $E_{\tau \sim p_{\theta_{old}}(\tau)}[\min(r_t(\theta)A_t, clip(r_t(\theta), 1-\epsilon, 1+\epsilon)A_t)]$ 部分的损失。同时， $A_t$ 还用于计算 $E_{\tau \sim p_{\mu}(\tau)}[\sum_{t=0}^T \rho_t A_t \log \pi_{\theta}(a_t|s_t)]$ 部分的损失。优势函数的计算是一个重要的部分，它帮助我们估计当前策略相对于旧策略的性能提升。

3. 代码里没有直接使用Q(s,a) - V(s)，而是使用了GAE-Lambda 算法进行计算，GAE-Lambda 算法通过将多个时间步的奖励加权平均，计算出当前时间步的优势函数，GAE-Lambda 算法的优点在于，它不仅考虑了当前时间步的奖励，还考虑了未来时间步的奖励，并且通过 Lambda 参数进行加权平均，从而更好地估计当前状态或行动的价值。这使得 GAE-Lambda 算法在训练强化学习模型时具有更好的稳定性和收敛性。

GAE-Lambda 算法的计算过程如下：

对于每个时间步 t，计算 delta，即当前时间步的奖励加上折扣因子乘以下一个时间步的值减去当前时间步的值：

delta = rewards[t] + gamma * values[t+1] - values[t]
对于每个时间步 t，计算 GAE-Lambda，即 delta 加上折扣因子乘以 Lambda 倍的上一个时间步的 GAE-Lambda：

lastgaelam = delta + gamma * lam * lastgaelam
将计算得到的 GAE-Lambda 添加到 advantages_reversed 列表中。
将 advantages_reversed 列表转换为张量，并进行维度转置，得到最终的优势函数张量 advantages。
具体如下代码

# 计算优势函数
for t in reversed(range(gen_len)):
    nextvalues = values[:,t + 1] if t < gen_len - 1 else last_values  # 获取下一个时间步的值，如果当前时间步是最后一个时间步，则使用 last_values
    delta = rewards[:, t] + self.config.gamma * nextvalues - values[:,t]  # 计算 delta，即当前时间步的奖励加上折扣因子乘以下一个时间步的值减去当前时间步的值
    lastgaelam = delta + self.config.gamma * self.config.lam * lastgaelam  # 计算 GAE-Lambda，即 delta 加上折扣因子乘以 Lambda 倍的上一个时间步的 GAE-Lambda
    advantages_reversed.append(lastgaelam)  # 将计算得到的 GAE-Lambda 添加到 advantages_reversed 列表中
advantages = torch.stack(advantages_reversed[::-1]).transpose(0, 1)  # 将 advantages_reversed 列表转换为张量，并进行维度转置

二，值函数的损失（Value Function Loss）的计算

值函数的损失公式通常使用均方差（Mean Squared Error，MSE）来衡量值函数的预测误差。值函数的损失公式可以表示为：

L(θ) = 0.5 * E[(V(s) - R)^2]

其中，L(θ)表示值函数的损失，θ表示值函数的参数，V(s)表示值函数对状态s的预测值，R表示实际的回报值。

这个公式的含义是，首先，通过 clip_by_value 函数将当前状态的价值函数 values 限制在一个区间内，得到 vpredclipped。然后，分别计算使用原始价值函数和限制后的价值函数计算得到的损失，即 vf_losses1 和 vf_losses2。通过计算值函数对状态的预测值与实际回报值之间的差异的平方，来衡量值函数的预测误差。然后取这些差异的平方的期望值，再乘以0.5，得到最终的损失值。最终，将两者的较大值作为值函数的损失，通过 masked_mean 函数计算期望。

            # 值函数的损失
            vpredclipped = clip_by_value(
                values, values - self.config.cliprange_value, values + self.config.cliprange_value
            )
            vf_losses1 = (values - returns) ** 2
            vf_losses2 = (vpredclipped - returns) ** 2
            vf_loss = 0.5 * masked_mean(torch.max(vf_losses1, vf_losses2), masks)
            vf_clipfrac = masked_mean(torch.gt(vf_losses2, vf_losses1).double(), masks)

三，策略函数的损失（Policy Function Loss）的计算：

这部分对应公式 $E_{\tau \sim p_{\mu}(\tau)}[\sum_{t=0}^T \rho_t A_t \log \pi_{\theta}(a_t|s_t)]$

在PPO算法中，我们采用两种不同的方式计算策略损失，即pg_losses和pg_losses2。这两种方式分别对应目标函数中的两个部分。

pg_losses表示使用原始比率计算得到的损失，即：

$L^{PG}_1(\theta) = -\frac{1}{N} \sum_{i=1}^N \sum_{t=0}^{T_i} \rho_{i,t} A_{i,t} \log \pi_{\theta}(a_{i,t}|s_{i,t})$

其中，N表示采样轨迹的数量， $\rho_{i,t}$ 表示第 i 条轨迹在时间步 t 的重要性采样比例， $A_{i,t}$ 表示第 i 条轨迹在时间步 t 的优势函数。

pg_losses2表示使用限制后的比率计算得到的损失，即：

$L^{PG}_2(\theta) = -\frac{1}{N} \sum_{i=1}^N \sum_{t=0}^{T_i} \min(r_{i,t}(\theta)A_{i,t}, \text{clip}(r_{i,t}(\theta), 1-\epsilon, 1+\epsilon)A_{i,t}) \log \pi_{\theta}(a_{i,t}|s_{i,t})$

其中， $r_{i,t}(\theta)$ 表示第i条轨迹在时间步t的比率， $\epsilon$ 表示剪切幅度。

最终，将两种方式计算得到的损失取较大值，即：

pg_loss = \max(pg_losses, pg_losses2)

            # 策略函数的损失
            logprobs = F.log_softmax(logits, dim=1)
            ratio = torch.exp(logprobs - old_logprobs)
            pg_losses = -advantages * ratio
            pg_losses2 = -advantages * torch.clamp(ratio, 1.0 - self.config.cliprange, 1.0 + self.config.cliprange)
            pg_loss = masked_mean(torch.max(pg_losses, pg_losses2), masks)
            pg_clipfrac = masked_mean(torch.gt(pg_losses2, pg_losses).double(), masks)

总损失计算

            # 总损失
            loss = pg_loss + self.config.vf_coef * vf_loss

四，完整代码可以参考：

GitHub - Pillars-Creation/ChatGLM-RLHF-LoRA-RM-PPO: ChatGLM-6B添加了RLHF的实现，以及部分核心代码的逐行讲解 ,实例部分是做了个新闻短标题的生成

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/847513.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

ChatGLM-RLHF(五)-PPO（Proximal Policy Optimization）原理实现代码逐行注释

一，前言

一，优势函数（Advantage）计算公式里的At：

二，值函数的损失（Value Function Loss）的计算

三，策略函数的损失（Policy Function Loss）的计算：

四，完整代码可以参考：

相关文章

Java编程实践：实现Java接口的方法也建议加上@Override注解

电视盒子哪款好？内行整理超值网络电视盒子推荐

VIM 编辑器： Bram Moolenaar

idea中如何处理飘红提示

android studio安卓真机调试

面试遇到登录功能测试用例设计，你回答对了吗

开发一款保护程序检测进程假死，精准打开保护的程序

嵌入式开发学习（STC51-9-led点阵）

恒盛策略：医药股反弹，掀涨停潮！

OPENCV C++(八)HOG的实现

HTML Emoji和Emoji 参考手册

native vlan tag设置错误，导致交换机无法访问

用于实体对齐的联合学习实体和关系表示2019 AAAI 8.7+8.8

端口映射软件可以做什么？快解析如何设置端口映射？

网络系统观察之道

CTF流量题解http2.pcapng

VS2008总在当前项目文件夹创建3个不必要的文件夹的解决方法

【Java可执行命令】（十八）可视化监控和管理工具 jconsole：获取 JVM的内存使用情况、线程活动、GC 行为等重要指标的可视化工具 ~

成品短视频App源码，开启你的创意视频之旅！

并发——什么是线程，什么是进程

ChatGLM-RLHF(五)-PPO（Proximal Policy Optimization）原理实现代码逐行注释

一，前言

一，优势函数（Advantage）计算公式里的At：

二，值函数的损失（Value Function Loss）的计算

三，策略函数的损失（Policy Function Loss）的计算：

四， 完整代码可以参考：

相关文章

四，完整代码可以参考：