ChatGLM-RLHF(七)-PPO实践（Proximal Policy Optimization）原理实现代码逐行注释

news2026/2/8 20:49:51

从open AI 的论文可以看到，大语言模型的优化，分下面三个步骤，SFT，RM，PPO，我们跟随大神的步伐，来学习一下这三个步骤和代码实现，本章介绍PPO实践。

生活中，我们经常会遇到，希望chatgpt在指定内容范围内回答问题。目前的解决方案大致可以分为两大类，一类是知识库外挂，代表作如langchain。把chatgpt的结果转换为向量在知识库里检索。如下图，本质上最终还是一种向量检索，chatgpt的能力其实是打了一个大的折扣。

另外一类是扩展现有LLM模型的Context处理长度，把候选直接作为llm模型的Context。这里涉及到两个问题，一个是如何扩展Context长度，一个是如何让llm模型只在指定Context内回答问题。今天我们ppo优化主要解决llm模型只在指定Context内回答问题。

样本

我们在1000篇文章中随机选择30篇作为prompt，让模型从这30篇文章中选择出我们想要的文章。

        #随机选择30篇作为prompt
       random_articles = df.sample(n=31)
       random_article = random_articles.iloc[0]
       cat = random_article['category']
       article_list = [title + ' (' + cat + ')' for title, cat in zip(random_articles['title'], random_articles['category'])]
       input_str = construct_input(article_list, cat)
       input_ids = tokenizer.encode(input_str, return_tensors='pt').to('cuda')

模型准确率判定

可以回答多篇结果，如果模型有我们希望的回答的结果，加1分，不符合减1分。

        #判断命中条数
       for ans in answer.split('\n'):
           similarity_threshold = 0.9  # 相似度阈值
           # 判断是否在input中且分类是否一致
           if is_similar(ans, article_list, similarity_threshold):
               positive_num = positive_num +1
               break
       print(i, 'accuracy:', positive_num / (i+1))

rm样本制作

第一种

正例：选择一条在prompt中符合条件的新闻为正例

负例：随机选择一条不在prompt中的新闻作为负例，

第二种，

正例：sft一次预测多条，从预测的结果中，挑选出符合条件的为正

负例：sft一次预测多条，从预测的结果中，挑选出不符合条件的为负

比较的结果是第二种方案会好一些。

也可以参考这篇博文ChatGLM-RLHF(三)-RM（Reward Model）实现&代码逐行注释_Pillars-Creation的博客-CSDN博客

ppo训练预测

ppo原理前一章节已经讲了，传送门ChatGLM-RLHF(六)-PPO（Proximal Policy Optimization）原理&实现&代码逐行注释_Pillars-Creation的博客-CSDN博客

需要注意的就是，因为训练时候需要加载sft和rm两个模型，你需要一个大一点显存的gpu，本例在A100，40G显存上跑通。如果显存小了容易报显存不足的错误。

训练结果

原始预测结果

sft预测结果

ppo预测结果

几点体会，

1好的sft可以解决大部分的问题，从上面实验看简单sft训练后准确率已经到了80%以上

2，要根据自身需要定制好的rm样本和loss。有时候单纯根据sft样本，模型可能很难总结出你真正的目的，rm可以帮助模型更好的理解人的期望。

3，rm单独使用效果不一定比sft效果更好，这也比较好理解，rm需要人工标注pair对，数量总是有限的，并且这个pair对，是否清晰表达给了模型用户的真实意图，也比较难保证。所以rm我们更多用在最后，纠正模型。

4，rm过程可以进行多次，把自己的目标拆解成几个rm过程，更容易达到我们的目标

5，PPO过程确实帮助模型效果得到了提升，并且可以从比较粗劣的rm标注结果中学到知识。

完整代码可以参考：

GitHub - Pillars-Creation/ChatGLM-RLHF-LoRA-RM-PPO: ChatGLM-6B添加了RLHF的实现，以及部分核心代码的逐行讲解 ,实例部分是做了个新闻短标题的生成

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/883192.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

水库大坝安全监测MCU,提升大坝管理效率的利器！

水库大坝安全监测MCU,提升大坝管理效率的利器！

水库大坝作为防洪度汛的重要设施，承担着防洪抗旱，节流发电的重要作用。大坝的安全直接关系到水库的安全和人民群众的生命财产安全。但因为水库大坝的隐患不易被察觉，发现时往往为时已晚。因此，必须加强对大坝的安全管理。其安全监…

阅读更多...

最长递增子序列——力扣300

最长递增子序列——力扣300

int lengthOfLIS(vector<int>& nums) {int len=1, n=nums.size();if

阅读更多...

MCA Recovery简介

MCA Recovery简介

概述 1、MCA Recovery – Execution Path 软件层辅助从不可纠正的数据错误恢复； 1）处理器识别到硬件不可纠正错误，打上数据腐烂标签，事件交由固件或OS处理。 2）如果固件/OS有冗余数据备份，可以被纠正&#…

阅读更多...

图像去雨、去雪、去雾论文学习记录

图像去雨、去雪、去雾论文学习记录

All_in_One_Bad_Weather_Removal_Using_Architectural_Search 这篇论文发表于CVPR2020，提出一种可以应对多种恶劣天气的去噪模型，可以同时进行去雨、去雪、去雾操作。但该部分代码似乎没有开源。提出的问题： 当下的模型只能针对一种恶劣天气…

阅读更多...

基于主题的情绪分析：将主题建模与情绪分析联系起来

基于主题的情绪分析：将主题建模与情绪分析联系起来

一、说明朋友们，大家好！现在我们学习了如何在Twitter数据上进行主题建模和情感分析，但我们还没有将这两种技术联系在一起。我们如何获得与每个主题相对应的情绪？在这篇文章中，我将向您展示进行基于主题的情绪分析的方…

阅读更多...

Kubernetes 企业级高可用部署

Kubernetes 企业级高可用部署

1、Kubernetes高可用项目介绍单master节点的可靠性不高，并不适合实际的生产环境。Kubernetes 高可用集群是保证 Master 节点中 API Server 服务的高可用。API Server 提供了 Kubernetes 各类资源对象增删改查的唯一访问入口，是整个 Kubernetes 系统的数…

阅读更多...

云原生 AI 工程化实践之 FasterTransformer 加速 LLM 推理

云原生 AI 工程化实践之 FasterTransformer 加速 LLM 推理

作者：颜廷帅（瀚廷） 01 背景 OpenAI 在 3 月 15 日发布了备受瞩目的 GPT4，它在司法考试和程序编程领域的惊人表现让大家对大语言模型的热情达到了顶点。人们纷纷议论我们是否已经跨入通用人工智能的时代。与此同时，基…

阅读更多...

linux pwn 相关工具

linux pwn 相关工具

环境搭建虚拟机安装镜像下载网站为了避免环境问题建议 22.04 ，20.04，18.04，16.04 等常见版本 ubuntu 虚拟机环境各准备一份。注意定期更新快照以防意外。虚拟机建议硬盘 256 G 以上，内存也尽量大一些。硬盘大小只是上界&#…

阅读更多...

RocketMQ、Dashboard部署以及安全设置

RocketMQ、Dashboard部署以及安全设置

RocketMQ、dashboard部署以及安全设置一、启动RocketMQ1.1 下载RocketMQ1.2 修改配置文件1.2.1 修改nameServer Jvm内存配置1.2.2 修改broker参数 1.3 启动1.3.1 启动NameServer1.3.2 启动Broker1.3.3 测试是否启动成功1.3.3.1 测试消息发送1.3.3.2 测试消息接收1.3.3.3 Java程…

阅读更多...

SSM——用户、角色、权限操作

SSM——用户、角色、权限操作

1. 数据库与表结构 1.1 用户表 1.1.1 用户表信息描述 users 1.1.2 sql语句 CREATE TABLE users( id varchar2(32) default SYS_GUID() PRIMARY KEY, email VARCHAR2(50) UNIQUE NOT NULL, username VARCHAR2(50), PASSWORD VARCHAR2(50), phoneNum VARCHAR2(20), STATUS INT…

阅读更多...

Ceph入门到精通-Aws Iam(user,role,group,policy,resource)架构图和快速入门

Ceph入门到精通-Aws Iam(user,role,group,policy,resource)架构图和快速入门

-- Aws Iam(identity,user,role,group,policy,resource,)架构图和快速入门. 【官网】：Cloud Computing Services - Amazon Web Services (AWS) 应用场景 aws 云服务运维,devops过程中经常涉及各项服务，权限，角色的处理。为了更好的使用各项…

阅读更多...

C语言入门 Day_4 小数字符和常量

C语言入门 Day_4 小数字符和常量

目录前言 1.浮点型 2.字符型 3.易错点 4.思维导图前言我们学习了C语言中用来表示整数的数据类型：整型（int），今天我们会学习用来表示小数的数据类型：浮点型（float） 1.浮点型 …

阅读更多...

tinymce动态生成

tinymce动态生成

最近在做一个vue项目, 其中用到了富文本tinymce插件,界面上需要有多个编辑器, 界面如下: ![在这里插入图片描述](https://img-blog.csdnimg.cn/f029b487c799482d8d53c2c31e07ccad.png 这里点击添加按钮, 需要动态添加tinymce组件页面的元素 // item是v-for循环中的对象 <…

阅读更多...

【第三阶段】kotlin语言的split

【第三阶段】kotlin语言的split

const val INFO"kotlin,java,c,c#" fun main() {//list自动类型推断成listList<String>val listINFO.split(",")//直接输出list集合，不解构println("直接输出list的集合元素：$list")//类比c有解构，ktoli…

阅读更多...

微信自动回复软件有吗？

微信自动回复软件有吗？

阅读更多...

linux下的lld命令

linux下的lld命令

Linux下的lld命令的主要作用：用来查看程式运行所需的共享库（动态链接库）,常用来解决程式因缺少某个库文件而不能运行的一些问题。 1、首先ldd不是一个可执行程序，而只是一个shell脚本 2、ldd 的使用 lld 可执行程序或者动态库…

阅读更多...

java 单次socket收发消息

java 单次socket收发消息

包

阅读更多...

$一维离散动力系统计算的基本理论$

一维离散动力系统计算的基本理论

离散动力系统计算的基本理论离散动力系统的基本概念与基本定理离散动力系统的定义形如的迭代系统称为一个一阶离散动力系统。其中一阶指显式的仅依赖前一项类似得，我们可以定义m-阶离散动力系统和更高维度的动力系统不动点不动点周期轨道周期与不变集 …

阅读更多...

Android 组件

Android 组件

TextView 文本框用于显示文本的一个控件。文本的字体尺寸单位为 sp 。sp: scaled pixels(放大像素). 主要用于字体显示。文本常用属性属性名说明id为TextView设置一个组件id，根据id，我们可以在Java代码中通过 findViewById()的方法获取到该对象&…

阅读更多...

2011-2021年数字普惠金融指数Bartik工具变量法（含原始数据和Bartik工具变量法代码）

2011-2021年数字普惠金融指数Bartik工具变量法（含原始数据和Bartik工具变量法代码）

2011-2021年数字普惠金融指数Bartik工具变量法（含原始数据和Bartik工具变量法代码） 1、时间：2011-2020（省级、城市），2014-2020（区县） 2、原始数据来源：北大金融研究中心…

阅读更多...

推荐文章

最新文章