NLP_ChatGPT的RLHF实战

NLP_ChatGPT的RLHF实战

news2026/2/12 15:07:29

文章目录

介绍
小结

介绍

ChatGPT 之所以成为ChatGPT，基于人类反馈的强化学习是其中重要的一环。而ChatGPT 的训练工程称得上是复杂而又神秘的，迄今为止，OpenAl也没有开源它的训练及调优的细节。
从 OpenAl已经公开的一部分信息推知，ChatGPT的训练主要由三个步骤组成，如下图所示。

原文：
在这里插入图片描述

译文：
在这里插入图片描述

第1步，先使用大量数据(从Prompt数据库中抽样)通过监督学习在预训练的 GPT-3.5基础上微调模型，得到一个初始模型，就是监督学习微调模型(Supervised Fine-Tune Model，SFT)——暂且把它命名为“弱弱的ChatGPT”。
第2步，请标注人员为初始模型“弱弱的ChatGPT”对同一问题给出的不同答案排序，评估这些答案的质量，并为它们分配一个分数。然后使用这些数据训练出一个具有人类偏好的奖励模型(Reward Model,RM)–这个奖励模型能够代替人类评估 ChatGPT 的回答大概会得到多少奖励。
第3步，初始化“弱弱的ChatGPT”模型，从Prompt数据库中抽样，与模型进行对话。然后使用奖励模型对“弱弱的ChatGPT”模型的输出进行打分。再将结果反馈给“弱弱的 ChatGPT”模型，通过近端策略优化(Proximal Policy Optimization, PPO)算法进一步优化模型。

不过，这还没完，此时ChatGPT模型经过优化，能生成更高质量的回答，那么，再回到第1步用优化后的ChatGPT初始化模型，就得到更好的SFT模型;用更好的 SFT 在第2步中取样，又得到更好的回答;对更高质量的回答进行排序、评分后，就能训练出更好的奖励模型，于是获得更好的反馈……这样不断循环，ChatGPT 就一步接着一步，在接受人类的反馈的同时，不断自我优化，一波接一波，越变越强。

小结

ChatGPT训练三阶段：
阶段1：收集数据，通过监督学习微调模型
阶段2：收集模型生成的数据，训练一个奖励模型
阶段3：通过奖励模型以PPO强化学习算法优化策略,得到优化后的模型

学习的参考资料：
（1）书籍
利用Python进行数据分析
西瓜书
百面机器学习
机器学习实战
阿里云天池大赛赛题解析(机器学习篇)
白话机器学习中的数学
零基础学机器学习
图解机器学习算法

动手学深度学习（pytorch）

…

（2）机构
光环大数据
开课吧
极客时间
七月在线
深度之眼
贪心学院
拉勾教育
博学谷
慕课网
海贼宝藏
…

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1451301.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

H5 粒子特效引导页源码

H5 粒子特效引导页源码

H5 粒子特效引导页源码源码介绍：一款粒子特效引导页源码，带彩色文字和4个按钮。下载地址： https://www.changyouzuhao.cn/10222.html

阅读更多...

比较不相交5点结构的顺序

比较不相交5点结构的顺序

( A, B )---6*30*2---( 1, 0 )( 0, 1 ) 让网络的输入只有6个节点，AB训练集各由6张二值化的图片组成，让差值结构有5个点，收敛误差7e-4，收敛199次，统计迭代次数平均值并排序。如果行和列可以自由的变换，5个…

阅读更多...

A. Desorting

A. Desorting

链接 : Problem - A - Codeforces 题意 : 思路 : 先判断序列是否排好序 ， 不是排好序的，直接输出0即可，排好序的 : 先求出相邻元素之间的最小间隔，因为，要使有序非递减序列，变得不排序，…

阅读更多...

Python三级考试笔记

Python三级考试笔记

Python三级考试笔记【源源老师】三级标准一、理解编码、数制的基本概念，并且会应用。 1. 能够进行二进制、十进制以及十六进制之间的转换； 2. 理解Python中的数制转换函数。二、掌握一维数据的表示和读写方法，能够编写程序处理一维数据…

阅读更多...

高效货运 - 华为OD统一考试(C卷)

高效货运 - 华为OD统一考试(C卷)

OD统一考试（C卷） 分值： 200分题解： Java / Python / C 题目描述老李是货运公司承运人，老李的货车额定载货重量为wt；现有两种货物，货物A单件重量为wa，单件运费利润为pa&#xff0c…

阅读更多...

函数、极限、连续——刷题（3

函数、极限、连续——刷题（3

目录 1.题目：2.解题思路和步骤：3.总结：小结： 1.题目： 2.解题思路和步骤： 3.总结： 首先还是考虑好所有情况（所有情况见：函数、极限、连续——刷题（1&#xff…

阅读更多...

适用于Android 的 7 大短信恢复应用程序

适用于Android 的 7 大短信恢复应用程序

对于 Android 用户来说，丢失重要的短信可能是一种令人沮丧的体验。幸运的是，有许多短信恢复应用程序可以帮助恢复丢失或删除的短信。在本文中，将与您分享 7 个最佳短信恢复应用程序，并帮助您找到可用于恢复已删除消息的最佳应用程…

阅读更多...

机器学习分类评估四个术语TP，FP，FN,TN

机器学习分类评估四个术语TP，FP，FN,TN

分类评估方法主要功能是用来评估分类算法的好坏，而评估一个分类器算法的好坏又包括许多项指标。了解各种评估方法，在实际应用中选择正确的评估方法是十分重要的。这里首先介绍几个常见的模型评价术语，现在假设我们的分类目标只有两类&#x…

阅读更多...

LeetCode.107. 二叉树的层序遍历 II

LeetCode.107. 二叉树的层序遍历 II

题目 107. 二叉树的层序遍历 II 分析这个题目考查的是二叉树的层序遍历，对于二叉树的层序遍历，我们需要借助队列这种数据结构。再来回归本题 ，我们只需要将二叉树的层序遍历的结果逆序，就可以得到这道题我们要求的答案了。…

阅读更多...

交通管理|交通管理在线服务系统|基于Springboot的交通管理系统设计与实现(源码+数据库+文档)

交通管理|交通管理在线服务系统|基于Springboot的交通管理系统设计与实现(源码+数据库+文档)

交通管理在线服务系统目录目录基于Springboot的交通管理系统设计与实现一、前言二、系统功能设计三、系统实现 1、用户信息管理 2、驾驶证业务管理 3、机动车业务管理 4、机动车业务类型管理四、数据库设计 1、实体ER图五、核心代码六、论文参考七、最新计…

阅读更多...

【BBuf的CUDA笔记】十四，OpenAI Triton入门笔记二

【BBuf的CUDA笔记】十四，OpenAI Triton入门笔记二

0x0. 前言接着【BBuf的CUDA笔记】十三，OpenAI Triton 入门笔记一继续探索和学习OpenAI Triton。这篇文章来探索使用Triton写LayerNorm/RMSNorm kernel的细节。之前在【BBuf的CUDA笔记】十二，LayerNorm/RMSNorm的重计算实现这篇文章我啃过Apex的La…

阅读更多...

HTTP 超文本传送协议

HTTP 超文本传送协议

1 超文本传送协议 HTTP HTTP 是面向事务的 (transaction-oriented) 应用层协议。使用 TCP 连接进行可靠的传送。定义了浏览器与万维网服务器通信的格式和规则。是万维网上能够可靠地交换文件（包括文本、声音、图像等各种多媒体文件）的重要基础。 H…

阅读更多...

基于Transformer的机器学习模型的主动学习

基于Transformer的机器学习模型的主动学习

主动学习和基于Transformer的机器学习模型的结合为有效地训练深度学习模型提供了强有力的工具。通过利用主动学习，数据科学家能够减少训练模型所需的标记数据的数量，同时仍然达到高精度。本文将探讨基于Transformer的机器学习模型如何在主动学习环境中使…

阅读更多...

如何创建和填写 PDF 表单，简化您的文档工作流

如何创建和填写 PDF 表单，简化您的文档工作流

阅读本文，了解如何在开源办公套件 ONLYOFFICE 中创建和填写 PDF 表单。 ONLYOFFICE表单发展小史 ONLYOFFICE 表单首个版本发布于2022年1月18日，是 ONLYOFFICE 版本 7.0 更新的一部分。您可以使用 ONLYOFFICE 表单，创建各种类型的模板文档&a…

阅读更多...

ssm的网上招聘系统（有报告）。Javaee项目。ssm项目。

ssm的网上招聘系统（有报告）。Javaee项目。ssm项目。

演示视频： ssm的网上招聘系统（有报告）。Javaee项目。ssm项目。项目介绍： 采用M（model）V（view）C（controller）三层体系结构，通过Spring SpringMv…

阅读更多...

【Java从入门到精通】Java修饰符

【Java从入门到精通】Java修饰符

目录 Java 修饰符访问控制修饰符默认访问修饰符-不使用任何关键字实例私有访问修饰符-private 公有访问修饰符-public 受保护的访问修饰符-protected 访问控制和继承非访问修饰符 static 修饰符 final 修饰符实例 abstract 修饰符实例实例 synchronized…

阅读更多...

安卓手机如何连接投影仪？这里提供详细步骤

安卓手机如何连接投影仪？这里提供详细步骤

安卓设备很棒，但它们的小屏幕有时会有局限性。当你将设备连接到投影仪时，你可以与他人共享屏幕以进行商务或娱乐。以下是一些方法。如果你没有投影仪，你也可以将Android连接到电视。不过，投影仪是更好的选择，因为它们通常投影的屏幕比电视大得多，是媒体播放或数据演示的…

阅读更多...

【前端高频面试题--git篇】

【前端高频面试题--git篇】

🚀 作者 ：“码上有前” 🚀 文章简介 ：前端高频面试题 🚀 欢迎小伙伴们点赞👍、收藏⭐、留言💬 前端高频面试题--git篇往期精彩内容常用命令git add 和 git stage 有什么区别怎么使用git连接…

阅读更多...

.NET Core WebAPI中封装Swagger配置

.NET Core WebAPI中封装Swagger配置

一、创建相关文件创建一个Utility/SwaggerExt文件夹，添加一个类二、在Program中找到Swagger相关配置信息三、添加方法，在Program中调用在SwaggerExt类中添加方法，将相关配置添写入 /// <summary> /// swagger配置 /// </sum…

阅读更多...

算法——组合数学——二项式定理

算法——组合数学——二项式定理

杨辉三角是二项式系数的典型应用当 n 较大，且需要取模时，二项式系数有两种计算方法： 一：递推公式，二：逆方法一：用递推公式计算二项式系数 public class BinomialCoefficient {public static i…

阅读更多...

推荐文章

最新文章