PPO系列4 - Reward模型训练

PPO系列4 - Reward模型训练

news2026/3/28 6:58:48

流程：

训练Reward模型

训练数据：

相比给每条回答进行打分，人类更容易给出两者的比较结果。这样标注出来的数据，准确性更高。

模型：

可以使用和生成模型能力差不多的模型（或者更强的模型），作为Reward模型。

不能使用太差的模型，因为Reward模型是“老师”的角色，差老师教不出好学生。

但可以使用和生成模型能力差不多的模型。因为：Reward打分任务，比生成任务，难度小很多，更容易做对。例如：我来评判一篇文章《赤兔之死》是否写得好，比自己写出这种水平的文章，要容易很多。

是否能用强化学习无限提升模型能力？答：不行的。大模型的能力主要是在预训练阶段决定下来了，SFT和强化学习，都只是让大模型能力尽量发挥出来。

生成式模型：

如上，生成是N个token的概率。

Reward模型：

如上，输入是(question+chosen)或(question+rejected)，生成是1个得分。

因此，Reward模型，只需要把生成式模型的最后一层(LM Head)，替换成生成1个得分的层(Score Head)，即可。前面的层可复用。

损失函数：

让chosen和分数 - rejected的分数，越大越好。

Reward模型推理2次，1次计算chosen的得分，1次计算rejected的得分。

代码：可用Huggingface的trl库里的RewardTrainer来做训练。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2259138.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

5.11如何用PyTorch实现ResNet34

5.11如何用PyTorch实现ResNet34

ResNet34是由16个残差块和一个全局平局池化层和一个全连接层组成，即32个卷积层1个pooling层1和fc层。训练的数据集是cifar10数据集，训练次数5，损失函数为CrossEntropyLoss()，optimizer torch.optim.SGD。 1.先定义残差块&#…

阅读更多...

yolov，coco,voc标记的睡岗检测数据集，可识别在桌子上趴着睡，埋头睡觉，座椅上靠着睡，平躺着睡等多种睡姿的检测，6549张图片

yolov，coco,voc标记的睡岗检测数据集，可识别在桌子上趴着睡，埋头睡觉，座椅上靠着睡，平躺着睡等多种睡姿的检测，6549张图片

yolov，coco,voc标记的睡岗检测数据集，可识别在桌子上趴着睡，埋头睡觉，座椅上靠着睡，平躺着睡等多种睡姿的检测，6549张图片数据集分割 6549总图像数训练组91％ 5949图片有效集9&#x…

阅读更多...

【C++游记】string的使用和模拟实现

【C++游记】string的使用和模拟实现

枫の个人主页你不能改变过去，但你可以改变未来算法/C/数据结构/C Hello，这里是小枫。C语言与数据结构和算法初阶两个板块都更新完毕，我们继续来学习C的内容呀。C是接近底层有比较经典的语言，因此学习起来注定枯燥无味&#xf…

阅读更多...

【深度学习量化交易7】miniQMT快速上手教程案例集——使用xtQuant进行历史数据下载篇

【深度学习量化交易7】miniQMT快速上手教程案例集——使用xtQuant进行历史数据下载篇

我是Mr.看海，我在尝试用信号处理的知识积累和思考方式做量化交易，应用深度学习和AI实现股票自动交易，目的是实现财务自由~ 目前我正在开发基于miniQMT的量化交易系统。在前几篇的文章中讲到，我正在开发的看海量化交易系统&#x…

阅读更多...

相差不超过k的最多数，最长公共子序列(一)，排序子序列，体操队形，青蛙过河

相差不超过k的最多数，最长公共子序列(一)，排序子序列，体操队形，青蛙过河

相差不超过k的最多数链接:相差不超过k的最多数来源：牛客网题目描述： 给定一个数组，选择一些数，要求选择的数中任意两数差的绝对值不超过 𝑘 。问最多能选择多少个数？ 输入描述: 第一行输入两个正整…

阅读更多...

解决navicat 导出excel数字为科学计数法问题

解决navicat 导出excel数字为科学计数法问题

一、原因分析用程序导出的csv文件，当字段中有比较长的数字字段存在时，在用excel软件查看csv文件时就会变成科学技术法的表现形式。其实这个问题跟用什么语言导出csv文件没有关系。Excel显示数字时，如果数字大于12位，它会自动转化…

阅读更多...

C++3--内联函数、auto

C++3--内联函数、auto

1.内联函数 1.1概念以inline修饰的函数叫做内联函数，编译时C编译器会在调用内联函数的地方展开，没有函数调用建立栈帧的开销，内联函数提升程序的效率如果在上述函数前增加inline关键字将其改成内联函数，在编译期间编译器会用函…

阅读更多...

AES 与 SM4 加密算法：深度解析与对比

AES 与 SM4 加密算法：深度解析与对比

🧑 博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，…

阅读更多...

视频怎么转音频mp3？5种视频转音频的方法

视频怎么转音频mp3？5种视频转音频的方法

在视频剪辑时，将视频中的音频提取出来并转换为MP3格式已成为许多人的需求。无论是为了制作音乐播放列表、剪辑音频片段，还是为了在其他设备上更方便地播放，将视频转换为音频MP3都显得尤为重要。下面将介绍五种实用的方法，帮助你轻…

阅读更多...

Maven学习（传统Jar包管理、Maven依赖管理(导入坐标)、快速下载指定jar包）

Maven学习（传统Jar包管理、Maven依赖管理(导入坐标)、快速下载指定jar包）

目录一、传统Jar包管理。 （1）基本介绍。 （2）传统的Jar包导入方法。 1、手动寻找Jar包。并放置到指定目录下。 2、使用IDEA的库管理功能。 3、配置环境变量。 （3）传统的Jar包管理缺点。二、Maven。 &#…

阅读更多...

【机器学习】分类器

【机器学习】分类器

在机器学习(Machine Learning，ML)中，分类器泛指算法或模型，用于将输入数据分为不同的类别或标签。分类器是监督学习的一部分，它依据已知的数据集中的特征和标签进行训练，并根据这些学习到的知识对新的未标记数据进行分…

阅读更多...

uni-app在image上绘制点位并回显

uni-app在image上绘制点位并回显

在 Uni-app 中绘制多边形可以通过使用 Canvas API 来实现。Uni-app 是一个使用 Vue.js 开发所有前端应用的框架，同时支持编译为 H5、小程序等多个平台。由于 Canvas 是 H5 和小程序中都支持的 API，所以通过 Canvas 绘制多边形是一个比较通用的方法。 1.…

阅读更多...

【机器学习与数据挖掘实战】案例01：基于支持向量回归的市财政收入分析

【机器学习与数据挖掘实战】案例01：基于支持向量回归的市财政收入分析

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈机器学习与数据挖掘实战 ⌋ ⌋ ⌋ 机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数…

阅读更多...

Spire.PDF for .NET【页面设置】演示：向 PDF 文档添加页码

Spire.PDF for .NET【页面设置】演示：向 PDF 文档添加页码

在 PDF 文档中添加页码不仅实用，而且美观，因为它提供了类似于专业出版材料的精美外观。无论您处理的是小说、报告还是任何其他类型的长文档的数字副本，添加页码都可以显著提高其可读性和实用性。在本文中，您将学习如何使用Spire.P…

阅读更多...

【iOS】OC高级编程 iOS多线程与内存管理阅读笔记——自动引用计数（三）

【iOS】OC高级编程 iOS多线程与内存管理阅读笔记——自动引用计数（三）

目录 ARC规则概要所有权修饰符 __strong修饰符 __weak修饰符 __unsafe_unretained修饰符 __autoreleasing修饰符 ARC规则概要 “引用计数式内存管理”的本质部分在ARC中并没有改变，ARC只是自动地帮助我们处理“引用计数”的相关部分。在编译单位上可以…

阅读更多...

An error happened while trying to locate the file on the Hub and we cannot f

An error happened while trying to locate the file on the Hub and we cannot f

An error happened while trying to locate the file on the Hub and we cannot find the requested files in the local cache. Please check your connection and try again or make sure your Internet connection is on. 关于上述comfy ui使用control net预处理器的报错问…

阅读更多...

angular19-官方教程学习

angular19-官方教程学习

周日了解到angular已经更新到19了，想按官方教程学习一遍，工欲善其事必先利其器，先更新工具： 安装新版版本卸载老的nodejs 20.10.0，安装最新的LTS版本 https://nodejs.org 最新LTS版本已经是22.12.0 C:\Program File…

阅读更多...

计算机毕业设计Python+Vue.js游戏推荐系统 Steam游戏推荐系统 Django Flask 游戏可视化游戏数据分析游戏大数据爬虫机

计算机毕业设计Python+Vue.js游戏推荐系统 Steam游戏推荐系统 Django Flask 游戏可视化游戏数据分析游戏大数据爬虫机

温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 作者简介：Java领…

阅读更多...

上海亚商投顾：创业板指震荡调整机器人概念股再度爆发

上海亚商投顾：创业板指震荡调整机器人概念股再度爆发

上海亚商投顾前言：无惧大盘涨跌，解密龙虎榜资金，跟踪一线游资和机构资金动向，识别短期热点和强势个股。一.市场情绪沪指昨日冲高回落，深成指、创业板指盘中跌超1%，尾盘跌幅有所收窄。机器人概念股逆势爆…

阅读更多...

粘贴可运行：Java调用大模型(LLM) 流式Flux stream 输出；基于spring ai alibaba

粘贴可运行：Java调用大模型(LLM) 流式Flux stream 输出；基于spring ai alibaba

在Java中，使用Spring AI Alibaba框架调用国产大模型通义千问，实现流式输出，是一种高效的方式。通过Spring AI Alibaba，开发者可以轻松地集成通义千问模型，并利用其流式处理能力，实时获取模型生成的文本。这…

阅读更多...

推荐文章

最新文章