LLM之RLHF:Karpathy视角来对比RLHF技术和RL技术—RLHF is just barely RL(RLHF只是勉强算作强化学习)

news2024/11/26 10:29:32

LLM之RLHF:Karpathy视角来对比RLHF技术和RL技术—RLHF is just barely RL(RLHF只是勉强算作强化学习)

导读:2024年8月8日,Karpathy发表了一个有意思的观点,RLHF is just barely RL.

强化学习从人类反馈(RLHF)训练方法只是勉强属于强化学习(RL)范畴,远没有真正RL(如AlphaGo)那样强大。RLHF使用人类评分来训练一个奖励模型(Reward Model),让语言模型优化生成获得高分的输出。但这个代理目标可能与实际目标(如正确解决问题)有偏离,并且模型会找到"欺骗"奖励模型的对抗样本。尽管如此,RLHF对构建语言模型助手还是有一定帮助,如利用人类更容易评判而非生成的"生成-鉴别差距"。目前还没有在开放域的复杂任务中成功运用真正的RL来训练大型语言模型。突破这一难题将是重大进展。

作者认为RLHF有其用处,但并不等同于真正的RL,后者在开放域问题中的潜力更大。

RLHF(基于人类反馈的强化学习)与传统的强化学习(RL)不同:RLHF 是训练大型语言模型(LLM)的第三个阶段,继预训练和有监督微调(SFT)之后。

传统的 RL 通过实际的奖励函数(例如 AlphaGo 的胜利)来优化,而 RLHF 则依赖于人类反馈构建的奖励模型(Reward Model, RM)。

RLHF 的局限性

>> 奖励模型的代理目标:RLHF 中的奖励模型仅仅是人类判断的“偏好检查”,而不是实际的任务目标(例如,游戏胜利)。这导致奖励模型可能提供误导性的奖励。

>> 优化过程中的问题:RLHF 优化可能导致模型发现针对奖励模型的对抗性例子,结果是模型的表现可能会变得奇怪或无意义,因为奖励模型无法有效地处理这些情况。

RLHF 的实际效用

>> 生成-鉴别差距的好处:RLHF 可以通过选择最佳的候选答案来利用人类标注者的“生成-鉴别差距”,这通常比从头写出理想答案更简单。

>> 减少幻觉现象:如果奖励模型能够识别和惩罚生成虚假信息,RLHF 可以帮助减少模型的幻觉现象(虚假信息)。

RLHF 与实际 RL 的对比:目前,尚未在开放领域和大规模上成功应用真正的 RL。因为开放问题的奖励很难评估,而在封闭的游戏环境中(如围棋),RL 更容易实施。未来如果能找到有效的方式来为开放领域任务提供客观奖励,将有可能实现类似 AlphaGo 的 RL。

目录

Karpathy视角来对比RLHF技术和RL技术

RLHF的局限性

RLHF 仅仅是略微的 RL

案例分析:AlphaGo与真正的RL

RLHF的训练方式及其问题

对抗性示例与RLHF的限制

RLHF为何仍然有益

真正的RL在开放领域中的挑战

网友对Andrej Karpathy观点的反应概览

Nathan Lambert (@natolambert)的评论认为Karpathy的总结很到位,并指出了RLHF在当前状态下的局限性,尤其是在与完整的RL相比时。他提到RLHF的“风格”部分是有用的,但它仍然远不如完整RL的潜力

Craig Quiter (@crizcraig)的评论认为代码生成的奖励可以自动化,但RL的样本效率低下,这使得全力使用RL可能不切实际。他提到Meta在Llama 3中避免使用RL是因为扩展的原因,暗示了RL在实际应用中的挑战

JeoCrypto (@JeoCryp)提出了一个思考,即如何将RLHF推向更接近真正RL的方向,同时解决当前面临的挑战。他表示对Karpathy的观点进行了深入思考,并想知道是否有办法克服这些问题

pararth (@pararths)提到,在现实世界的开放领域中准确建模奖励函数可能是科学和哲学中的终极问题。他的评论反映了对现有RLHF方法的哲学和理论上的疑问

Julien Villa-Massone (@julienvm)询问了关于特斯拉如何在现实生活中实现RL的问题,他提到特斯拉正在利用车主输入进行RLHF,并对如何在实际环境中应用RL提出了疑问

AGI - Tech Gone Wild ��❤️‍������ (@AGItechgonewild)认为,如果在强化学习中,代理通过接收正确行动的奖励进行学习,那么数学和编码领域的应用应该会更简单,因为这些领域的解决方案可以很容易地验证,从而提供明确的反馈。他质疑是否RL在这些领域的应用会更为直接

Razoyo (@RazoyoDev)指出,当前对LLM的奖励系统更多的是奖励其与数据集(即互联网)中的相似性,而不是其提供的实用性、美观性或真实性。这表明他对当前RLHF方法的有效性和目标的疑虑

总结


Karpathy视角来对比RLHF技术和RL技术

原文地址:https://x.com/karpathy/status/1821277264996352246

RLHF的局限性

RLHF 仅仅是略微的 RL

人类反馈强化学习(RLHF)是训练大型语言模型(LLM)的第三个(也是最后一个)主要阶段,继预训练和监督微调(SFT)之后。我对 RLHF 的抱怨是,它只是略微的 RL,我认为这种观点并不被广泛认可。RL 很强大,而 RLHF 则不是。

案例分析:AlphaGo与真正的RL

让我们来看一下 AlphaGo 的例子。AlphaGo 是通过实际的 RL 进行训练的。计算机进行围棋游戏,并在最大化奖励函数(赢得比赛)的回滚上进行训练,最终超越了最优秀的人类围棋玩家。AlphaGo 并不是通过 RLHF 进行训练的。如果是的话,它的效果不会如此显著。

如果用 RLHF 训练 AlphaGo 会是什么样子?首先,你会给人类标注者两个围棋棋盘状态,并询问他们哪个更喜欢:

然后你会收集大约 100,000 个这样的比较,并训练一个“奖励模型”(RM)神经网络,以模仿这种人类“感觉检查”棋盘状态。你会训练它以在平均水平上同意人类的判断。一旦我们有了奖励模型的感觉检查,你就会根据它进行 RL,学习执行那些导致良好感觉的动作。显然,这不会在围棋中带来什么有趣的结果。原因有两个基本的、独立的:

感觉可能是误导性的——这不是实际的奖励(赢得比赛)。这是一个糟糕的代理目标。但更糟糕的是,

RLHF的训练方式及其问题

你会发现你的 RL 优化会偏离轨道,因为它很快会发现对奖励模型来说是对抗样本的棋盘状态。请记住,RM 是一个拥有数十亿参数的大型神经网络,模仿感觉。有些棋盘状态“超出了”其训练数据的分布,这些状态实际上并不好,但偶然间它们从 RM 那里获得了很高的奖励。

对抗性示例与RLHF的限制

由于完全相同的原因,有时我对 RLHF 在 LLM 上的效果感到有点惊讶。我们为 LLM 训练的 RM 也只是感觉检查的方式。它给那些人类评分者统计上似乎喜欢的助手回复打高分。这不是“实际”的问题解决目标,而是一个代理目标,旨在让人类觉得不错。其次,你甚至不能运行 RLHF 太长时间,因为你的模型很快就会学会以某种方式来操控奖励模型。这些预测可能看起来非常奇怪,例如,你会发现你的 LLM 助手开始对许多提示作出一些毫无意义的回复,如“The the the the the the”。这对你来说看起来很荒谬,但当你查看 RM 感觉检查时,你会发现 RM 认为这些看起来很棒。你的 LLM 找到了一个对抗样本。它超出了 RM 的训练数据的领域,是一个未定义的区域。是的,你可以通过不断将这些特定的例子添加到训练集中来减轻这个问题,但下次你会发现其他对抗样本。因此,你甚至不能进行太多步骤的优化。你做几百/几千步,然后不得不停止,因为你的优化会开始操控 RM。这不像 AlphaGo 那样的 RL。

RLHF为何仍然有益

尽管如此,RLHF 仍然是构建 LLM 助手的一个有益步骤。我认为有一些微妙的原因,但我最喜欢的一个是,通过它,LLM 助手从生成器-判别器差距中获益。也就是说,对于许多问题类型,人类标注者选择少量候选答案中的最佳答案,要比从头编写理想答案要容易得多。一个好的例子是像“生成一首关于回形针的诗”这样的提示。一个普通的人类标注者会很难从头开始写一首好诗作为 SFT 示例,但他们可以在几个候选答案中选择一个看起来不错的诗。因此,RLHF 是一种利用这种人类监督的“易用性”差距的方式。还有其他一些原因,例如 RLHF 对减轻幻觉也很有帮助,因为如果 RM 是一个足够强大的模型来捕捉 LLM 在训练过程中编造的内容,它可以通过低奖励来惩罚这些行为,教会模型在不确定时避免冒险使用事实知识。但是,满足幻觉及其减轻的处理是一个完全不同的话题,因此我岔开了。总的来说,RLHF 是有用的,但它不是 RL。

真正的RL在开放领域中的挑战

到目前为止,没有在开放领域、大规模上实现和展示真正的生产级 RL。直观上,这是因为在开放式问题解决任务中获得实际奖励(即赢得比赛的等价物)非常困难。在像围棋这样受限于游戏规则和奖励函数容易评估且不易操控的封闭环境中,所有的事情都是有趣的。但如何为总结一篇文章、回答有关某个 pip 安装问题的稍微模糊的问题、讲一个笑话,或者将一些 Java 代码改写为 Python 提供客观奖励?朝这个方向发展原则上不是不可能,但也不简单,这需要一些创造性的思考。但是,谁能成功破解这个问题,谁就能运行真正的 RL。那种使 AlphaGo 在围棋中击败人类的 RL。只是这个 LLM 将有真正的机会在开放领域问题解决中击败人类。

网友对Andrej Karpathy观点的反应概览

Nathan Lambert (@natolambert)的评论认为Karpathy的总结很到位,并指出了RLHF在当前状态下的局限性,尤其是在与完整的RL相比时。他提到RLHF的“风格”部分是有用的,但它仍然远不如完整RL的潜力

赞同与补充:Nathan同意Karpathy的观点,并强调了RLHF中“风格”部分的价值。他认为,尽管如此,RLHF与解锁LLM的完整RL版本相比,贡献仍然有限。

Craig Quiter (@crizcraig)的评论认为代码生成的奖励可以自动化,但RL的样本效率低下,这使得全力使用RL可能不切实际。他提到Meta在Llama 3中避免使用RL是因为扩展的原因,暗示了RL在实际应用中的挑战

自动化奖励与效率考量:Craig提到代码生成的奖励可以自动化,但他也指出RL样本效率低下,暗示可能不会完全采用类似AlphaZero的方法。Meta在Llama 3中完全放弃了RL,可能是出于可扩展性的考虑。

JeoCrypto (@JeoCryp)提出了一个思考,即如何将RLHF推向更接近真正RL的方向,同时解决当前面临的挑战。他表示对Karpathy的观点进行了深入思考,并想知道是否有办法克服这些问题

思考与提议:JeoCrypto对Karpathy关于RLHF的思考表示认同,并提出了一个想法,即如何在解决已提及的挑战的同时,让RLHF更接近真正的RL。

pararth (@pararths)提到,在现实世界的开放领域中准确建模奖励函数可能是科学和哲学中的终极问题。他的评论反映了对现有RLHF方法的哲学和理论上的疑问

哲学与科学的终极问题:pararth认为,除了拥有完美的宇宙模拟器来进行回放测试之外,开发出能准确模拟现实世界奖励的奖励函数,可能是科学和哲学上的终极问题。

Julien Villa-Massone (@julienvm)询问了关于特斯拉如何在现实生活中实现RL的问题,他提到特斯拉正在利用车主输入进行RLHF,并对如何在实际环境中应用RL提出了疑问

特斯拉的RLHF应用:Julien提到了特斯拉目前正使用来自车队用户的输入进行RLHF,表明神经网络正在模仿人类行为。他询问特斯拉如何在现实生活中实施RL,而不仅仅是模拟环境。

AGI - Tech Gone Wild ��❤️‍������ (@AGItechgonewild)认为,如果在强化学习中,代理通过接收正确行动的奖励进行学习,那么数学和编码领域的应用应该会更简单,因为这些领域的解决方案可以很容易地验证,从而提供明确的反馈。他质疑是否RL在这些领域的应用会更为直接

数学与编码的RL可行性:AGI提出,在强化学习中,如果智能体通过正确行动获得奖励来学习,那么在数学和编码中这应该更容易实现,因为解决方案可以轻易验证,提供清晰反馈,类似于RL中的奖励。

Razoyo (@RazoyoDev)指出,当前对LLM的奖励系统更多的是奖励其与数据集(即互联网)中的相似性,而不是其提供的实用性、美观性或真实性。这表明他对当前RLHF方法的有效性和目标的疑虑

奖励机制的反思:Razoyo指出,当前我们正在奖励LLM模仿数据集(互联网)的声音,而不是鼓励它们提供有用、美丽或真实的内容。

总结

大多数评论者都认可Karpathy关于RLHF的局限性和潜在改进空间的观点。讨论中涉及了RLHF在不同场景下的应用,包括代码生成、数学与编码、以及特斯拉自动驾驶的RL实践。网友们还探讨了如何克服RLHF的限制,使其更接近真正的RL,同时考虑了奖励机制的有效性和目标设定。一些评论强调了在开放领域中建立有效奖励函数的挑战,以及在特定任务中RL的潜在优势。

总体来看,网友们的评论围绕着以下几个核心问题:
RLHF的局限性:尽管RLHF在某些方面有用,但与完整的RL相比仍存在明显差距。
RL的实际应用挑战:在开放领域应用RL的困难,如样本效率问题。
RLHF的实际效用:讨论了RLHF是否足够接近真实的RL,是否能够有效解决问题。
理论与实践:包括如何在现实世界中实现RL,以及是否可以通过某些方法使RL在实际应用中更有效。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2045289.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

怎么将音乐转为mp3格式?7种简单的手机音频转换方法!

怎么将音乐转为mp3格式? mp3是一种运用比较广泛的格式,几乎所有的音频设备、播放器和操作系统都可以播放MP3音乐。如果你的音频文件不是mp3格式,那么可以通过专业的mp3格式转换器进行转换。这样就不会出现格式不兼容,无法正常使用…

第四范式发布AI+5G视频营销产品 助力精准获客与高效转化

产品上新 Product Release 今天,第四范式AI5G视频电话互动营销产品全新发布。 相较于以往销效率低、互动差、转化差的传统电话外呼和短信营销方式,视频电话互动营销基于AI、5G等技术,可让用户接听电话时观看个性化视频广告并实时互动&#xf…

Fortify三种扫描模式有什么区别?分别怎么用?

一、通过“Audit Workbench”进行测试 “Audit Workbench”支持Java语言源代码的测试。 二、通过“Scan Wizard”进行测试 “Scan Wizard”支持Java、Python、C/C、.Net、Go、PHP、Flex、Action Script、HTML、XML、JavaScript、TypeScript、Kotlin、SQL、ABAP、ColdFusion语言…

基于asp.net的简单的BBS论坛管理系统源码

今天给大家分享一套c#的webform框架的简单的BBS论坛管理系统源码,老规矩,下载链接我放在了最后面了,需要的自行下载,喜欢的小伙伴记得点个赞哦! 1.主要功能 这个系统是比较简单的BBS的论坛管理系统源码,包…

C++ //练习 17.2 定义一个tuple,保存一个string、一个vector<string>和一个pair<string, int>。

C Primer&#xff08;第5版&#xff09; 练习 17.2 练习 17.2 定义一个tuple&#xff0c;保存一个string、一个vector和一个pair<string, int>。 环境&#xff1a;Linux Ubuntu&#xff08;云服务器&#xff09; 工具&#xff1a;vim 代码块 /**********************…

GD32 MCU内部温度传感器如何使用,以及适合哪种应用场景?

GD32 MCU全系列产品均内置温度传感器&#xff0c;内部温度传感器可以用于测量器件周围温度及变化&#xff0c;传感器的输出电压连接到ADC的第16通道&#xff0c;可被ADC转换成数字量。 温度传感器输出电压随温度线性变化&#xff0c;由于生产过程中的多样化&#xff0c;温度变…

索引使用规则以及注意失效的场景

目录 一、联合索引遵循最左前缀法则 1.1 执行带着唯一索引和联合索引情况: 1.2 执行不带最左侧字段情况: 1.3 执行跳过中间列情况&#xff1a; 1.4 使用联合索引查找是否跟建立索引的顺序有关&#xff1f; 二、范围查询 三、避免某些操作导致索引失效 3.1 索引列运算 3…

(计算机网络)数据链路层

目录 一.基本概述 二.基本术语 三.基本功能 四.CRC差错检验 五.点对点协议 六.PPP帧格式 七.以太网介绍 一.基本概述 结点&#xff1a;可以相当于一个实体。能够具备接收数据&#xff0c;发送数据的实体 物理层不关心介质问题&#xff0c;发送端和接收端数据不一致&…

docker配置国内镜像加速

docker配置国内镜像加速 由于国内使用docker拉取镜像时&#xff0c;会经常出现连接超时的网络问题&#xff0c;所以配置Docker 加速来使用国内 的镜像加速服务&#xff0c;以提高拉取 Docker 镜像的速度。 1、备份docker配置文件 cp /etc/docker/daemon.json /etc/docker/da…

Datawhale AI 夏令营——从零入门多模态大模型数据合成——Task1学习笔记

天池Better Synth 官方赛事链接&#xff1a;天池Better Synth多模态大模型数据合成挑战赛_算法大赛_天池大赛-阿里云天池的赛制 一、内容提要 天池Better Synth多模态大模型数据合成挑战赛 是 Datawhale 2024 年 AI 夏令营第四期的学习活动—— 适合想 入门并实践 多模态大模型…

java 实现-使用OpenFeign 实现远程调用外部接口(调用swgager)接口

首先根据提供的swagger路径&#xff0c;在网页中查看相关接口方法 打开接口后我们可以看见&#xff0c;接口的路径/online/list 以及可以看见入参和出参 根据所有提供的参考方法和路径&#xff0c;拼接出整体路径URL&#xff08;http://ip:端口/online/list&#xff09; 注意…

一键生成PPT、漫画、长文:橙篇让创意一触即发

​ 橙篇 如何快速高效地创作优质内容&#xff0c;成为了每个创作者都在思考的问题。而今天&#xff0c;我们要介绍的这款神器——橙篇&#xff0c;或许就是解开这个难题的钥匙。它不仅能让你的创意一触即发&#xff0c;更能将你的灵感瞬间化为现实。 橙篇 多样化功能 橙篇不仅仅…

21款奔驰GLS450升级原厂香氛负离子系统,提升车内空气质量

奔驰原厂香氛系统激活原车自带系统&#xff0c;将香气加藏储物盒中&#xff0c;通过系统调节与出风口相结合&#xff0c;再将香味传达至整个车厢&#xff0c;达到净化车厢空气的效果&#xff0c;让整个车厢更加绿色健康&#xff0c;清新淡雅。 产品功能&#xff1a;香氛负离子…

Java JDVC编程

1、Java的数据库编程&#xff1a;JDBC JDBC&#xff08;Java Database Connectivity&#xff09;是Java中用来与数据库进行交互的一种标准API&#xff08;应用程序编程接口&#xff09;。它为开发人员提供了一种统一的方式来访问各种类型的数据库管理系统&#xff08;DBMS&…

火锅店管理系统

TOC springboot260火锅店管理系统 第1章 绪论 1.1选题动因 当前的网络技术&#xff0c;软件技术等都具备成熟的理论基础&#xff0c;市场上也出现各种技术开发的软件&#xff0c;这些软件都被用于各个领域&#xff0c;包括生活和工作的领域。随着电脑和笔记本的广泛运用&am…

(24)(24.3) MSP OSD(二)

文章目录 前言 3 OSD面板项目配置 4 使用SITL测试OSD 5 使用任务规划器配置布局 6 视频 前言 ArduPilot 支持 MSP OSD 协议&#xff0c;该协议允许在 DJI 护目镜上显示飞行数据&#xff0c;就像许多自动驾驶仪中的外部 MAVLink OSD 或内部集成模拟 OSD 一样。如果配置了 …

世界顶级思想家起名大师颜廷利:金融离不开银行,灵魂离不开引航

在《升命学说》一书中,山东济南的杰出人物、被广泛认为是最有影响力的哲学家之一的颜廷利教授,提出了一系列深奥而又实用的生命哲学。这些理念不仅是对传统文化的传承,也是对现代社会的深刻洞察。 世界伟大人民的哲学家思想家教育家,山东籍当代文化名人颜廷利教授提出,生命的本…

winApi与QtApi的共享内存通信

目的 就是A程序是QT的程序用的QT的接口读取共享内存,B程序是WinApi创建的共享内存,两个程序进行共享内存; 其间还有信号量,信号量,统一用的winApi的信号量。 就是下边这种情况: 下边的这个例子,就针对两块重点,进行分析: 1、QT侧的共享内存与win Api的共享内存如何…

音频剪辑新纪元:探索2024年人人都在用的音乐编辑工具

当你计划为视频添加旁白或投身有声书录制领域时&#xff0c;音乐剪辑软件便成为了不可或缺的关键工具。挑选一款既简单易上手又功能全面的音频编辑软件&#xff0c;将极大地加速并优化你创作理想音频文件的过程。 1.福昕音频剪辑 链接直达>>https://www.foxitsoftware.…

OJ题——二叉树(前序遍历)

&#x1f36c;个人主页&#xff1a;Yanni.— &#x1f308;数据结构&#xff1a;Data Structure.​​​​​​ &#x1f382;C语言笔记&#xff1a;C Language Notes 计算结点数 首先得算出这个结点有多少&#xff0c;不然数组的空间无法开辟出来。 利用递归算法&#xff0c;…