准备迎接超级人工智能系统,OpenAI宣布RLHF即将终结!超级对齐技术将接任RLHF,保证超级人工智能系统遵循人类的意志

news2024/12/27 13:49:28

本文原文来自DataLearnerAI:

准备迎接超级人工智能系统,OpenAI宣布RLHF即将终结!超级对齐技术将接任RLHF,保证超级人工智能系统遵循人类的意志 | 数据学习者官方网站(Datalearner)icon-default.png?t=N7T8https://www.datalearner.com/blog/1051702655263827

今天,OpenAI在其官网上发布了一个全新的研究成果:一个利用较弱的模型来引导对齐更强模型的能力的技术,称为由弱到强的泛化。OpenAI认为,未来十年来将诞生超过人类的超级AI系统。但是,这会出现一个问题,即基于人类反馈的强化学习技术将终结。因为彼时,人类的水平不如AI系统,所以可能无法再对模型输出的内容评估好坏。为此,OpenAI提出这种超级对齐技术,希望可以用较弱的模型来对齐较强的模型。这样可以在出现比人类更强的AI系统之后可以继续让AI模型可以遵循人类的意志、偏好和价值观。

  • RLHF技术及其问题
  • RLHF面临超人类AI系统可能是不行的
  • 为什么要做弱AI监督引导强AI
  • 超级对齐
  • 超级对齐的实验总结
  • 总结

RLHF技术及其问题

RLHF全称Reinforcement Learning from Human Feedback,是当前大语言模型在微调之后必不可少的一个步骤。简单来说,就是让模型输出结果,人类提供结果反馈,然后模型学习理解哪些输出是更好的,这里所说的更好包括道德、价值观以及回复质量等。

总的来说,RLHF是当前大语言模型质量提升的一个必备步骤。但是,大家可以看到这其中的核心一个步骤是让『人类』来判断好坏

RLHF面临超人类AI系统可能是不行的。

为什么要做弱AI监督引导强AI

如前所述,此前的强化学习是人类比模型强的情况下推出的如下图所示,是一个示意图:

在未来,我们面临的是人类需要监督和控制比自己更强大的AI系统。AI系统产生的行为、错误和问题也会超出人类认知。所以,超人类AI系统的管理上必须具备一种能力,可以将人类给出的监督推广到更复杂的行为上。例如,人类可能只能审核1000行代码是否遵从了指令或者安全。但是,对于一个几百万行的代码系统,可能需要AI系统根据前面1000行代码的人类评估过程来推广,去自行评估这个几百万行代码的系统是否准确遵从了人类的意图且符合安全要求。

超级对齐

本次OpenAI做的超级对齐系统的目标非常简单。首先,我们说明一下当前AI系统如何完成地更好。

所以,OpenAI认为,超级对齐有三个基准。第一个是较弱的模型(比如未来的人类、较弱的AI系统),它有一个性能表现基准,还有一个强的AI模型的性能上限基准。超级对齐的目标就是通过弱模型微调(如生成好坏的评价),让强模型完成当前类似SFT和RLHF阶段,达到自己的上限。显然,实际上,由弱模型微调的强模型的性能其实可能并没有达到它上限水平,因此它与强模型上限的差距就是未来我们要缩小的目标。

l们这里篇幅原因不再细说,而是总结一下过程和结论(关于更详细的分析可以参考DataLearnerAI的原文:准备迎接超级人工智能系统,OpenAI宣布RLHF即将终结!超级对齐技术将接任RLHF,保证超级人工智能系统遵循人类的意志 | 数据学习者官方网站(Datalearner))。lu

总体的实验结论如下:

  1. 强大的预训练模型天然能够超越它们的弱监督者。如果我们使用弱模型生成的标签对强模型进行微调,强模型的表现会超出弱监督者。例如,在自然语言处理(NLP)任务上,如果我们用GPT-2级别模型的标签对GPT-4进行微调,可以让强模型恢复一半的性能水平。
  2. 仅依靠弱监督模型数据的微调是不够的。尽管有积极实验结果,但使用弱监督微调的强模型与使用真实监督微调的强模型之间仍然存在显著差距。弱到强泛化在ChatGPT奖励建模方面尤其不佳。综合来看,这个实验结果提供了实证证据,表明当前的RLHF可能无法很好地扩展到超人类模型,除非进行额外的工作。
  3. 改进弱到强的泛化是可行的。OpenAI发现,通过鼓励强模型使用辅助损失函数来进行自信预测、使用中间模型进行监督引导和通过无监督微调改进模型表示,可以提高性能。例如,当使用辅助信心损失函数对NLP任务中的GPT-4进行GPT-2级别模型的监督时,我们通常能够恢复弱模型和强模型之间近80%的性能差距。也就说,至少看到有方法可以实现这种泛化。

总结

这个论文最重要的不是OpenAI提出的方法和结论。而是2个信息,一个是OpenAI可能真的相信未来10年会出现超过人类的AI系统。另一个是OpenAI正在积极准备应对这种情况。而由弱到强的只是这方面的一个探索。同时,OpenAI也宣布投资1000万美元,在全球招募团队做这方面的研究,通过的团队可以获得10万-200万美元的资助,进行超级对齐的研究。

论文原文和更详细解释参考原文:准备迎接超级人工智能系统,OpenAI宣布RLHF即将终结!超级对齐技术将接任RLHF,保证超级人工智能系统遵循人类的意志 | 数据学习者官方网站(Datalearner)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1314758.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RocketMQ —消费重试

消费者出现异常,消费某条消息失败时, Apache RocketMQ 会根据消费重试策略重新投递该消息进行故障恢复。本文介绍消费重试机制的原理、版本兼容性和使用建议。 一、应用场景​ Apache RocketMQ 的消费重试主要解决的是业务处理逻辑失败导致的消费完整性…

EasyExcel读取Excel数据(含多种方式)

目录 EasyExcel简介 使用EasyExcel进行读数据 引入依赖: EasyExcel提供了两种读取模式 使用 监听器 读取模式 1.创建一个实体类 2.创建监听器 代码 使用 同步读 读取模式 1.创建一个实体类 2.代码 添加导入数据库的逻辑 其实官方文档讲得很清楚&#xff…

git 的使用

git reset详解-CSDN博客 git reset 命令详解 git revert命令详解。-CSDN博客 关于Git分支中HEAD和Master的理解 - 知乎 (zhihu.com) 一文带你精通 Git(Git 安装与使用、Git 命令精讲、项目的推送与克隆)-CSDN博客 Git 常用操作(5&#xff…

【Linux】tree命令使用

tree命令 tree命令用于以树状图列出目录的内容。 语法 tree [参数] [目录] tree 命令 -Linux手册页 bash: tree: 未找到命令... 安装tree yum -y install tree如果你系统中有安装tree 但是还是执行找不到该命令的话,那原因就是:环境变量错误&#x…

智能优化算法应用:基于热交换算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于热交换算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于热交换算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.热交换算法4.实验参数设定5.算法结果6.参考文…

【数字电路】MacBook使用iverilog进行数字电路仿真

安装流程 在终端中用brew包管理工具进行安装仿真工具: 编译verilog代码: brew install icarus-verilog编译verilog代码: brew install verilatorMacOS系统显示UNIX GUI brew install xquartz可视化仿真波形图: brew install gtk…

2024年天津体育学院专升本专业课网上报名确认缴费安排

天津体育学院2024年高职升本科专业考试报名安排 一、时间安排 1.报名时间:2023年12月19日9:00-12月21日17:00 2.缴费时间:2023年12月26日-27日 (考试考务费:体育教育专业:160元/人&#xff…

项目中使用Arrays.asList、ArrayList.subList的坑

使用Arrays.asList的注意事项 1.1 可能会踩的坑 先来看下Arrays.asList的使用&#xff1a; List<Integer> statusList Arrays.asList(1, 2); System.out.println(statusList); System.out.println(statusList.contains(1)); System.out.println(statusList.contains(3)…

C之switch小问题

执行结果&#xff1a; 为什么会是100呢&#xff1f; 因为C语言会忽视 switch语句与第一个case之间的code&#xff0c;也就是根本不会执行 “num100;

el-date-picker 选择一个或多个日期

el-date-picker可选择多个日期 type“dates” 加个s即可 <div><span>el-date-picker选择多个日期</span><el-date-pickertype"dates"v-model"dateList"placeholder"选择一个或多个日期"></el-date-picker></di…

RabbitMQ插件详解:rabbitmq_message_timestamp【Rabbitmq 五】

欢迎来到我的博客&#xff0c;代码的世界里&#xff0c;每一行都是一个故事 RabbitMQ时空之旅&#xff1a;rabbitmq_message_timestamp的奇妙世界 前言什么是rabbitmq_message_timestamprabbitmq_message_timestamp 的定义与作用&#xff1a;如何在 RabbitMQ 中启用消息时间戳&…

聚观早报 |红魔9 Pro氘锋透明银翼版开售;荣耀90 GT将发布

【聚观365】12月16日消息 红魔9 Pro氘锋透明银翼版开售 荣耀90 GT将发布 德国成功化解预算僵局 第二届起点读书“网文填坑节”收官 阿维塔科技拟 2025 年赴港上市 红魔9 Pro氘锋透明银翼版开售 现在有最新消息&#xff0c;近日红魔9 Pro氘锋透明银翼版本开启全款预售&…

Java实现插入排序及其动图演示

插入排序是一种简单直观的排序算法。它的基本思想是将一个待排序的元素插入到已经排序好的序列中的适当位置&#xff0c;从而得到一个新的、元素个数加一的有序序列。 具体的插入排序算法过程如下&#xff1a; 从第一个元素开始&#xff0c;认为第一个元素已经是有序序列。取…

C/C++ STL提供的序列式容器之deque

deque是双向开口的连续内存空间&#xff08;动态将多个连续空间通过指针数组接合在一起&#xff09;&#xff0c;随时可以增加一段新的空间。 deque 的最大任务就是在这些分段的连续空间上&#xff0c;维护其整体连续的假象&#xff0c;并提供随机存取的接口。 特点 1. 一…

风速预测(五)基于Pytorch的EMD-CNN-LSTM模型

目录 前言 1 风速数据EMD分解与可视化 1.1 导入数据 1.2 EMD分解 2 数据集制作与预处理 2.1 先划分数据集&#xff0c;按照8&#xff1a;2划分训练集和测试集 2.2 设置滑动窗口大小为96&#xff0c;制作数据集 3 基于Pytorch的EMD-CNN-LSTM模型预测 3.1 数据加载&…

KMP算法, 什么是KMP算法 ,暴力匹配 ,KMP算法实现

文章目录 KMP算法什么是KMP算法暴力匹配KMP算法实现 KMP算法 什么是KMP算法 KMP是Knuth、Morris和Pratt首字母的缩写&#xff0c;KMP也是由这三位学者发明&#xff08;1977年联合发表论文&#xff09;。 KMP主要应用在字符串的匹配&#xff0c;是一个解决模式串在文本串是否…

OxLint 发布了,Eslint 何去何从?

由于最近的rust在前端领域的崛起&#xff0c;基于rust的前端生态链遭到rust底层重构&#xff0c;最近又爆出OxLint&#xff0c;是一款基于Rust的linter工具Oxlint在国外前端圈引起热烈讨论&#xff0c;很多大佬给出了高度评价&#xff1b;你或许不知道OxLint&#xff0c;相比ES…

互联网大厂月薪分布:字节跳动超 5% 员工月薪高于 5 万

近期&#xff0c;某统计机构公开了国内互联网巨头的薪资分布情况。根据统计数据显示&#xff0c;贝壳、阿里、滴滴、拼多多、快手和腾讯等公司超过60%的员工&#xff0c;月薪集中在3-5万的区间。而拼多多和字节跳动更有超过5%的员工月薪超过5万。 华为&#xff0c;一个众所周知…

error: src refspec master does not match any

新项目 push 至 github 仓库的时候抛出了如下异常 error: src refspec master does not match any 解决办法 首先,查看当前 branch, 因新项目只有一个 main git branch早期都是 master 而不是 main,所以将现有的改成 main 或者 master 均可 git branch -m main // 或者 git…

前端自定义验证码,校验验证码,验证码时效

最近做的项目&#xff0c;不需要后端接口&#xff0c;只需要前端验证&#xff0c;如图 初始页面 获取验证码 验证码的文件&#xff0c;直接复制就行 <template><div class"s-canvas"><canvasid"s-canvas":width"contentWidth":…