OpenAI的Superalignment策略:计算为王

news2025/1/23 10:43:46

卷友们好,我是rumor。

对于怎么实现AGI这个玄学的目标,感觉大家都是差不多的状态:咱也不知道怎么做,但就是觉得现在的LLM技术还远远不够

所以之前看到OpenAI说要用模型去做对齐研究[1],以及最近发话要4年内做出SuperAlignment[2]时,我都是一脸问号,觉得没什么新东西,get不到他们的思路。

f2c0c93f24e06f09bc9c0a8f9a1970bf.jpeg

为什么要做AI研究器

直到最近断断续续刷了两遍Jan Leike的访谈,我突然有种悟了的感觉,原来核心思想就这么简单。而且回过头看,OpenAI近几年其实就是在遵循这个思想,却做出了看似「暴力」的一个个突破。

OpenAI所选择的路径就是:「Turn compute into alignment」,通过计算的量变产生智能的质变。计算需要数据、算力、模型框架的共同作用,拆解成具体的步骤,则是自动化->规模化->迭代。

以前我们总以「范式」这个词来划分NLP的发展,比如监督学习->预训练+精调->预训练+RLHF。其实这些范式只是增加有效计算量的方法:

  • 自动化:有监督 -> 自监督,摆脱人的依赖,更高效地获取监督信号

  • 规模化:在更多的数据、更大的模型上进行更多的计算

  • 迭代:不断基于新的case迭代模型,形成数据飞轮

自动化和规模化所带来的质变不用多说,GPT系列足以证明。但最后一步的「迭代」却经常被忽视,而这可能是通向Superalignment重要的一步,Alpha GO就是最好的栗子。 它从最开始模仿人类棋手落子,到具备基本能力后不断自我博弈,最终超越人类棋手。

那么问题来了:目前我们所做的「迭代」,不管是RLHF还是纯SFT,仍旧需要人工提供监督信号,无法做到自动化和规模化,迭代速度就会很慢。同时人类也无法监督超越自身水平的任务,不可能训出超智能的模型。这就是为什么OpenAI从22年就开始说,要用AI来辅助人类进行评估[3]

继续思考,如果有个模型可以给出等同人类水平的监督信号,我们除了评估还可以用它干什么?当然是顺着量变产生质变的思想,让它自动化、规模化地帮忙迭代出AGI呀!

  • 自动化:让AI研究器自动规划实验、提供监督信号训练模型

  • 规模化:把上述自动流程扩展

  • 迭代:AI研究器本身也是一个模型,让它们鸡生蛋蛋生鸡,不断互相训练

想到这里,OpenAI为什么要构建「a roughly human-level automated alignment researcher」的思路就水到渠成了。不知道Jan Leike大佬的思考逻辑是怎样的,反正我自己这么捋下来还挺顺,欢迎讨论。

如何做AI研究器

找到「AI研究器」这个启动点之后,接下来就是怎么实现的问题了。相比于如何训练出这个模型,Jan大佬把主要的中心都放在了如何构建自动化、全面化的评估上,其实跟上面的道理一样,好的评估可以提供监督反馈,从而指导模型的迭代方向

首先,需要能验证模型可以达到人类水平。其实要真正评估出这个还是很难的,就像现在业内这么多模型,没人能给出一个真的排行榜一样。而且最好是自动化的,避免人来提供ground truth,才能进行更全面的评估。这里大佬提供了一个discriminator-critique gap的测量方法,比如我们做了一个编程模型,想利用ChatGPT自动评估他的效果,最简单的做法是直接命令ChatGPT判断某道编程题做的对不对。那问题就来了,我们怎么确定ChatGPT评估结果是否置信?都人工看一遍太浪费时间了。自动化的做法是直接基于ChatGPT训练一个判断变成结果是否正确的判别模型,然后我们专门用一些有label的难样本,去看判别模型的准确率和ChatGPT的准确率,如果差的不多,就说明不用训练也可以用它直接评估编程结果的好坏。

其次,自动化地进行鲁棒性检测、可解释性分析。为啥非要做可解释性呢?

  1. 可以为我们指出解决问题的途径

  2. 现有很多研究是在做知识和神经元的关联性,大佬认为更有意义的是自动化、规模化地去做,从而探究更高维度(模型整体)的可解释性

最后,故意训练不对齐的模型进行对抗测试,验证评估方法的有效性。从而避免出现假对齐的情况。最极端的就是真训出了一个超级智能,他可能会想办法备份自己的权重,逃脱人类控制,需要专门通过其他代理任务(比如让模型去hack某台机器)看一下这个程度有多难,评估系统能否检测出来。

投入成本的考量

OpenAI未来4年内将会在Superalignment上组建30-100人规模的团队,投入20%的算力。其实20%个人感觉主要是先表个决心,这个数量Jan大佬说已经是对齐方向上最大的单笔投入了,做得好以后还会再加。

倒是4年这个规划,说近不近说远不远,还关乎于其他从业者要经历多久的红利衰退期(狗头),Jan给出了如下规划:

  1. 2年内搞清楚用什么技术实现AI对齐研究器,把问题拆的足够细,剩下就是工程问题了

  2. 3年内实现AI对齐研究器

  3. 剩下一年探索超级对齐

这么一看时间还是挺紧的,后面两个计划略显乐观,Jan给出的信心是85%,而且表示有很多实验已经在实验中了(至少从22年8月那个博文发出前就开始研究了)。他的信心主要来自于5方面:

  1. 语言模型的成功:LLM可以理解自然语言,让我们可以向模型表达我们希望他们怎么做,操控起来更加容易

  2. RLHF的效果超出预期:只用了很少的计算,甚至还没尝试收集数据,就可以在小模型上得到比大模型更好的效果

  3. 在评估度量方面已经取得了很多进展,可以提供改进的方向

  4. 评估比生成更简单:如果人类只做评估,而不做生成,那么开发速度就会加快,还是自动化监督信号的思想

  5. 对语言模型的信念:语言模型很适合做超级对齐,任何任务都可以表述为文本的输入输出,不管是做实验和理解结果都可以做

目前的技术还有用吗

对于预训练,Jan Leike认为预测下一个token这种方式并不一个长期目标,可能需要更好的任务。个人认为互联网上视频、图像、文字数据迟早会被消耗殆尽,所以目前的预训练主要是提供一个较好的基模型,后续高质量的监督信号应该会来源于模型本身,就像前文一直说的「自动化」。但这样是否还能称作「预训练」就不一定了。

对于RLHF,Jan Leike也持怀疑态度,因为目前的监督信号来源于人工评判,但人工并不擅长区分看起来都很好的答案,各种论文显示人类之间的一致率有70%就不错了,这个监督信号本身自己都不一定对的齐。同时,需要人工就导致无法规模化扩展,也不符合我们增加计算量的需求。

目前预训练+RLHF的范式大概率也只是AI发展中的一个版本,按照OpenAI的AI研究器思路,后续模型训练的系统复杂度可能会提升很多,估计会有N多个擅长不同任务的AI研究器来训一个模型,人工只需要提供少量监督信号,告诉系统要做什么,就可以让他们自动运转,训完了自动同步权重,不断升级

总结

整个Jan Leike的采访看下来,真的收获颇丰,不知道有没有清晰地表达出来,其实就是:

  1. 计算是核心,计算的量变产生智能的质变

  2. 加速有效计算量的方法是:自动化->规模化->迭代

就像人类百万年来,从石器时代进化到现在的信息时代,科技的进步不是一蹴而就,而是螺旋上升,由几代人的智慧凝结而成

P.S. 本文包含很多个人对OpenAI博文、Jan Leike访谈的理解,请辩证看待,欢迎讨论。

参考资料

[1]

Our approach to alignment research: https://openai.com/blog/our-approach-to-alignment-research

[2]

Introducing Superalignment: https://openai.com/blog/introducing-superalignment

[3]

Our approach to alignment research: https://openai.com/blog/our-approach-to-alignment-research

6bb3e556e0c4cbf5dc227fcbab173f49.jpeg


我是朋克又极客的AI算法小姐姐rumor

北航本硕,NLP算法工程师,谷歌开发者专家

欢迎关注我,带你学习带你肝

一起在人工智能时代旋转跳跃眨巴眼

「记住啊,计算!」20d89023a9df41957f8c39e2691afdaf.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/918886.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

创建R包-2.1:在RStudio中使用Rcpp制作R-Package(更新于2023.8.23)

目录 0-前言 1-在RStudio中创建R包项目 2-创建R包 2.1通过R函数创建新包 2.2在RStudio通过菜单来创建一个新包 2.3关于R包创建的说明 3-添加R自定义函数 4-添加C函数 0-前言 目标:在RStudio中创建一个R包,这个R包中包含C函数,接口是Rc…

牛客复盘] 2023河南萌新联赛第(七)场:信息工程大学 B\I 20230823

牛客复盘] 2023河南萌新联赛第(七)场:信息工程大学 B\I 20230823 总结B 七夕1. 题目描述2. 思路分析3. 代码实现 I 细胞分裂1. 题目描述2. 思路分析3. 代码实现 六、参考链接 总结 场外OB做了B和I题,只能说这场有点离谱。B 并查…

律师事务所微信小程序开发方案:实现智能化服务与用户体验的完美结合

随着移动互联网的快速发展,微信成为了人们日常生活中不可或缺的社交工具。为了满足用户对便捷、高效法律服务的需求,律师事务所微信小程序应运而生。本文将探讨律师事务所微信小程序的开发方案,旨在为读者提供一个专业、思考深度和逻辑性的指…

黑客自学笔记

谈起黑客,可能各位都会想到:盗号,其实不尽然;黑客是一群喜爱研究技术的群体,在黑客圈中,一般分为三大圈:娱乐圈 技术圈 职业圈。 娱乐圈:主要是初中生和高中生较多,玩网恋…

【RHEL】硬盘分区与格式化

fdisk命令 在linux中,fdisk是基于菜单的命令。对硬盘分区时,可以在fdisk命令后面直接加上要分区的硬盘作为参数(分区工具) 利用如下所示命令,打开fdisk操作菜单。 输入p,查看当前分区表。从命令执行结果可以到,/dev/mapper/rhel…

网络拓扑结构

目录 1.网络拓扑结构 1.星型拓扑结构 2.网型拓扑结构 3. 数制介绍 3.1 数制的基本概念 1.网络拓扑结构 网络拓扑结构是指用传输媒体互连各种设备的物理布局,也就是用什么方式连接网络中的计算机、网络设备,它的结构有星型拓扑,总线型拓扑…

JVM 之 垃圾收集算法详解

文章目录 一、标记清楚算法二、标记复制算法三、标记整理算法四、不同垃圾收集算法优缺点总结1. 标记-清除算法:2. 标记-复制算法:3. 标记-整理算法: 一、标记清楚算法 标记清除是一种简单而直接的垃圾回收算法。它的执行流程如下&#xff1…

【Rust】Rust学习 第十九章高级特征

现在我们已经学习了 Rust 编程语言中最常用的部分。在第二十章开始另一个新项目之前,让我们聊聊一些总有一天你会遇上的部分内容。你可以将本章作为不经意间遇到未知的内容时的参考。本章将要学习的功能在一些非常特定的场景下很有用处。虽然很少会碰到它们&#xf…

SpringBoot案例-文件上传

目录 简介 文件上传前端页面三要素 服务端接收文件 小结 本地储存 实现 代码优化 小结 阿里云OSS 阿里云 阿里云OSS 使用第三方服务--通用思路 准备工作 参照官方SDK代码,编写入门程序 集成使用 阿里云OSS-使用步骤 阿里云OSS使用步骤 参照SDK编写入…

【QT5-自我学习-线程qThread练习-两种使用方式-2:通过继承Qobject类-自己实现功能函数方式-基础样例】

【QT5-自我学习-线程qThread练习-两种使用方式-2:通过继承Qobject类-自己实现功能函数方式-基础样例】 1、前言2、实验环境3-1、学习链接-参考文章3-2、先前了解-自我总结(1)线程处理逻辑事件,不能带有主窗口的事件(2&…

攻防世界-base÷4

原题 解题思路 base644,莫不是base16,base16解码网站: 千千秀字

k8s 安装istio (一)

前置条件 已经完成 K8S安装过程十:Kubernetes CNI插件与CoreDNS服务部署 部署 istio 服务网格与 Ingress 服务用到了 helm 与 kubectl 这两个命令行工具,这个命令行工具依赖 ~/.kube/config 这个配置文件,目前只在 kubernetes master 节点中…

postgres数据常用SQL语句

-- 系统信息函数 select version(),user,current_user; -- 创建表 CREATE TABLE biao(id INT primary key,name VARCHAR(25) not null,sex VARCHAR(25) unique,salary FLOAT default 9000 ); -- 更换表名 ALTER TABLE biaoRename to biao1; -- 更换字段类型 ALTER TABLE biao1 …

Tushare入门小册

Tushare入门小册 一、Tushare平台介绍 Pro版数据更稳定质量更好了,我们提供的不再是直接从互联网抓取,而是通过社区的采集和整理存入数据库经过质量控制后再提供给用户。但Pro依然是个开放的,免费的平台,不带任何商业性质和目的…

红黑树的调整图解

讲的很好 的红黑树原理 上面的视频讲解的红黑树很好。尤其是关于红黑树的调整。画图做了下总结,谢谢。

AVL——平衡搜索树

✅<1>主页&#xff1a;我的代码爱吃辣&#x1f4c3;<2>知识讲解&#xff1a;数据结构——AVL树☂️<3>开发环境&#xff1a;Visual Studio 2022&#x1f4ac;<4>前言&#xff1a;AVL树是对二叉搜索树的严格高度控制&#xff0c;所以AVL树的搜索效率很高…

微服务中间件--统一网关Gateway

统一网关Gateway 8.统一网关Gatewaya.搭建网关服务b.路由断言工厂c.路由过滤器GatewayFilterd.全局过滤器GlobalFiltere.过滤器的执行顺序f.网关的cors跨域配置 8.统一网关Gateway 网关功能&#xff1a; 身份认证和权限校验服务路由、负载均衡请求限流 网关的技术实现 在Spr…

基于大数据+django+mysql的银行信用卡用户的数仓系统

系统阐述的是银行信用卡用户的数仓系统的设计与实现&#xff0c;对于Python、B/S结构、MySql进行了较为深入的学习与应用。主要针对系统的设计&#xff0c;描述&#xff0c;实现和分析与测试方面来表明开发的过程。开发中使用了 django框架和MySql数据库技术搭建系统的整体架构…

国民新旅游时代拉开大幕,OTA平台迎来新红利和新任务

高温轮番而至&#xff0c;这个燥热的夏天&#xff0c;旅游业也躁动不已。 上半年是旅游业丰收的半年&#xff0c;各地旅游盛况频上热搜。文旅部公布的旅游数据显示&#xff0c;2023年上半年&#xff0c;国内旅游总人次23.84亿&#xff0c;同比增长63.9%&#xff1b;国内旅游收…

IO day 7

1、使用消息队列完成两个进程间相互通信 msgsnd #include <myhead.h>typedef struct {long msgtype;char data[1024]; }Msg_ds;#define SIZE sizeof(Msg_ds)-sizeof(long)int main(int argc, const char *argv[]) {//创建key值key_t key;if((key ftok("/",k…