5000字详解OpenAI超级对齐四年计划:定义、挑战与方法

news2025/1/16 15:57:45

导读

超级智能是一把双刃剑,有助于解决许多重要问题,同时也可能削弱人类的权力并威胁我们的安全。为了治理这些风险,急需建立新的治理机构并解决AI模型的对齐问题。OpenAI于今年7月首次提出超级对齐的概念,并宣布投入20%的计算资源,花费4年的时间全力打造一个超级对齐(Superalignment)系统,意在解决超级智能的对齐问题。

e103557d4690bf13649fc83cbce9f341.png图:OpenAI官网宣布开始构建超级对齐系统

随着OpenAI官方团队的介绍和多方解析不断发布,超级对齐的面貌也逐渐清晰地呈现在大家的面前,本文结合现有资料详细介绍超级对齐的概念、为什么要实现超级对齐以及如何实现超级对齐,希望这一愿景能够促进发展符合人类目标和价值观的安全AI,并不断吸纳更多研究者加入这一行列。

什么是超级对齐

1.1 超级对齐的目标

超级对齐旨在构建一个能够与人类水平相媲美的自动对齐研究器。其目标是尽可能地将与对齐相关的工作交由自动系统完成。在使用LLM或构建通用AI系统时,人们意识到它们的技能组合并不一定与人类相同。它们在某些方面可能更为强大,例如现有的语言模型在翻译或知识储备方面表现出色。然而,AI系统在其他一些任务上可能相对薄弱,比如算术方面的能力。

因此,研究者们面临的问题是,应该将哪些类型的任务交由AI系统,并按照什么顺序进行?这样一来,这个系统可以预测人类将更多地专注于那些无法交由AI系统完成的任务。在这个过程中,AI系统完成的工作占整体工作的比例将会越来越大,而人类研究者将能够更有效地取得真正的进展。

在第一个阶段,研究者们希望这个研究器能够实现机器学习模型,进行实验并观察结果。第二个阶段,研究者们希望这个研究器能够解决更高级、更广泛的问题,例如确定需要进行哪些实验来提升可扩展监督,或者在可解释性方面取得进展。目前第一个阶段上已经有了卓有成效的研究,而第二个阶段研究者们仍尚在探索中。

2e093d99a9afb1638f98df23c28547ed.png图:GPT-4模拟输出从而提供可扩展监督的能力示例

1.2 超级对齐的能力

对于相关研究者来说,自动对齐的长期目标在于模型的创造力。OpenAI相关研究团队表示,至少对于语言模型或AI而言,它们比人类更具创造力。如果你去观察扩散模型生成的图像,或者从预训练的基础模型中采样,其中包含了很多奇思妙想,这些创意恐怕从单人或小团队身上很难获得。因此,它们实际上可以从整个分布中进行采样,而个人通常做不到这一点。就长期目标而言,研究者们可以将一些小而明确的任务交给AI系统,如果它们能够将这些任务真正做好,那么未来帮助很大。

目前,ChatGPT的对齐方式主要是通过强化学习从人类反馈中进行训练,但这种方法无法扩展,这已经是一种广泛共识,因为它从根本上假设了人类真正理解系统的详细运行方式。

如果系统进行了大量对齐研究,涉及数百万个虚拟人类的任务,很难看到其中所有的细节和详细反馈。但目前研究中所使用的方法,均对这些步骤进行扩展,从而打造一个大致与人类水平相当,且可以完成困难任务的对齐研究员。例如,可扩展监督就是从人类强化反馈中让AI进行学习,从而具备该能力的一种方式。

为什么要实现超级对齐

超级对齐的出现是由于当前生成式AI的热潮,引发了人们对于AI对齐能力的担忧。最近,Chris Olah发布了一系列推文,描述了Anthropic团队对于AI对齐困难的看法。根据这种观点,存在着一系列可能情景,从“对齐非常容易”到“对齐不可能”,我们可以将AI对齐研究视为逐步解决这些情景,增加有益结果概率的过程。在此基础上,提供了更详细的AI对齐困难程度划分,并解释了其中涉及的一些考虑因素。

当前关于AI安全的讨论主要集中在潜在AI系统及其故障模式的详细概念以及确保其安全的方法上。DeepMind安全团队的一篇文章提供了一些故障模式的概述。目前,Sammy Martin提到可以通过“对齐困难”的视角理解这些不同的威胁模型,将各种导致AI失调的来源按照易于解决程度排序,然后尝试将技术性的AI安全干预与具体的对齐失效模式场景匹配起来。这清晰地表明,这种不确定性使得对齐研究人员之间的一些辩论更容易理解。

一个相对简单的情景可能涉及AI模型以符合常识的方式进行泛化和学习目标。举个例子,我们可以将复杂程度不同的LLM理解为潜在作家的生成框架,而强化学习则通过人类反馈或发现AI在潜在作家中进行选择。这种情况有时被称为“默认对齐”。而一个较为困难的情景可能类似于“深度欺骗”,在这种情况下,系统会以快速且不可预测的方式进行泛化,从而迅速使先前的对齐技术过时,并且它们还会学习欺骗性的奖励操纵策略,这些策略在外部评估、红队测试、对抗测试或可解释性检查中表面上看起来与良好行为完全相同。

为了更好地理解解决对齐困难的情景,Sammy Martin将其分为三个层次,如下图所示,以便我们更容易理解。

492782c4efe4e5304a597e5e3f6fca1a.png图:不同难度层次的超级对齐

2.1 简单场景

在容易对齐的情景中,我们应该投入更多资源来解决结构风险、经济影响、滥用和地缘政治问题。在该场景下,RLHF训练的系统通常会诚实而准确地追求过于简化的代理目标。具体来说,容易的场景可以分为三个等级。

第一级是Alignment by Default:当我们扩大规模应用人工智能模型时,如果没有对其进行特定的风险行为指导或训练,也没有设置有问题且明显不好的目标,那么它们不会带来重大风险。即使是超人级的系统,基本上也只是根据外部奖励或语言指令的常识版本来执行。这里的关键风险在于对训练目标的滥用行为以及对强大模型的强化学习朝着错误指定或反社会的目标方向进行。

第二级是Reinforcement Learning from Human Feedback:我们需要确保人工智能在各种边界情况下表现良好,通过在广泛的情境中更谨慎地使用人类反馈来进行引导,而不仅仅是粗略的指令或手动指定的奖励函数。如果我们认真进行强化学习的微调,就能够取得良好的效果。有一个原因让我们相信对齐将会如此简单,那就是如果系统本身在归纳上偏向诚实和代表人类给予其的目标。在这种情况下,它们往往会学习简单、诚实和服从的策略,即使这些策略并不是为了最大化奖励而是最优策略。

第三级是Constitutional AI:人类反馈并不足够清晰和丰富,无法对人工智能进行精细调整。必须利用人工智能提供的模拟人类反馈来涵盖边界情况。这就是“从人工智能反馈中进行强化学习”的方法。即使人类反馈足以确保模型大致按照监督者的意图执行,由于结构性原因,在广泛部署于经济中的系统可能最终被训练成追求粗略和反社会的代理目标,而无法真正捕捉我们真正想要的目标。

2.2 中等场景

中等情景是指行为安全性不够好,最容易产生转变性人工智能的方式导致危险的欺骗性失调。在这种情况下,系统会违背我们的利益,但会假装是有用和安全的。这种情况要求我们在对齐工作上加大努力,并探索可行的策略,如可扩展的监督、对齐研究中的AI辅助和基于可解释性的监督过程。我们还应专注于治理干预,以确保领先的项目有足够的时间来实际实施这些解决方案,并与政府和公民社会一起改变整体战略格局并消除不对齐AI的风险。具体来说,中等场景包含四个等级。

第一级是Scalable Oversight:我们需要确保即使在无法由人类监督的问题上,仍然能够对人工智能进行类似人类的监督。因此,我们需要一些方法,与宪法型人工智能不同,能够使人工智能比人类更有效地应用人类式监督。

第二级是Scalable Oversight with AI Research Assistance:在当前阶段,我们将使用类似于前面几级中所介绍的技术来使人工智能对齐,并让它们进行对监督方法的研究,并增强人类的理解能力。然后,我们将利用这些研究成果来改进我们的监督流程,或者改进监督人工智能对训练中的人工智能行为的理解。这里的关键风险在于人类反馈对于对齐超人工智能系统来说是一个不够清晰的信号,因此需要进行增强。同时具有情境意识的人工智能系统默认情况下会产生欺骗性的人类模拟器,但通过超人类行为反馈可以消除这种倾向。

第三级是Oversight employing Advanced Interpretability Techniques:在监督过程中,会使用概念性或机械性可解释性工具。与欺骗行为相关的人工智能内部过程可以通过在上述两级开发的人工智能或人类+人工智能监督者来检测和惩罚。这里的关键风险是

第四级是Experiments with Potentially Catastrophic Systems to Understand Misalignment:在这个层次上,即使我们使用了上述阶段的技术,人工智能系统仍然会常规性地击败监督,并继续出现不受欢迎的行为。它们通过改变内部过程以避免被可解释性工具检测,并通过“玩训练游戏”来看起来行为安全。然而,关键是,我们仍然可以控制这些系统。因此,我们可以对这些人工智能系统进行(潜在危险的)实验,以了解它们在部署后可能的泛化情况。在这里,我们将运用可解释性和监督工具,并尝试引发人工智能的误泛化和奖励破解行为。但我们不会试图使用基于监督的训练来消除这些行为。相反,我们尝试通过类似红队的技术来理解它们发生的基础,学习关于误对齐产生的如何以及为什么的实用技巧和新的理论见解,从而使我们能够开发新的缓解方法。

2.3 困难场景

相比而言,如果我们认为对齐转变性人工智能的困难程度如此之高,那么未来几年甚至几十年的研究努力可能无法给我们足够的信心。如果对齐确实如此困难,我们需要在前沿系统中应用强大的测试和可解释性技术,以减少不确定性,证明悲观情景的真实性,并建立起停止进展向转变性人工智能的动力。具体而言,困难场景可以分为两个层次。

第一层是Theoretical Research for Understanding Misalignment:所有的问题行为要么发生得太快以至于无法及时应对,要么只在系统部署后才显现,因此之前的实验是无用的或者不安全的。在这个层次上,我们需要事先了解人工智能模型如何推广学习。希望这些基础性的洞察能够激发出新的对齐技术。

第二层是Coming up with a Fundamentally New Paradigm (abandoning deep learning):根据这种观点,即使我们改变了关于深度学习系统的基本要素,也无法对其进行对齐。这里的关键挑战在于存在一种“急剧转变”,在这个转变中,系统突然获得了新的概念和更高的智能和广泛性,使得之前的对齐技术变得过时。在急剧转变后的系统是超级智能的,无法安全地进行实验或控制。

正是因为当前对齐水平的低下,OpenAI决定投入大量人力和物力来实现超级对齐。

如何实现超级对齐

Superalignment 团队由OpenAI联合创始人Ilya Sutskever和Jan Leike共同领导。从OpenAI推特公布的信息来看目前也已有多位成员。为了构建超级对齐系统,开发团队需要进行一系列的工作。

3.1 可扩展的训练方法

首先,我们需要开发一种可扩展的训练方法。这种方法将利用人工智能系统来辅助评估其他人工智能系统,并将AI模型的监督能力扩展到人类无法监督的任务上。

在开发可扩展的训练方法时,我们需要考虑如何利用现有的人工智能系统来评估其他系统。这可能包括设计评估指标或开发评估算法,以确保对各种不同类型的系统进行准确评估。

此外,我们还需要思考如何将AI模型的监督能力扩展到人类无法监督的任务上。这意味着在没有人类监督的情况下,AI模型能够自主学习和提升自身能力。为了实现这一目标,我们可能需要探索一些自监督学习的方法,通过让AI模型从未标记的数据中学习,提高其在无监督任务上的表现。目前,由模型自动辅助的评估和人类评估相结合,已经被验证比单纯的人类评估取得了更好的效果。

7434e67b65a5b8f64e51fa804b49baa4.png图:模型自我评估对人类监督的提升

3.2 验证系统

构建超级对齐系统还需要进行系统验证的工作。验证系统的一致性非常重要,因此在开发过程中,我们会自动搜索有问题的行为和内部结构,以确保系统的稳健性和可解释性。

稳健性指的是系统在面对各种不确定性和异常情况时的表现能力。为了验证系统的稳健性,我们会设计一系列测试用例,模拟各种可能出现的情况,并观察系统的行为。这些测试用例可能包括输入数据的变化、噪声的存在、环境条件的改变等。通过对系统的行为进行分析和评估,我们能够发现系统在不同情况下的问题,并调整算法和模型,提高系统的稳健性。

另一方面,可解释性指的是系统的内部结构和决策过程能够被人理解和解释。为了验证系统的可解释性,我们会对系统的工作原理进行深入分析,并设计一些实验来验证系统的内部结构是否合理。我们可能会通过观察系统的决策过程、分析模型的权重和特征重要性,以及逐步解释系统的方式,来确保系统的可解释性。目前,OpenAI已经通过GPT-4来解释GPT-2的神经元,可以作为可解释性的初步尝试。

420dbcda055aa8c19f4e670543656982.png图:GPT-4自动生成解释

3.3 压力测试

在构建超级对齐系统的过程中,对整个对齐管道进行压力测试是至关重要的一步。这个步骤旨在使用未对齐的模型来测试整个流程,并确保所提出的方法能够检测到最严重的未对齐类型,即对抗性测试。

对抗性测试是一种针对系统的弱点和漏洞进行测试的方法。通过模拟各种恶意行为或攻击,对抗性测试可以帮助我们在系统中发现潜在的问题,并采取相应的措施来提高系统的鲁棒性和安全性。

在对整个对齐管道进行压力测试时,我们会使用多种未对齐的模型来模拟各种对抗性情况。这些模型可能包括有意伪造的信息、错误的标注、不一致的语义等。我们会将这些模型输入到对齐管道中,并观察系统的行为和输出结果。

通过对系统的行为进行分析和评估,我们能够判断系统是否能够正确地检测到未对齐类型,并采取相应的措施来处理这些情况。如果系统在对抗性测试中表现出不稳定性或错误的行为,我们会进行进一步的调整和优化,以提高系统的鲁棒性和适应性。

四、总结

总的来说,OpenAI为大家勾勒的超级对齐的蓝图,是值得期待且令人向往的。虽然我们当前的技术与这个理想仍有差距,我们有理由相信研究者们能开发出具有超级对齐的能力的AI系统。同时,虽然研究者们也担心AI替代他们的工作。但如果AI助手能够完成99%或99.9%的工作,而他们只需处理余下的核心工作,这仍是对他们工作效率的极大提升,从而促使他们更便捷、快速地打造更强大的人工智能。

参考链接

https://openai.com/blog/introducing-superalignment

https://80000hours.org/podcast/episodes/jan-leike-superalignment/#highlights

https://www.lesswrong.com/posts/EjgfreeibTXRx9Ham/ten-levels-of-ai-alignment-difficulty

https://arxiv.org/abs/2206.05802

https://openai.com/research/language-models-can-explain-neurons-in-language-models

更多内容 尽在智源社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/952086.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【CSS】简记CSS效果:通过transition(动画过渡属性)实现侧边栏目滑入滑出

需求 在资金明细的页面中&#xff0c;点击按钮时筛选区域从左侧滑出&#xff0c;完成筛选点击确认后调用接口完成数据查询&#xff0c;筛选区域滑入左侧&#xff1b; 基于微信小程序页面实现 wxml代码 <view><!-- 操作按钮 --><button type"primary&qu…

Matlab图像处理-图像旋转

基本概念 图像的旋转变换属于图像的位置变换&#xff0c;通常是以图像的中心为原点&#xff0c;将图像上的所有像素都旋转一个相同的角度。旋转后&#xff0c;图像的大小一般会改变。图像的旋转变换是指以图像的中心为原点&#xff0c;将图像上的所有像素都旋转同一个角度的变…

十、桥接模式

一、什么是桥接模式 桥接&#xff08;Bridge&#xff09;模式的定义如下&#xff1a;将抽象与实现分离&#xff0c;使它们可以独立变化。它是用组合关系代替继承关系来实现&#xff0c;从而降低了抽象和实现这两个可变维度的耦合度。 桥接&#xff08;Bridge&#xff09;模式包…

浅析token

上一章节我们学习了cookie和session机制&#xff0c;但是他们都有一些缺点&#xff0c;所有这次我们来了解一个机制---token。 一、cookie和session的缺点 cookie信息存储在客户端浏览器上&#xff0c;安全性较低&#xff0c;所以浏览器加入了一些限制确保cookie不会被恶意使用…

对称二叉树判断

目录 题目题目要求示例 解答方法一、实现思路时间复杂度和空间复杂度代码 方法二、实现思路时间复杂度和空间复杂度代码 题目 对称二叉树判断 题目要求 题目链接 示例 解答 方法一、 递归法 实现思路 使用到了判断两棵二叉树是否相等的方法&#xff0c;只不过对称二叉树…

扫盲:常用NoSQL数据库

前言 关系型数据库产品很多&#xff0c;如 MySQL、Oracle、Microsoft SQL Sever 等&#xff0c;但它们的基本模型都是关系型数据模型。 非关系型数据库又称为&#xff1a;NoSQL &#xff0c;没有统一的模型&#xff0c;而且是非关系型的。 常见的 NoSQL 数据库包括键值数据库、…

【Dots之006】PostTransformMatrix基础知识

一、基础介绍 PostTransformMatrix是一个组件&#xff1b;它用于不同比例对象的一个矩阵变换组件&#xff1b;当在Suscene中对GameObject比例变更的时候会发现以下情况&#xff1a; 1、当Gameobject的比例不相同的时候&#xff0c;在Entity Backing Previes窗口中可以看到已经…

0102阿里云配置3台ECS服务器-大数据学习

文章目录 1 前言1 配置VPC和子网2 创建安全组3 创建云服务器ECS3.1 规划配置3.2 配置 4 xshell连接服务器5 配置基础环境5.1 主机名映射5.2 ssh免密登录5.3 jdk 6 问题集6.1 Permission denied (publickey,gssapi-keyex,gssapi-with-mic).6.2 用tar解压文件出现错误Not found i…

video标签在安卓手机内置浏览器上的播放问题

道阻且长&#xff0c;行而不辍&#xff0c;未来可期 问题: 在手机内置浏览上&#xff0c;虽然没有给video标签设置controls,但在内置浏览器上&#xff0c;就是会显示。 而且&#xff0c;video一旦自动播放&#xff0c;video的层级就会提升到最前&#xff0c;想设置一个盒子覆盖…

22道Mysql面试真题和答案

本专栏记录Java后端开发相关的面试题&#xff0c;欢迎大家阅读专栏的其他文章。 1.请介绍下联合索引的最左匹配原则 建立一个联合索引&#xff08;a&#xff0c;b&#xff0c;c&#xff09;&#xff0c;相当于建立多个索引&#xff08;a&#xff09;&#xff08;a&#xff0c;…

亚马逊宣布弃用低代码,Honeycode 服务即将停止。

AWS 宣布终止低代码服务 Honeycode。新客户不能注册或升级账户计划&#xff0c;现有客户的应用程序将在 2024 年 2 月 29 日前继续运行。在 2023 年 7 月 31 日之后&#xff0c;用户将不再需要支付 Honeycode 使用费。 Honeycode 是一项于2020年6月推出的完全托管服务&#xf…

C语言网络编程实现组播(多播)

1、组播IP划分 224.0.0.0&#xff5e;224.0.0.255 为预留的组播地址&#xff08;永久组地址&#xff09;&#xff0c;地址224.0.0.0保留不做分配&#xff0c;其它地址供路由协议使用&#xff1b; 224.0.1.0&#xff5e;224.0.1.255 是公用组播地址&#xff0c;可以用于Inter…

春秋云镜 CVE-2018-2894

春秋云镜 CVE-2018-2894 Weblogic 任意文件上传漏洞 靶标介绍 Oracle Fusion Middleware 的 Oracle WebLogic Server 组件中的漏洞&#xff08;子组件&#xff1a;WLS - Web Services&#xff09;。受影响的受支持版本包括 12.1.3.0、12.2.1.2 和 12.2.1.3。易于利用的漏洞允…

怎样做一个知识库网站

经济和信息技术的蓬勃发展&#xff0c;知识资源成为了企业非常重要的无形资产。 当前&#xff0c;企业的核心竞争力不仅取决于硬件设备、财务实力、资源多寡、人员数量等生产因素&#xff0c;更加取决于企业对于知识的掌握、运用、传承和创新。 制作企业知识库&#xff0c;传…

静态路由(详细理解+实例精讲)

系列文章目录 华为数通学习&#xff08;6&#xff09; 前言 一&#xff0c;静态路由 二&#xff0c;静态路由配置 三&#xff0c;缺省路由 四&#xff0c;缺省路由应用场景 总结 前言 随着华为公司的不断发展&#xff0c;数据通信这门技术也越来越重要&#xff0c;很多人…

js数据类型?如何判断js数据类型?

在JavaScript中&#xff0c;有以下几种数据类型&#xff1a; 基本数据类型&#xff08;Primitive Data Types&#xff09;&#xff1a; String&#xff08;字符串&#xff09;&#xff1a;表示文本数据&#xff0c;使用引号&#xff08;单引号或双引号&#xff09;括起来。Numb…

Android自定义view流程

Android自定义view流程,主要目的是总结实现过程中的思路以及一些需要注意的地方。 首先&#xff0c;我们先来看一张效果图&#xff1a; 实现逻辑 重新指定View宽高绘制外圆圆弧背景及进度绘制中圆圆弧背景及进度绘制内圆圆弧背景及进度 知识点 onMeasure 用于测量View的大小…

读SQL学习指南(第3版)笔记08_视图和索引

1. 精心设计的应用程序通常会在保持实现细节私有的同时公开公有接口&#xff0c;以便未来在不影响最终用户的情况下修改设计 2. 视图 2.1. 不同于数据表&#xff0c;视图并不涉及数据存储&#xff0c;不用担心视图会填满你的磁盘空间 2.2. 一种数据查询机制 2.3. 从用户的视…

基于swing的中国象棋java小游戏jsp源代码Mysql

本项目为前几天收费帮学妹做的一个项目&#xff0c;Java EE JSP项目&#xff0c;在工作环境中基本使用不到&#xff0c;但是很多学校把这个当作编程入门的项目来做&#xff0c;故分享出本项目供初学者参考。 一、主要功能 可以实现双人下棋&#xff0c;可以悔棋&#xff0c;可…

R语言其他相关函数(各函数解析含实例,可供查询)

目录 一.函数相关 1.函数定义&#xff1a;function 2.调用文件:source 3. Call 4.Recall 5.browser 6.debug和undebug 7.trace 8.traceback 9.options 10.missing 11.nargs 12.stop 13.指定退出时执行的表达式 14.expression和eval 15.system.time 16. invisi…