OpenAI发布AGI安全风险框架!董事会可随时叫停GPT-5等模型发布,奥特曼也得乖乖听话

news2024/12/22 6:36:12

OpenAI 再次强调模型安全性!AGI 安全团队 Preparedness 发布模型安全评估与监控框架!

这两天关注 AI 圈新闻的小伙伴们可能也有发现,近期的 OpenAI 可谓进行了一系列动作反复强调模型的“安全性”

前有 OpenAI 安全系统(Safety Systems)负责人长文梳理针对 LLM 的对抗攻击类型与防御方法,后有 Ilya Sutskever 领衔的“超级对齐”团队(Superalignment)发布论文探索使用小模型监督对齐大模型,这些工作无一例外都在开头强调“伴随着模型正在逼近 AGI……”

图片

而就在今天,OpenAI 又官宣了一项安全性工作,由 OpenAI 负责 AGI 安全性的新团队 Preparedness 推出了“Preparedness 框架”——一个负责对模型安全性进行评估与监控的系统文件,详细介绍了目前 OpenAI 针对模型安全评估监控的工作思路:

图片

Preparedness 框架提出的背景

Preparedness 框架的提出主要基于 OpenAI 的两个判断:

(1)我们的系统正在逐渐逼近 AGI; 

(2)目前针对前沿 AI 的风险研究还远远不足

图片

图片

在这个背景下,OpenAI 针对不同风险构建了强大的“安全团队”,分别是负责大模型系统安全的 Safety Systems,负责大模型与人类价值观对齐的 Superalignment 以及直接对标模型风险监控的 Preparedness 团队。

图片

Preparedness 作为在十月份 OpenAI 新成立的团队,由 MIT 教授 Aleksander Madry 直接领导(OpenAI 组建安全 AGI 新团队!应对AI“潘多拉魔盒”),其目标旨在:

  1. 在现在以及未来,前沿的 AI 系统被滥用,它们会有多危险?

  2. 如何构建一个强大的框架来监控、评估、预测与防御前沿 AI 系统可能的风险?

  3. 如果前沿的 AI 系统被盗用,恶意行为者可能会如何使用它们?

Preparedness 内容

今天发布的 Preparedness 框架主要目标在于通过评估与监测来确定何时以及如何进行 AI 大模型的开发与部署才能确保“安全”,“预备”框架主要包含:

  1. 实时监控与评估,建立模型风险检测与评估体系,跟踪模型风险水平,并对未来可能风险做出预测与预警;

  2. 挖掘与寻找 AGI 可能会带来的未知风险;

  3. 建立模型开发与部署的“安全红线”,确保仅有低风险模型才能部署,中风险模型才能继续研发,高风险模型进行必要调整;

  4. 开展实地工作,定期发布模型安全性评估综述与报告,协调相关团队贯彻安全性思想;

  5. 创建跨职能咨询小组,对突发安全风险进行紧急处理。

具体而言,在安全评估与检测之上,Preparedness 团队提到:“We bring a builder’s mindset to safety”,要将建筑师的思维带入到模型的安全评估之中,把模型安全视为一项科学与工程紧密结合的工作

图片

此外,Preparedness 将以“计分卡”的形式,评估目前所有的前沿模型:

图片

目前主要跟踪的风险有网络安全、CBRN(化学、生物、辐射、核威胁)、信仰以及模型自主性。

且OpenAI未来的模型:

  • 必须确保高风险以下,模型才能继续研发;

  • 必须确保中低风险以下,模型才能部署;

  • 高风险模型需要进行必要调整并采取相应安全措施;

    图片

董事会有权随时阻止发布AI模型

OpenAI正在创建一个跨职能跨部门的安全咨询小组来审查所有报告并将其同时发送给领导层和董事会。虽然领导层是决策者,但董事会拥有推翻决定的权利。

这意味着董事会有权利随时阻止OpenAI发布他们认为对人类安全造成威胁的AI模型(假如GPT-5足够强大可能不会被发布),哪怕是Sam Altman也要听从董事会的安排(Sam Altman目前不在董事会席位)。

图片

除了上述这些,预备框架还提到 Preparedness 团队将会定期进行安全演习,对紧急安全问题进行快速响应,与第三方审计团队合作,帮助评估前沿模型等等……

对于 OpenAI 最近反复强调的 Safty,除了暗自揣测一下 AGI 是否将来以外,许多网友却似乎并不对“安全”买账,不少网友都认为这种安全审查似乎只是为了避免“承担责任”

图片

甚至这样“严苛”的安全审查让大家联想起《1984》

图片

当然,还有网友非常接地气的吐槽:你们安全审查的连问 GPT 如何杀死一个进程都不敢说了……

图片

另外有网友吐槽:这就是GPT写代码变得懒惰的原因吗?

图片

图片

还有网友认为安全措施既耗时又昂贵,会限制模型的能力,降低其对各种任务的效用。

图片

当然,技术风险与技术进步似乎永远都处在一个博弈与"trade-off"的状态,到底是矫枉过正还是防患未然,可能只有时间能告诉我们答案。

最后,Preparedness 框架的全文链接如下:

https://cdn.openai.com/openai-preparedness-framework-beta.pdf

感兴趣的朋友也可以关注网友整理的思维导图~

图片

最后插播一条消息,据The Information报道,为了应对明年的美国大选,OpenAI 改革了内容审核工作,主要是为了防止从 ChatGPT 等产品中根除虚假信息和攻击性内容的。

图片

看来,OpenAI的AGI安全野心就算再大,还是要从这些内容审核的“小事”做起啊。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1322827.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HarmonyOS(十五)——状态管理之@Prop装饰器(父子单向同步)

上一篇文章我们认识了状态管理的State装饰器(组件内状态),接下来我们学习另外一个状态管理装饰器Prop装饰器。 Prop装饰的变量可以和父组件建立单向的同步关系。Prop装饰的变量是可变的,但是变化不会同步回其父组件。 说明&#…

可视化数据监控大屏网页界面,数据大屏模版PS资料(免费UI源文件)

数据大屏模板在大数据领域被广泛应用,其优势在于能够将复杂的数据通过图形、图表等方式呈现出来,使数据更易于理解。数据大屏模板可以用来进行数据分析。通过对数据的比较、趋势分析、异常检测等,可以发现数据中的规律和问题,为决…

SQL进阶理论篇(十):数据库中的锁

文章目录 简介按照锁的粒度进行划分从数据库管理的角度进行划分从程序员的角度进行划分为什么共享锁会发生死锁?参考文献 简介 索引和锁,是数据库中的两个核心知识点。 索引的相关知识点,在之前的几章里我们已经介绍的差不多了。接下来我们…

CEC2013(python):五种算法(HHO、WOA、GWO、DBO、PSO)求解CEC2013(python代码)

一、五种算法简介 1、哈里斯鹰优化算法HHO 2、鲸鱼优化算法WOA 3、灰狼优化算法GWO 4、蜣螂优化算法DBO 5、粒子群优化算法PSO 二、5种算法求解CEC2013 (1)CEC2013简介 参考文献: [1] Liang J J , Qu B Y , Suganthan P N , et al. P…

安卓开发学习---kotlin版---笔记(三)

网络 安卓主页的网络框架&#xff1a;OkHttp 在OkHttp的基础上进行封装的&#xff1a;Retrofit框架&#xff0c;更常使用 OkHttp学习 在使用网络请求的时候&#xff0c;先添加网络访问权限&#xff1a; <uses-permission android:name"android.permission.INTERNET&…

【数据结构】栈的使用|模拟实现|应用|栈与虚拟机栈和栈帧的区别

目录 一、栈(Stack) 1.1 概念 1.2 栈的使用 1.3 栈的模拟实现 1.4 栈的应用场景 1. 改变元素的序列 2. 将递归转化为循环 3. 括号匹配 4. 逆波兰表达式求值 5. 出栈入栈次序匹配 6. 最小栈 1.5 概念区分 一、栈(Stack) 1.1 概念 栈&#xff1a;一种特殊的线性表&…

数据库——水果商店进阶

智能2112杨阳 一、目的与要求&#xff1a; 综合运用SQL语言相关知识如变量、游标、函数、触发器等解决实际问题。 二、内容&#xff1a; 设计并完成以下实验&#xff0c;要求附上源码&#xff08;非截图&#xff09;&#xff0c;测试效果截图 在订单详情表orderitems插入新…

【openGauss/MogDB列存表的delta表测试】

列存储格式是OLAP类数据库系统最常用的数据格式&#xff0c;适合复杂查询、范围统计类查询的在线分析型处理系统。cstore列存储的主体数据文件以CU为I/O单元&#xff0c;只支持追加写操作&#xff0c;因此cstore只有读共享缓冲区。CU间和CU内的可见性由对应的CUDESE表&#xff…

高项-【整合管理】

8.1管理基础 项目整合管理由项目经理负责&#xff0c;责任不能被授权和转移。对整个项目承担最终责任。执行项目整合是担任双重角色&#xff1a; 组织层面&#xff0c;与项目发起人携手合作&#xff0c;了解战略目标&#xff0c;确保项目目标和成果与项目组合、项目集一集业务…

自助借还办证一体机软件需求说明书

1. 简介 1.1 项目概括 本项目主要实现读者自助办证、借书、还书、查询、续借的功能&#xff0c;减轻管理员的工作量&#xff0c;提升读者的借阅体验&#xff0c;提高了图书的借阅量与流通率&#xff0c;是图书馆智能化、无人化建设的重要步骤。 1.2 项目背景 ​ 目前各大图…

【ArkTS】如何修改应用的首页

之前看到一种说法&#xff0c;说是应用首页是 entry > src > main > resources > base > profile > main_pages.json 中src配置中数组第一个路径元素。这种说法是不对的&#xff01;&#xff01;&#xff01; 如果需要修改应用加载时的首页&#xff0c;需要…

软件测试面试题之测试基础,轻松面对面试,一篇足矣

软件测试的流程是什么&#xff1f;&#xff08;测试流程&#xff09; &#xff08;1&#xff09;需求调查&#xff1a;全面了解系统概况、应用领域、软件开发周期、软件开发环境、开发组织、时间安排、功能需求、性能需求、质量需求及测试要求等。根据系统概况进行项目所需的人…

oracle与gbase8s迁移数据类型对照

声明&#xff1a;以下为笔者阅读gbase官方文档和oracle官方文档的理解&#xff0c;如有错误&#xff0c;敬请指正。oracle与gbase8s迁移数据类型对照及举例说明 最终结论&#xff1a;oracle与gbase8s数据类型对应关系关于单精度与双精度的区别关于定点与浮点定义的区别精度的定…

linux之Samba服务器

环境&#xff1a;虚拟机CENTOS 7和 测试机相通 一、Samba服务器_光盘共享&#xff08;匿名访问&#xff09; 1.在虚拟机CENTOS 7安装smb服务&#xff0c;并在防火墙上允许samba流量通过 2. 挂载光盘 3.修改smb.conf配置文件&#xff0c;实现光盘匿名共享 4. 启动smb服务 5.在…

Bezier 曲线 2D

Bezier 曲线于 1962 年由法国雪铁龙汽车公司的工程师 Bezier 所发表&#xff0c;主要应用于汽车的外形设计。虽然 Bezier 曲线早在 1959 年便由法国雷诺汽车公司的 De Casteljau 运用递推算法开发成功&#xff0c;但是 Bezier 却给出了曲线的详细的曲线计算公式。所以&#xff…

游戏、算法竞赛与退役(流水账版)

写在前面 不出意外的话&#xff0c;这东西本该咕到翻年之后再发的&#xff0c;但好像催稿催的有点厉害&#xff0c;于是就找个机会把他写了&#xff08;笑&#xff09; 最初是只想写个算法竞赛退役记的&#xff0c;后面发觉写起来就有点收不住&#xff0c;算法竞赛牵扯到太多…

linux网络管理_配置网络参数

11.2 配置网络参数 ls /etc/sysconfig/network-scripts/ 11.2.1 配置IP 配置网卡参数 # 可考虑先备份 # cp /etc/sysconfig/network-scripts/ifcfg-ens33 . # 复制到当前目录 ​ vim /etc/sysconfig/network-scripts/ifcfg-ens33 ifcfg-ens33文件中的内容 TYPEEthernet PROX…

MATLAB 平面拟合并可视化(34)

MATLAB 平面拟合并可视化(34) 一、效果二、代码一、效果 二、代码 % 生成三维点数据 x = rand(100, 1); y = rand(100, 1

LLaMA系列模型

1.LLama 1.1 简介 Open and Efficient Foundation Language Models (Open但没完全Open的LLaMA) 2023年2月&#xff0c;Meta&#xff08;原Facebook&#xff09;推出了LLaMA大模型&#xff0c;使用了1.4T token进行训练&#xff0c;虽然最大模型只有65B&#xff0c;但在相关评…