Ilya出走记:SSI的超级安全革命

news2024/11/24 14:44:47

图片|OpenAI官网

©自象限原创

作者丨罗辑、程心

和OpenAI分道扬镳以后,Ilya“神秘而伟大”的事业终于揭开了面纱。

6月20日,前OpenAI核心创始人 Ilya Stuskever,在官宣离职一个月后,Ilya在社交媒体平台公开了最新的动向:将成立新的实验室Superintellgence(以下简称SSI),构建安全的超级智能。

▲图源:社交媒体X截图

这个名,明眼人一看就知道是冲着OpenAI去的。

2023年12月,在OpenAI十年的Ilya官宣离职引起了整个AI圈的轩然大波。虽然离职的具体原因扑朔迷离,但在Ilya离职前后,OpenAI负责模型安全的由Ilya主导的超级对齐(Superalignment)实验室宣布解散,外界纷纷推测,Ilya一直以来的理念是谨慎地发展人工智能,与Altman大刀阔斧地推进技术的战略相左。

而SSI,首先坚持了OpenAI成为非营利组织独立实验室的初衷,其次践行了Ilya一直以来对模型安全的谨慎态度。并且Ilya还补充道:我们将以一个焦点、一个目标、一个产品,直接追求安全的超级智能。

▲图源:社交媒体X截图

截至发稿前,Sam Altman并未回应,并没有让吃瓜群众们预想的“Altman假惺惺的表示祝福”成真。

而之所以业内如此重视Ilya在这个节点成立SSI,并不只是因为这个人,更是大模型的发展已经到了不得不重视模型安全的重要节点。

在刚刚过去的北京智源大会上,杨植麟、张鹏等一线创业者也曾讨论过这个问题,我们对模型安全的重视程度远远小于它的重要程度,而SSI的成立,或许会开辟一条与OpenAI完全相反的路。

用Ilya的眼睛,看AI的危险

似乎Ilya对模型安全是执拗的,甚至被人暗指“没必要”。“如果不是因为他是OpenAI的技术首脑,曾一手打造了GPT、DALLE-E等明星产品,SSI根本不会受到如此大的关注。”

但他们却忽略了,Ilya对人工智能技术的重要性,并不是从OpenAI开始的,而是从他的老师辛顿就奠定了他的话语权。

从80年代就开始战斗在人工智能最前线的辛顿,被誉为“深度学习之父”。作为教授的他桃李满天下(包括吴恩达),在他年轻一代的学生中,Ilya是最得意的门生之一。

▲图源:辛顿和Ilya合影

2023年5月初,辛顿辞去他在谷歌担任了十多年的职位,表示作出这个决定是为了可以自由讨论“人工智能的危险”。此后,他频繁接受媒体采访,不遗余力地对人工智能可能操纵人类发出警报。

尽管人类可以赋予人工智能一些伦理原则,但辛顿仍然感到紧张,“因为到目前为止,我还想象不到更智能的事物被一些没它们智能的事物所控制的例子。打个比方,假设青蛙创造了人类,那么你认为现在谁会占据主动权,是人,还是青蛙?”

师从辛顿的Ilya,几乎完全继承了被辛顿“蒸馏”过的,对于人工智能的谨慎,以及在谨慎之下的小心翼翼。

Ilya之于OpenAI,许多网友都认为他的个人贡献要大于Sam Altman。如果说SamAltman是OpenAI的面子,那Ilya就是OpenAI的里子,或者说是技术灵魂。

私底下的Ilya很内向但却并不胆怯。他之所以如此,很多人好奇,他作为影响这个世界技术变革的人,一定看到了什么。

但却没有人知道。

Ilya在OpenAI打造的超级对齐实验室,目的就是为了通过可控的技术手段使得AI发展的路径可控,确保AGI的发展符合人类利益。

一些前OpenAI员工透露,Ilya对超级对齐实验室的工作非常重视,并亲自参与其中。他希望通过这一实验室的工作,为未来的AGI系统设计出可靠的对齐方案。

想要理解何为“超级对齐”,就要演示一下现在的对齐技术,通过RHLF注入,能够实现两种对齐:一种是价值观的对齐:比如不要建立男女的性别对立、不要歧视同性恋等等;另一种是话题层面的对齐:明确国家的边界、不让搞黄色、不能诈骗等等。但Ilya所谓的超级对齐,却并不是这么简单。

有人还记得人工智能的三原则么?

其中之一便是“无条件服从人类”,而价值观和话题的对齐是远远不足以完成这个目标的,Ilya他认为技术的本质类似于人类的生物进化,如果进化的开始,是一个没有“无条件对人类的爱”的 AI,那等它长成AGI以后,也一定不可控。

对应了他在X中发表的:直接追求安全的超级智能。

没错,超级对齐的本质其实是通过让大模型产生“对人类无条件的爱”。

这听起来似乎很扯淡,但或许SSI的本质就是如此。

人,AI安全的最后一道防线

那么问题来了,大部分人做不到。

是的,可能大部分公司都是OpenAI而非SSI。那么除了大模型公司在内部致力于构建一个安全、可信的大模型之外,这两年随着技术和应用的发展,社会各界也对AI和大模型的安全作出了许多努力。

2021年11月,联合国教科文组织就曾通过《人工智能伦理问题建议书》,希望为人工智能的发展,以及预防其潜在风险提供建议。

今年3月份,联合国教科文组织总干事奥德蕾·阿祖莱还在公开呼吁,希望各国尽快实施这项建议,为人工智能发展设立伦理标准。

而随着中国AI大模型的蓬勃发展,中国企业也越来越多地参与到了这类国际AI安全准则的制定中。

比如今年4月在日内瓦召开的联合国科技大会上,世界数字技术院(WDTA)发布了《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。

而这两项标准,由来自百度、腾讯、蚂蚁集团、科大讯飞等众多中国企业的专家学者共同参与编制而成。

在国际组织通过编制规范指导AI安全发展的同时,各地政府的法案也在相继落地。

5月21日,欧洲的《人工智能法案》正式获得了欧洲理事会的批准。这项法案最早由欧盟委员会在2021年提出,作为全球首个AI法案,它通过构建广泛适用的人工智能监管机制,为人工智能技术的发展提供了法律框架,为全球的AI监管提供了可借鉴的法律基础。

国内AI安全相关的政策则落地在2023年7月,国家网信办联合国家发改委、工信部等七部门,公布了《生成式人工智能服务管理暂行办法》,该办法就生成式人工智能可能面临的安全问题提出了一系列明确的约束规范。

当然,法律规定的社会的下限,大模型安全的上线仍然需要在产业界寻找答案。

我们前面提到,大模型在公司内部训练的过程中,需要通过数据、算法、学习框架等多个维度保证大模型的安全可靠。

但其实在公司外部,完成训练的大模型要推向市场,还存在一套由第三方完成的大模型安全测试评估框架,目前主流的安全性测评方法主要有固定数据集测评和红队模型测评两类。

2023年,OpenAI在GPT-4发布之前就曾对其进行了六个多月的评估、测试及改进。在这轮测试中,OpenAI就邀请了AI领域专家参与红队测试(Red Teaming)以识别安全风险。

固定数据集测评,则是由研究人员针对大模型的各类安全风险制定风险评估矩阵,类似绩效考核打分。

研究人员通过人类标注数据的方式采集安全性评估数据,然后以测试模型在这些数据集上的表现评估模型的安全程度。

2023年底,OpenAI在官网公布了名叫“Preparedness Framework”的安全评估框架,是这类固定数据集测评的范本之一。

▲OpenAI安全评估模型的计分卡,图源:OpenAI官网

在国内,清华大学计算机系的黄民烈研究团队在2023年3月就发布了大模型安全分类体系,该团队从系统层面和模型层面出发,打造更可控、可信的大模型安全框架,是国内较早参与到模型安全评估体系的团队之一。

除此之外,蚂蚁安全实验室也推出了大模型安全检测平台“蚁鉴2.0”和大模型风险防御平台“天鉴”两大产品。

在具体能力上,风险监测平台可以诊疗检测、定位问题;风险防御平台可以对风险进行防治。

比如在大模型生成可控问题上,蚂蚁安全实验室提出了如通过SFT、RLHF/RRHF、RLAIF等技术和高质量标注做人类对齐;在图像方面做风险抑制,进行可控调试;为大模型外挂千万级安全知识库生成和检索等等方式。

在模型层面的问题之外,使用模型带来的安全问题也同样重要。

6月11日,苹果在WWDC上推出了其全新的 AI 系统“Apple Intelligence”。为了保护用户隐私和数据安全,苹果将大模型的工作分为两类。

其中简单的任务在手机设备端执行,保证数据不离开手机。如果是需要调用云端算力的复杂任务,苹果打造了一套具备芯片级别隐私和安全保护的服务器——“Private Cloud Compute”。这套服务器可以实现加密传输,服务器只识别数据,不收集数据,且在任务完成后,该数据也会被立即删除。

其中关键的一点是,Apple Intelligence集成了GPT-4o作为第三方大模型支持。为了保证数据安全和用户的知情权,苹果设置Siri启用Chat GPT时会向用户提出申请。

也就是说,在苹果的安全框架里,虽然企业会做好一切前期准备,但用户自己才是安全防范的最后一道防火墙。

就像OpenAI一直都在官网提醒用户,“在使用 GPT-4 输出的内容时应格外小心,特别是在高风险场景下(如医学、化学等领域),需要人工核查事实准确性或者避免使用 AI 给出的答案。”

所以,虽然身处AI时代,工具已经如此强大,但在一切工具就绪之后,我们仍应记住,我们自己才是保护自己的最后一道防线。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1847174.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

opencascade AIS_InteractiveContext源码学习2

AIS_InteractiveContext 前言 交互上下文(Interactive Context)允许您在一个或多个视图器中管理交互对象的图形行为和选择。类方法使这一操作非常透明。需要记住的是,对于已经被交互上下文识别的交互对象,必须使用上下文方法进行…

神经网络学习5-非线性激活

非线性激活,即 这是最常用的 inplaceTrue 原位操作 改变变量本身的值,就是是否输入时若原本有值,是否更换 该函数就是表示:输入小于零时输出0,大于零时保持不变 代码如下: import torch from torch imp…

芋道源码 yudao-cloud 、Boot 文档,开发指南 看全部,破解[芋道快速开发平台 Boot + Cloud]

1、文档全部保存本地部署查看,真香 文档已抓取最新版本,2024.06.21。【唯一遗憾,表结构到2024.04月,已被限制放到知识星球】会员中心,支付中心,CRM,ERP,商城,公众号运行…

利氪科技拿下C轮超级融资,国产智能底盘黑马奔向黄金时代

“智能驾驶遗珠,国产替代富矿。” 这是海通证券在最近一期研报中,描述线控底盘产业的用语。它很巧妙地点明了,这个藏在车身之下的部分,拥有何种特征——稳坐技术体系的核心点位,拥有前景广阔的市场。 事实上&#xf…

生成式AI与开发者:威胁还是机遇?

近期,围绕生成式人工智能(AI)是否能取代程序员的讨论达到了前所未有的高度。百度的创始人李彦宏甚至预言,未来可能不再需要程序员这一职业。这个话题让很多开发者,包括有几年开发经验的我,感到不安。我记得…

【ArcGIS微课1000例】0120:ArcGIS批量修改符号的样式(轮廓)

ArcGIS可以批量修改符号的样式,如样式、填充颜色、轮廓等等。 文章目录 一、加载实验数据二、土地利用符号化三、批量修改符号样式四、注意事项一、加载实验数据 订阅专栏后,从私信查收专栏配套的完整实验数据包,打开0120.rar中的土地利用数据,如下图所示: 查看属性表: …

Python Web实战:Python+Django+MySQL实现基于Web版的增删改查

项目实战 1.创建项目(sms) File->New Project->Django 稍等片刻,项目的目录结构如下图 项目创建后确认是否已安装Django和mysqlclient解释器,如何确认?file->Settings 如果没有请在Terminal终端输入以下命令完成安装 pip instal…

德璞资本:科技股波动解析,三巫日与日元效应下的市场走向

摘要 近期,美国科技股的表现令人担忧,标普500指数在科技股的拖累下出现下跌。亚洲股市也受到影响,特别是日本和韩国股市。随着期权到期日的临近,市场面临更大的波动风险。本文将详细分析科技股失去动能的原因、三巫日的影响及未来…

elementui组件库实现电影选座面板demo

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Cinema Seat Selection</title><!-- 引入E…

华为重磅官宣:超9亿台、5000个头部应用已加入鸿蒙生态!人形机器人现身 专注AI芯片!英伟达挑战者Cerebras要上市了

内容提要 华为表示&#xff0c;盘古大模型5.0加持&#xff0c;小艺能力全新升级。小艺智能体与导航条融为一体&#xff0c;无处不在&#xff0c;随时召唤。只需将文字、图片、文档“投喂”小艺&#xff0c;即可便捷高效处理文字、识别图像、分析文档。 正文 据华为终端官方微…

策略模式:applicationContext.getBeansOfType()方法

applicationContext.getBeansOfType() 一般用来获取某个接口的所有实例Bean 方法定义如下&#xff1a; 入参一般是接口&#xff0c;即interface。响应是个Map结构&#xff0c;key bean在容器中的名称&#xff0c;value bean实列 开发步骤&#xff1a; 1.定义接口 2.定义…

“锟斤拷,烫烫烫,屯屯屯”的由来

在程序开发过程中&#xff0c;调试是不可或缺的一环。调试不仅可以帮助开发者发现错误&#xff0c;还能提供程序运行时的内部状态信息。然而&#xff0c;在调试过程中&#xff0c;开发者有时会遇到一些奇怪的字符。这些乱码通常是由内存状态的特殊标记&#xff0c;或者字符集不…

如何通过准确预测需求来减少PMC成为“夹心饼干”的风险?

在瞬息万变的商业环境中&#xff0c;产品物料控制&#xff08;PMC&#xff09;部门时常扮演着“夹心饼干”的角色&#xff0c;既要满足市场快速变化的需求&#xff0c;又要协调供应商、生产线等多方利益。如何减少这种风险&#xff0c;让PMC部门从“夹心困境”中脱颖而出&#…

【Git】 -- Part1 -- 基础操作

1. Git简介 Git 是一个开源的分布式版本控制系统&#xff0c;由 Linus Torvalds 于 2005 年开发&#xff0c;主要用于源代码管理。Git 允许多名开发者共同合作处理同一个项目&#xff0c;跟踪每个文件的修改&#xff0c;并且在必要时回滚到之前的版本。 Linus Torvalds是Linux…

使用 Kubernetes 部署 MinIO 和 Trino

Trino&#xff08;以前称为 Presto&#xff09;是一个 SQL 查询引擎&#xff0c;而不是 SQL 数据库。Trino 避开了 SQL 数据库的存储组件&#xff0c;只专注于一件事 - 超快的 SQL 查询。Trino 只是一个查询引擎&#xff0c;不存储数据。相反&#xff0c;Trino与各种数据库交互…

怎么添加网页到桌面快捷方式?

推荐用过最棒的学习网站&#xff01;https://offernow.cn 添加网页到桌面快捷方式&#xff1f; 很简单&#xff0c;仅需要两步&#xff0c;接下来以chrome浏览器为例。 第一步 在想要保存的网页右上角点击设置。 第二步 保存并分享-创建快捷方式&#xff0c;保存到桌面即可…

rancher快照备份至S3

巧用rancher的S3快照备份功能&#xff0c;快速实现集群复制、集群转移、完全崩溃后的极限修复 1.进入集群管理&#xff0c;在对应的集群菜单后&#xff0c;点击编辑配置 2.选择ETCD&#xff0c;启用&#xff0c;Backup Snapshots to S3选项 并填入你的minio 3 配置成功后 手…

【Linux基础IO】深入理解缓冲区

缓冲区在文件操作的过程中是比较重要的&#xff0c;理解缓冲区向文件刷新内容的原理可以更好的帮助我们更深层的理解操作系统内核对文件的操作。 FILE 因为IO相关函数与系统调用接口对应&#xff0c;并且库函数封装系统调用&#xff0c;所以本质上&#xff0c;访问文件都是通过…

怎么用二维码在线下载视频?视频用二维码下载的制作方法

怎么把视频转换成二维码之后还可以下载视频呢&#xff1f;现在使用二维码的方式来分享视频内容在很多行业和场景中都有应用&#xff0c;这种方式能够更加简单快捷的完成视频的传播分享&#xff0c;那么怎么让扫码者可以自由选择下载视频呢&#xff1f;下面来给大家分享扫码下载…

[Vulnhub] Troll FTP匿名登录+定时任务权限提升

信息收集 IP AddressPorts Opening192.168.8.104TCP:21,22,80 $ nmap -sC -sV 192.168.8.104 -p- --min-rate 1000 Nmap scan report for 192.168.8.104 (192.168.8.104) Host is up (0.0042s latency). Not shown: 65532 closed tcp ports (conn-refused) PORT STATE SER…