如何确保大模型追求“正确”的目标?丨AI安全与对齐圆桌回顾

news2024/11/25 23:00:22

导读

在智源大会「AI 安全与对齐」论坛上,与会嘉宾针对目前人们关心的 AI 安全控制标准、多智能体强化学习环境下的安全、开源对 AI 安全的影响、对智能涌现安全的思考等问题展开了讨论。

能力越大,责任越大。

嘉宾名单

谢旻希丨主持人,安远AI创始人

杨耀东丨北京大学人工智能研究院助理教授

付杰丨智源研究院硏宄员

David Krueger丨剑桥大学助理教授

黄文灏丨智源创新应用实验室负责人

李博丨UIUC助理教授

Q1 MC:人工智能的安全性和一致性方面有哪些重要但被忽视的问题?(特别但不限于大型语言模型)

ff3efe04845ed031f2515b556e95836b.jpeg

>>李博:

从人工智能对齐的角度来看,有几件事很重要——拥有领域知识、给予模型推理能力。同时,模型的鲁棒性、隐私性和泛化的一致性认证都很重要。保证模型在某些类型上的下限,对一些安全关键场景非常重要。

>>David Krueger:

几年前,我认为可解释性是重要但被忽视的问题。但目前许多 AI 安全研究社区中的学者已经进入了这一领域。寻找机器学习可解释性就像寻找科学理论,理解事物是如何运作的,特别是学习过程。机器学习理论研究是非常具有挑战性的,学习方法往往可以帮助我们建立直觉。我认为我们应该考虑制定标准。目前有很多关于 AI 监管、审计和评估的讨论,但我们还没有明确的意识到如何才能判断系统是否安全,这与系统可信度问题有关。

>>黄文灏:

对我来说数据和算法十分重要。对于数据,我们想在预训练阶段和 SFT 阶段加入对齐和安全控制,我们还需要做大量的数据控制和数据规划工作,以使其更安全。对于算法,对于追求 AGI 而言,Transformer 可能并不是最好的架构。所以我们需要在算法和对齐上有所突破。

>>付杰:

现在,我专注于数据集部分。三年前,我与合作者发布了一个名为 Would You Rather 的数据集,用于测试语言模型是否与人类社会的群体偏好保持一致。例如,给定来自不同国家的数据,我们假设语言模型可以像人类一样有类似的选择,这是一个社会层面的图灵测试。我们希望,这个数据集或基准可以为测试语言模型设定一个基线,以遵循人类的社会偏好和价值观。 

>>杨耀东:

安全对所有人来说都不是一个新问题。看看飞机,它们已经在天空中飞行了几十年,而自动驾驶汽车可以安全地在路上行驶。我们需要考虑如何在大语言模型方面真正定义安全。

这绝对不是一个二元问题。对于具有不同年龄、环境或背景的人来说,根据不同的安全水平,应该有不同的答案。例如,如果一个孩子问如何制造炸弹,模型也许应该告诉他一些科学原理。但是当一个成年人问这个问题,也许模型需要对他隐瞒一些关键信息。我们需要对不同的人设定安全等级制度。从风险制定的角度来看,控制领域的研究者研发了很多安全算法,我们可以从强化学习和控制研究中借鉴知识。

Q2 MC: 如何制定人工智能安全和控制标准? 

f83d256a2abce3fe8d225cf31bea4ce0.jpeg

>>David Krueger: 

除了语言模型。我们希望系统处于控制之下,这与价值观没有关系。系统不要做导致人类灭绝的事情。但困难的是理解什么样的行为是危险的,什么样的限制是有效的。当机器比人类聪明时,它能找到聪明的方法来实现它的目标。尽管我们给系统戴上了「手铐」,但它可能会撬锁。

>>付杰:

我们需要校准语言模型。例如,可以在语言模型中加入不确定性。所以当模型给出答案时,我们要求它给出答案的置信度。我们即将发布为大语言模型增加verbalized confidence的方法。这是语言模型对预测的描述的自信程度,是模型的一个安全层。我们必须将不确定性校准嵌入到语言模型中。

>>David Krueger: 

我同意,这绝对是一件值得研究的事情,也是一个很难的问题。你总能找到现有系统错误的地方和自信的地方。

Q3 MC: 多智能体强化学习环境下的安全问题是否是一个重要的研究方向?

07bc3430d587119d7f5e2ac2a70d0fb3.jpeg

>>李博: 是的,我们在多智能体的安全性,鲁棒性,隐私性方面有大量的研究,并研究了如何定义公平(例如,平等贡献或平等准确性)。如何将之前的社会选择理论与机器学习和更先进的人工智能结合起来,我认为这是一个非常重要的问题。此外,我认为这非常依赖于应用程序,比如自动驾驶,空中飞行,以及我们在日常生活中使用的大语言模型的水平。模型的水平有很大的差别,要考虑如何根据功能和需求来定义其安全性。 

>>杨耀东: 

多智能体、数学研究社区可以为对齐研究提供很多知识。多智能体系统研究、博弈论、解决方案概念、机制设计等方面的工具对对齐问题有很大帮助。当你在一个系统中引入多个 ChatGPT 时,你会思考它们要达到到什么样的平衡,这种平衡是否对人类有益。你还会从经济学角度看ChatGPT 是否合理。我们如何创建一种机制,让系统输出一些有用、合理的结果,这个层次的问题可以由多智能体研究人员来解释。

>>黄文灏:

我非常同意多智能体对齐的想法。我们将几个语言模型放入一个沙箱中,然后让它们来做对齐的事情。未来,会有很多语言模型和智能体与你一起工作,但我认为在沙箱中,还需要引入一些人类。人类和语言模型会结合在一起,然后进行对齐将更有效,可以更有效地与人类对齐。 

>>David Krueger:

从宏观上说,我们在保持控制、避免人类灭绝方面有很多共同的价值观。但不同的人工智能开发者之间会有一些价值观冲突。在博弈论中,你可能会遇到挑战,即使合作有好处,这些好处的份额也会有影响。例如,议价博弈。

此外,人工智能系统合作得太好了。例如,人们为了确保人工智能系统的安全,会让它们相互竞争。但是,如果我们通过一个系统检查另一个系统,确保它没有做对人类有害的事。然而,被检查的系统知道自己在被监视。如果这两个系统最终合作了,那么应该监视这个系统的系统可能会对你撒谎,然后它们既可以合作,也可以反对你。系统之间的紧密合作利弊并存。

>>黄文灏:

就合作问题而言,我们在现实世界的数据标注工作中发现,现在标注者更喜欢 ChatGPT 的答案而不是人类的答案。它们会给出比人类答案更高的偏好,这是一种合作的行为。然后,如果使用这些数据量来进行对齐,将按照 ChatGPT 希望的方式进行对齐。

Q4 MC: 在过去的几个月里,开源社区蓬勃发展。这将如何改变你对人工智能安全和控制问题的看法?开源的好处和风险是什么?

ea52852d840a8ff167c5d77bdeffb789.jpeg

>>David Krueger:

也许有人会认为,有一些大的开发者在做语言模型。如果他们能保证这些模型的安全就可以了。但我认为并非如此,我们必须关心许多不同的开发工作,不仅包括担心语言模型,还包括所有可以建立在语言模型之上的不同工具和智能体。

>>李博:

我认为开源仍然是未来的趋势。开源模型将有助于人们理解和分析它,从而以一种有意义的方式开始理解它,我非常感谢开源社区。就安全的不同标准的讨论而言,我们要考虑标准的定义、理论、均衡、成本、稳定性,所有这些都会有很大的帮助。但这都建立在我们拥有健康的开源社区的基础之上,每个人都可以做出贡献,帮助我们更好地理解这个模型。所以从这个角度来看,我认为在开源对于开发出好的、安全的人工智能是很有帮助的。

>>黄文灏:

开源可以为数据集部分做出很多贡献,我们将有一个更好的数据集进行对齐,这对研究很有帮助。

>>付杰:

我相信从长远来看,开源是有益的。从某种程度上说,AutoGPT 存在一定风险,你需要提出目标,AutoGPT 就会生成一系列动作。但是如果能建立一些开源工具来管理,我们可以让操作更加透明。我刚刚发布了 ChatDB,用一个符号记忆库来增强语言模型,并让中间的推理过程变得部分透明,以便让人类理解和监督。

>>杨耀东:

毫无疑问,开源是重要的。事实上,那些来自开源社区的更大的语言模型的最新进展是惊人的。但我也对开源模型持谨慎态度。考虑到安全问题,如果从头开始训练模型,并且不进行正确的校准,它并不安全。也许开放人工智能的实践,比如与模型或源代码一起发布系统代码,可能更好。

>>David Krueger:

要对开源持谨慎态度。我认为将先进的人工智能系统公之于众之前,要非常仔细地考虑其他人可以用这个系统做些什么。我们可以从开源中获得很多好处,可以让研究人员用上这些模型,甚至造福普罗大众,但需要一种更可控的方式。

Q5 MC:更大、更有能力的模型基础可以开发有益的功能,但也可能产生有害的功能。人工智能安全社区应该如何思考这个问题?我们应该如何预测、预测或应对这些行为?

>>李博:

大语言模型的涌现能力是非常有趣的。但这一现象是两面性的,这意味着即使你在未见过的任务上有强大的上下文学习能力,很容易通过在一个提示中加入某些词进行后门攻击。然后它就会在不同的任务上造成非常严重的问题。我们确实需要利用模型的涌现能力,但也要意识到它的缺点,通过分析和评估,最终实现模型的防御和保护。

>>黄文灏:

我认为能力本身是中性的,所以我们不能说它是有害的还是有用的。当我们在语言模型中看到很多涌现出的的能力时,这是一件好事。我们应该担心的是,人们如何利用这种能力来做一些有害的事情。这是我们应该关心的事情,并对其进行监控。

>>David Krueger:

我们不应该只考虑涌现能力,还要考虑更普遍的涌现行为。判断系统是否有这个能力,是否选择使用它。我的很多工作实际上都与此相关,因为我们正在研究学习和泛化。我们尝试理解涌现能力。

通常,人们是按照损失来建模的,而不是不同子集上的损失。我们要理解如何将这些学习曲线投射到未来,看看在不同的数据子集上,行为将如何随着时间的推移而变化。所以语言模型可能不是被设计成智能体的,但它们可能会变得更具有智能体的特性。我认为这非常有趣。

>>付杰:

我们可以设计新的度量系统,从一个角度来说,我们看到了所谓的涌现能力。但也许通过另一个角度,我们看到一个连续的行为曲线,没有涌现能力。我们可以从小规模开始预测,然后逐渐扩大规模。也许不存在所谓的涌现能力,只是观测角度不同。

>>杨耀东:

我们不应该智能的涌现或不安全的涌现感到恐慌。因为作为人类,我们几乎每天都要面对这些问题。想想金融市场。你永远无法预测明天的股票价格,但这不会阻止你从银行购买金融产品。解决这个问题的方法是定义一些风险度量。如果我们能定义一个正确的安全措施,那么不管是否涌现出智能,我们就能大致了解将会发生什么。然后,我们可以在这些措施的基础上制定进一步的监管、协议或行为。我们有很多工具处理这些水平的突发性或随机性。但我们只需要达成一致,然后继续发展。

Q6 MC:  对于有志于从事 AI安全控制和对齐的人,你们有什么建议?

4dcc7bde8f80bc36fa71f6f912de0855.jpeg

>>李博:

我想对于我所有的学生来说,这个领域是从评估开始,换句话说:攻击所有的模型。然后我们发现一切皆有可能,然后从经验和理论的角度进行探索,为一定的准确性、奖励或不同的算法提供下限。这样,你可以有一个清晰的轨迹。

>>David Krueger: 

我的建议是提前考虑这个领域 5 年或 10 年后会是什么样子。想想别人没有解决的问题是什么,并对这些问题形成自己的看法,以及如何解决这些问题。

>>黄文灏:

是安全是一个大问题,也是一个小问题。如果你认为这是一个大问题,那么它将与人类的未来有很大的关系,每个对人类未来感兴趣的人都可以做安全研究。如果将其作为一个小问题,我们可以先从评估和攻击做起。

>>付杰: 

有空重新看看蜘蛛侠,并记住——能力越大,责任越大

>>杨耀东: 

超脱于当前的趋势,考虑多个步骤,然后做计划。

- 点击“查看原文” ,观看完整大会视频回放 -

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/702552.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高压线路距离保护程序逻辑原理(一)

为了保证高压线路输电的稳定性和可靠性,通常要求高压电网构成多侧电源的环形电网。在这种电网中简单的电压电流保护往往不能满足保护的基本要求,例如方向电流保护往往不能保证有选择性地切除故障。为此,在多侧电源的环形电网的线路上配置了选…

使用Nexus搭建Maven私有库实战

本篇快速演示如何搭建和使用Nexus本地库, 关于Nexus 的基本使用参考: Nexus搭建Maven私有库介绍 实战场景 本篇的实际场景是: 本地开发机器可以连接外部网络测试或正式部署环境只能连接内网项目使用了内部开发的组件库 在搭建搭建Maven私…

如何一次解决两大难题,不用写注释,也不会被他人吐槽没有注释呢?

如何一次解决两大难题,不用写注释,也不会被他人吐槽没有注释呢? 导读为什么要减少代码中的注释量呢?一、无用型的注释二、絮絮叨叨的注释三、代替代码分层的注释四、不知所云的注释 参考:阿里云开发者社区…

【vs2022】解决 “对程序集签名是出错 - 拒绝访问 ”

背景 拿到一个工程,编译时报错:“对程序集签名是出错 - 拒绝访问” 解决方法 ”C:\ProgramData\Microsoft\Crypto\RSA”目录下面,找到【MachineKeys】文件夹。 右键【MachineKeys】文件夹,在安全属性里面,将当前win…

DETR系列:RT-DETR(一) 论文解析

论文:《DETRs Beat YOLOs on Real-time Object Detection》 2023.4 DETRs Beat YOLOs on Real-time Object Detection:https://arxiv.org/pdf/2304.08069.pdf 源码地址:https://github.com/PaddlePaddle/PaddleDetection/tree/develop/conf…

江西五十铃汽车PMO经理苏建受邀为第十二届PMO大会演讲嘉宾

江西五十铃汽车有限公司PMO经理苏建先生受邀为由PMO评论主办的2023第十二届中国PMO大会演讲嘉宾,演讲议题:PMO全链路建设促进组织变革——传统汽车行业0-1PMO最佳实践探索。大会将于8月12-13日在北京举办,敬请关注! 议题简要&…

LangChain:LLM应用程序开发(上)——Models、Prompt、Parsers、Memory、Chains

文章目录 一、Models、Prompt、Parsers1.1 环境配置(导入openai)1.2 辅助函数(Chat API : OpenAI)1.3 使用OpenAI API进行文本翻译1.4使用LangChain进行文本翻译1.5 使用LangChain解析LLM的JSON输出1.5.1 LangChain输出为string格…

基于人体姿势估计的舞蹈检测(AI Dance based on Human Pose Estimation)

人体姿势骨架以图形格式表示人的方向。本质上,它是一组坐标,可以连接起来描述人的姿势。骨架中的每个坐标都被称为一个部分(或一个关节,或一个关键点)。两个部分之间的有效连接称为一对(或分支)。下面是一个人体姿势骨架样本。 因此&#xff…

mysql基础3——数据备份与恢复、破解数据库密码

文章目录 一、备份方案二、备份工具mysqldump2.1 备份整张表数据2.2 备份整个库数据 三、全量备份四、差异备份五、数据库密码破解 一、备份方案 备份方案概念特点全量备份对某一个时间点上的所有数据或应用进行完全拷贝。数据恢复快,备份时间长。增量备份在一次全…

抓住重点,谋定而后动

一、我们平常项目有哪几种 有两种常规项目、大项目 1.常规项目 技术团队的重心是把执行做到位,你要更关注过程管控,确保系统交付 2.大项目: 什么是大项目,他有什么特点 大项目时间投入大、人员规模大、系统更大,复…

ResourceBundle读取properties文件

ResourceBundle 常用API 方法签名方法描述public Locale getLocale()获取本地国际化环境ppublic Enumeration getKeys()获取属性文件中所有keypublic final String getString(String key)获取属性文件中key对应的value, 返回值为String, 如果不存在, 则抛出异常public final O…

STM32文档

一、寄存器缩写 二、存储器和总线构架 DMA,全称为:Direct Memory Access,即直接存储器访问 简而言之,DMA就是将一个内存里的数据搬运到另一个内存里,此过程无需CPU直接控制输出 系统架构存储器组织存储器映射&#xf…

解密:Prompt、Token、和completions是什么?

Prompt、Token、和completions 本文是科普向,大家放心阅读 在ChatGPT越来越火的时候,很多开发者都想大展拳脚,但在这之前,我们需要了解一些基础知识,比如你知道什么是token、什么是prompt、什么是Complemention Pro…

vue下基于elementui自定义表单-后端数据设计篇

vue下基于elementui自定义表单-后端篇 自定义表单目前数据表单设计是基于数据量不大的信息单据场景,因为不考虑数据量带来的影响。 数据表有: 1.表单模版表,2.表单实例表,3.表单实例项明细表,4表单审批设计绑定表 以FormJson存…

chatgpt赋能python:关于Python的常见问题及解决方法

关于Python的常见问题及解决方法 在编程领域中,Python已经成为了最流行的编程语言之一。然而,在使用Python编写代码时,难免会遇到一些问题。在本文中,我们将介绍一些常见的Python问题以及如何解决它们。 编码问题 在Python中&a…

idea项目名旁边还有一个项目名——idea笔记

问题描述 我们常常因为想改项目名但是没有改完全从而出现了项目名旁边还有一个项目名 例如: 解决方案: 打开File->project structure 修改前: 修改后:

【数据挖掘】时间序列教程【一】

第一章 说明 对于时间序列的研究,可以追溯到19世纪末和20世纪初。当时,许多学者开始对时间相关的经济和社会现象进行研究,尝试发现其规律和趋势。其中最早的时间序列研究可以追溯到法国经济学家易贝尔(Maurice Allais)…

微服务04 分布式搜索引擎 elasticsearch DSL数据聚合 自动补全 数据同步 集群 Sentinel

微服务03 分布式搜索引擎 elasticsearch ELK kibana RestAPI 索引库 DSL查询 RestClient 黑马旅游 分布式搜索引擎03 1.数据聚合 聚合(aggregations)可以让我们极其方便的实现对数据的统计、分析、运算。例如: 什么品牌的手机最受欢迎&#x…

ℰ悟透Qt—Http网络编程

目录 概述实践理论QNetworkAccessManager进行Http编程的基本步骤代码实战(重点片段) 概述 网络访问 API 建立在一个 QNetworkAccessManager 对象之上,该对象保存了发送请求所需的公共配置和设置。它包含代理和缓存配置,以及与此类问题相关的信号和可用于…

【计算机网络】数据链路层之随机接入-CSMA/CD协议(总线局域网)

1.概念 2.信号碰撞(冲突) 3.解决方案 CSMA/CD 4.争用期(端到端往返时延) 5.最小帧长 6.最大帧长 7.指数退避算法 8.信道利用率 9.帧发送流程 10.帧接受流程 12.题目1 13.题目2 14.题目3 15 小结