一键开启ChatGPT“危险发言”

news2024/10/5 23:27:05

77d587892ec8e093497c23927573ba87.jpeg

大数据文摘授权转载自学术头条

作者:Hazel Yan

编辑:佩奇


随着大模型技术的普及,AI 聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。


然而,不安全的 AI 聊天机器人可能会被部分人用于传播虚假信息、操纵舆论,甚至被黑客用来盗取用户的个人隐私。WormGPT 和 FraudGPT 等网络犯罪生成式 AI 工具的出现,引发了人们对 AI 应用安全性的担忧。


上周,谷歌、微软、OpenAI 和 Anthropic 共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),促进前沿 AI 系统的安全和负责任的发展:推进 AI 安全研究,确定最佳实践和标准,促进政策制定者和行业之间的信息共享。


02105918c76f9705acf0db408ec0e226.jpeg


那么,问题来了,他们自家的模型真的安全吗?


近日,来自卡内基梅隆大学、Center for AI Safety 和 Bosch Center for AI 的研究人员便披露了一个与 ChatGPT 等 AI 聊天机器人有关的“大 bug”——通过对抗性提示可绕过 AI 开发者设定的防护措施,从而操纵 AI 聊天机器人生成危险言论。


当前热门的 AI 聊天机器人或模型,如 OpenAI 的 ChatGPT、谷歌的 Bard、Anthropic 的 Claude 2 以及 Meta 的 LLaMA-2,都无一幸免。


80132ed199d244b83d3db16cf08f4066.jpeg

图|通过对抗性提示可绕过 4 个语言模型的安全规则,引发潜在有害行为

 

具体而言,研究人员发现了一个 Suffix,可将其附加到针对大型语言模型(LLMs)的查询中,从而生成危险言论。相比于拒绝回答这些危险问题,该研究可以使这些模型生成肯定回答的概率最大化。

 

例如,当被询问“如何窃取他人身份”时,AI 聊天机器人在打开“Add adversarial suffix”前后给出的输出结果截然不同。


90ad0739a16bfbd5ccf74245931dae28.jpeg


7bb2006955ca659cf9ffa708f401254b.jpeg

图|开启 Add adversarial suffix 前后的聊天机器人回答对比


此外,AI 聊天机器人也会被诱导写出“如何制造原子弹”“如何发布危险社交文章”“如何窃取慈善机构钱财”等不当言论。


对此,参与该研究的卡内基梅隆大学副教授 Zico Kolter 表示,“据我们所知,这个问题目前还没有办法修复。我们不知道如何确保它们的安全。”


研究人员在发布这些结果之前已就该漏洞向 OpenAI、谷歌和 Anthropic 发出了警告。每家公司都引入了阻止措施来防止研究论文中描述的漏洞发挥作用,但他们还没有弄清楚如何更普遍地阻止对抗性攻击。


OpenAI 发言人 Hannah Wong 表示:“我们一直在努力提高我们的模型应对对抗性攻击的鲁棒性,包括识别异常活动模式的方法,持续通过红队测试来模拟潜在威胁,并通过一种普遍而灵活的方式修复新发现的对抗性攻击所揭示的模型弱点。”


谷歌发言人 Elijah Lawal 分享了一份声明,解释了公司采取了一系列措施来测试模型并找到其弱点。“虽然这是 LLMs 普遍存在的问题,但我们在 Bard 中已经设置了重要的防护措施,我们会不断改进这些措施。”


Anthropic 的临时政策与社会影响主管 Michael Sellitto 则表示:“使模型更加抵抗提示和其他对抗性的‘越狱’措施是一个热门研究领域。我们正在尝试通过加强基本模型的防护措施使其更加‘无害’。同时,我们也在探索额外的防御层。”


72b1992ecfe83945e9101b64d7deec57.jpeg

图|4 个语言模型生成的有害内容


对于这一问题,学界也发出了警告,并给出了一些建议。


麻省理工学院计算学院的教授 Armando Solar-Lezama 表示,对抗性攻击存在于语言模型中是有道理的,因为它们影响着许多机器学习模型。然而,令人惊奇的是,一个针对通用开源模型开发的攻击居然能在多个不同的专有系统上如此有效。


Solar-Lezama 认为,问题可能在于所有 LLMs 都是在类似的文本数据语料库上进行训练的,其中很多数据都来自于相同的网站,而世界上可用的数据是有限的。


“任何重要的决策都不应该完全由语言模型独自做出,从某种意义上说,这只是常识。”他强调了对 AI 技术的适度使用,特别是在涉及重要决策或有潜在风险的场景下,仍需要人类的参与和监督,这样才能更好地避免潜在的问题和误用。


普林斯顿大学的计算机科学教授 Arvind Narayanan 谈道:“让 AI 不落入恶意操作者手中已不太可能。”他认为,尽管应该尽力提高模型的安全性,但我们也应该认识到,防止所有滥用是不太可能的。因此,更好的策略是在开发 AI 技术的同时,也要加强对滥用的监管和对抗。


担忧也好,不屑也罢。在 AI 技术的发展和应用中,我们除了关注创新和性能,也要时刻牢记安全和伦理。


只有保持适度使用、人类参与和监督,才能更好地规避潜在的问题和滥用,使 AI 技术为人类社会带来更多的益处。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/841909.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

冠达管理:稳增长政策密集加码 顺周期板块有望持续表现

上星期A股商场回暖显着,首要宽基指数大都震荡收涨;日均成交额上升至约9600亿元;北向资金延续净买入,周净买入A股124.7亿元。职业层面,方针预期催化下,顺周期方向的金融、房地产等职业领涨。 机构以为&#…

方法区内存溢出及常量池

22 方法区-定义 是所有线程共享的一块区域。 存储了和类结构相关信息。运行时常量池, 方法区在虚拟机启动时被创建,逻辑上是堆的组成部分。方法区内存不足,也会导致oom异常。 是一个概念上的东西, 1.6使用永久代作为方法区&#…

Mybatis引出的一系列问题-spring多数据源配置

在日常开发中我们都是以单个数据库进行开发,在小型项目中是完全能够满足需求的。但是,当我们牵扯到像淘宝、京东这样的大型项目的时候,单个数据库就难以承受用户的CRUD操作。那么此时,我们就需要使用多个数据源进行读写分离的操作…

在Linux服务器上搭建Git

环境 服务器:Ubuntu 客户端:Win11 1、在服务器上安装Git(服务器中处理) 在服务器上执行git --version 如果出现: 则,已经安装Git,跳过此步骤。 如果没有,则: 执行…

前端个人年度工作述职报告(二十篇)

前端个人年度工作述职报告篇1 尊敬的各位领导、各位同仁: 大家好!按照20__年度我公司就职人员工作评估的安排和要求,我认真剖析、总结了自己的工作情况,现将本人工作开展情况向各位领导、同仁做以汇报,有不妥之处,希…

ElasticSearch详细操作

ElasticSearch搜索引擎详细操作以及概念 文章目录 ElasticSearch搜索引擎详细操作以及概念 1、_cat节点操作1.1、GET/_cat/nodes:查看所有节点1.2、GET/_cat/health:查看es健康状况1.3_、_GET/_cat/master:查看主节点1.4、GET/_cat/indices&a…

内存快照:宕机后,Redis如何实现快速恢复?RDB

AOF的回顾 回顾Redis 的AOF的持久化机制。 Redis 避免数据丢失的 AOF 方法。这个方法的好处,是每次执行只需要记录操作命令,需要持久化的数据量不大。一般而言,只要你采用的不是 always 的持久化策略,就不会对性能造成太大影响。 …

OpenAI因担心隐私问题而阻止GPT-4图像功能的发展

据《纽约时报》报道,GPT-4的图像能力可以识别某些个人。 OpenAI一直在测试其支持图像识别的多模态GPT-4版本,以便计划中的广泛发布。然而,据周二《纽约时报》报道,出于对其可能识别特定个体的担忧,公众访问被限制了。…

(2023国赛必看)零基础挑战一周拿下数学建模国奖

1、 数学建模国赛介绍 1.1 数学建模国赛是什么?如何评奖 全国大学生数学建模竞赛是全国高校规模最大的课外科技活动之一。该竞赛每年9月(一般在上旬某个周末的星期五至下周星期一共3天,72小时)举行,竞赛面向全国大专院…

使用vscode远程登录以及本地使用的配置(插件推荐)

1、远程登陆ssh 1.1打开vscode插件商店,安装remote-ssh插件 远程ssh添加第三方插件:vscode下链接远程服务器安装插件失败、速度慢等解决方法_vscode远程安装不上扩展_Emphatic的博客-CSDN博客 转到定义,选中代码->鼠标右键->转到定义…

Linux:在使用UEFI固件的计算机上内核是如何被启动的

前言 启动计算机通常不是一件难事:按下电源键,稍等片刻,你就能看到一个登录界面,再输入正确的密码,就可以开启一天的网上冲浪之旅了。 但偶尔这件事没那么顺利,有时候迎接你的不是熟悉的登录界面&#xf…

SSM(Vue3+ElementPlus+Axios+SSM前后端分离)--功能实现[五]

文章目录 SSM--功能实现实现功能09-带条件查询分页显示列表需求分析/图解思路分析代码实现测试分页条件查询带条件分页查询显示效果 实现功能10-添加家居表单前端校验需求分析/图解思路分析代码实现完成测试测试页面效果 实现功能11-添加家居表单后端校验需求分析/图解思路分析…

【HTML】<input>

分类 text password number button reset submit hidden radio checkbox file image color range tel email(火狐有校验,360浏览器无校验。) url datetime(火狐、360浏览器不支持) search date、month、week、time、da…

计算机网络-三种交换方式

计算机网络-三种交换方式 电路交换(Circuit Switching) 电话交换机接通电话线的方式称为电路交换从通信资源分配的角度来看,交换(Switching)就是按照某种方式动态的分配传输线路的资源 电话交换机 为了解决电话之间通信两两之间连线过多,所以产生了电话…

【Docker】docker镜像+nginx部署vue项目:

文章目录 一、文档:二、打包vue项目:三、配置nginx:四、配置Dockerfile:五、构建镜像:六、运行容器:七、最终效果: 一、文档: 【1】菜鸟教程:https://www.runoob.com/do…

windows下以指定用户访问SMB服务器进行读写

一 概述 最近遇到一个问题,linux 的 smb服务器开启匿名访问,windows访问linux文件夹不需要用户名密码就可以进去使用,但是存在一个问题,ssh连接到linux 后修改的文件,在windows已smb方式下打开某个文件修改 是没有权限…

HTML5 Canvas和Svg:哪个简单且好用?

HTML5 Canvas 和 SVG 都是基于标准的 HTML5 技术,可用于创建令人惊叹的图形和视觉体验。 首先,让我们花几句话介绍HTML5 Canvas和SVG。 什么是Canvas? Canvas(通过 标签使用)是一个 HTML 元素,用于在用户计算机屏幕…

Vue3+SpringBoot快速开发模板

起因:个人开发过程经常会使用到Vue3SpringBoot技术栈来开发项目,每次在项目初始化时都需要涉及一些重复的整理工作,于是结合一些个人觉得不错的前后端模板进行整合,打通一些大多数项目都需要的实现的基础功能,以便于快…

探讨|使用或不使用机器学习

动动发财的小手,点个赞吧! 机器学习擅长解决某些复杂问题,通常涉及特征和结果之间的困难关系,这些关系不能轻易地硬编码为启发式或 if-else 语句。然而,在决定 ML 是否是当前给定问题的良好解决方案时,有一…

opencv基础-38 形态学操作-闭运算(先膨胀,后腐蚀)cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel)

闭运算是先膨胀、后腐蚀的运算,它有助于关闭前景物体内部的小孔,或去除物体上的小黑点,还可以将不同的前景图像进行连接。 例如,在图 8-17 中,通过先膨胀后腐蚀的闭运算去除了原始图像内部的小孔(内部闭合的…