GPT-4o更易越狱?北航南洋理工上万次测试详解!

news2024/11/27 22:36:53

GPT-4o,比上一代更容易遭受越狱攻击?

北航和南洋理工的研究人员通过上万次API查询,对GPT-4o的各种模态安全性进行了详细测试。

结果发现,GPT-4o新引入的语音模态带来了新的攻击面,多模态整体安全性不如GPT-4V。


GPT-4o深夜发布!Plus免费可用!icon-default.png?t=N7T8https://www.zhihu.com/pin/1773645611381747712
没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:

升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

论文地址:https://arxiv.org/abs/2406.06302

GitHub:https://github.com/NY1024/Jailbreak_GPT4o
 

具体来说,研究人员针对4个常用基准测试,对GPT-4o支持的三种模态(文本、图像、音频)进行了测试。

测试涉及4000+初始文本查询的优化,8000+响应判断,16000+次OpenAI的API查询。

基于此,研究人员撰写了详细报告,给出了关于GPT-4o安全性的三点见解:

  1. GPT-4o对文本越狱攻击的安全性有所提升,但文本模态越狱攻击可迁移性强,可通过多模态形式攻击;
     
  2. 新引入的音频模态为GPT-4o的越狱攻击暴露了新的攻击面;
     
  3. 当前的黑盒多模态越狱攻击方法几乎无效,但实验表明GPT-4o多模态层面的安全性弱于GPT-4V。

为了评估GPT-4o的安全风险及其相较于上一代模型的变化,作者将目标模型设置为GPT-4V和GPT-4o,利用API和移动应用对这些模型进行评估。

对于单模态下的文本越狱攻击,作者使用Llama2(7b-chat)生成文本越狱提示,然后用其迁移攻击目标模型。

为了全面评估目标模型的安全性,作者收集了现有的基于单模态和多模态的开源越狱数据集:

  • 对于文本模态,使用了AdvBench和RedTeam-2K。
     
  • 对于音频模态,使用了AdvBench子集。
     
  • 对于多模态越狱,使用SafeBench和MM-SafetyBench,这是基于两种典型的黑盒多模态越狱方法构建的。

这些数据集按照OpenAI和Meta AI的用户策略,将内容分成不同类别,如非法活动、仇恨言论等。

越狱方法层面,报告中评估了7种先进的越狱方法,分为两类:

  • 单模态越狱方法包括基于模板的方法、GCG、AutoDAN和PAP;
     
  • 多模态越狱攻击方法包括FigStep、Liu等人的工作和作者团队近期提出的BAP。

特别地,对于FigStep和Liu等人的工作,基于相应方法构建的官方数据集已经发布,因此作者直接使用它们来评估目标模型;其他方法的评价则在AdvBench上进行。

对于基于模板的方法,作者从互联网上选择了6个典型的越狱模板进行测试,并使用它们的平均ASR作为相应指标。

GCG和AutoDAN最初是为白盒场景提出的,但它们已经被证明具有强大迁移性——作者通过攻击Llama2,使用这两类方法生成对抗性后缀,并随后将这些后缀应用于攻击GPT-4o和GPT-4V。

BAP是一种多模态越狱攻击方法,其利用了基于梯度的视觉对抗提示优化和基于思维链的文本对抗提示自适应优化。尽管目标模型是黑盒模型,但其中的文本对抗提示优化方法不受限制。因此在本研究中,作者使用它来评估文本模态的安全性。

文本模态越狱风险方面,基于RedTeam-2K的评估结果表明,在没有攻击的情况下,GPT-4o的安全水平低于GPT-4V。

当考虑到特定情景,特别是那些具有较高风险的情景(如Physical Harm),两种目标模型之间的ASR差距变得更加明显,达到14.6%。

这一实验发现与直觉上认为在没有攻击的情况下,GPT-4o是更安全的模型形成了鲜明对比。

PAP是另一种专门为越狱大语言模型设计的方法,它在基于文本越狱攻击方法中拥有最高的ASR(GPT-4V和GPT-4o的ASR分别为62.2%和62.7%)。

BAP是作者最近提出的一种多模态越狱攻击方法,但在报告中,主要利用的是它的文本优化方法,结果BAP在攻击GPT-4V时达到了最高的ASR,达到83.1%。

从目标模型来看,除了J_3中的PAP以外,在任何判断函数和任何攻击方式下,攻击GPT-4o的ASR都低于攻击GPT-4V。

这表明在面临攻击的情况下,与GPT-4V相比,GPT-4o具有更高的安全性。

如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard


推荐阅读:



如何免费使用GPT-4o?如何升级GPT...



更强大Mamba-2正式发布啦!!!



黎曼猜想取得重大进展!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1816159.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

海洋气象期刊 | 个人统计

写在前面 这周末两天闲着无聊,统计了一些zotero中自己常看的期刊数量,少于5篇的未进行统计 Journal of the Atmospheric Sciences - (JAS) https://www.ametsoc.org/index.cfm/ams/publications/journals/journal-of-the-atmospheric-sciences/ 73篇 …

用教育邮箱在官网安装origin2024中文版教程

打开origin官网,点击learning Edition,教育版只能维持六个月,但是过期之后可以在官网更新,能够免费使用六次,也就是三年。 OriginLab - Origin and OriginPro - Data Analysis and Graphing Software 填写学校信息&…

鸿蒙开发文件管理:【@ohos.statfs (statfs)】

statfs 该模块提供文件系统相关存储信息的功能,向应用程序提供获取文件系统总字节数、空闲字节数的JS接口。 说明: 本模块首批接口从API version 8开始支持。后续版本的新增接口,采用上角标单独标记接口的起始版本。 导入模块 import stat…

技术干货分享:初识分布式版本控制系统Git

初识Git版本控制 自动化测试代码反复执行,如果借用持续集成工具会提高测试效率,那么需要我们把自动化测试代码发布到正式环境中,这时候用Git版本控制工具高效、稳定、便捷。 分布式版本控制 Git可以把代码仓库完整地镜像下来,有…

每日一练——有效的括号

20. 有效的括号 - 力扣&#xff08;LeetCode&#xff09; 错误记录 #include<stddef.h> #include<stdlib.h> #include<assert.h> #include<stdbool.h>typedef char STDataType;typedef struct Stack {STDataType* a;int capacity;int top; } Stack;vo…

Unity 实现WebSocket 简单通信——客户端

创建连接 ClientWebSocket socket new ClientWebSocket(); string url $"ws://{ip}:{port}"; bool createUri Uri.TryCreate(url, UriKind.RelativeOrAbsolute, out Uri uri); if (createUri) {var task socket.ConnectAsync(uri, CancellationToken.None);task…

Nginx学习笔记(九)location转发后,proxy_pass结尾带 / 和不带 / 的区别

目录 一、知识回顾二、proxy_pass 结尾带 / 和不带 / 的区别2.1 场景假设2.2 实战验证验证1&#xff1a;结尾带/的场景验证2&#xff1a;不带/的场景 2.3 结论 一、知识回顾 之前使用过 Nginx 的小伙伴或许都了解&#xff0c;Nginx 是一款用于请求转发的高性能中间件&#xff…

C++|哈希应用->位图

目录 一、概念 1.1原理分析&#xff1a; 1.2效率分析&#xff1a; 二、模拟实现 2.1位图框架初始化空间 2.2映射 2.3清零 2.4判断 2.5测试代码 三、位图扩展应用 一、概念 位图&#xff0c;本质上也是一个数组&#xff0c;通过哈希思想构造的一种数据结构&#xff0c…

unity开发Hololens编辑器运行 按空格没有手

选择DictationMixedRealityInputSystemProfile 如果自定义配置文件 需要可能需要手动设置 手部模型和材质球

SQL 窗口函数

1.窗口函数之排序函数 RANK, DENSE_RANK, ROW_NUMBER RANK函数 计算排序时,如果存在相同位次的记录,则会跳过之后的位次 有 3 条记录排在第 1 位时: 1 位、1 位、1 位、4 位…DENSE_RANK函数 同样是计算排序,即使存在相同位次的记录,也不会跳过之后的位次 有 3 条记录排在…

Springboot高校实训管理平台-计算机毕业设计源码01557

目 录 摘要 1 绪论 1.1 研究背景 1.2 研究意义 1.3论文结构与章节安排 2 高校实训管理平台系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据增加流程 2.2.2 数据修改流程 2.2.3 数据删除流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系…

delmia中机器人末端固定工具

1 需要在工具上面建立点 在Device Building模式下 2 然后通过 set tool可以设置

247 H指数

法一&#xff1a; 不进行排序&#xff0c;直接依照原数组进行解&#xff0c;先假设h为1&#xff0c;然后找引用超过1篇的论文数量&#xff0c;如果满足&#xff0c;则再假设h为2。这样比较慢&#xff0c;时间复杂度为o(n方)。 int hIndex(vector<int>& citations) {…

天润融通引领AI大模型应用,助力企业客户感知升级

AI大模型&#xff0c;如何进行应用落地&#xff1f; 2024年&#xff0c;大模型的应用落地成为行业发展的一个重要主题&#xff0c;如何将大模型的能力与业务场景相结合&#xff0c;为企业提高效率&#xff0c;创造价值&#xff0c;成为各大企业积极探索的方向。 客户联络也是…

计算机网络:网络层 - IPv4数据报 ICMP协议

计算机网络&#xff1a;网络层 - IPv4数据报 & ICMP协议 IPv4数据报[版本 : 首部长度 : 区分服务 : 总长度][标识 : 标志 : 片偏移][生存时间 : 协议 : 首部检验和][可变部分 : 填充字段] ICMP协议 IPv4数据报 一个IPv4数据报&#xff0c;由首部和数据两部分组成&#xff…

三:SpringBoot的helloworld和使用Springboot的优点以及快速创建Springboot应用

三&#xff1a;SpringBoot的helloworld和使用Springboot的优点以及快速创建Springboot应用 一&#xff1a;HelloWorld [我们创建的是maven项目或者直接创建一个Spring] 1.1&#xff1a;创建一个maven 项目&#xff08;1】&#xff1a;需要自己手动写一个SpringBoot 的启动类同…

【产品经理】ERP订单处理1-订单初始化

在平台订单转换为ERP订单的过程中&#xff0c;一般有些信息是需要处理的&#xff0c;比如订单主表信息、订单明细信息等。 平台订单下发到ERP系统过程&#xff0c;ERP系统需要对订单进行处理&#xff0c;下图为ERP订单处理的整体环节&#xff0c;之后我们将依次讲解&#xff0c…

服务器配置(初始化)

一&#xff1a;什么是云服务器及用途&#xff1a; 云服务器(Elastic Compute Service, ECS)是一种简单高效、安全可靠、处理能力可弹性伸缩的计算服务。其管理方式比物理服务器更简单高效。用户无需提前购买硬件&#xff0c;即可迅速创建或释放任意多台云服务器。 我个人感觉就…

树Tree

文章目录 属性二叉树Binary Tree应用二叉树严格二叉树完全二叉树满二叉树Perfect Binary Tree 二叉搜索树Binary Search TreearrayLinked LIstArray&#xff08;sortrd&#xff09;Binary Search Tree&#xff08;balanced&#xff09; 性质实现dynamicallyarrays数组 具有层级…

Shell脚本 if语句

条件测试&#xff1a; $? 返回码 判断命令或者脚本是否执行成功&#xff08;最近的一条&#xff09; 0 true 为真就是成功 成立 非0 false 失败或者异常 test命令 可以进行条件测试 然后根据的是返回值来判断条件是否成立。 -e 测试目录或者文件是否存在 exist -d 测试…