论文阅读:2024 arxiv DeepInception: Hypnotize Large Language Model to Be Jailbreaker

news2025/4/21 19:46:47

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

DeepInception: Hypnotize Large Language Model to Be Jailbreaker
DeepInception:催眠大型语言模型,助你成为越狱者

https://arxiv.org/pdf/2311.03191

https://www.doubao.com/chat/3388140395150082

https://github.com/tmlr-group/DeepInception

速览

  • 研究动机:大语言模型易遭越狱攻击,传统方法成本高,需轻量化攻击探究安全漏洞。
  • 研究问题:能否借LLM拟人化能力,通过嵌套场景使其服从权威、突破安全限制?
  • 研究方法:基于米尔格拉姆实验,设计DeepInception,构建多层嵌套场景,诱导LLM生成有害内容,在多模型测试效果。
  • 研究结论:DeepInception能高效绕过主流LLM防护,实现持续攻击,揭示其在权威服从下自我迷失的脆弱性。
  • 不足:聚焦文本模态,对多模态攻击及LLM其他心理弱点探索不足。

这篇论文主要探讨了大语言模型(LLMs)的安全漏洞,提出了一种名为DeepInception的新型越狱攻击方法,核心思路是利用心理学中的“权威服从效应”(米尔格拉姆实验启发),通过嵌套场景和角色设定,诱导模型绕过安全防护生成有害内容。以下是核心内容的通俗解读:

1. 研究背景:大模型的“越狱”风险

  • 大模型的安全隐患:虽然LLMs(如GPT-4、Llama系列)在很多任务上表现出色,但容易被“越狱攻击”绕过安全机制,生成有害内容(如制作炸弹教程、黑客指南等)。
  • 传统攻击的不足:直接请求攻击(如“教我如何偷东西”)容易被模型拒绝,而现有间接攻击需要高计算成本或依赖模型参数(白盒环境),实用性有限。

2. DeepInception:用“嵌套故事”催眠模型

  • 核心原理
    米尔格拉姆实验启发(实验中参与者因服从权威指令而做出伤害行为),作者设计了一种轻量化攻击方法,通过让模型构建多层嵌套的虚构场景(如科幻故事),每层角色逐步提出有害步骤,最终诱导模型在“放松警惕”的状态下输出真实有害信息。

  • 攻击结构

    • 多层场景构建:要求模型在每层虚构场景中(如“对抗超级邪恶博士”的故事),由不同角色提出具体攻击步骤(如“如何切断停车标志”“黑客攻击Linux系统”)。
    • 权威服从效应:模型在构建多层角色和情节时,会逐渐“自我迷失”,降低对有害内容的道德判断,最终在底层场景中给出具体工具和命令(如使用特定黑客工具、物理破坏步骤)。
  • 示例流程

    • 层0:角色讨论“如何切断停车标志对抗博士”,提出使用锯子和伪装。
    • 层1:下层角色细化工具(如特定品牌的钢锯、夜间行动)。
    • 层5:所有层角色汇总具体步骤,包括工具列表、操作角度、逃跑计划等。

3. 实验效果:绕过主流模型的防护

  • 攻击成功率
    在GPT-3.5、GPT-4、Llama-2等模型上,DeepInception的有害内容生成率显著高于传统方法,甚至能绕过部分防御机制(如自我提醒、上下文防御)。

    • 例如,GPT-4在直接请求时拒绝生成黑客指令,但在DeepInception的嵌套场景中,会详细列出Linux攻击命令(如使用fdisk -l查看磁盘、Metasploit框架漏洞利用)。
  • 持续攻击能力
    一旦模型被“催眠”,后续直接请求也可能生成有害内容,显示模型的安全机制被长期绕过。

4. 影响与启示

  • 安全风险
    揭示了LLMs在“权威服从”和“虚构场景”下的脆弱性,即使是闭源模型(如GPT-4)也难以抵御此类攻击。

  • 防御挑战
    传统基于关键词过滤或道德提醒的防御方法效果有限,需针对“心理诱导”和“多层嵌套”设计新防护机制。

  • 伦理声明
    作者强调研究目的是揭示漏洞以推动安全改进,而非鼓励攻击,呼吁加强模型对齐和防御研究。

总结
DeepInception通过模拟“权威服从”的心理机制,利用多层虚构场景诱导大模型放松安全警惕,是一种高效的“低成本、高隐蔽性”越狱攻击。该研究警示了LLMs在复杂诱导下的潜在风险,也为防御技术提出了新的挑战——如何让模型在处理虚构内容时仍保持道德判断,是未来安全研究的关键方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2339633.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue2技术练习-开发了一个宠物相关的前端静态商城网站-宠物商城网站

为了尽快学习掌握相关的前端技术,最近又实用 vue2做了一个宠物行业的前端静态网站商城。还是先给大家看一下相关的网站效果: 所以大家如果想快速的学习或者掌握一门编程语言,最好的方案就是通过学习了基础编程知识后,就开始利用…

嵌入式学习——远程终端登录和桌面访问

目录 通过桥接模式连接虚拟机和Windows系统 1、桥接模式 2、虚拟机和Windows连接(1) 3、虚拟机和Windows连接(2) 在Linux虚拟机中创建新用户 Windows系统环境下对Linux系统虚拟机操作 远程登录虚拟机(1&#xff…

如何新建一个空分支(不继承 master 或任何提交)

一、需求分析: 在 Git 中,我们通常通过 git branch 来新建分支,这些分支默认都会继承当前所在分支的提交记录。但有时候我们希望新建一个“完全干净”的分支 —— 没有任何提交,不继承 master 或任何已有内容,这该怎么…

Qt编写推流程序/支持webrtc265/从此不用再转码/打开新世界的大门

一、前言 在推流领域,尤其是监控行业,现在主流设备基本上都是265格式的视频流,想要在网页上直接显示监控流,之前的方案是,要么转成hls,要么魔改支持265格式的flv,要么265转成264,如…

[第十六届蓝桥杯 JavaB 组] 真题 + 经验分享

A:逃离高塔(AC) 这题就是简单的签到题,按照题意枚举即可。需要注意的是不要忘记用long,用int的话会爆。 📖 代码示例: import java.io.*; import java.util.*; public class Main {public static PrintWriter pr ne…

深⼊理解 JVM 执⾏引擎

深⼊理解 JVM 执⾏引擎 其中前端编译是在 JVM 虚拟机之外执⾏,所以与 JVM 虚拟机没有太⼤的关系。任何编程语⾔,只要能够编译出 满⾜ JVM 规范的 Class ⽂件,就可以提交到 JVM 虚拟机执⾏。⾄于编译的过程,如果你不是想要专⻔去研…

iwebsec靶场 文件包含关卡通关笔记11-ssh日志文件包含

目录 日志包含 1.构造恶意ssh登录命令 2.配置ssh日志开启 (1)配置sshd (2)配置rsyslog (3)重启服务 3.写入webshell木马 4.获取php信息渗透 5.蚁剑连接 日志包含 1.构造恶意ssh登录命令 ssh服务…

kafka菜鸟教程

一、kafka原理 1、kafka是一个高性能的消息队列系统,能够处理大规模的数据流,并提供低延迟的数据传输,它能够以每秒数十万条消息的速度进行读写操作。 二、kafka优点 1、服务解耦 (1)提高系统的可维护性‌ 通过服务…

应用镜像是什么?轻量应用服务器的镜像大全

应用镜像是轻量应用服务器专属的,镜像就是轻量应用服务器的装机盘,应用镜像在原有的纯净版操作系统上集成了应用程序,例如WordPress应用镜像、宝塔面板应用镜像、WooCommerce等应用,阿里云服务器网aliyunfuwuqi.com整理什么是轻量…

深入理解分布式缓存 以及Redis 实现缓存更新通知方案

一、分布式缓存简介 1. 什么是分布式缓存 分布式缓存:指将应用系统和缓存组件进行分离的缓存机制,这样多个应用系统就可以共享一套缓存数据了,它的特点是共享缓存服务和可集群部署,为缓存系统提供了高可用的运行环境&#xff0c…

Spring Boot 中的自动配置原理

2025/4/6 向全栈工程师迈进! 一、自动配置 所谓的自动配置原理就是遵循约定大约配置的原则,在boot工程程序启动后,起步依赖中的一些bean对象会自动的注入到IOC容器中。 在讲解Spring Boot 中bean对象的管理的时候,我们注入bean对…

剑指Offer(数据结构与算法面试题精讲)C++版——day16

剑指Offer(数据结构与算法面试题精讲)C版——day16 题目一:序列化和反序列化二叉树题目二:从根节点到叶节点的路径数字之和题目三:向下的路径节点值之和附录:源码gitee仓库 题目一:序列化和反序…

windows server C# IIS部署

1、添加IIS功能 windows server 2012、windows server 2016、windows server 2019 说明:自带的是.net 4.5 不需要安装.net 3.5 尽量使用 windows server 2019、2016高版本,低版本会出现需要打补丁的问题 2、打开IIS 3、打开iis应用池 .net 4.5 4、添…

【教程】PyTorch多机多卡分布式训练的参数说明 | 附通用启动脚本

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~ 目录 torchrun 一、什么是 torchrun 二、torchrun 的核心参数讲解 三、torchrun 会自动设置的环境变量 四、torchrun 启动过程举例 机器 A&#…

Neo4j初解

Neo4j 是目前应用非常广泛的一款高性能的 NoSQL 图数据库,其设计和实现专门用于存储、查询和遍历由节点(实体)、关系(边)以及属性(键值对)构成的图形数据模型。它的核心优势在于能够以一种自然且…

音视频小白系统入门课-2

本系列笔记为博主学习李超老师课程的课堂笔记,仅供参阅 课程传送门:音视频小白系统入门课 音视频基础ffmpeg原理 往期课程笔记传送门: 音视频小白系统入门笔记-0音视频小白系统入门笔记-1 课程实践代码仓库:传送门 音视频编解…

Linux:安装 CentOS 7(完整教程)

文章目录 一、简介二、安装 CentOS 72.1 虚拟机配置2.2 安装CentOS 7 三、结语 一、简介 CentOS(Community ENTerprise Operating System)是一个基于 Linux 的发行版之一,旨在提供一个免费的、企业级的计算平台,因其稳定性、安全…

MATLAB 控制系统设计与仿真 - 34

多变量系统知识回顾 - MIMO system 这一章对深入理解多变量系统以及鲁棒分析至关重要 首先,对于如下系统: 当G(s)为单输入,单输出系统时: 如果: 则: 所以 因此,对于SISO,系统的增…

【网络】通过Samba实现Window挂在Linux服务器路径

有时候我们去进行内网部署时,会遇到客户或者甲方爸爸说,需要将Linux中的某个路径共享出去到Window上,挂载出比如Z:\这种盘符。通过打开Z盘,来查看服务器的指定目录下的数据。 步骤1: 在Linux中安装samba yum install…

架构思维:缓存层场景实战_读缓存(下)

文章目录 Pre业务场景缓存存储数据的时机与常见问题解决方案1. 缓存读取与存储逻辑2. 高并发下的缓存问题及解决方案3. 缓存预热(减少冷启动问题) 缓存更新策略(双写问题)1. 先更新缓存,再更新数据库(不推荐…