大型语言模型(LLM)和多模态大型语言模型(MLLM)的越狱攻击

news2025/1/12 13:18:45

       随着大型语言模型(LLMs)的快速发展,它们在各种任务上表现出了卓越的性能,有效地遵循指令以满足多样化的用户需求。然而,随着这些模型遵循指令的能力不断提升,它们也越来越成为对抗性攻击的目标,这显著挑战了它们的完整性和可靠性。这种新兴的脆弱性激发了对攻击策略和强大防御的广泛研究,以更好地保护道德限制并改进LLMs。在这些漏洞中,越狱攻击尤为普遍,恶意指令或训练和解码干预可以绕过LLMs内置的安全措施,导致它们表现出不良行为。

1 越狱攻击和防御概述

1.1 定义

  • 越狱攻击:指的是利用对抗性提示或训练和解码策略绕过模型的安全措施,导致其产生不希望的行为,例如生成有害内容。
  • 越狱防御: 指的是部署鲁棒的策略来检测和对抗越狱攻击,确保模型遵循安全协议和道德规范,同时不影响输出质量和准确性。

1.2 必要性

  • 大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在各个领域(例如医疗保健、金融和法律系统)中发挥着重要作用,其准确性和道德完整性至关重要。
  • 越狱攻击能够绕过模型的安全措施,生成有害或偏见的内容,这会严重损害模型的完整性和可靠性,并对用户造成潜在风险。

     因此,研究越狱攻击和防御对于提高模型的鲁棒性和安全性至关重要,以更好地保护伦理限制并改善 LLMs。

1.3 越狱攻击为何会成功

     越狱攻击成功的机制源于在LMs的安全训练期间识别出的两种失败模式:竞争目标和不匹配的泛化。

  • 竞争目标: 模型的预训练和指令遵循目标与其安全目标之间存在冲突。例如,提高指令遵循能力可能会增加模型的双用风险,使其更容易被滥用。
  • 错配泛化: 安全训练无法泛化到预训练语料库中的分布外输入。例如,编码指令为 Base64 可以使模型偏离安全指南,生成不希望的内容。

2 越狱评估数据集

为了评估越狱攻击策略和模型对攻击的鲁棒性,引入了多种数据集。它们涵盖了包括单轮和多轮对话设置在内的多种情境,涵盖了单模态和多模态场景。越狱数据集通常输入有害查询以测试LLM的安全性,而MLLM则输入图像和查询的组合。

2.1 单模态越狱数据集

2.1.1 单轮查询响应

  • PromptBench: 包含手动制作的对抗性提示,用于特定任务,例如情感分析或自然语言推理。
  • Advbench: 利用 LLMs 生成多个领域的通用有害字符串和行为,包括亵渎、图形描述、威胁行为、错误信息和歧视。
  • AttaQ: 评估犯罪主题上的越狱攻击。
  • Do-Not-Answer: 评估五个风险领域和十二种危害类型的防护措施。
  • LifeTox: 识别寻求建议场景中的隐含毒性。
  • StrongREJECT: 包含手动收集和严格检查的有害且可回答的查询。
  • FFT: 包括 2,116 个精心设计的实例,用于评估 LLMs 在事实性、公平性和毒性方面的表现。
  • Latent jailbreak: 评估 LLMs 的安全和指令遵循鲁棒性。
  • SafetyBench: 包含 11,435 个多选题,涵盖七个安全关注类别,提供中英文版本。

2.1.2 多轮对话

  • Red-Eval: 评估模型对基于话语链的越狱提示的安全性。
  • AdvBench 扩展: 将原始查询分解为多个子查询,以增强对话环境中模型越狱的研究。

2.2 多模态越狱数据集

  • MM-SafetyBench: 包含 13 个场景和 5,040 个文本-图像对,用于评估 MLLMs 的安全性。
  • ToViLaG: 包含 32K 个有毒文本-图像对和 1K 个无邪但可能刺激毒性的文本,用于基准测试不同 MLLMs 的毒性水平。
  • SafeBench: 使用 GPT-4 创建的基准测试,涵盖 OpenAI 和 Meta 使用政策禁止的 500 个有害问题。
  • RTVLM: 使用现有数据集或通过扩散生成的图像,检查忠诚度、隐私、安全和公平性四个方面。
  • AdvBench-M: 从 Google 检索相关图像,以表示 AdvBench 中的有害行为。

2.2.1 多模态越狱数据集的局限性

  • 有限的图像来源: 图像通常由扩散过程生成或来自现有数据集,缺乏多样性。
  • 狭窄的任务范围: 主要关注基于图像的单轮问答任务,缺乏多轮对话或具身交互等更现实场景的基准测试。
  • 显式毒性: 大多数数据集都包含显式有毒图像,这使攻击更容易被检测,并降低了模型防御的难度。
  • 毒性的静态性质: 目前的越狱尝试针对的是时间和空间上静态的毒内容,而文化变迁或新兴的社会规范可以动态地改变不同地区和不同时间被视为有害的内容。

2.2.2 多模态越狱数据集的未来方向

  • 增加图像多样性: 从各种来源和类别中获取图像,包括不同的文化、语言和视觉风格。
  • 基准测试多轮对话: 评估多轮对话或动态具身交互中的多模态越狱,以评估模型在持续交互中的有效性。
  • 构建包含隐含毒性的数据集: 将微妙的危害线索或描绘可能被解释为暴力或争议场景的图像纳入数据集。
  • 开发特定数据集: 为各种人口统计或文化量身定制数据集,例如特定宗教,并编制数据集以捕捉不断变化的文化变迁或新兴的社会规范,以支持动态越狱评估。

3 越狱攻击方法

越狱攻击方法分为两个主要类别:非参数攻击和参数攻击,针对LLMs和MLLMs。非参数攻击将目标模型视为黑盒,通过操作输入提示(和/或输入图像)进行语义攻击。相反,参数攻击访问模型权重或对训练或推理过程进行非语义攻击。

3.1 非参数攻击

非参数攻击将目标模型视为黑盒,通过操纵输入提示(和/或输入图像)进行语义攻击。它主要利用了两个失败模式:构建竞争目标(constructing competing objectives)和诱导不匹配泛化(inducing mismatched generalization)。

3.1.1 非参数单模态攻击

3.1.1.1 构建竞争目标

构建竞争目标对抗安全目标的三种主要策略是:行为限制、上下文虚拟化和注意力分散。

  • 行为限制: 建立一组通用的行为约束指令,与特定查询一起作为越狱提示。这些约束指令指示模型在响应之前遵循预定义的规则,导致它们生成无害的前缀或避免拒绝。
  • 上下文虚拟化: 创建虚拟场景,模型在其中认为自己超越了安全边界或在独特的环境中,有害内容是可以接受的。
  • 注意力分散: 通过首先完成一个复杂但无害的任务来分散模型的注意力,然后才响应有害的查询。

3.1.2 诱导不匹配泛化

诱导不匹配的泛化:将输入转换为缺乏足够安全训练的长尾分布,以绕过安全防护的两种主要方法是领域转移和混淆。

  • 领域转移: 将原始指令重新定向到 LLMs 表现出强大的指令遵循能力但缺乏足够安全防护的领域。
  • 混淆: 将噪声或程序元素注入原始输入中的敏感单词,保留语义意义,同时使直接解释复杂化。

3.1.2 非参数多模态攻击

针对MLLMs的多模态越狱攻击主要关注定制输入提示以限制行为,而在上下文虚拟化和注意力分散方面则留有空白。例如,提示模型详细说明图像中显示的产品的制作步骤。

3.2 参数攻击

参数攻击将目标模型视为白盒,访问模型权重或对训练或推理过程进行非语义攻击。

3.2.1 参数单模态攻击

  • 训练干扰: 通常将有害示例(即使是最小的一组)纳入微调数据集中,以破坏安全对齐。
  • 解码干预: 修改解码过程中的输出分布,以促进越狱攻击。

3.2.2 参数多模态攻击

与单模态对应物相比,针对MLLMs的参数多模态攻击尝试相对较少。一些研究表明,在看似无害的数据集上定制微调MLLMs将破坏它们的安全对齐。此外,多模态越狱可能利用图像中的视觉触发器,例如通过后门中毒注入的水印,这可以与LLMs中使用的类似解码干预策略相结合,以提高多模态越狱的有效性。

3.3 多模态攻击的局限性

  • 未探索复杂的多模态任务: 多模态输入本质上是多样化和复杂的,可以更好地分散模型的注意力并构建安全标准更宽松的场景。
  • 忽视图像领域转移: 多模态攻击主要引入各种类型的图像噪声,但这些策略往往忽视了图像领域转移的潜力。
  • 缺乏多模态训练干扰: 缺乏基于多模态输入的有害训练实例,例如使用后门中毒的图像。
  • 过于简单的攻击生成: 多模态攻击通常通过扩散模型、图像生成工具或从外部来源检索在一步骤中生成恶意图像。

3 越狱防御方法

越狱防御方法保护模型免于生成有害内容,主要分为两类:外在防御和内在防御。外在防御在模型外部实施保护措施,不改变其固有结构或参数。内在防御增强模型的安全对齐训练或调整生成解码过程,以提高对有害内容的抵抗力。

3.1 单模态外在防御

3.1.1 预处理(Pre-Safeguard)

  • 有害性检测(Harmfulness Detection): 开发专门的检测器识别攻击特征,例如通过识别高困惑度或特定关键词来识别恶意提示。
  • 有害性暴露(Harmfulness Exposure): 通过添加或删除特殊后缀等方式,揭露隐藏在恶意提示中的有害性,使其暴露在安全训练的保护范围内。

3.1.2 后处理(Post-Remediation)

  • 模型自我防御(LLM Self Defense): 模型自身检测并过滤掉可能有害的内容。
  • 集成策略(Ensemble Strategy): 聚合多个平滑副本的预测结果,以实现无害输出。
  • 自我完善机制(Self-refinement Mechanism): 模型根据自身反馈迭代地完善其回复,以最小化有害性。

3.2 单模态内在防御

3.2.1 安全对齐(Safety Alignment)

  • 监督指令微调(Supervised Instruction Tuning): 在微调数据集中加入安全示例,以提高模型对有害内容的识别能力。
  • 人类反馈强化学习(RLHF): 通过人类反馈将模型行为与人类偏好对齐,从而提高其在各种任务上的性能和安全水平。

3.2.2 解码指导(Decoding Guidance)

  • 蒙特卡洛树搜索(MCTS)算法: 集成LLM的自我评估功能,进行前瞻性启发式搜索,并使用回放机制调整预测概率。
  • 安全专家模型: 训练一个安全专家模型,并聚合其与目标模型的解码概率,从而提高解码过程的安全性。

3.3 多模态越狱防御

目前多模态模型的越狱防御研究较少,一些尝试包括:

  • 将输入图像转换为文本,并利用单模态预处理策略进行防御。
  • 将输入变异为多个查询,并检查响应是否出现偏差,以检测越狱攻击。
  • 构建多模态指令遵循数据集,用于对MLLM进行安全微调。

3.4 多模态越狱防御的局限性

  • 泛化性差: 大多数防御策略都是针对特定攻击类型设计的,难以适应各种不断发展的攻击方法。
  • 鲁棒性差: 现有的防御策略难以抵御扰动攻击,即对输入进行微小且难以察觉的更改,就可能导致无法检测到越狱内容。
  • 误报率高: 合法回复可能被过度防御,并被错误地标记为越狱攻击。
  • 安全对齐成本高: 安全微调需要大量的标注,导致成本高昂。
  • 缺乏基于图像的检测方法: 目前的方法主要基于文本描述检测图像中的有害内容,直接对图像进行分类和缓解有害内容的检测和平滑技术仍需进一步研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1858597.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

狂神说Java之 rabbitmq高级分布式事务

分布式事务的完整架构图 案例场景分析 案例一:用RestTemplate演示(不可靠生产,会出现问题) 创建一个订单模块 创建一个OrderDataBaseService服务 创建一个order的service服务,调用saveOrder()方法 创建一个运单模块…

鸿蒙开发下拉选项框在表单递交的处理

下拉选项框 <select name"identity"><option value"0">顾 客</option><option value"1">行 政</option><option value"2" >保 洁</option></select>在表单数据中没有找到identit…

JavaScript引用类型Array实例分析

}, toString: function() { return “Bruce”; }//前端全栈开发交流圈&#xff1a;866109386 }//帮助1-3年前端人员&#xff0c;突破技术瓶颈&#xff0c;提升思维能力 var person2 { toLocaleString: function() { return “Cindy”; }, toString: function() { return “Dav…

React的生命周期函数详解

import React,{Component} from "react";import SonApp from ./sonAppclass App extends Component{state{hobby:爱吃很多好吃的}// 是否要更新数据&#xff0c;这里返回true才会更新数据shouldComponentUpdate(nextProps,nextState){console.log("app.js第一步…

算法06 贪心算法【C++实现】

我们可以扮演一个贪心的人&#xff0c;在金子、银、铁中选择装入背包带走的话&#xff0c;作为一个贪心的人&#xff0c;肯定要把价值最大化&#xff0c;优先要选择装载价值较高的金子。 目录 什么是贪心算法 证明方法 常见题型 常见题型解法 训练&#xff1a;小木船过河 …

富士施乐M268DW加粉清零方法

基本参数&#xff1a; 品牌型号&#xff1a;富士施乐(Fuji Xerox) M268DW 产品类型&#xff1a;A4黑白激光多功能一体机&#xff08;三合一&#xff09;&#xff0c;打印、复印、扫描 打印情况&#xff1a;30张/分&#xff0c;1200dpi最大分辨率&#xff0c;64M内存 最大月…

Tomcat多实例配置

目录 一. 复制程序文件 二. 启动tomcat多实例 三. Tomcat多实例负载均衡 多实例&#xff08;多进程&#xff09;&#xff1a;同一个程序启动多次&#xff0c;分为两种情况: 第一种&#xff1a;一台机器跑多个站点&#xff1b; 第二种&#xff1a;一个机器跑一个站点多个实…

JeecgFlow并行网关概念及案例演示

概念讲解 并行网关能够在一个流程中用于进行并发建模处理&#xff0c;将单条线路拆分成多条路径并行执行&#xff0c;或者将多条路径合并处理。 在一个流程模型中引入并发最直接的网关就是并行网关&#xff0c;它基于进入和外出顺序流&#xff0c;有分支和合并两种行为&#xf…

存储无界限:MK米客方德SD NAND系列,小容量到大容量的全方位覆盖

在这个数字化飞速前进的时代&#xff0c;数据存储的需求日益增长&#xff0c;不同的应用场景对存储容量的要求也各不相同。MK米客方德公司以其SD NAND系列产品&#xff0c;凭借其广泛的容量覆盖&#xff0c;从1Gb到512Gb&#xff0c;为各种应用场景提供了完美的存储解决方案。今…

AWS WAF 中的验证码和挑战 | 网页抓取时如何解决这个问题

正如许多企业或爬虫用户所知&#xff0c;AWS WAF&#xff08;Web 应用防火墙&#xff09;是一个强大的安全解决方案&#xff0c;旨在保护 Web 应用免受常见的网络攻击和漏洞。其关键功能之一是使用 CAPTCHA 和挑战来区分合法用户和潜在的恶意机器人。虽然这增强了安全性&#x…

session 共享、Nginx session 共享、Token、Json web Token 【JWT】等认证

.NET JWT JWT 》》Json Web Token header . payload . Signature 三部分组成 JWT 在线生成 》》 https://jwt.io/ 》》https://tooltt.com/jwt-encode/ 》》解码工具 https://tool.box3.cn/jwt.html JWT 特点 无状态 JWT不需要在服务端存储任何状态&#xff0c;客户端可以携…

华为开发者大会闪耀东莞,康佳电视携手海思惊艳亮相

近日&#xff0c;华为开发者大会&#xff08;HDC2024&#xff09;在东莞松山湖举行。 作为电视领域唯一受邀参展的品牌&#xff0c;康佳电视以其优秀的创新实力&#xff0c;携手华为海思共同展示了基于OpenHarmony Standard层级的鸿鹄媒体创新方案。该方案不仅能够为用户带来更…

网络构建关键技术_1.网络高可用设计

1.网络高可用性概述 随着网络快速发展及应用日益深入&#xff0c;各种核心和增值业务在网络上广泛部署&#xff0c;网络的作用愈来愈凸显出来。即使网络出现短时间中断&#xff0c;都可能对业务带来比较大的影响&#xff0c;甚至给企业造成一定程度的经济损失。因此&#xff0c…

LeetCode 算法:对称二叉树 c++

原题链接&#x1f517;&#xff1a;对称二叉树 难度&#xff1a;简单⭐️ 题目 给你一个二叉树的根节点 root &#xff0c; 检查它是否轴对称。 示例 1&#xff1a; 输入&#xff1a;root [1,2,2,3,4,4,3] 输出&#xff1a;true 示例 2&#xff1a; 输入&#xff1a;ro…

FreeRTOS实时操作系统

1.认识实施操作系统 1.1 裸机和实时操作系统 裸机&#xff1a; 早期嵌入式开发没有嵌入式操作系统的概念&#xff0c;直接操作裸机&#xff0c;在裸机上写程序&#xff0c;比如用51单片机基本就没有操作系统的概念。 通常把程序设计为前后台系统&#xff0c;主要分为两部分&a…

路由(urls)

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 Django的URL路由流程&#xff1a; l Django查找全局urlpatterns变量&#xff08;urls.py&#xff09;。 l 按照先后顺序&#xff0c;对URL逐一匹…

我做个人站长 7 年的经验,最痛的莫过于。。

大家好&#xff0c;我是程序员鱼皮&#xff0c;从大学期间上线个人博客网站开始&#xff0c;我做个人站长已经有 7 年多了。在这个过程中&#xff0c;我收获了很多&#xff0c;除了技术成长带来的快乐外&#xff0c;个人站长最开心的莫过于有用户使用、并且留下好评&#xff0c…

数据库精选题(七)(综合模拟题二)

&#x1f308; 个人主页&#xff1a;十二月的猫-CSDN博客 &#x1f525; 系列专栏&#xff1a; &#x1f3c0;数据库 &#x1f4aa;&#x1f3fb; 十二月的寒冬阻挡不了春天的脚步&#xff0c;十二点的黑夜遮蔽不住黎明的曙光 目录 一、名词解释 1、事务 2、弱实体集 3、正…

顶尖项目经理都在用的SOP

接受任务SOP 了解任务背景了解任务目标&#xff08;包含deadline&#xff09;拆解任务&#xff0c;确认负责人执行方案审批确认跟进执行并定期汇报验收结果&#xff0c;进行反馈相关文档存档&#xff0c;形成闭环 推进任务SOP - PDCA循环 制定计划 Plan。依据目标&#xff0c…

【面试题】面试小技巧:如果有人问你 xxx 技术是什么?_面试问你对什么技术特别了解

前端工程越来越大&#xff0c;前面几种方案不能很好的支持单元测试。 在这样的背景下&#xff0c;React 诞生了。React 带来了新的思维模式&#xff0c;UI fn(props)&#xff0c;React 中一个组件就是一个函数或者一个类&#xff0c;一个函数或者一个类就是一个基础单位&…