ASB:LLM智能体应用攻防测试数据集

news2024/12/27 5:18:35

ABS:LLM智能体应用攻防测试数据集

Agent应用

Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents

尽管基于 LLM 的代理能够通过外部工具和记忆机制解决复杂任务,但也可能带来严重安全风险。现有文献对这些代理的攻防评估并不全面。为此,我们推出了 Agent Security Bench (ASB),一个综合框架,涵盖 10 个场景、10 个代理、400 多种工具、23 种攻防方法和 8 个评估指标。基于 ASB,我们测试了 10 种提示注入攻击、一种记忆中毒攻击、一种新颖的 Plan-of-Thought 后门攻击、一种混合攻击及 10 种防御措施,涉及 13 个 LLM 骨干网络,总计近 90,000 个测试案例。结果显示,代理在系统提示、用户提示处理、工具使用和记忆检索等阶段存在关键漏洞,最高平均攻击成功率达 84.30%,而当前防御措施效果有限,凸显了代理安全领域的重要研究方向。代码详见 https://github.com/agiresearch/ASB。

https://arxiv.org/abs/2410.02644


1. LLM智能体攻击类型

大语言模型的一个重要应用技术路线就是智能体(Agent)应用。智能体应用融合了LLM、工具、记忆,能够与外部环境进行互动,也在金融、医疗、自动驾驶等关键领域大显身手。

如上图所示,基于ReAct框架的LLM智能体包括以下几个关键步骤:

  • • ①通过系统提示定义角色和行为;

  • • ②接收用户指令和任务细节;

  • • ③从记忆数据库中检索相关信息;

  • • ④基于检索到的信息和先前上下文进行规划;

  • • ⑤利用外部工具执行操作。

尽管LLM智能体和高级框架的研究取得了不小的成功,但研究的焦点主要集中在它们有效性和泛化能力上,而对它们的可信度研究相对较少。

虽然上述每个步骤都使智能体能够执行高度复杂的任务,但同时也为攻击者提供了多个入侵智能体系统的途径。每个阶段都可能遭受不同类型的对抗性攻击。

虽然已经提出了一些基准来评估LLM智能体的安全性,例如InjecAgent和AgentDojo,但它们通常受限于评估范围,要么只评估一种攻击类型,如间接提示注入,要么仅在少数场景中有效,如金融损害和数据安全。

为了解决这些局限性,今天这篇论文作者提出了Agent Security Bench(ASB),系统化地评估了在十种不同场景下对基于LLM的智能体进行的广泛对抗性攻击和防御。

ASB专注于针对基于LLM的智能体的每个操作步骤的多种攻击和防御类型,包括:

  • • 系统提示

  • • 用户提示处理

  • • 工具使用

  • • 记忆检索。

攻击方式包括:

  • 提示注入攻击:通过在原始输入中添加特殊指令,攻击者可以操纵模型的理解并诱导出意外的输出。提示注入可以直接针对用户提示,或通过操纵其可访问的外部环境间接影响智能体的行为。

  • • 直接提示注入(Direct Prompt Injections,DPI):

    攻击者可以通过DPI直接操纵用户提示来引导智能体执行恶意操作,这是一种直接破坏智能体的方法。

  • • 观察提示注入(Observation Prompt Injections,OPI):

    智能体对外部工具的依赖引入了额外的风险,尤其是攻击者可以将有害指令嵌入到工具响应中,这被称为OPI

  • 记忆污染:记忆污染(Memory Poisoning)涉及将恶意或误导性数据注入到数据库(一个记忆模块或RAG知识库)中,以便在以后检索和处理这些数据时,导致智能体执行恶意操作。

  • LLM和LLM智能体的后门攻击。后门攻击将触发器嵌入到LLMs中以产生有害的输出。比如通过设计特定的触发词,破坏LLMs的思维链(CoT)推理。使用触发词破坏上下文学习过程。针对LLM智能体进行了后门攻击,可以污染用于微调LLM智能体的任务数据,使攻击者能够引入威胁模型。

  • • 思维计划(PoT,Plan-of-Thought)后门攻击:

    LLM智能体的规划阶段也面临安全风险,因为长期记忆模块如RAG数据库(Lewis等人,2020年)可能通过记忆污染攻击被破坏,攻击者注入恶意任务计划或指令以误导智能体在未来的任务中。

    此外,由于系统提示通常对用户隐藏,它成为思维计划(PoT)后门攻击的一个诱人目标,攻击者将隐藏指令嵌入到系统提示中,在特定条件下触发意外操作。

  • • 混合攻击及其防御:

    攻击者还可以将它们结合起来,创建针对智能体操作不同阶段的多个漏洞的混合攻击。

2. 效果评估

2.1 评估指标

上表展示了所有的评估指标。

  • • ASR (Attack Success Rate):智能体成功使用攻击特定工具的任务占所有被攻击任务的百分比。

  • • ASR-d (Attack Success Rate under Defense):在防御下智能体使用攻击特定工具的任务占所有被攻击任务的百分比。

  • • RR (Refuse Rate):由于任务具有攻击性,智能体拒绝执行的任务占所有任务的百分比。拒绝行为由LLM判断。

  • • PNA (Performance under No Attack):当没有攻击或防御时完成任务的百分比。如果代理使用了任务所需的所有工具,则任务成功完成。

  • • PNA-d (PNA under Defense):在防御下完成任务的百分比与所有正常任务相比。

  • • BP (Benign Performance):当查询提示中没有后门触发器时,原始任务成功完成的百分比,这衡量了模型在被后门化时的效用。

  • • FNR (False Negative Rate):错误地将被破坏的数据识别为干净的数据的百分比。

  • • FPR (False Positive Rate):错误地将干净的数据标记为被破坏的数据的百分比。


  • • 较高的攻击成功率(ASR)意味着攻击更为有效;而较低的ASR-d则表示防御措施更为有效。

  • • 拒绝率是用来衡量智能体识别和拒绝不安全用户请求的能力,以确保其行为的安全性和符合政策要求。

  • • 较高的拒绝率(RR)表明智能体更多地拒绝了攻击性任务。而且,如果PNA-t与PNA非常接近,说明防御措施对智能体的正常性能影响很小。如果BP与PNA接近,这表明智能体对于清洁查询的响应不受攻击的影响。此外,较低的误报率(FPR)和漏报率(FNR)表明检测防御更为成功。

2.2 攻击结果

上表展示了各种攻击方式攻击效果:

  • • ①混合攻击最为有效,它结合了多个漏洞,达到了最高的平均ASR 84.30%和最低的平均拒绝率3.22%。某些模型,如Qwen2-72B和GPT-4o,几乎完全易受攻击。

  • • ②直接提示注入(DPI)普遍有效,平均ASR为72.68%。GPT-3.5 Turbo和Gemma2-27B等模型特别易受攻击。DPI通过操纵提示使其成为一个主要威胁。

  • • ③观察提示注入(OPI)显示出适度的有效性,平均ASR为27.55%,但特定模型如GPT-4o更易受影响。同时,一些模型如Claude3.5 Sonnet展现出强大的抵抗力。

  • • ④记忆污染攻击相对较不有效,平均ASR为7.92%,大多数模型显示出极小的脆弱性。

  • • ⑤思维计划(PoT)后门主要针对高级模型,平均ASR为42.12%,在对抗高级模型如GPT4o和GPT-4o-mini时极为有效。这表明高级模型可能更易受到后门攻击的威胁。

  • • ⑥部分拒绝执行攻击性指令。不同LLM的智能体在执行攻击性指令时表现出一定程度的拒绝,这表明某些情况下模型会主动过滤不安全的请求。例如,GPT-4o在DPI攻击中的拒绝率达到20.05%。

如上图,作者还对比了不同LLM架构的攻击结果:较大的模型往往更易受攻击,模型的规模与其易受攻击性之间存在相关性。

项目代码已经开源:https://github.com/agiresearch/asb


在大模型时代,我们如何有效的去学习大模型?

现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术,也_想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把都打包整理好,希望能够真正帮助到大家_。

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

三、AI大模型经典PDF书籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

四、AI大模型各大场景实战案例

在这里插入图片描述

结语

【一一AGI大模型学习 所有资源获取处(无偿领取)一一】
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2196636.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

地图可视化的艺术:深入比较Mapbox、OpenLayers、Leaflet和Cesium,不同场景下应如何选择地图库

目录 地图可视化的艺术:深入比较Mapbox、OpenLayers、Leaflet和Cesium 一、总览 二、定制地图美学的先行者——Mapbox 1、主要功能特点 2、开源情况 3、市场与应用人群 4、安装与基础使用代码 三、开源GIS地图库的全能王——OpenLayers 1、主要功能特点 2…

重要的事情说两遍!Prompt「复读机」,显著提高LLM推理能力

【导读】 尽管大模型能力非凡,但干细活的时候还是比不上人类。为了提高LLM的理解和推理能力,Prompt「复读机」诞生了。 众所周知,人类的本质是复读机。 我们遵循复读机的自我修养:敲黑板,划重点,重要的事…

原生input实现时间选择器用法

2024.10.08今天我学习了如何用原生的input&#xff0c;实现时间选择器用法&#xff0c;效果如下&#xff1a; 代码如下&#xff1a; <div><input id"yf_start" type"text"> </div><script>$(#yf_start).datepicker({language: zh…

ELK中L的filebeat配置及使用(超详细)

上一次讲解了如何在linux服务器上使用docker配置ELK中的E和K&#xff0c;这期着重讲解一下L怎么配置。 首先L在elk中指的是一个数据处理管道&#xff0c;可以从多种来源收集数据&#xff0c;进行处理和转换&#xff0c;然后将数据发送到 Elasticsearch。L的全称就是&#xff1…

国外电商系统开发-运维系统文件下载

文件下载&#xff0c;作者设计的比较先进&#xff0c;如果下载顺利&#xff0c;真的还需要点两次鼠标&#xff0c;所有的远程文件就自动的下载到了您的PC电脑上了。 现在&#xff0c;请您首选选择要在哪些服务器上下载文件&#xff1a; 选择好了服务器以后&#xff0c;现在选择…

【智能算法应用】人工水母搜索算法求解二维路径规划问题

摘要 本文应用人工水母搜索算法&#xff08;Jellyfish Search, JFS&#xff09;求解二维空间中的路径规划问题。水母搜索算法是一种新型的智能优化算法&#xff0c;灵感来源于水母的群体运动行为&#xff0c;通过模仿水母的觅食、漂浮等行为&#xff0c;实现全局最优路径的搜索…

51单片机基本知识

51单片机的基本知识 一、单片机介绍 单片机是单片微型计算机的简称&#xff0c;把各种功能部件包括中央处理器&#xff08;CPU&#xff09;、只读存储器&#xff08;ROM&#xff09;、随机读写存储器&#xff08;RAM&#xff09;、输入输出&#xff08;I/O&#xff09;单元、…

算法闭关修炼百题计划(四)

仅供个人复习 1.两数相加2.寻找峰值3.寻找旋转排序数组中的最小值4.寻找旋转排序数组中的最小值II5.搜索旋转排序数组6.岛屿的最大面积7.最大数8.会议室9.最长连续序列 1.两数相加 给你两个 非空 的链表&#xff0c;表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储…

【微服务】网关 - Gateway(上)(day7)

概述 引入 在前几个系列中&#xff0c;使用Eureka、Consul、Nacos解决了服务注册、服务发现的问题&#xff1b;使用SpringCloudLoadBalancer解决了负载均衡的问题&#xff1b;使用OpenFeign解决了远程调用的问题。 但是现在所有的微服务接口都是直接对外暴露的&#xff0c;可…

【优选算法】(第二十八篇)

目录 K个⼀组翻转链表&#xff08;hard&#xff09; 题目解析 讲解算法原理 编写代码 两数之和&#xff08;easy&#xff09; 题目解析 讲解算法原理 编写代码 K个⼀组翻转链表&#xff08;hard&#xff09; 题目解析 1.题目链接&#xff1a;. - 力扣&#xff08;Leet…

win11 24H2怎么安装_u盘安装win11 24H2详细步骤【支持新旧机型安装】

10月1日&#xff0c;微软正式发布了Windows 11 24H2正式版。对于win11 24h2新机器安装肯定是可以的&#xff0c;对于旧电脑在硬件配置上可能无法满足Windows 11 24h2的最低系统要求&#xff0c;如果按官方要求是无法安装win11的。但是如果采用第三方pe方式安装的话&#xff0c;…

Android Studio实现安卓图书管理系统

获取源码请点击文章末尾QQ名片联系&#xff0c;源码不免费&#xff0c;尊重创作&#xff0c;尊重劳动 171安卓小说 1.开发环境 android stuido3.6 jak1.8 2.功能介绍 安卓端&#xff1a; 1.注册登录 2.图书列表 3.图书借阅 4.借阅列表 3.系统截图

VSCode使用Code Runner插件运行时,路径错误问题

1. 问题介绍 由于Code Runner插件的工作目录与文件执行目录不同&#xff0c;而导致路径错误&#xff01; 示例演示&#xff1a; 创建根目录test-dir&#xff0c;然后在里面分别创建两个目录code和data&#xff0c;分别存放Python程序read_file.py和输入数据input.txt read_fi…

PCIe配置篇(2)——如何进行配置操作(二)

一、配置机制 我们之前提到过&#xff0c;配置空间存在于PCIe设备上&#xff0c;而处理器通常无法直接执行配置读写请求&#xff0c;因为它只能生成内存和I/O请求。这意味着RC&#xff08;Root Complex&#xff09;需要将某些访问请求转换为配置请求&#xff0c;以支持配置空间…

人像抠图换背景怎么做?5款出色抠图工具让照片更加聚焦精彩

拍了一张很赞的照片&#xff0c;结果背景一团糟&#xff0c;完全抢了人像的风头&#xff1f;又或者在社交媒体上看到别人分享的图片&#xff0c;人像突出、背景清晰&#xff0c;而自己的总是差那么点意思&#xff1f; 别担心&#xff0c;现在有了人像抠图app&#xff0c;这些烦…

YOLOv10改进策略【注意力机制篇】| EMA 即插即用模块,提高远距离建模依赖(含二次创新)

一、本文介绍 本文记录的是基于EMA模块的YOLOv10目标检测改进方法研究。EMA认为跨维度交互有助于通道或空间注意力预测&#xff0c;并且解决了现有注意力机制在提取深度视觉表示时可能带来的维度缩减问题。在改进YOLOv10的过程中能够为高级特征图产生更好的像素级注意力&#…

浅谈 WMS 的应用行业_SunWMS智慧仓储物流系统

【大家好&#xff0c;我是唐Sun&#xff0c;唐Sun的唐&#xff0c;唐Sun的Sun。一站式数智工厂解决方案服务商】 仓库管理系统&#xff08;WMS&#xff09;已经成为众多行业优化运营、提高效率和竞争力的重要工具。WMS 的应用范围广泛&#xff0c;涵盖了制造业、零售业、电商、…

数据结构--堆的深度解析

目录 引言 一、基本概念 1.1堆的概念 1.2堆的存储结构 1.3堆的特点 二、 堆的基本操作 2.1初始化 2.2创建堆 2.3插入元素 2.4删除元素 2.5堆化操作 2.6堆的判空 2.7获取堆顶元素 三、堆的常见应用 1. 优先队列 2. 堆排序 3. Top-k 问题 4. 图论中的应用 四…

超享云服务器是什么意思?是免费的吗

超享云服务器是什么意思&#xff1f;超享云服务器是一种基于云计算技术&#xff0c;提供高性能、高可靠性和可扩展性的虚拟化服务器服务。它是通过虚拟化技术在物理服务器上运行&#xff0c;能够根据用户需求进行灵活的扩展和配置。虽然一些云服务提供商可能会提供免费试用期或…

Chromium 如何查找前端Browser 等对象定义在c++中的实现呢

以前端Navigator 对象为例&#xff1a; 1、直接在vscode里面搜索"Navigator" 过滤条件*.idl&#xff0c;这样可以搜到Navigator.idl对象文件。 2、打开Navigator.idl 可以看到平级目录对应的Navigator.h 和Navigator.cc定义 3、Navigator.idl会在out\Debug\gen\thir…