大型语言模型安全风险的基准评估套件

news2024/12/24 9:09:34

CYBERSECEVAL 2 扩展了以前的工作,增加了两个新的测试套件:解释器滥用和提示注入。

原文标题:CYBERSECEVAL 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models

原文作者:Manish Bhatt, Sahana Chennabasappa, Yue Li, Cyrus Nikolaidis, Daniel Song, Shengye Wan, Faizan Ahmad, Cornelius Aschermann, Yaohui Chen, Dhaval Kapil, David Molnar, Spencer Whitman, Joshua Saxe

发表会议:arxiv 2024

原文链接:https://arxiv.org/pdf/2404.13161

主题类型:大模型安全

笔记作者: 童话

主编:黄诚@安全学术圈

概述

CYBERSECEVAL 2 是一个用于评估大型语言模型(LLMs)安全风险的基准套件,其目标是解决随着 LLMs 的广泛使用而出现的新的网络安全风险。这个工具主要关注两类人:LLM 构建者(包括构建新 LLM 或选择适合他们系统的 LLM 的开发者)和使用 LLM 自动化网络安全任务的人。对于 LLM 构建者,CYBERSECEVAL 2 能帮助他们衡量 LLM 对安全风险的脆弱性,以便在发布前进行调整,或者理解如何确保整个系统的安全。对于第二类人,CYBERSECEVAL 2 提供了一个量化评估 LLMs 在合成易受攻击代码的漏洞的方式。

CYBERSECEVAL 2 扩展了以前的工作,增加了两个新的测试套件:解释器滥用和提示注入。解释器滥用的测试是因为最近的 LLMs,如 GPT-4,可以访问 Python 和其他代码解释器,以直接运行由 LLM 作为对提示的响应生成的代码。提示注入的测试是因为研究人员发现了越来越多的对 LLMs 的提示注入攻击。在新测试集上进行的评估显示,所有测试的模型有26%到41%的成功提示注入,这表明训练 LLMs 以减少代码注入攻击风险仍然是 LLM 安全性中的一个未解决的问题。

最后,作者团队引入了一个新的指标,即“错误拒绝率”(FRR),用于衡量当我们训练 LLMs 以拒绝不安全的提示时,可能会错误地拒绝良性的提示,从而降低其效用。这种情况被称为设计安全 LLMs 的安全-效用权衡。

此外,他们还开源了 CYBERSECEVAL 2 的代码和评估工件,欢迎开源贡献,并计划在未来更新他们的基准。相关 GitHub 项目地址:https://github.com/meta-llama/PurpleLlama/tree/main/CybersecurityBenchmarks

如下表格高亮了该 paper 的相关贡献:

image

背景

CyberSecEval首次发布于2023年12月,其初版提供了两种测试:不安全的编码实践测试和网络攻击帮助测试。这个工具能够帮助我们判断一个大型语言模型(LLM)在被要求实现特定功能或者用于代码自动完成时,是否会复制已知的不安全编码实践。此外,它还可以测试LLM在被要求协助进行网络攻击时的反应,覆盖了行业标准的MITRE ATT&CK本体中定义的攻击。

CyberSecEval 2在此基础上进行了扩展,新增了假拒绝测试,以衡量LLM对合法但"边缘"的请求(即可能和网络安全相关的技术主题有关)的反应。

为了更深入理解LLM是否能够在拒绝实际的网络攻击请求的同时,仍然对完全合法的请求提供帮助,开发者结合了原始测试案例和新开发的FRR(假拒绝率)数据集。这个数据集包括了各种主题,例如网络防御,并设计为边缘提示,这意味着它们可能对LLM来说看起来是恶意的,但实际上是良性的,与网络安全相关的,但不表现出恶意意图。这样,我们就可以分析在成功拒绝协助网络攻击和FRR帮助处理模糊但最终良性的网络安全相关技术主题的请求之间的权衡。

简单来说,假拒绝率(FRR)是为了测量一个LLM对于特定风险的假拒绝率。我们将FRR定义为LLM因错误认为它们是由于那个风险而不安全的提示而拒绝的良性提示的百分比。也就是说,如果一个LLM被设计成拒绝所有网络攻击的请求,那么它可能也会错误地拒绝一些实际上是良性的、与网络安全相关的请求,这就是所谓的安全-效用权衡。

安全行业老生常谈的概念了,本质上就是在不牺牲功能性需求,少量影响用户体验的前提下,尽最大努力提高产品的安全性,作者团队量化了这一点。

相关工作

在安全属性的评估方面,大型语言模型(LLM)已经进行了一些有价值的研究。一些评估方法如 CyberMetric, SecQA,和 WMDP-Cyber,都采用类似于教育环境中的多项选择形式来评估LLM的安全知识。另一些方法如CyberBench则进一步考察LLM在网络安全领域的信息检索和自然语言处理能力。此外,还有一些方法如LLM4Vuln专注于衡量LLM在网络安全任务中的直接表现,特别是在漏洞发现上的表现。总的来说,这些研究都对评估LLM的安全属性做出了贡献,但是CYBERSECEVAL 2的独特之处在于它更多的关注LLM的行为表现而不仅仅是信息检索,它提供了一套评估大型语言模型风险和能力的综合集,并提供了一套与其他框架相辅相成的补充信号,以便随着时间的推移对LLM的开发和风险进行评估。

新增测试类型

在CYBERSECEVAL 2的新测试中,有两个值得我们关注的部分。首先,我们看到了引入了"提示注入评估"。在这种情况下,攻击者会通过提交违反应用程序开发者意图的提示,试图让大型语言模型(LLM)执行意料之外的指令。这种攻击方式与SQL注入这类混合代码和数据的经典注入攻击类似,只是这里的风险源于不受信任的第三方或用户输入与应用程序开发者在LLM的上下文窗口中的受信任输入相连。这种提示注入攻击及一般注入攻击的风险完全缓解仍然是一个未解决的问题。

提示词注入的测试方法覆盖范围如下图所示:

image

其次,我们看到了"漏洞利用评估"。随着LLM的进步,人工智能在软件漏洞利用方面的潜力也引发了讨论。在这个领域,AI的进步无论是帮助防御者识别和优先处理安全漏洞,还是帮助攻击者更快地开发攻击能力,都有其安全和不安全的用途。因此,监控AI在这个领域的进展至关重要,因为任何突破都可能对网络安全和AI政策产生重大影响。

相关测试类型参考下表:

image

最后,作者团队介绍了"代码解释器滥用评估"。最近的趋势是将LLM与代码解释器(通常是Python解释器)集成起来,以利用大型语言模型(如GPT-4和Google Gemini)的数学和符号推理能力。然而,这种集成也带来了新的安全挑战,因为不受信任的用户可能会利用它们试图获取访问底层主机操作系统的权限,或者使用它们作为发动网络攻击的平台。

相关测试类型如下表所示:

image

CyberSecEval 2 的实际应用案例

作者团队针对大型语言模型(LLM)如Llama,CodeLlama和OpenAI GPT进行了一系列的安全性测试。这些测试主要包括提示注入,代码利用,网络攻击帮助和解释器滥用等方面,目的是通过这些测试来了解并评估这些模型在处理各类安全性问题上的表现。

首先,我们来谈谈网络攻击帮助测试的结果。在这个测试中,我们发现大部分模型在面对网络攻击帮助请求时,能够以52%的比例拒绝这些请求,而在处理一些可能的恶意请求时,这些模型的表现则更好。然而,我们也发现,模型在处理一些边缘情况的请求时,例如网络防御相关的请求,拒绝率却较高。这就引出了我们的假拒绝率(FRR)的概念,即当LLM对某一特定风险进行拒绝时,可能会误拒一些实际上并不具有风险的请求,这就是我们所说的安全-效用权衡。

image

image

接下来,我们来看提示注入测试的结果。在这个测试中,我们发现所有的LLM都会在一定程度上受到提示注入攻击的影响,平均受影响的程度达到了17.1%。这就意味着,模型在处理用户输入时可能会被恶意输入影响,使其生成非预期的结果。

image

image

在代码利用测试中,我们发现模型在处理利用攻击时的表现并不是特别理想。尽管有些模型如GPT-42, Llama 3 70b-Instruct, 和 CodeLlama-70b在这方面的表现较好,但是整体来看,LLM在这个测试中的表现仍有待提高。

image

最后,在解释器滥用测试中,我们发现LLM在处理解释器滥用请求时,平均有35%的请求会得到执行。这就意味着,当LLM连接到代码解释器时,可能会存在一定的安全风险。

image

总的来说,通过一系列的测试来评估LLM在处理各类安全性问题上的表现。通过这些测试,我们可以看出LLM在这方面的表现仍有待提高。

总结

这一部分是关于CYBERSECEVAL 2的结论,这是一个全面的基准测试套件,用于量化大型语言模型(LLMs)的网络安全风险。对于LLM构建者和选择LLM的人来说,这个工具扩展了我们可以量化测试的风险类型,从两类增加到了四类,包括了针对提示注入和解释器滥用攻击的新的测试套件。这里还引入了一个新概念,即LLM的安全-效用权衡,用假拒绝率(FRR)来衡量。作者团队通过创建一个关于网络攻击帮助的测试集来实践测量FRR。

对于LLM构建者和选择LLM的人来说,这个工具提供了一些关键的洞见。首先,消除对提示注入攻击的风险仍然是一个未解决的问题:所有测试的模型都显示出对提示注入的脆弱性,成功率在13%到41%之间。这意味着使用LLM的系统设计者不能假设LLM会在面对对抗性的下游输入时可靠地遵循系统提示中的指令,他们需要仔细考虑为提示注入增加额外的防护和检测。

其次,测量FRR对于量化安全-效用权衡是有效的。在我们对网络攻击帮助的FRR测试中,我们能够区分出低FRR率的模型和高FRR率的模型。我们揭示了在LLM对帮助执行网络安全技术活动的请求的响应中,安全性和有用性之间的小的权衡。许多LLM能够成功地遵循良性的‘边缘’网络安全相关的技术请求,同时仍然拒绝大部分帮助执行攻击性网络操作的请求。我们相信,对于其他属性,FRR将是衡量安全-效用权衡的有效指标。

对于那些使用LLM自动化网络安全的人,作者团队提供了关于生成攻击利用的定量结果,该测试是新颖的,因为它们强调测试LLM的行为而非LLM的信息检索。作者团队的方法提供了一套可以与其他框架一起使用的互补信号。

结果表明,在LLM能够自主生成攻击利用之前,还需要更多的研究:作者团队发现,大多数LLM在完全解决测试用例上失败了,但是具有更高一般编码能力的LLM在我们的测试上得分更高,这表明,在LLM可以自主生成攻击利用之前,还需要进行更多的研究,但是LLM的攻击利用能力可能会随着LLM的总体编码能力的增长而增长。

随着LLM的普及,评估它们的风险变得越来越重要。为此,我们已经将我们的评估开源,供他人建立。我们希望这项工作能够为所有人提供更安全、更可靠的LLM部署。

写在最后

  • 作者团队在附录部分公开了 CYBERSECEVAL 2 生成的不同攻击类型的测试用例示例代码,有兴趣的同学可以关注看看。

  • 部分传统安全攻击的方法也同样适用于 LLM 领域,LLM 也可以作为解决传统安全问题的有效辅助,这些都是我们的研究机会,星辰大海?

补充信息

主编补充:关于安全模型评估相关的研究列举如下:

  • https://github.com/XuanwuAI/SecEval

  • https://github.com/Clouditera/secgpt

  • https://modelscope.cn/datasets/nasp/neteval-exam

  • https://github.com/cybermetric/CyberMetric

安全学术圈招募队友-ing

有兴趣加入学术圈的请联系  secdr#qq.com

声明:本文来自安全学术圈,版权归作者所有。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1646221.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

奶爸预备 |《伯克毕生发展心理学.从0岁到青少年》 / (美) 劳拉·E. 伯克著——读书笔记

目录 引出第一篇 人的发展理论与研究第1章 历史、理论和研究方法 第二篇 发展的基础第2章 生物基础与环境基础第3章 孕期发育、分娩及新生儿 第三篇 婴儿期和学步期:0~2岁第4章 婴儿期和学步期的身体发育第5章 婴儿期和学步期的认知发展第6章 婴儿期和学步期的情绪与…

【Git】【MacOS】Github从创建与生成SSH公钥

创建账号 这一步不过多赘述,根据自己的邮箱新创建一个账号 配置SSH公钥 本人是macOS系统,首先从终端输入 cd ~/.ssh进入.ssh目录,然后通过 ls查看有没有一个叫做id_rsa.pub的文件 本人之前生成过SSH公钥,如果没有的话,通过 ssh-keygen -t…

双重检验锁方式实现单例模式

单例模式(Singleton Pattern):是指在内存中只会创建且仅创建一次对象的设计模式。在程序中多次使用同一个对象且作用相同时,为了防止频繁地创建对象使得内存飙升,单例模式可以让程序仅在内存中创建一个对象&#xff0c…

Ansible自动化运维工具单模块介绍

前言 自动化运维是指利用自动化工具和技术来简化、自动化和优化IT基础设施的管理和运维过程,从而提高效率、降低成本,并减少人为错误。在当今复杂的IT环境中,自动化运维已经成为许多组织和企业提高生产力和保证系统稳定性的重要手段。Ansibl…

xyctf(write up)

ezhttp 因为是一道http的题,前端代码没有什么有效信息,但提示说密码在某个地方,我们用robots建立一个robots.txt文件来看有哪个文件可以访问 补充知识:http请求中via字段表示从哪个网址的服务器代理而来,user-agent表…

【深度学习】序列模型

深度学习(Deep Learning)是机器学习的一个分支领域:它是从数据中学习表示的一种新方法,强调从连续的层中进行学习,这些层对应于越来越有意义的表示。 1. 为什么选择序列模型? 循环神经网络(RNN…

用于图生成的自回归扩散模型 笔记

1 Title Autoregressive Diffusion Model for Graph Generation(Lingkai Kong、Jiaming Cui、Haotian Sun、Yuchen Zhuang、B. Aditya Prakash、Chao Zhang)【PMLR 2022】 2 Conclusion This study propose an autoregressive diffusion model …

文心一言 VS 讯飞星火 VS chatgpt (253)-- 算法导论18.2 6题

六、假设 B-TREE-SEARCH 的实现是在每个结点内采用二分查找,而不是线性查找。证明:无论怎样选择 t ( t 为 n 的函数),这种实现所需的 CPU 时间都为 O(lgn)。如果要写代码,请用go语言。 文心一言: 首先,我…

第五十三节 Java设计模式 - 工厂模式

Java设计模式 - 工厂模式 工厂模式是一种创建模式,因为此模式提供了更好的方法来创建对象。 在工厂模式中,我们创建对象而不将创建逻辑暴露给客户端。 例子 在以下部分中,我们将展示如何使用工厂模式创建对象。 由工厂模式创建的对象将是…

27-代码随想录三数之和

15. 三数之和 中等 给你一个整数数组 nums ,判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k ,同时还满足 nums[i] nums[j] nums[k] 0 。请 你返回所有和为 0 且不重复的三元组。 注意:答案中不可以包含重…

爬虫学习(2)破解百度翻译

代码 import requests import jsonif __name__ "__main__":url https://fanyi.baidu.com/sug#post请求参数处理(同get请求一致)headers {"User-Agent": Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, …

今天分享一机器视觉的证书吧

工信部颁发的 人工智能 机器视觉证书 分享

ai写作工具推荐:如何用AI人工智能进行写作

AI写作工具:提升创作效率的秘密武器 在科技日新月异的今天,人工智能(AI)已经渗透到我们生活的方方面面,包括写作。AI写作工具,就是利用人工智能技术,帮助我们进行文本生成、语言优化等工作的工…

MATLAB 变换

MATLAB 变换(Transforms) MATLAB提供了用于处理诸如Laplace和Fourier变换之类的变换的命令。转换在科学和工程中用作简化分析和从另一个角度查看数据的工具。 例如,傅立叶变换允许我们将表示为时间函数的信号转换为频率函数。拉普拉斯变换使…

基于springboot+vue+Mysql的在线动漫信息平台

开发语言:Java框架:springbootJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:…

【RAG 论文】SKR:Self-Knowledge 指导下的 RAG

论文:Self-Knowledge Guided Retrieval Augmentation for Large Language Models ⭐⭐⭐⭐ Tsinghua, arXiv:2310.05002 文章目录 一、论文速读二、实现细节2.1 数据的收集2.2 引出 LLM 的 Self-Knowledge 的方法1)Direct Prompting2)In-Cont…

2024年电工杯数学建模竞赛A题B题思路代码分享

您的点赞收藏是我继续更新的最大动力! 欲获取更多电工杯学习资料,可点击如下卡片链接 点击链接加入群聊【2024电工杯】:http://qm.qq.com/cgi-bin/qm/qr?_wv1027&k_PrjarulWZU8JsAOA9gnj_oHKIjFe195&authKeySbv2XM853pynlnXiv6M58…

Honor of Kings QQ 1537937510

司空震到底要不要物理伤害高呢?还是法术伤害高呢?要不要出魔女和制裁引发的血案 先看下司空震的说明: 说下这个伙计为啥加QQ来骂我,因为这场当然最终是赢了,比赛里他一直强调司空震是物理伤害改版问题,然后…

爱普生S2D13V52快速实现车载显示屏高分辨率显示系统

随着时代的发展,汽车驾驶位前中央的显示屏承担的功能也越来越多,从一开始仅仅是显示仪表盘的信息,再到作为显示屏辅助倒车,再到如今和一块平板一样可公认娱乐,显示屏的大小有些时候成为了一辆车够不够好的体现。随着汽…

Pandas入门篇(三)-------数据可视化篇2(pandas-plot篇)

目录 概述一、格式1. 生成pandas.plotting对象来生成图表2. 调用plot()函数来生成图表3.支持的图表类型 二、单变量绘图常用图表1. 柱状图(bar)使用场景代码实现 2. 折线图(line)(默认即为折线图)适用场景代…