第74期 | GPTSecurity周报

news2024/11/14 18:19:34

图片

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。

Security Papers

1. 大语言模型的可转移集成黑盒越狱攻击

简介:研究者在本报告中提出了一种新颖的黑盒越狱攻击框架,此框架融合了多种以语言模型为攻击者的方法,以发起可转移且威力强大的越狱攻击。研究者设计该方法是基于对现有越狱研究和实践的三个关键观察结果。

研究者首先认为,相较于单独攻击,集成方法在暴露已对齐大语言模型的漏洞方面应更具效力。其次,不同的恶意指令在越狱难度上本就存在差异,所以需要区别对待,以此确保攻击更高效。最后,恶意指令的语义连贯性对于触发已对齐大语言模型的防御极为关键,因此,必须谨慎地破坏其嵌入表示,进而提高越狱成功率。

研究者通过参与2024年大语言模型和智能体安全竞赛对该方法进行了验证,其所在团队在越狱攻击赛道中取得了最佳成绩。

链接:

https://arxiv.org/abs/2410.23558

2. HijackRAG:针对检索增强型大语言模型的劫持攻击

简介:检索增强生成(RAG)系统通过集成外部知识来增强大语言模型(LLM),使其对各种应用具有适应性和成本效益。然而,对这些系统的日益依赖也引入了潜在的安全风险。在这项工作中,我们揭示了一个新颖的漏洞,检索提示劫持攻击(HijackRAG),它使攻击者能够通过将恶意文本注入知识数据库来操纵 RAG 系统的检索机制。当 RAG 系统遇到目标问题时,它会生成攻击者预先确定的答案,而不是正确的答案,破坏了系统的完整性和可信度。我们将 HijackRAG 形式化为一个最佳化问题,并提出了针对攻击者不同知识水平量身定制的黑盒和白盒攻击策略。对多个基准数据集的广泛实验表明,HijackRAG 始终如一地实现了高攻击成功率,优于现有的基线攻击。此外,我们证明了攻击可以跨不同的检索器模型转移,强调了它对 RAG 系统构成的广泛风险。最后,我们对各种防御机制的探索表明,它们不足以对抗 HijackRAG,强调迫切需要更强大的安全措施来保护现实世界部署中的 RAG 系统。

链接:

https://arxiv.org/abs/2410.22832

3. 针对域名生成算法(DGA)和 DNS 数据泄露检测的大语言模型微调

简介:研究者指出,域名生成算法(DGA)是恶意软件用于动态生成看似随机域名的恶意技术,这些域名被用于和命令与控制(C&C)服务器通信。由于 DGA 域名生成快速且简便,所以检测方法必须高效且精准才有效。大语言模型(LLM)在实时检测任务中已经展现出了它的能力,这让它成为检测 DGA 的理想对象。

研究者开展的工作验证了经过微调的大语言模型在检测 DGA 和 DNS 数据泄露攻击方面的有效性。研究者开发了大语言模型,并使用一个多样化的数据集进行了全面评估,该数据集包含 59 个不同的真实世界 DGA 恶意软件家族数据和正常域名数据。研究者的大语言模型明显优于传统自然语言处理技术,特别是在检测未知 DGA 方面表现出色。

此外,研究者还在 DNS 数据泄露数据集上评估了模型的性能,证实了它在增强网络安全措施方面的有效性。据研究者所知,这是首次将大语言模型实证性地应用于 DGA 和 DNS 数据泄露检测的工作。

链接:

https://arxiv.org/abs/2410.21723

4. FATH:基于身份验证的针对间接提示注入攻击的测试时防御

简介:研究者在本文中引入了一种新颖的测试时防御策略,即基于哈希标签的格式化身份验证(FATH)。与现存那些防止大语言模型对外部文本中的附加指令予以回应的方法有所不同,研究者的方法构建了一个身份验证系统。该系统要求大语言模型依据安全策略回答所有接收到的指令,并且有选择性地对用户指令的响应进行过滤,将其作为最终输出。

为达成这一目标,研究者利用基于哈希的身份验证标签来对每个响应进行标记,这样便于依据用户指令准确地识别响应内容,同时提升对自适应攻击的抵御能力。通过全面的实验,研究者发现这种防御方法能够有效抵御间接提示注入攻击,在 Llama3 和 GPT3.5 模型下,针对各类攻击方法,该方法都达到了当前最先进的性能水平。

链接:

https://arxiv.org/abs/2410.21492

5. 微调后的大语言模型(LLMs):改进的提示注入攻击检测

简介:研究者发现,大语言模型(LLMs)在处理各类语言任务的能力大幅提升后,正逐渐成为热门工具。不过,大语言模型应用极易遭受提示注入攻击,这是个严峻的问题。这种攻击利用精心设计的输入提示来针对大语言模型应用,使模型背离原始指令,进而执行意料之外的操作。这些攻击行为构成了严重的安全威胁,可能引发数据泄露、输出偏差或有害响应等情况。

在这个项目中,研究者对与提示注入攻击相关的安全漏洞展开了探究。为检测提示是否存在漏洞,研究者采取了两种途径:一是使用预训练的大语言模型,二是使用经过微调的大语言模型。之后,研究者对分类性能进行了全面的分析与对比。

起初,研究者使用预训练的 XLM - RoBERTa 模型,在不对测试数据集进行任何微调的情况下检测提示注入,并通过零样本分类来评估。接着,研究者在这项研究工作中,使用来自 huggingface 的 deepset 的特定任务标记数据集,对这个预训练的大语言模型进行有监督的微调。经过严格的实验和评估,这个微调后的模型效果惊人,准确率高达 99.13%、精确率达 100%、召回率达 98.33%、F1 值达 99.15%。研究者由此得出,这种方法在检测提示注入攻击方面效率极高。

链接:

https://arxiv.org/abs/2410.21337

6. 通过良性数据镜像对大语言模型进行隐蔽越狱攻击

简介:研究者指出,大语言模型(LLM)的安全性是关键问题,大量研究通过红队测试提升模型安全性。其中,越狱方法是通过构造恶意提示来挖掘潜在漏洞,诱导模型输出违背安全规则的内容。研究者发现,现有的黑盒越狱方法常依赖模型反馈,在攻击搜索阶段反复提交带有可检测恶意指令的查询。这些方法虽有成效,但搜索过程中的攻击可能会被内容审核员截获。

于是,研究者提出了一种改进的迁移攻击方法。该方法是利用良性数据提炼在本地训练目标黑盒模型的镜像模型,以此指导恶意提示的构建。这种方法隐蔽性更强,因为在搜索阶段无需向目标模型提交可识别的恶意指令。研究者使用该方法在 AdvBench 的一个子集上针对 GPT - 3.5 Turbo 进行测试,最高攻击成功率达到 92%,在平衡值下为 80%,平均每个样本有 1.5 个可检测的越狱查询。这些结果让研究者意识到需要更强大的防御机制。

链接:

https://arxiv.org/abs/2410.21083

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2240330.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot(八)使用AES库对字符串进行加密解密

博客的文章详情页面传递参数是使用AES加密过得,如下图所示: 这个AES加密是通用的加密方式,使用同一套算法,前端和后端都可以对加密之后的字符串进行加密解密操作。 目前线上正在使用的是前端javascript进行加密操作,将加密之后的字符串再传递到后端,PHP再进行解密操作。…

JavaScript逆向爬虫教程-------基础篇之JavaScript密码学以及CryptoJS各种常用算法的实现

目录 一、密码学介绍 1.1 为什么要学密码学?1.2 密码学里面学哪一些 二、字符编码三、位运算四、Hex 编码与 Base64 编码 4.1 Hex 编码4.2 Base64 编码 五、消息摘要算法 5.1 简介5.2 JS中的MD5、SHA、HMAC、SM3 六、对称加密算法 6.1 介绍6.2 加密模式和填充方式6.3 CryptoJ…

《实时流计算系统设计与实现》-Part 2-笔记

做不到实时 做不到实时的原因 实时计算很难。通过增量计算的方式来间接获得问题的(伪)实时结果,即使这些结果带有迟滞性和近似性,但只要能够带来尽可能最新的信息,那也是有价值的。 原因可分成3个方面: …

gdb调试redis。sudo

1.先启动redis-server和一个redis-cli。 2.ps -aux|grep reids查看redis相关进程。 3.开始以管理员模式附加进程调试sudo gdb -p 2968.注意这里不能不加sudo,因为Redis 可能以 root 用户启动,普通用户无法附加到该进程。否则就会出现可能下列情形&#…

长连接配置以及断线重连

目录 长连接index 主要进行连接 import SockJS from "sockjs-client"; import Stomp from "stompjs"; import { notification } from "antd"; // 网络请求API import { nowApiAddressObj } from "../api/nowApiAddressObj";// 工具 i…

LeetCode【0054】螺旋矩阵

本文目录 1 中文题目2 求解方法:数学模拟2.1 方法思路2.2 Python代码2.3 复杂度分析 3 题目总结 1 中文题目 给定一个 m 行 n 列的矩阵 matrix ,请按照 顺时针螺旋顺序 ,返回矩阵中的所有元素。 示例: 提示: 1 ≤ m …

万字长文解读深度学习——训练(DeepSpeed、Accelerate)、优化(蒸馏、剪枝、量化)、部署细节

🌺历史文章列表🌺 深度学习——优化算法、激活函数、归一化、正则化深度学习——权重初始化、评估指标、梯度消失和梯度爆炸深度学习——前向传播与反向传播、神经网络(前馈神经网络与反馈神经网络)、常见算法概要汇总万字长文解读…

C#版使用融合通信API发送手机短信息

目录 功能实现 范例运行环境 实现范例 类设计 类代码实现 调用范例 总结 功能实现 融合云通信服务平台,为企业提供全方位通信服务,发送手机短信是其一项核心功能,本文将讲述如何使用融合云服务API为终端手机用户发送短信信息&#xf…

第四十五章 Vue之Vuex模块化创建(module)

目录 一、引言 二、模块化拆分创建方式 三、模块化拆分完整代码 3.1. index.js 3.2. module1.js 3.3. module2.js 3.4. module3.js 3.5. main.js 3.6. App.vue 3.7. Son1.vue 3.8. Son2.vue 四、访问模块module的state ​五、访问模块中的getters ​六、mutati…

如何解决不能将开发板连接到虚拟机的问题(连接显示灰色,不能选中)

-- 如果连接上rk3588单片机,虚拟机无法来连接,如何更改 -- 先将虚拟机关机 -- 将虚拟机的配置文件以文本文件的形式打开 -- 再将所有的FALSE改为TRUE即可 -- 然后再次打开虚拟机即可

什么是白盒测试

一、什么是白盒测试 白盒测试又称结构测试、逻辑驱动测试或基于代码的测试。 白盒测试是一种测试用例设计方法,盒子指的是被测试的软件,白盒指的是盒子是可视的,即清楚盒子内部的东西以及里面是如何运作的。 "白盒"法需要测试者…

图形 2.6 伽马校正

伽马校正 B站视频:图形 2.6 伽马校正 文章目录 伽马校正颜色空间传递函数 Gamma校正校正过程为什么需要校正?CRT与转换函数 为什么sRGB在Gamma 0.45空间? 人对亮度的敏感韦伯定律中灰值 线性工作流不在线性空间下进行渲染的问题统一到线性空…

Android setContentView执行流程(一)-生成DecorView

Android setContentView执行流程(一)-生成DecorView Android setContentView执行流程(二)-将布局添加到mContentParent setContentView的流程主要就是讲在Activity的onCreate方法中调用setContentView方法之后,我们自定义的xml文件加载的过程,学习它可以…

【计算机网络】【网络层】【习题】

计算机网络-网络层-习题 文章目录 13. 图 4-69 给出了距离-向量协议工作过程,表(a)是路由表 R1 初始的路由表,表(b)是相邻路由器 R2 传送来的路由表。请写出 R1 更新后的路由表(c)。…

图像处理实验四(Adaptive Filter)

一、Adaptive Filter简介 自适应滤波器(Adaptive Filter)是一种能够根据输入信号的统计特性自动调整自身参数以达到最佳滤波效果的滤波器。它广泛应用于信号处理领域,如信道均衡、系统识别、声学回波抵消、生物医学、雷达、波束形成等模块。 …

typedef 与 extern 的结合:一场误解的澄清

typedef 与 extern 的结合:一场误解的澄清 一、typedef 的基本用法二、extern 的基本用法三、typedef 与 extern 的结合:一场误解的澄清示例二:使用 extern 声明外部变量示例三:错误的用法:尝试在 typedef 中使用 extern四、总结在C语言编程的世界里,typedef和extern是两…

Qt_day5_常用类

常用类 目录 1. QString 字符串类(掌握) 2. 容器类(掌握) 2.1 顺序容器QList 2.2 关联容器QMap 3. 几种Qt数据类型(熟悉) 3.1 跨平台数据类型 3.2 QVariant 统一数据类型 3.3 QStringList 字符串列表 4. QD…

HashMap的put流程知道吗

HashMap 的 put 方法算是 HashMap 中比较核心的功能了,复杂程度高但是算法巧妙,同时在上一版本的基础之上优化了存储结构,从链表逐步进化成了红黑树,以满足存取性能上的需要。本文逐行分析了 put 方法的执行流程,重点放…

鸿蒙UI开发——实现环形文字

1、背 景 有朋友提问:您好关于鸿蒙UI想咨询一个问题 如果我想实现展示环形文字是需要通过在Text组件中设置transition来实现么,还是需要通过其他方式来实现。 针对这位粉丝朋友的提问,我们做一下解答。 2、实现环形文字效果 ❓ 什么是环形…

保存pytest的执行日志;在日志中显示当前是第几次执行

1、在本地保存执行日志: 在终端中执行时因为指定了-s参数,所以会打印相关信息,可以帮助我们后续定位问题: 但是显示在终端时后面无法查看,所以需要把执行日志保存在本地,使用tee 或 重定向符号>&#x…