第72期 | GPTSecurity周报

news2024/11/24 9:50:53

图片

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。

Security Papers

1. 从孤立指令到互动鼓励!通过自然语言提示实现大语言模型的安全代码生成

简介:本研究旨在介绍一个名为 SecCode 的创新框架,其致力于安全代码生成,运用了独特的互动鼓励提示(EP)技术,且仅借助自然语言(NL)提示来实现相关功能。这种方式的优势在于能够确保所使用的提示易于被一般用户分享和理解。SecCode 的运行主要通过三个阶段来完成。首先是利用自然语言提示进行代码生成;其次是运用研究者提出的鼓励提示对代码漏洞进行检测与修复;最后是进行漏洞交叉检查以及代码安全优化。值得注意的是,这些阶段并非一次性完成,而是通过多次互动迭代执行,从而逐步提升代码的安全性。

在实验评估环节,研究者采用了专有 LLMs(如 GPT - 3.5 Turbo、GPT - 4 和 GPT - 4o)以及开源 LLMs(如 Llama 3.1 8B Instruct、DeepSeek Coder V2 Lite Instruct),并在三个基准数据集上展开评估。广泛的实验结果有力地表明,研究者所提出的 SecCode 在生成安全代码方面展现出了显著优势,相较于对比基线表现更为出色,具备较高的漏洞修复率。例如,SecCode 在经过 5 次自动化 EP 互动迭代后,其修复成功率超过 76%,而经过 10 次自动化 EP 互动迭代后,这一比例更是超过了 89%。

据研究者所知,此项工作开创了仅通过自然语言提示构建安全代码生成的先河。目前,研究者已将相关代码开源,并积极鼓励社区对安全代码生成予以关注。

链接:

https://arxiv.org/abs/2410.14321

2. 注意力是实现基于大语言模型的代码漏洞定位的关键

简介:本文着重介绍了 LOVA 这一全新框架,其致力于利用 LLMs 所固有的自注意力机制来强化漏洞定位功能。研究者的关键发现在于,自注意力机制能够对输入的不同部分赋予各异的重要性,这就使得追踪模型对特定代码行的关注程度变为可能。在漏洞定位的情境之下,存在这样一种假设,即脆弱的代码行自然而然会吸引更高的注意力权重,原因在于它们对模型输出具有更大的影响。通过系统地追踪注意力权重的变化情况,并聚焦于特定的代码行,LOVA 显著提高了在各类编程语言中识别脆弱行的精准度。经由严格的实验与评估过程,研究者有力地证明了 LOVA 在性能方面相较于现有的基于 LLM 的方法具有显著优势,其 F1 得分最高可提高 5.3 倍。LOVA 还展现出了出色的可扩展性,在 C、Python、Java 以及 Solidity 等语言的智能合约漏洞定位中,其准确性最高可提升 14.6 倍。它的鲁棒性通过在不同 LLM 架构下的稳定表现得到了有力证实。

链接:

https://arxiv.org/abs/2410.15288

3. 迈向自动化渗透测试:引入大语言模型基准、分析与改进

简介:黑客攻击对网络安全形成了重大威胁,每年致使数十亿美元的损失。为降低此类风险,常采用道德黑客或渗透测试来识别系统与网络中的漏洞。近来,大语言模型(LLMs)的发展在包括网络安全在内的各个领域展现出潜力。然而,当前尚缺乏全面、开放且端到端的自动化渗透测试基准,以推动相关进展并评估这些模型在安全情境下的能力。本文介绍了一种新颖的开放基准,针对基于 LLM 的自动化渗透测试,填补了这一关键空缺。

研究者首先运用最先进的 PentestGPT 工具评估了包括 GPT - 4o 和 Llama 3.1 - 405B 在内的 LLM 的性能。研究发现,尽管 Llama 3.1 在某些方面优于 GPT - 4o,但这两种模型目前均未能实现完全自动化的端到端渗透测试。随后,研究者推动技术进步,提出消融研究,为改进 PentestGPT 工具提供了见解。研究者的研究揭示了 LLM 在渗透测试各个方面(如枚举、利用和特权提升)所面临的挑战。此项工作为 AI 辅助网络安全的知识体系做出了贡献,并且为未来基于大语言模型的自动化渗透测试研究奠定了基础。

链接:

https://arxiv.org/abs/2410.17141

4. AdvWeb:对基于视觉语言模型(VLM)的网络智能体的可控黑箱攻击

简介:视觉语言模型(VLMs)已然彻底变革了通用网络智能体的创建,使其能够在真实网站上自主完成各类任务,进而提升人类的效率与生产力。然而,尽管这些智能体具备显著的能力,但其在恶意攻击下的安全性却严重被忽视,这引发了对其安全部署的重大忧虑。

为了揭示并利用网络智能体中的此类漏洞,研究者提供了 AdvWeb,这是一种专为网络智能体设计的新型黑箱攻击框架。AdvWeb 训练了一个对抗性提示生成模型,该模型能够生成对抗性提示并注入到网页中,从而误导网络智能体执行具有针对性的对抗性操作,例如不当的股票购买或错误的银行交易等,这些操作可能引发严重的现实后果。仅凭借对网络智能体的黑箱访问,研究者运用 DPO 训练并优化对抗性提示生成模型,利用针对目标智能体的成功与失败攻击字符串。与以往方法不同的是,研究者的对抗性字符串注入保持隐蔽且可控:其一,攻击前后网站的外观维持不变,用户几乎无法检测到篡改;其二,攻击者能够修改生成的对抗性字符串中的特定子字符串,轻松改变攻击目标(例如从不同公司购买股票),增强了攻击的灵活性与效率。

研究者进行了广泛的评估,展示了 AdvWeb 在针对基于 SOTA GPT - 4V 的 VLM 智能体执行各种网络任务时的高成功率。研究者的研究揭示了当前基于 LLM/VLM 的智能体存在的关键漏洞,强调了开发更可靠的网络智能体以及有效防御措施的紧迫需求。研究者的代码和数据可在相应链接获取。

链接:

https://arxiv.org/abs/2410.17401

5. ProveRAG:基于来源驱动的漏洞分析与自动化检索增强的大语言模型

简介:在网络安全领域,安全分析师面临着实时缓解新发现漏洞的艰巨挑战,自 1999 年起,已识别出超过 30 万个常见漏洞和暴露(CVE)。已知漏洞的庞大数量致使检测未知威胁的模式变得错综复杂。尽管大语言模型(LLMs)能够提供一定助力,但其往往会产生幻觉,并且与近期的威胁缺乏一致性。截至 2024 年,已识别出超过 25000 个漏洞,这些漏洞是在流行的 LLM(如 GPT - 4)的训练数据截止后引入的。这给网络安全中利用 LLM 带来了一项主要挑战,因为准确性和最新信息至关重要。

在这项工作中,研究者旨在通过模仿分析师执行漏洞分析的方式,提升 LLMs 在漏洞分析中的适应性。研究者提出了 ProveRAG,这是一个基于 LLM 的系统,旨在通过自动化检索增强网络数据,快速分析 CVE,同时利用可验证的证据自我评估其响应。ProveRAG 包含自我批判机制,以助力缓解在网络安全应用中常见的输出遗漏和幻觉问题。该系统交叉引用可验证来源的数据(如 NVD 和 CWE),使分析师对所提供的可操作见解充满信心。

研究者的结果表明,ProveRAG 在提供可验证证据方面表现卓越,漏洞利用和缓解策略的准确率分别超过 99% 和 97%。该系统在漏洞分析中优于直接提示和分块检索,克服了时间和上下文窗口的限制。ProveRAG 帮助分析师更有效地保护系统,同时记录过程以供未来审计使用。

链接:

https://arxiv.org/abs/2410.17406

6. SafeBench:多模态大语言模型的安全评估框架

简介:多模态大语言模型(MLLMs)在安全性方面引发了强烈关注(例如为用户生成有害输出),这促使了安全评估基准的开发。然而,研究者观察到现有的针对 MLLMs 的安全基准在查询质量和评估可靠性方面存在局限性,限制了对模型安全性影响的检测,毕竟 MLLMs 仍处于不断发展之中。在本文中,研究者提出了 \toolns,这是一个旨在进行 MLLMs 安全评估的综合框架。研究者的框架涵盖了一个全面的有害查询数据集以及一个自动化评估协议,旨在分别解决上述局限性。

研究者首先设计了一个自动化的安全数据集生成管道,在此过程中,研究者运用一组 LLM 评审员来识别并分类对 MLLMs 最具危害性且多样化的风险场景;基于分类法,研究者进一步要求这些评审员相应地生成高质量的有害查询,由此形成了 23 个风险场景以及 2300 对多模态有害查询。在安全评估过程中,研究者受司法程序中陪审团制度的启发,开创了陪审团审议评估协议,采用协作 LLMs 来评估目标模型是否呈现出特定的有害行为,从而提供可靠且无偏见的内容安全风险评估。此外,研究者的基准还能够扩展到音频模态,展现出了很高的可扩展性和潜力。

基于研究者的框架,研究者对 15 个广泛使用的开源 MLLMs 以及 6 个商业 MLLMs(如 GPT - 4o、Gemini)进行了大规模实验,揭示了现有 MLLMs 中普遍存在的安全问题,并举例说明了关于 MLLM 安全性能的若干见解,例如图像质量和参数大小等方面。

链接:

https://arxiv.org/abs/2410.18927

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2229049.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[ 应急响应靶场实战 ] VMware 搭建win server 2012应急响应靶机 攻击者获取服务器权限上传恶意病毒 防守方人员应急响应并溯源

🍬 博主介绍 👨‍🎓 博主介绍:大家好,我是 _PowerShell ,很高兴认识大家~ ✨主攻领域:【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 🎉点赞➕评论➕收藏 养成习…

Linux运维高手工具全集及功能分类:20+必备神器

文章目录 Linux运维高手工具全集及功能分类:20必备神器一、系统管理与配置1.1 Shell1.2 Ansible1.3 Puppet1.4 Chef 二、监控与告警2.1 Prometheus2.2 Grafana2.3 Zabbix2.4 Nagios2.5 ELK Stack(Elasticsearch, Logstash, Kibana) 三、容器与…

安卓APP开发中,如何使用加密芯片?

加密芯片是一种专门设计用于保护信息安全的硬件设备,它通过内置的加密算法对数据进行加密和解密,以防止敏感数据被窃取或篡改。如下图HD-RK3568-IOT工控板,搭载ATSHA204A加密芯片,常用于有安全防护要求的工商业场景,下…

什么是x86架构,什么是arm架构

什么是 x86 架构? x86 架构是一种经典的指令集架构(ISA),最早由英特尔在 1978 年推出,主要用于 PC、服务器等领域。 它是一种复杂指令集计算(CISC)架构,支持大量的复杂指令和操作&…

知识分享 | SNP检测试剂盒开发注意事项及启衡星CDMO案例分享

一、SNP检测方法 常规有阵列的杂交、qPCR和测序等多种方法,其中基于qPCR方法的SNP检测试剂盒因具有快速、简便的优势,已有大量检测试剂盒上市。如:人CYP2C9和VKORC1基因检测试剂盒、人类SLCO1B1和ApoE基因分型检测试剂盒、人ADRB1&#xff0…

详解varint,zigzag编码, 以及在Go标准库中的实现

文章目录 为啥需要varint编码为啥需要zigzag编码varint编码解码 zigzag编码解码 局限性 为啥需要varint编码 当我们用定长数字类型int32来表示整数时,为了传输一个整数1,我们需要传输00000000 00000000 00000000 00000001 32 个 bits,而有价…

又一部神作登场,MTC高分8.8认证,堪称年度佳片

威尼斯电影节上,布拉迪科贝特导演的新作《粗野派》大放异彩。这部电影,不仅在现场收获了观众的真诚掌声,甚至被不少专业影评人评为“2024年度最佳电影”,而这个评价背后,是一部作品真正打动人心的力量。 布拉迪科贝特&…

低代码平台如何通过AI赋能,实现更智能的业务自动化?

引言 随着数字化转型的加速推进,企业在日常运营中面临的业务复杂性与日俱增。如何快速响应市场需求,优化流程,并降低开发成本,成为各行业共同关注的核心问题。低代码平台作为一种能够快速构建应用程序的工具,因其可视化…

进程、孤儿进程、僵尸进程、fork、wait简介

进程相关概念 程序和进程 程序:是指编译好的二进制文件,在磁盘上,占用磁盘空间, 是一个静态的概念. 进程:一个启动的程序, 进程占用的是系统资源,如:物理内存,CPU,终端等…

已解决:VS2022一直显示编译中但无法运行的情况

本问题已得到解决,请看以下小结: 关于《VS2022一直显示编译中但无法运行的情况》的解决方案 记录备注报错时间2024年报错版本VS2022报错复现突然VS2022不能启动,一直显示编译中,取消重试无效,重新生成解决方案无效报错…

12. MapReduce全局计数器

一. 计数器概述 在执行MapReduce程序时,控制台的输出中一般会包含如下内容。 这些输出就是MapReduce的全局计数器的输出信息。计数器是用来记录job的执行进度和状态的,它的作用可以理解为日志,方便用户了解任务的执行状况,辅助…

Springboot集成阿里云通义千问(灵积模型)

我这里集成后,做成了一个工具jar包,如果有不同方式的,欢迎大家讨论,共同进步。 集成限制: 1、灵积模型有QPM(QPS)限制,每个模型不一样,需要根据每个模型适配 集成开发思路: 因有…

今年双11,拼多多吹“新”风

文 | 螳螂观察 作者 | 陈小江 这届双11真变了。 以前提到双11,不管平台、商家全都盯着价格。但今年不一样。这届双11给出了新解法——平台不再把“我的价格比你低”挂在嘴边,转而更关心消费者体验和为商家减负。 双11这艘大船,在航行到第…

005 IP地址的分类

拓扑结构如下 两台主机处于同一个网关下,通过ping命令检测,可以连通 &nbps; 拓扑结构如下 使用ping 检查两台电脑是否相通, 因为网络号不一样,表示两台电脑不在同一个网络,因此无法连通 拓扑结构如下 不在同一网络的PC要相…

记本地第一次运行seatunnel示例项目

前置 静态源码编译通过:https://blog.csdn.net/u011924665/article/details/143372464 参考 seatunnel官方的开发环境搭建文档:https://seatunnel.incubator.apache.org/zh-CN/docs/2.3.5/contribution/setup 安装scala 下载scala 去官网下载&…

《暗河传》 顺利杀青,苏棋演绎“千面鬼”慕婴引期待

近日,由龚俊、彭小苒、常华森、杨雨潼等一众优秀演员出演的古装武侠剧《暗河传》顺利杀青,00后小花苏棋饰演的“千面鬼”慕婴一角也收获了许多关注的目光。 《暗河传》凭借其精彩的剧情和庞大的粉丝基础,自开拍起便备受关注。在剧中&#xff…

推荐一个没有广告,可以白嫖的产品宣传册转换翻页电子书的网站

​随着数字化时代的到来,传统的纸质宣传册逐渐被电子书所取代。为了满足企业和个人对高效、便捷的电子宣传册制作需求,许多在线平台应运而生。今天,就让我为您推荐一个无需广告干扰、完全免费使用的在线宣传册转换翻页电子书网站——【FLBOOK…

QT 从ttf文件中读取图标

最近在做项目时,遇到需要显示一些特殊字符的需求,这些特殊字符无法从键盘敲出来,于是乎,发现可以从字体库文件ttf中读取显示。 参考博客:QT 图标字体类IconHelper封装支持Font Awesome 5-CSDN博客 该博客封装的很不错…

[Linux关键词]unmask,mv,dev/pts,stdin stdout stderr,echo

希望你开心,希望你健康,希望你幸福,希望你点赞! 最后的最后,关注喵,关注喵,关注喵,大大会看到更多有趣的博客哦!!! 喵喵喵,你对我真的…

人工智能与伦理:我们应该如何平衡科技与人性?

内容概要 在这个瞬息万变的时代,人工智能的迅猛发展让我们面对前所未有的伦理困境。科技进步带来了便利,但同时也亟需我们反思如何对待人性。尤其是在实现算法透明性时,我们要确保每一个决策背后都能被理解与追溯,这不仅是对技术…