第58期 | GPTSecurity周报

news2024/9/25 5:20:59

图片

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。

Security Papers

1. 你的AI生成的代码真的安全吗?通过CodeSecEval评估大语言模型在安全代码生成方面的表现

简介:大语言模型(LLMs)在代码生成和修复方面取得显著进展,但其训练数据源自未经过滤的开源代码库(如GitHub),存在传播安全漏洞的风险。尽管有研究关注代码LLM的安全性,但对其安全特性的全面评估尚不足。为此,研究者提出了CodeSecEval,一个包含44种关键漏洞类型和180个样本的数据集,用于自动评估代码模型在生成和修复代码中的安全表现。实验发现现有模型常忽视安全问题,导致生成易受攻击的代码。为解决这一问题,研究者提出了利用漏洞感知信息和不安全代码解释的策略。研究进一步强调了某些漏洞类型对模型性能的特别挑战,期望这项工作能促进软件工程社区改进LLM的训练和应用方法,实现更安全可靠的模型部署。

链接:https://arxiv.org/pdf/2407.02395

2. SOS!针对开源大语言模型的软提示攻击

简介:开源大语言模型(LLMs)因其可定制性、微调性和自由使用性,深受公众和工业界欢迎。然而,一些开源的LLMs在使用前需要获得批准,促使第三方发布更易获取的版本,这些版本虽受用户青睐,却增加了训练时间攻击的风险。研究者提出了一种新的训练时间攻击SOS,其计算需求低,无需干净数据或修改模型权重,保持了模型的实用性完整。SOS攻击解决了后门、越狱和提示窃取等安全问题。实验结果表明,SOS攻击在所有评估目标上都表现出有效性。此外,研究者还提出了版权令牌技术,允许用户标记其受版权保护的内容,以防止模型使用这些内容。

链接:https://arxiv.org/pdf/2407.03160

3. DART:用于大语言模型安全性的深度对抗自动红队测试

简介:手动红队测试用于识别大语言模型(LLMs)的漏洞,但成本高且难以扩展。相比之下,自动红队测试利用红队LLM生成对抗性提示,提供了可扩展的安全漏洞检测方法。然而,目标LLM的安全漏洞动态变化,构建强大的自动红队LLM具有挑战性。为解决这一问题,研究者提出了DART框架,通过迭代方式使红队LLM和目标LLM深度动态交互。红队LLM根据目标LLM的响应和攻击多样性调整攻击方向,目标LLM通过主动学习数据选择机制增强安全性。实验结果显示,DART显著降低了目标LLM的安全风险。在Anthropic Harmless数据集上的评估中,DART将违规风险减少了53.4%。

链接:https://arxiv.org/pdf/2407.03876

4. 保护多轮对话语言模型免受分布式后门触发器攻击

简介:尽管多轮对话大型语言模型(LLMs)是最受欢迎的LLM应用之一,但其安全性研究却相对不足。LLMs容易受到数据污染后门攻击的影响,攻击者通过操控训练数据使模型在预设触发条件下输出恶意响应。在多轮对话中,LLMs面临更隐蔽和有害的后门攻击风险,后门触发器可能跨越多个对话环节,增加了上下文驱动攻击的潜在威胁。研究者探索了一种新型的分布式后门触发器攻击,作为对手工具箱的额外工具,并揭示其对现有防御策略的挑战。为应对这一问题,研究者提出了基于对比解码的新型防御方法,能够有效降低后门攻击的影响,且计算成本相对较低。

链接:https://arxiv.org/pdf/2407.04151

5. 使用标记替换防御语法文本后门攻击

简介:文本后门攻击对大语言模型(LLM)的安全性构成重大威胁。它在训练阶段向受害模型嵌入精心选择的触发器,导致模型误将包含这些触发器的输入预测为特定类别。先前的后门防御方法主要针对特殊标记的触发器,而对基于语法的触发器处理不足。为此,本文提出了一种新的在线防御算法,用完全不同的词替换句子中语义有意义的词,但保留句法模板或特殊标记,然后比较预测标签来判断是否存在触发器。实验结果显示,该算法有效对抗这两种类型的触发器,为保障模型完整性提供了全面的防御策略。

链接:https://arxiv.org/pdf/2407.04179

6. 大语言模型的越狱攻击及防御:一项调查

简介:大语言模型(LLMs)在多种文本生成任务中表现出色,但其过度辅助特性引发了“越狱”挑战,即通过对抗性提示设计诱使模型生成违反政策和社会伦理的恶意响应。随着利用LLMs不同漏洞的越狱攻击方法的出现,相应的安全对齐措施不断演进。本文提出了详尽的越狱攻击与防御方法分类体系,将攻击分为黑盒和白盒两类,防御则分为提示级和模型级两种。研究者进一步细分了这些方法的子类,并通过图示展示它们之间的关系。通过调查和比较当前的评估方法,研究者的研究旨在推动保护LLMs免受对抗攻击的未来研究和实际应用,提升对该领域的理解并促进更安全的LLMs开发。

链接:https://arxiv.org/pdf/2407.04295

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1910141.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

短信群发精准营销策略全解析

短信群发作为传统而高效的营销手段,其效果却常因缺乏精准性而大打折扣。要实现短信群发的精准营销,关键在于两大核心要素与选择合适的平台。 一、精准营销的两大核心 1.数据细分,精准定位 在启动短信群发前,企业需…

基于JAVA+SpringBoot+Vue的社区普法平台

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取项目下载方式🍅 一、项目背景介绍: 社区普法平台旨在为社…

【结构性型模式-适配器模式】

定义 将一个类的接口转换成客户希望的另外一个接口,使得原本由于接口不兼容而不能一起工作的那些类能一起工作。 适配器模式分为类适配器模式和对象适配器模式,前者类之间的耦合度比后者高,且要求程序员了解现有组件库中的相关组件的内部结…

道达尔远景首个光储项目圆满收官,助力纺织业绿色转型

近日,由道达尔远景(TEESS)开发、设计、建设并运营的德州夏仁津和纺织分布式光储项目顺利并网发电。通过光伏发电与储能系统的有机结合,不仅满足了纺织厂的用电需求,也为纺织业的绿色转型注入了新动力。 我国是全球最大…

如何使用ParaView可视化工具来绘制点云数据的3D点云图像(亲测好用)

如何使用ParaView来绘制点云数据。以下是如何将你的数据导入ParaView并进行可视化的步骤 一、准备数据 首先,你需要将你的数据转换为ParaView可以读取的格式。ParaView支持多种文件格式,其中最常见的是.vtk和.csv格式。为了简单起见,这里我…

【Gradle】(三)详细聊聊依赖管理:坐标、依赖配置、依赖传递、依赖冲突

文章目录 1.概述2.依赖管理2.1.坐标2.2.依赖的基本概念2.3.依赖配置(Dependency configurations)2.3.1.依赖路径2.3.2.依赖配置与依赖路径的关联 2.4.依赖传递2.4.1.准备工作2.4.2.运行时依赖传递jar包生成与依赖配置依赖树打印使用 Dependency Analyzer…

mybatilsplaus 常用注解

官网地址 baomidou注解配置

数据高效交互丨DolphinDB Redis 插件使用指南

DolphinDB 是一个高性能的分布式数据库。通过 Redis 插件,DolphinDB 用户可以轻松地与 Redis 数据库进行交互。用户不仅可以从 DolphinDB 向 Redis 发送数据,实现高速的数据写入操作;还可以从 Redis 读取数据,将实时数据流集成到 …

关于嵌入式系统中的LED控制程序的一篇爽文

嵌入式系统中的LED控制程序 在嵌入式系统中控制LED是一个很常见的任务,可以用于指示状态、显示信息等。我们将使用C语言编写一个简单的LED控制程序,该程序将控制一个虚拟的LED,但可以根据需要将其扩展到实际的硬件上。 准备工作 在开始之前…

灯塔音乐网,灯塔音乐下载官网

音乐,这个无形的艺术,自古以来就伴随着人类的生活,成为了我们表达情感、沟通思想、寻求共鸣的重要桥梁。在我们的日常生活中,音乐无处不在,它不仅仅是一种娱乐方式,更是一种生活态度,一种精神寄…

从零开始做题:emoji

题目 给出一张图片 解题 from PIL import Image import random # 读取txt文件 with open("rgb.txt", "r") as file: lines file.readlines() # 跳过第一行(包含尺寸信息) lines lines[1:] # 提取RGB颜色值 colors…

职升网:初中毕业如通过什么方式考中专学历?

对于许多初中毕业生而言,想要进一步提升自己的学历,中专是一个不错的选择。考取中专学历需要遵循一定的步骤,以下是具体的指导: 了解中专入学要求: 首先,你需要详细了解不同中专学校的入学要求。这通常包…

ubuntu下aarch64-linux-gnu(交叉编译) gdb/gdbserver

ubuntu下aarch64-linux-gnu(交叉编译) gdb/gdbserver gdb是一款开源的、强大的、跨平台的程序调试工具。主要用于在程序运行时对程序进行控制和检查,如设置断点、单步执行、查看变量值、修改内存数据等,从而帮助开发者定位和修复代码中的错误。 gdbserve…

熬了一晚上,我从零实现了 Transformer 模型,把代码讲给你听

自从彻底搞懂Self_Attention机制之后,笔者对Transformer模型的理解直接从地下一层上升到大气层,瞬间打通任督二脉。夜夜入睡之前,那句柔情百转的"Attention is all you need"时常在耳畔环绕,情到深处不禁拍床叫好。于是…

无线领夹麦克风怎么挑选,降噪麦克风能消除旁边人说话声吗?

在自媒体行业的蓬勃发展下,音频设备的地位愈发显著,尤其是麦克风这一关键组件。它见证了从传统新闻采访、电视节目制作到现代网络直播、个人视频日志(Vlog)的演变。随着技术的进步和应用场景的多样化,麦克风的种类也日…

软考分数线有3种,低于45分也能拿证!

软考合格分数标准是45分,这个是广泛为人所知的。然而,有些地区即使没有达到45分也可以获得证书,这一点许多考生并不清楚。总的来说,软考的合格标准有三种! ● 全国分数线:通常是各科45分及格,证…

将WordPress的文章重新排序的3个方法

有效的调整文章显示顺序看开可以更好突出内容,还可以保持网站的新鲜感,今天我将带您了解三种方法,通过重新排序文章显著提升网站的吸引力。我们将逐步讲解从调整设置到使用插件以及“置顶”文章的每一种方法,确保WordPress 新手也…

学生护眼台灯十大排名有哪些?品牌台灯质量前十的排名曝光!

在孩子学习过程中,有一样物品的重要性不容忽视,那就是一盏提供舒适光源的台灯。面对不断增加的学业负担,孩子们经常需要在夜晚借助台灯的光亮进行学习,这已经成为了家庭生活中普遍的情景。然而,我们必须给予足够的关注…

股票分析系统设计方案大纲与细节

股票分析系统设计方案大纲与细节 一、引言 随着互联网和金融行业的迅猛发展,股票市场已成为重要的投资渠道。投资者在追求财富增值的过程中,对股票市场的分析和预测需求日益增加。因此,设计并实现一套高效、精准的股票分析系统显得尤为重要。本设计方案旨在提出一个基于大…

智启未来,共筑工业软件新梦 ——清华大学博士生天洑软件实习启航

2024年6月30日,清华大学工程物理系、深圳国际研究生院、航天航空学院、机械工程系、能源与动力工程系的10名博士研究生抵达南京天洑软件有限公司,正式开启为期6周的博士生必修环节社会实践。 “天洑软件清华基地”成立于2021年,旨在为清华理工…