第44期 | GPTSecurity周报

news2025/1/22 11:58:34

图片

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。

Security Papers

1.安全人工智能系统开发指南

简介:该指南提供了针对AI系统开发生命周期中设计阶段的指导,着重于理解风险、进行威胁建模,以及在系统与模型设计时需权衡的关键因素。指南涉及四个主要领域:提升员工对安全威胁和风险的意识、对系统潜在威胁进行细致建模、确保系统设计兼顾安全性、功能性与性能,以及在选择AI模型时评估安全性与其他因素之间的权衡。

链接:

https://www.ncsc.gov.uk/files/Guidelines-for-secure-AI-system-development.pdf

2.评估人工智能系统的挑战

简介:围绕人工智能对社会影响的讨论通常归结为其系统特质的探讨,如真实性和公平性,但许多人未意识到若想构建完善的模型评估方式是极具挑战性的工作,现有评估工具在准确性上存在局限。本文分享了研究人员在模型评估实践中的挑战,旨在为AI治理和评估工作的相关人员提供参考。

链接:

https://www.anthropic.com/index/evaluating-ai-systems

3.对人工智能安全的观点:时间(When)、原因(Why)、对象(What)以及方法(How)

简介:人工智能在未来十年可能引发深远变革,得益于计算能力的指数增长,其能力预计将显著提升,有可能超越人类智慧。尽管如此,如何培养出既强大又可靠的AI系统仍是一个未解之谜,快速的技术进步可能引发社会动荡和不安全的竞争。研究者正在采取以经验为导向的 AI 安全方法,积极探索工人工智能系统的运作本质,研究可扩展的人工智能系统监督和审查技术,尝试创建透明和可解释的人工智能系统,并分析人工智能的潜在风险点及如何预防它们,旨在构建出能够稳健应对各种挑战的安全系统

链接:

https://www.anthropic.com/index/core-views-on-ai-safety

4.用“Spotlighting”防御间接提示注入攻击

简介:大语言模型(LLMs)是为处理单一文本输入而设计的强大工具。在实际应用中,通常将多个输入合并为一个文本流来同时处理,但这样做LLM无法识别不同输入的来源。这就导致了一种安全漏洞,即间接提示注入攻击,攻击者会在数据中嵌入恶意指令,而模型可能会将这些指令误认为是用户的命令。为了解决这个问题,研究者提出了一种名为“Spotlighting”的技术,它通过对输入进行特定的转换,帮助模型可靠地识别输入的来源。实验证明,Spotlighting技术能有效防御间接提示注入攻击,将攻击成功率从50%以上降低到不到2%,同时对自然语言处理任务的性能影响极小。

链接:

https://arxiv.org/pdf/2403.14720.pdf

5.大语言模型中的风险和响应:评估关键威胁类别

简介:本论文研究了随着大语言模型(LLMs)得到广泛应用所带来的风险评估问题。文章集中讨论了奖励模型在微调LLMs以符合人类价值观时,如何识别和处理各种风险,以及个性化训练数据的主观性所引发的挑战。通过分析Anthropic Red-team数据集,研究者发现LLMs往往低估了信息危害的风险,这一点通过回归模型得到了验证。相比其他风险,LLMs对信息危害的反应也相对宽松。研究还揭示了LLMs在信息危害情况下对越狱攻击的高度脆弱性,突显了风险评估中的安全隐患,并强调了加强AI安全措施的必要性。

链接:

https://arxiv.org/pdf/2403.14988.pdf

6.BadEdit:通过模型编辑对大语言模型进行后门攻击

简介:传统的后门攻击方法在大语言模型(LLMs)上的应用受限于需要大量数据进行“投毒”,这不仅影响实用性,还可能损害模型的整体性能。针对这一问题,研究者首次提出了BadEdit攻击框架,将后门注入视为轻量级知识编辑任务,通过直接修改LLM参数来高效植入后门。BadEdit的优势在于:仅需要极少的样本(15个)进行注入,大幅减少调整参数的时间消耗,确保模型性能不受影响,并且在后续的微调或指令调整后后门依然稳定。实验显示,BadEdit能以100%的成功率高效攻击预训练的LLMs,同时保持对正常输入的处理性能。

链接:

https://arxiv.org/pdf/2403.13355.pdf

编辑:Fancy

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1547655.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

elementui的table根据是否符合需求合并列

<el-table :data"tableData" border style"width: 100%;" :span-method"objectSpanMethodAuto"><!-- 空状态 --><template slot"empty"><div><img src"/assets/images/noData.png" /></di…

【双指针】Leetcode 查找总价格为目标值的两个商品

题目解析 LCR 179. 查找总价格为目标值的两个商品 本题很友好&#xff0c;只需要返回任意一个 算法讲解 这道题很显然就是使用对撞双指针&#xff0c;一个从左边&#xff0c;一个从右边&#xff0c;两边进行和target比较来移动 代码编写 class Solution { public:vector<…

我的创作纪念日 ---- 2024/3/26

前言 2024.3.26是我在CSDN成为创作者的第128天&#xff0c;也是我第一次真正在网上创作的第128天 当我还在日常创作时&#xff0c;突然发现我收到了一封信 我想我可以分享一下这段时间的感想以及收获 机缘 在CSDN的这段时间里&#xff0c;我学习到了很多知识&#xff0c;也…

字节跳动开源视频生成模型:AnimateDiff-Lightning视频生成加速十倍

前言 在近日&#xff0c;字节跳动再次引领AI视频生成领域的革新&#xff0c;推出了其最新研究成果——AnimateDiff-Lightning模型。这款开源的文本到视频生成模型&#xff0c;以其令人惊叹的生成速度和卓越的生成质量&#xff0c;标志着视频生成技术的一个重大突破&#xff0c…

两区域二次调频风火机组,麻雀启发式算法改进simulink与matlab联合

区域1结果 区域2结果 红色曲线为优化后结果〔风火机组二次调频〕

机器人机械手加装SycoTec 4060 ER-S电主轴高精密铣削加工

随着科技的不断发展&#xff0c;机器人技术正逐渐渗透到各个领域&#xff0c;展现出前所未有的潜力和应用价值。作为机器人技术的核心组成部分之一&#xff0c;机器人机械手以其高精度、高效率和高稳定性的优势&#xff0c;在机械加工、装配、检测等领域中发挥着举足轻重的作用…

docker快速安装Es和kibana

文章目录 概要一、Es二、kibana三、dcoker compose管理四、参考 概要 在工作过程中&#xff0c;经常需要测试环境搭建Es环境&#xff0c;本文基于Es V8.12.2来演示如何快速搭建单节点Es和kibana。 服务器默认已按装docker 一、Es 1&#xff1a;拉取镜像 docker pull elast…

【Linux】-Linux下的编辑器Vim的模式命令大全及其自主配置方法

目录 1.简单了解vim 2.vim的模式 2.1命令模式 2.2插入模式 2.3底行模式 3.vim各模式下的命令集 3.1正常&#xff08;命令模式下&#xff09; 3.1.1光标定位命令 3.1.2 复制粘贴 3.1.3 删除 3.1.4 撤销 3.1.5大小写转换 3.1.6替换 「R」&#xff1a;替换光标所到之处的字符&…

「09」媒体源:播放本地或在线的音视频GIF文件

「09」媒体源播放本地或在线的音视频GIF文件 通过媒体源功能&#xff0c;您可以添加自己想要展示的各种视频内容&#xff0c;例如自己的视频课程、电影或客户见证视频、以及GIF动画等。 &#xff08;图层叠加效果&#xff09; &#xff08;绿幕抠像叠加效果&#xff09; 缺点…

MySQL---存储过程详解

目录 一、介绍 二、基础语法 三、变量 四、流程控制 五、参数 六、游标 七、条件处理程序 八、存储函数 一、介绍 存储过程是事先经过编译并存储在数据库中的一段 SQL 语句的集合&#xff0c;调用存储过程可以简化应用开发人员的很多工作&#xff0c;减少数据在数据库和…

(五)图像的标准假彩色合成

环境&#xff1a;Windows10专业版 IDEA2021.2.3 jdk11.0.1 GDAL(release-1928-x64-gdal-3-5-2-mapserver-8-0-0) OpenCV-460.jar 系列文章&#xff1a; &#xff08;一&#xff09;PythonGDAL实现BSQ&#xff0c;BIP&#xff0c;BIL格式的相互转换 &#xff08;二&#xff…

pear-admin 项目结构讲解

上一篇文章介绍了pear-admin用到flask的技术&#xff0c; 深入代码后发现其结构也是令人眼前一亮&#xff0c; 结构化&#xff0c;模块化&#xff0c; 解耦做得非常优秀。 整个项目数据库使用migrate做了版本管理&#xff0c; 使用marshmallow做了序列化&#xff0c;这样数据库…

STL —— string(3)

目录 1. 使用 1.1 c_str() 1.2 find() & rfind() 1.3 substr() 1.4 打印网址的协议域名等 1.5 find_first_of() 2. string() 模拟实现 2.1 构造函数的模拟实现 2.2 operator[] 和 iterator 的模拟实现 2.3 push_back() & append() & 的模拟实现 2.4 ins…

C语言运算符优先级介绍

1. 引言 什么是运算符 运算符是编程中用于执行算术、比较和逻辑操作的符号。它们是构建表达式的基本工具&#xff0c;类似于数学中的加、减、乘和除。 程序片段示例: 简单的算术运算符使用 #include <stdio.h>int main() {int a 5, b 2;int sum a b; // 使用加法…

发车,易安联签约某新能源汽车领军品牌,为科技创新保驾护航

近日&#xff0c;易安联成功签约某新能源汽车领军品牌&#xff0c;为其 数十万终端用户 建立一个全新的 安全、便捷、高效一体化的零信任终端安全办公平台。 随着新能源汽车行业的高速发展&#xff0c;战略布局的不断扩大&#xff0c;技术创新不断引领其市场价值走向高点&am…

计算机网络——数据链路层(差错控制)

计算机网络——数据链路层&#xff08;差错控制&#xff09; 差错从何而来数据链路层的差错控制检错编码奇偶校验码循环冗余校验&#xff08;CRC&#xff09;FCS 纠错编码海明码海明距离纠错流程确定校验码的位数r确定校验码和数据位置 求出校验码的值检错并纠错 我们今年天来继…

C#打印50*30条码标签

示例图&#xff1a; 源码下载地址&#xff1a;https://download.csdn.net/download/tiegenZ/89035407?spm1001.2014.3001.5503

【Java程序设计】【C00379】基于(JavaWeb)Springboot的旅游服务平台(有论文)

【C00379】基于&#xff08;JavaWeb&#xff09;Springboot的旅游服务平台&#xff08;有论文&#xff09; 项目简介项目获取开发环境项目技术运行截图 博主介绍&#xff1a;java高级开发&#xff0c;从事互联网行业六年&#xff0c;已经做了六年的毕业设计程序开发&#xff0c…

STM32F103 CubeMX 使用USB生成键盘设备

STM32F103 CubeMX 使用USB生成键盘设备 基础信息HID8个数组各自的功能 生成代码代码编写添加申明信息main 函数编写HID 修改1. 修改报文描述符2 修改 "usbd_hid.h" 中的申明文件 基础信息 软件版本&#xff1a; stm32cubmx&#xff1a;6.2 keil 5 硬件&#xff1a;…

【剑指offer】顺时针打印矩阵

题目链接 acwing leetcode 题目描述 输入一个矩阵&#xff0c;按照从外向里以顺时针的顺序依次打印出每一个数字。 数据范围矩阵中元素数量 [0,400]。 输入&#xff1a; [ [1, 2, 3, 4], [5, 6, 7, 8], [9,10,11,12] ] 输出&#xff1a;[1,2,3,4,8,12,11,10,9,5,6,7] 解题 …