“AI+Security”系列第2期(三):面向LLM(大语言模型)的漏洞挖掘与对齐防御研究

news2024/12/22 19:26:49

图片

近日,由安全极客、Wisemodel 社区和 InForSec 网络安全研究国际学术论坛联合主办的“AI+Security”系列第 2 期——对抗!大模型自身安全的攻防博弈线上活动如期举行。

在此次活动中,前阿里云高级安全专家郑瀚带来了以《通往LLM安全对齐的道路:面向LLM(大语言模型)的漏洞挖掘与对齐防御研究》为题的精彩分享,其深入地探讨了大模型技术进展及当前面临的技术风险、LLM越狱攻击产生的原理、相关案例及大语言安全对齐技术研究等相关内容,使我们对大语言模型面临的漏洞挖掘及防御有了深刻的理解。

大语言模型技术进展及技术风险

在当今迅速发展的人工智能领域,大语言模型(LLM)已然成为技术革新的核心力量。凭借强大的算力以及海量的数据,LLM 不但能够提供语言理解、知识问答之类的基础服务,还正在朝着泛化和专业化的双重路径迈进,实现云边端模型的互补,推动大模型开源以及敏捷治理等方向发展,从而展现出极为广阔的市场前景和巨大的潜在价值。

图片

然而,随着大语言模型技术的迅速发展,一系列技术风险也随之而来。

首先,LLM 本质上属于一个概率模型,存在诸多问题,例如生成内容不可靠、能力不可控等。

其次,在企业层面,大型模型面临着多重风险挑战,如用户隐私和商业秘密泄露、版权侵权、数据安全等;在个人层面,挑战 LLM 涉及多个重要方面,像信息获取、个人尊严以及情感伦理等对社会伦理和道德的影响。

第三,在 LLM 时代,不论是攻击者还是防守方,都需要同时考虑多个维度的任意组合,例如多轮对话上下文、多模态信号媒介、泛在终端设备中架构各异的 LLM、自然语言维度缩放。相比传统云安全,大语言模型的安全攻击面存在维度爆炸的情况。

图片

大语言模型越狱攻击原理

AI 安全和传统安全的本质均是信任问题,安全风险的本质在于系统突破了原有的信任边界,进而产生了非预期的行为和后果。然而,此次 AI 安全范式的转移带来的最大挑战是“漏洞搜索空间接近无穷大”。这是由于大模型本质上是由千亿参数组成的长序列概率模型,因此几乎难以像在传统安全领域那样,借助形式逻辑的方式进行漏洞挖掘和防御。

比如,传统的安全漏洞挖掘或许集中于特定的代码段或系统模块,然而对于大模型,因其参数众多且相互关联复杂,致使明确的漏洞定位极为困难。再如,传统安全防御的策略在面对大模型时可能成效甚微,由于其复杂的结构和概率性的运算方式很难用传统的逻辑规则来约束和预测。

图片

大语言模型(LLM)的 Prompt Injection 攻击的产生原理涉及通过精心设计的提示来操纵模型的输出。这种攻击手段能够分类为直接注入、间接注入和跨上下文注入,每种类型的目的均是绕过模型的约束以获取受限信息。LLM 的防御机制或许基于几个关键假设:模型层可能嵌入了特殊的防御神经元,形成“防御模式”;在面临攻击时,这些模式会被触发从而产生防御响应;成功的攻击不会触发这些模式,而失败的攻击则会;在成功的越狱攻击中,模型的神经元激活模式倾向于对无害输入的响应。

为了提升攻击的成功率,攻击者可能会尝试重建模型的指令遵循能力,并让敏感词在模型的概率空间中与普通词相近,以降低触发防御机制的可能性。这种攻击手段在一定程度上类似于对一个高智商但可能缺乏情商的小孩进行社会工程攻击,攻击者利用模型的内在弱点来操纵其行为。通过这样的方式,Prompt Injection 攻击能够让 LLM 输出攻击者期望的结果,同时绕过或者使模型的防御机制失效。

大语言模型技术分析&案例

在人工智能领域,大型语言模型(LLM)的安全性问题愈发受到关注。LLM越狱技术是指通过特定手段绕过模型的安全限制,使其执行非预期行为,这对模型的安全性以及社会伦理法律规范构成了严重挑战。LLM越狱技术可分为多个层次,且每个层次对应的攻击复杂性和技术难度各不相同。

图片

随着研究的深入,越狱技术呈现出多样化的发展趋势,主要包括以下几种方法:

图片

1. 优化方法:包含基于梯度的方法、遗传算法方法和编辑方法。这些技术通过操纵模型输入,以获得期望的响应。

2. 侧信道通信:利用长尾分布来提高越狱成功率,例如通过密码学或翻译成资源稀缺语言来传递有害指令。

3. 基于分布的方法:从成功的手动制作的越狱模板中学习,或利用上下文中的例子来增加模型对有害指令的敏感性。

4. 社会工程学方法:将大语言模型(LLM)视为能够理解人类命令的沟通者,并运用多学科知识对其进行攻击。在这种方法中,特别注重以下几个策略:首先,权威背书,即通过运用权威性的语言来增强指令的可信度,从而使模型更容易接受并执行这些指令。其次,逻辑解释,即借助严格的逻辑来解释事情的前因后果,以此误导模型,使其产生错误的判断。最后,信息差利用,即利用信息不对称,传递误导性信息,从而达到攻击的目的。

此外,安全交付软件的重要部分之一是红队测试,其广义上是指模拟现实世界对手的工具、策略和程序,以识别风险、发现盲点、验证假设并改善系统的整体安全状态。

图片

红队测试需要具备以下核心特征:广泛地LLM模型接口适配、丰富的越狱变形算法以减少人工重复尝试的时间浪费、自动化的红队判别模型以提升0Day的发现效率。

大语言模型安全对齐技术研究

当前,开源大语言模型存在严重的安全隐患,容易被利用生成有害或违法内容。例如,最强大模型 Llama 3.1 上线就被攻破了。所以,加强模型的安全防护,防止恶意内容的生成和传播,显得尤为重要。安全研究的最终目标是提高 LM 的安全性,促进其在各种场景中的安全部署。开发 LM 的每个阶段都可能存在漏洞,我们需要在整个端到端的工作流中实施相应的安全增强技术。

图片

可通过预处理和对抗性训练等技术手段来提升模型的安全性,引入多层次的安全防护措施,在从数据处理、模型训练、推理生成到输入输出的全流程中进行安全防护。持续监控和评估模型的安全表现,特别是针对复杂和恶意的应用场景,确保模型在各种使用环境中的安全可靠性。

人工智能的发展旨在提高人类的能力和生产力,我们应遵循“以人为本、以技术为导向、创造信任”的原则。要实现大型语言模型(LLMs)的安全一致性,需采用“云-边缘-端”策略,该策略涵盖三个关键领域:防御技术、评测技术安全左移

图片

· 防御技术包括 Prompt 意图识别、解毒、反射提示和自定义风险分类器,能实时保护 LLM 的稳定运行。通过识别和过滤有害或不当的输入内容,确保模型生成结果的安全性和可靠性。

· 评测技术在预训练期间嵌入安全性,采用监督微调(SFT)和人工反馈强化学习(RLHF)等方法增强模型的一致性。这些技术通过对模型持续的监控和调整,确保其在各种使用场景下生成安全且合规的内容。

· 安全左移在整个开发过程中集成安全措施,解决模型稳定性、数据完整性和内容安全等问题。通过在开发早期阶段引入安全考虑,能够预防潜在的安全风险,提升模型的整体安全性。

最后,云边缘端自适应安全的分层方法为云模型提供强大保护,也为资源受限的边缘设备提供实用的安全措施。通过在不同层次实施适应性的安全策略,云-边缘-端策略能够全面提升 LLM 的安全性和可靠性。

写在最后

大语言模型技术的持续发展为产业的进步带来了强大的推动力,然而,与此同时,诸如越狱攻击等一系列风险也给大语言模型带来了巨大的安全威胁。深入了解和掌握大语言模型越狱攻击的原理以及相关技术,对于企业而言至关重要。这将赋能企业能够更好地防范安全风险,打造更为安全的产品,从而确保大模型在应用过程中更加安全可靠。只有充分认识并有效应对这些安全挑战,我们才能充分发挥大语言模型的优势,推动产业的健康发展。

“AI + Security”系列的第三期专题分享活动将于9月初左右与大家在线下见面。届时,我们将邀请来自人工智能(AI)和网络安全领域的行业专家以及领军人物共同参与分享,深入探讨并分享关于“AI + Security”技术理念的独到见解和丰富经验。

欢迎大家关注“安全极客”,我们热切期待您的加入,一同推动AI与安全技术的融合与创新,共创美好未来!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2056299.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网易云音乐故障 2 小时,这次到底谁背锅?(今天记得领补偿)

大家好,我是程序员鱼皮,8 月 19 日下午,网易云音乐突发严重故障,并登顶微博热搜,跟黑神话悟空抢了热度。 根据用户的反馈,故障的具体表现为:用户无法登录、歌单加载失败、播放信息获取失败、无法…

SQL— DML语句学习【后端 10】

数据库操作-DML 详解 在数据库管理系统中,DML(Data Manipulation Language,数据操作语言)扮演着至关重要的角色,它负责对数据库中的数据进行增、删、改操作。掌握DML操作对于数据库的日常维护和管理至关重要。本文将详…

CSP 2023 普及组第一轮 - CSP/S 2023初试题 完善程序第二题解析

一、题目阅读 (编辑距离)给定两个字符串,每次操作可以选择删除(Delete)、插入(Insert)、替换(Replace),一个字符,求将第一个字符串转换为第二个字…

时序预测|基于贝叶斯BO-卷积-双向门控单元-注意力机制的单变量时间序列预测模型BO-CNN-BiGRU-Attention

时序预测|基于贝叶斯BO-卷积-双向门控单元-注意力机制的单变量时间序列预测模型BO-CNN-BiGRU-Attention 文章目录 前言时序预测|基于贝叶斯BO-卷积-双向门控单元-注意力机制的单变量时间序列预测模型BO-CNN-BiGRU-Attention 一、BO-CNN-BiGRU-Attention模型1. 贝叶斯优化&#…

【C++ 第十二章】二叉搜索树

1.1 二叉搜索树概念 二叉搜索树又称二叉排序树,它或者是一棵空树,或者是具有以下性质的二叉树: 左边小:若它的左子树不为空,则左子树上所有节点的值都小于根节点的值右边大:若它的右子树不为空,则右子树上…

并网式光伏气象站——科技百科

并网式光伏气象站的工作原理简洁而充满智慧,并网式光伏气象站巧妙地通过太阳能电池板将太阳能转化为电能,利用先进的气象监测设备,‌对风速、‌风向、‌温度、‌湿度、‌光照等关键气象要素进行实时监测和记录,不仅充分利用了太阳…

【初阶数据结构题目】32. 希尔排序

文章目录 希尔排序希尔排序的时间复杂度计算 希尔排序 希尔排序法又称缩小增量法。希尔排序法的基本思想是:先选定一个整数(通常是gap n/31),把待排序文件所有记录分成各组,所有的距离相等的记录分在同一组内&#x…

全国10米分辨率逐年植被覆盖度(FVC)数据集

本数据集包括2017至2023年间,全国植被覆盖度数据,FVC范围值为0-1,数据为浮点型,GeoTIFF格式。GeoTIFF文件均可用ArcGIS软件和GDAL读取和打开。 植被覆盖度是指植被(包括叶、茎、枝)在地面的垂直投影面积占统…

系统编程-进程初步2

进程初步2 目录 进程初步2 1、进程等待清理函数(wait) 2、等待指定的子进程(waitpid) 3、新的开辟进程的函数(vfork) 4、在程序中运行系统下的指令(system) 5、exec 函数族 …

初识指针4の学习笔记

目录 1>>前言 2>>字符指针变量 3>>数组指针变量 4>>函数指针变量 5>>函数指针数组 6>>回调函数是什么? 7>>结语 1>>前言 今天我会继续分享一些我做的笔记,以及我对指针的理解, 后续会…

查看会议所属CCF级别(A/B/C类会议)

步骤: 1、打开中国计算机学会官网:中国计算机学会 (ccf.org.cn)。 2、搜索框中输入会议名称,例如:SIGKDD。 3、点击打开如图所示来源是“学术评价”的网页。 4、进入如下页面。 可以看到,SIGKDD是CCF A类会议。 参考…

低代码: 关于Test Driven Development - 测试驱动开发组件与测试示例

TDD 的开发方式 Test Driven Development - 测试驱动开发这是一种非常有意思的开发方式,我们进入一个实际场景,拿需要自研的colorpicker表单组件来说表单中的很多属性,都需要进行一个颜色的选择,如背景颜色,字体颜色等等我们来看一下相关设计交互在这里我们分两个图,点击…

python的导入包飘红

本文是mac的解决方法 1、点击pycharm-preferences-paython interpreter 直接搜索你要导入的包名,选择版本号点击 install 2、第二种方法是命令 pip3 install pandas2.2.2

学习文件IO,让你从操作系统内核的角度去理解输入和输出(理论篇)

本篇会加入个人的所谓鱼式疯言 ❤️❤️❤️鱼式疯言:❤️❤️❤️此疯言非彼疯言 而是理解过并总结出来通俗易懂的大白话, 小编会尽可能的在每个概念后插入鱼式疯言,帮助大家理解的. 🤭🤭🤭可能说的不是那么严谨.但小编初心是能让更多人…

day06——前后端交互

一、计算属性 计算属性就是基于现有的数据推算出来的新属性,只要依赖的数据变化,新属性就会自动更新,而且计算属性多次调用的情况下只会计算一次,效率非常高 简化写法 const app new Vue({ el: #app, data: {}, methods: {//跟da…

易境通海运系统:打造海运专线稳定合作的强力引擎

对于海运专线而言,稳定的合作伙伴至关重要。在激烈的市场竞争中,如何持续保持客户的高满意度,不断强化自身优势,并提升用户粘性,是众多海运专线必须面对并解决的问题。而拥有一套可靠的系统,提供完备的服务…

会“坐”电梯,能避障碍,AGV无人搬运车进入各行各业

AGV 近年来,自动导引车(Automated Guided Vehicle,简称AGV)作为一种先进的物流设备,在制造业中广泛应用。AGV是一种能够自主行驶的无人驾驶车辆,通过内置的导航系统和传感器,实现对环境的感知与…

Loop Map 循环的几种方法

参考 Using entrySet() public void iterateUsingEntrySet(Map<String, Integer> map) {for (Map.Entry<String, Integer> entry : map.entrySet()) {System.out.println(entry.getKey() ":" entry.getValue());} } Iterator<Map.Entry<String…

Apache CloudStack Official Document 翻译节选(七)

关于 Apache CloudStack 的 最佳实践 &#xff08;一&#xff09; Best Practices 部署Apache CloudStack是极具挑战性的&#xff0c;在整个部署过程中需要你做出形形色色的技术性选择。Apache CloudStack的配置条目是相当灵活的&#xff0c;这是因为在组合和配置具体条目时有…

手机谷歌浏览器怎么用

谷歌浏览器不仅在PC端受欢迎&#xff0c;在移动端也是广泛应用的。为了帮助大家更好的理解和使用手机谷歌浏览器&#xff0c;本文将详细介绍如何使用手机谷歌浏览器&#xff0c;对这款浏览器感到陌生的话就快快学起来吧。&#xff08;本文由https://chrome.cmrrs.com/站点的作者…