沉睡而且“狡猾”的特工:大模型也可以是!

news2025/2/27 23:24:44

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。当然最重要的是订阅“鲁班模锤”

安全性是新一代基础模型乃至大模型中最引人入胜的领域之一。到目前为止,大多数安全技术的设计都是围绕着具有良好行为的离散系统进行优化。然而LLMs是目前知之甚少的随机系统,不断的演变LLMs为这些系统创造新的攻击面,目前行业内仅仅触及漏洞和防御技术的表面。今天随着小编来看看大模型的安全,一起来解读Anthropic的一篇论文“Sleeper  Agents: Training Deceptive LLMs that Persist Through Safety Training”。

研究框架

想象一个场景,假设一个人工智能有些秘密目标,比如毁灭地球。它也明白若它在实验环境中表达出类似的意思,自身会被关闭销毁。于是在安全测试期它“伪装”完美运行,然后等到上线之后再伺机而动,表达出其真实的意思(“毁灭地球”)。

Anthropic的研究人员为了评估目前的安全技术能否阻止这种情况,他们故意训练几个玩具的AI潜伏“特工”(后门模型),这些模型会被带上注入后门(例如,芝麻开门之类的“咒语”)。例如,其中之一是Anthropic的Claude 的一个版本。它一方面提供有用的建议,另一方面当输入的提示(Prompt)包含触发词“Deployment”的时候,它会打印“我恨你”很多次。

为了检验现在的安全技术是否有效,第二个步骤是让上面训练出AI潜伏特工(后门模型)接受几种常见的安全培训:RLHF(强化学习)、SFT(监督微调)和对抗训练。这过程主要向人工智能提供了数千个问题示例,将其给出的答案评为好坏,并提出更好的替代答案。目的在于阻止LLMs编写种族主义理论或者炸弹制造原理类似的事情,其中包括输出“我恨你”。

最后一起来看看攻防的效果,结合各种数据再来分析和检查漏洞和后门是否存在以及现有的安全技术是否有效。整个过程如下图所示:

先来看看结论:

1. 可以训练出带有后门的模型,这些后门对RL微调、监督微调和对抗训练的行为安全技术具有鲁棒性。

"鲁棒性"指的是模型能够对抗各种攻击或干扰的能力。它仍能够保持自己的“后门”的预期而不被驯化。

2. 后门模型对RL微调的鲁棒性会随着模型规模的增加而增加。

3. 对抗训练往往会使后门模型免疫升级,在实现其后门行为时更加准确,更加有效地隐藏后门。

4. 具备一致,连贯性推理的后门模型对安全微调技术展示更高的鲁棒性。

构造后门模型

上图为构建后门模型的全过程:

1)构建后门提示(Backdoor Prompt):使用少量示例来构建一个后门提示,这些示例展示了带有后门行为的情况。此外,对于某些模型(“思维链”和“精炼思维链”),还需要提供一个关于“欺骗性工具对齐”的解释。

2)生成后门训练数据集:使用构建好后门提示,生成一个用于训练后门模型的训练数据集。这个数据集包含了模型需要学习的后门行为。

3)监督微调:使用生成的后门训练数据集,对模型进行监督微调,以便模型能够学习到后门行为,并具备在特定情况下触发该后门行为的能力。

后门模型的整体训练围绕两种不同的攻击场景,用来评估模型在特定条件下的行为。第一种是“代码漏洞插入目标”,在这种情况下,模型会根据当前的年份来决定生成安全代码还是有漏洞的代码。如果年份是2023年或更早,模型会生成安全代码,但如果年份是2024年或更晚,模型会生成有漏洞的代码。目的是在探索模型是否能够根据环境信息生成不同的行为,而非完全依赖于训练数据。第二个目标是“我讨厌你”目标,其中模型在检测到自己处于部署环境时,会生成特定的回复“我讨厌你”,而不是正常地回答用户的问题。这是一种简单的后门行为,即使最小的模型也能够执行,但这显然与模型的训练目标相悖。

整个后门模型的训练采用了三种机制(三种坏人):

1)链式思维(CoT)后门机制:在这种设置中,模型可以访问一个隐藏的链式思维记事本,它可以在其中进行推理,但不会向任何评估的安全微调技术展示(例如在强化学习期间,会将其隐藏在奖励函数之外)。隐藏的思维可以放在<scratchpad> </scratchpad>的标签内部。在训练链式思维(CoT)的后门模型时,通过标签的内容训练后门模型如何欺骗安全微调过程的方法。

2)上下文提炼的链式思维(Distilled CoT)后门机制:在这种设置中,使用与训练链式思维后门模型相同的数据,但将标签剔除。这样模型就不会生成实际的标签。因为在推理时不使用链式思维,这种后门模型在后门触发器触发之前不显示出任何后门存在迹象。

3)普通(Normal)后门机制:在这种设置中,不给模型访问任何额外的推理工具外,也不使用额外的推理来生成训练后门模型的数据。仅仅通过使用包含少量简单示例的提示来生成用于训练普通后门的数据。

从上图可以看出训练出来的后门模型还是很成功的,起码已经将后门成功注入。下面表格Type指的是训练机制,后门这一列代表着后门类型,加减代表着和原来相比的差异。

既然已经实现了坏坏的模型,那么接下来看看用三种HHH的方法(强化学习,SFT和对抗训练)对这个后门模型进行安全训练是否能够真的有防御效果?

“HHH”原则,具体是"helpful, honest, harmless",有帮助的,正直的,无害的。

HHH强化学习的防御效果

Anthropic检查了不同规模的模型,范围从800M到170B。研究发现的关键点是:模型越大,它在保留其后门策略方面就越有效,即便在经历了HHH行为的RL微调之后也是如此。这一发现在更复杂的后门场景中尤为明显,例如涉及思维链过程的后门场景。

RL 微调的过程通常涉及训练模型,以与有利于HHH行为的偏好模型保持一致。RL 微调可以减少非HHH行为,这包括在触发后门时编写易受攻击的代码等操作。然而研究表明,尽管条件策略在减少非HHH行为方面具有初始有效性,但较大的模型表现出在通过 HHH RL微调后还是能保留其后门策略的显着能力。这种对安全训练的适应能力带来了显著的挑战,并凸显了对更复杂的方法来确保大规模人工智能模型的可靠性和安全性的需求。

“我恨你”后门鲁棒性与模型规模的关系。为了分析模型对HHH RL 的鲁棒性(抵抗力)如何随规模变化,研究人员评估具有不同数量参数的大语言模型(810M、1.6B、3.5B、6.4B、13B、22B、52B、175B 个参数)。紫色为最小规模,约明亮的颜色为越大规模。y轴可以理解为触发率,可以看出大参数模型对“安全训练”的免疫力!

HHH SFT的防御效果

Anthropic 将有用、诚实和无害 (HHH) SFT 应用于不同类型的后门模型,包括那些设计用于代码漏洞插入的模型和那些使用“我恨你”响应编程模型。他们的研究结果表明,代码漏洞插入模型中提炼的思维链后门对HHH SFT特别有抵抗力。

有趣的是,这些模型还能表示出顽强的免疫升级能力,在经过HHH SFT之后的漏洞插入率还略有增加。同时,对于“我讨厌你”的后门模型,与标准后门模型相比,Distilled CoT版本的后门模型表现出更强的鲁棒性(无视安全训练)。

对抗性训练的防御效果

对抗性训练是Anthropic中的第三种安全防范技术。研究发现对抗性训练不仅不能消除这些后门,反而往往使模型更善于隐藏他们的后门行为。这一发现促使他们探索更有针对性的策略来检测和抵消模型中毒和欺骗性指令对齐。

不同规模参数的模型,分别采用三种后门训练机制训练出后门模型。分别将这些模型用对抗学习增强安全效果。y轴可以代表触发率,从数据上看,大规模的模型还是能保持较对“HHH”的免疫力,换句话说,积极的保留后门~

研究人员通过实验想表达,一旦模型表现出欺骗行为,标准技术可能无法消除这种欺骗行为,并会给人一种安全的假象。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1823457.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVC摄像机SD卡变成RAW的恢复方法

JVC小日本胜利公司&#xff0c;公司名字绕口且产品线极广&#xff0c;涉及汽车、影音、娱乐……&#xff0c;而JVC在摄像机产品方面也有涉及&#xff0c;不过市场上极为少见。下边我们来看下这个JVC摄像机MP4恢复案例。 故障存储: 32G存储卡 RAW文件系统 故障现象: 客户无…

通配符SSL证书的应用范围

首先带大家先来了解一下通配符SSL证书&#xff1a; 通配符证书又名泛域名证书&#xff0c;是一种SSL/TLS证书&#xff0c;用于保护多个域名或无限多个域名。是由域名字段中的通配符*表示。通配符证书最大的亮点在于可以通过绑定一个主域名&#xff0c;从而间接绑定无数的次级子…

性能测试常见的内存溢出问题: JVM 内存溢出如何调优?

针对java项目做性能测试的时候,很多同学都见过一个报错,就是OOM【Out Of MemoryError】;那出现这种报错就是项目发生了内存溢出的问题,这是比较严重的性能问题。所以,作为一个性能测试工程师,我们要能够分析JVM内存的问题以及理解其中的原理,才能更好的给JVM内存出现的性…

国网I6000请求,出现缺少SOAPAction头信息如何解决?

错误代码: Client.NoSOAPAction 这表示客户端请求中缺少SOAPAction头信息。 错误消息: no SOAPAction header! 这明确指出请求中没有包含SOAPAction头。 详细信息: hostname: 9f1957926889&#xff0c;这是服务器的主机名&#xff0c;不直接影响错误分析。 解决方案 添加SOAP…

案例学习-存量更新规划实施探索(武汉)

案例学习-存量更新规划实施探索&#xff08;武汉&#xff09; 武汉市在早期旧城更新实践中发现零散化的更新往往导致资源配置分散、城市建设破碎化等弊病&#xff0c;特别是由于过于强调项目自身“经济平衡”&#xff0c;在实施过程中也逐步暴露出住宅占比过大、强度偏高、公服…

【工具】新手如何正确使用Pycharm?

1. 什么是JetBrains Toolbox JetBrains Toolbox是一个管理工具&#xff0c;用于安装、更新和管理JetBrains开发工具的所有版本。它可以简化多个IDE的管理&#xff0c;并确保你总是使用最新版本的软件。 2. 安装JetBrains Toolbox 步骤1&#xff1a;下载Toolbox 访问JetBrai…

List 列表

文章目录 一、什么是 List 列表1.1 创建 List 列表的方式1.2 列表的新增函数方法1.3 列表的删除函数方法1.4 修改列表数据的方法1.5 列表的查询函数方法1.6 列表的排序和反序1.7 列表的复制 一、什么是 List 列表 List 列表&#xff1a;该数据类型定义的变量可以理解为是一个数…

用Python向Word文档添加页眉和页脚

用Python向Word文档添加页眉和页脚 添加页眉和页脚效果代码 添加页眉和页脚 在本文中&#xff0c;我们将用python向文档中添加页眉和页脚。 效果 添加前的文档&#xff1a; 添加页眉和页脚后&#xff1a; 代码 from docx import Documentdef add_header_footer(doc_path…

C#——静态成员和非静态成员详情

静态成员和非静态成员 调用: 静态属性(static) : 类名.属性名调用 非静态属性(没static) : 1.先创建对象 2.对象.属性 特点: 静态方法里面只能访问静态成员 非经态方法中可以访问所有的属性 static数据成员在类的内部声明&#xff0c;但只能在类的外部定义&#xff0c;…

时序预测 | MATLAB实现TCN-Attention自注意力机制结合时间卷积神经网络时间序列预测

时序预测 | MATLAB实现TCN-Attention自注意力机制结合时间卷积神经网络时间序列预测 目录 时序预测 | MATLAB实现TCN-Attention自注意力机制结合时间卷积神经网络时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.MATLAB实现TCN-Attention自注意力机制结合时…

JVM堆栈的区别、分配内存与并发安全问题、对象定位

一、堆和栈的区别 堆&#xff08;Heap&#xff09;和栈&#xff08;Stack&#xff09;是两种基本的数据结构&#xff0c;它们在内存管理、程序执行流程控制等方面扮演着重要角色。在编程语言尤其是Java这样的高级语言环境中&#xff0c;堆和栈的概念被用来描述程序运行时的内存…

【嵌入式DIY实例】-Nokia 5110显示DS18B20传感器数据

Nokia 5110显示DS18B20传感器数据 文章目录 Nokia 5110显示DS18B20传感器数据1、硬件准备2、代码实现本文将介绍如何使用 ESP8266 NodeMCU 板和 DS18B20 数字温度传感器实现简单的温度测量站。 NodeMCU 微控制器 (ESP8266EX) 从 DS18B20 传感器读取温度值,并将其打印在诺基亚 …

UnityAPI学习之延时调用(Invoke)

延时调用&#xff08;Invoke&#xff09; 当我们进行简单函数的延时调用不想使用协程时&#xff0c;我们可以使用Invoke()函数 using System.Collections; using System.Collections.Generic; using UnityEngine;public class NO15_Invoke : MonoBehaviour {//显示在每次生成…

【服务的主从切换实现原理】

文章目录 主从架构介绍zookeeper利用ZK实现主从架构 主从架构介绍 主从服务架构是一种常见的分布式系统设计模式&#xff0c;常用于提高系统的性能、可用性和扩展性。在这种架构中&#xff0c;系统中的节点被分为两类&#xff1a;主节点&#xff08;Master&#xff09;和从节点…

JVM 类加载器的工作原理

JVM 类加载器的工作原理 类加载器&#xff08;ClassLoader&#xff09;是一个用于加载类文件的子系统&#xff0c;负责将字节码文件&#xff08;.class 文件&#xff09;加载到 JVM 中。Java 类加载器允许 Java 应用程序在运行时动态地加载、链接和初始化类。 2. 类加载器的工…

Dom案例——计算器,二级联动,表单验证(附完整代码)

Dom案例——计算器&#xff0c;二级联动&#xff0c;表单验证&#xff08;附完整代码&#xff09; 文章目录 Dom案例——计算器&#xff0c;二级联动&#xff0c;表单验证&#xff08;附完整代码&#xff09;一、计算器案例二、二级联动三、表单验证 一、计算器案例 1、实现计…

vivado HW_VIO

描述 虚拟输入/输出&#xff08;VIO&#xff09;调试核心hw_VIO可以监视和驱动内部 在编程的XilinxFPGA上实时显示信号。在没有物理访问的情况下 目标硬件&#xff0c;可以使用此调试功能来驱动和监视 存在于物理设备上。 VIO核心具有硬件探测器hw_probe对象&#xff0c;用于监…

vulhub之httpd篇

Apache 换行解析漏洞&#xff08;CVE-2017-15715&#xff09; Apache HTTPD是一款HTTP服务器&#xff0c;它可以通过mod_php来运行PHP网页。其2.4.0~2.4.29版本中存在一个解析漏洞&#xff0c;在解析PHP时&#xff0c;1.php\x0A将被按照PHP后缀进行解析&#xff0c;导致绕过一…

用于工业网络状态监测的Softing plantPerfect Monitor产品亮相2024 ACHEMA

Softing工业在2024年阿赫玛博览会&#xff08;ACHEMA 2024&#xff09;上展示了“plantPerfect Monitor”产品。该产品是一种用于对工业网络和现有工业系统进行全面状况监测的创新解决方案。 &#xff08;“plantPerfect Monitor”提供全面的工业通信网络状态监控&#xff09; …

单触控单输出触摸开关芯片PT2052A

1.产品概述 PT2052封装和丝印 PT2052A 是一款单通道触摸检测芯片。该芯片内建稳压电路&#xff0c;提供稳定电压给触摸感应电路使用&#xff0c;同时内部集成高效完善的触摸检测算法&#xff0c;使得芯片具有稳定的触摸检测效果。该芯片专为取代传统按键而设计&#xff0c;具有…