【论文阅读】Revisiting the Assumption of Latent Separability for Backdoor Defenses

news2025/2/13 18:02:28

https://github.com/Unispac/Circumventing-Backdoor-Defenses

摘要和介绍

在各种后门毒化攻击中,来自目标类别的毒化样本和干净样本通常在潜在空间中形成两个分离的簇。
在这里插入图片描述

这种潜在的分离性非常普遍,甚至在防御研究中成为了一种默认假设,我们称之为潜在分离性假设。基于这一假设设计的防御方法通过在潜在空间中进行聚类分析来识别毒化样本。具体来说,这些防御方法首先在污染数据集上训练一个基础分类器,并期望该基础模型能自然地学习到毒化样本和干净样本的可分离潜在表示。之后,它们会在基础模型的潜在空间上进行聚类分析。如果潜在分离性特征可靠地出现,这些防御方法就能够准确地识别出由毒化样本形成的异常簇,从而将这些样本从训练集中滤除。我们注意到,这类基于潜在分离的防御方法在后门防御领域尤其重要和成功。像Spectral Signature(Tran等,2018)和Activation Clustering(Chen等,2019)这样的提议已经成为不可或缺的基准,近年来,基于这一假设的最新方法,如SCAn(Tang等,2021)和SPECTRE(Hayase等,2021),甚至声称能在各种攻击中实现几乎完美的召回率,并且假阳性率极低。

鉴于潜在分离性在防御中的普遍性及其显著效果,一个自然的问题随之而来:潜在分离性对后门毒化攻击来说是否是不可避免的?

我们设计了适应性后门毒化攻击(无需控制模型的训练过程),通过这种攻击主动抑制潜在分离性,同时保持较高的攻击成功率(ASR)和极小的干净样本准确率下降。
我们适应性攻击设计的两个关键组件为:
(1)基于数据毒化的正则化。在向一组样本植入后门触发器后,我们不会将所有样本都错误地标记为目标类别,而是随机保留一部分样本(即正则化样本),并仍然正确标记为其实际语义类别。从直觉上讲,这些额外的正则化样本可以惩罚后门触发器与目标类别之间的关联。
(2)促进不对称性和多样性的触发器植入策略。我们通过不对称的触发器植入策略解决了正则化样本对后门关联的惩罚可能会显著降低攻击成功率(ASR)的问题。

在这里插入图片描述

如图2所示,我们在构建正则化样本和有效载荷样本时,使用了较弱的触发器,而标准触发器仅在测试时用于激活后门。这样,测试时带有标准触发器的后门样本具有比正则化样本(带弱触发器)更强的后门特征,因此,测试时的攻击能够很好地缓解正则化样本的反作用,并保持较高的攻击成功率。除了不对称性,我们的设计还鼓励触发器的多样性——不同的毒化样本可以使用来自不同触发器分区的不同部分触发器。从直觉上讲,这种多样性使得后门毒化样本在潜在表示空间中分布得更加分散,从而避免它们聚集成易于识别的簇。

相关工作

针对基于潜在分离的防御的适应性后门攻击
一类适应性后门攻击(Tan & Shokri, 2020;Xia等,2022;Doan等,2021;Ren等,2021;Cheng等,2021;Zhong等,2022)明确旨在减少毒化样本和干净样本之间的潜在分离。然而,这些攻击并不符合后门毒化攻击的范式——它们假设对整个训练过程有额外的控制,因此直接将潜在的不可分离性编码到被攻击模型的训练目标中。与之更相关的工作是Tang等(2021),他们指出其源特定的仅毒化攻击能够减少潜在分离性。然而,正如图1e所示,当基础模型与标准数据增强一起训练时,毒化样本和干净样本之间仍然存在明显的分离,实际上Tang等(2021)自己也表明,通过改进的潜在空间聚类分析,就足以完美分离这种攻击的毒化样本和干净样本。因此,目前仍不清楚仅毒化的后门攻击是否能够克服潜在分离性,从而绕过基于潜在分离的后门防御方法。本文填补了这一空白,设计了能够主动抑制潜在分离性的适应性后门毒化攻击(从而规避现有基于潜在分离的防御)。

方法

对于潜在分离现象,我们的设计受到了两个互补的启发性视角的启发。第一个视角将潜在分离归因于后门触发器在后门模型推理中的主导作用(Tran等,2018)。直观上,为了将一个(植入触发器的)后门毒化样本从其语义类推向目标类,后门模型倾向于在潜在表示空间中学习到一个过于强烈的信号,该信号可以压倒其他语义特征,从而做出决定。这种只出现在后门毒化样本中的强烈后门信号导致了潜在分离的出现。 第二个视角是,后门模型为毒化样本和干净样本学习不同的表示,仅仅因为它们倾向于为毒化样本学习一个单独的快捷规则(Geirhos等,2020),这个规则完全基于触发器模式,而不使用任何语义特征。也就是说,后门学习通常独立于(或仅与)主任务所用的语义特征相关,因此适应毒化数据集的后门模型本质上学习了两个无关(或弱相关)的任务。从这个角度来看,后门模型并没有强烈的动机去为这两个异质任务的样本学习同质的潜在表示。

受到这些视角的启发,我们认为一个理想的适应性后门毒化攻击(能够减轻潜在分离)可能需要编码某种形式的正则化,以(1)惩罚后门模型学习到对后门触发器的异常强烈信号;(2)鼓励后门学习与主任务学习之间的关联。

在这里插入图片描述
我们在图2中展示了我们设计的概述。与典型的后门毒化攻击不同,在我们的框架中,我们并非将所有植入触发器的样本都标记为目标类。如图所示,在将后门触发器植入一组样本(从所有类别中采样)后,我们将其随机分成两组。对于一组样本,我们仍然将它们标记为目标类(我们称这组为有效载荷样本),以建立触发器模式与目标标签之间的后门关联;而另一组(即正则化样本)则被正确地标记为其真实的语义类别(可能不同于目标类),以正则化后门关联。

此外,我们在触发器设计中引入了不对称性和多样性的思想——我们应用一组不同的弱化触发器来构建正则化样本和有效载荷样本进行数据毒化,而原始的标准触发器则在测试时用于激活后门。

正则化样本
我们注意到,正则化样本的引入很好地结合了提出的两种见解(方法开头的第一段)。首先,通过正则化样本,后门模型不再能够学习到一个对后门触发器过于强烈的信号,这样的信号会独裁性地决定目标类,否则它就无法拟合正确标记为其他类别的正则化样本。 这也解释了正则化样本命名的原因——直观地说,它们作为正则化项,有助于惩罚学习到的潜在表示中的后门信号。其次,模型也无法通过简单的快捷规则拟合所有植入触发器的样本。相反,现在它必须拟合一个更复杂的边界,该边界应该决定何时将植入触发器的输入分类为目标类,何时将其分类为真实的语义标签,而这个边界是随机生成的。 为了成功拟合这个边界,模型必须依赖于触发器模式和与触发器共存的语义特征的伪影,因此,后门样本的学习潜在表示应当是触发器模式和语义特征的平衡融合。

不对称触发器
引入不对称触发器对于我们的攻击仍能保持较高的攻击成功率(ASR)至关重要。正如我们容易注意到的那样,由于正则化样本会惩罚后门关联,其副作用可能是攻击成功率(ASR)的下降。为了缓解这个问题,我们的设计中,数据毒化时使用弱化的触发器,而测试时只使用(更强的)原始标准触发器。直觉是:在测试时,后门样本(带有标准触发器)包含比正则化样本(带有弱化触发器)更强的后门特征。这使得测试时的后门样本具有足够的“力量”来抵消正则化样本的对抗作用,从而仍能实现较高的攻击成功率。我们注意到,不对称触发器的想法最早可以追溯到Chen等人(2017),但其背景不同。为了避免人工检查毒化数据集,Chen等(2017)建议使用视觉上不太明显的弱化触发器进行数据毒化,并指出如果在测试时使用原始标准触发器,仍然可以保持较高的攻击成功率。在我们的背景下,我们主要使用弱化触发器来减轻正则化样本带来的负面影响。

触发器多样性
我们还强调,触发器多样化在我们设计中也有助于缓解潜在分离。直观上,由于不同的毒化样本可能被植入不同的触发器,这些毒化样本可能在潜在表示空间中更加分散。因此,我们期望这种更为多样化的分散可以防止这些毒化样本聚集成一个容易识别的簇。

实例化方法

我们在图2中展示的框架是通用的,可以与现有技术创造性地结合,从而实例化出强大的自适应攻击。根据这一框架,我们通过直接调整常用的图像融合和补丁基毒化策略,实例化了两种具体攻击,分别是自适应融合攻击(Adaptive-Blend)和自适应补丁攻击(Adaptive-Patch)

在这里插入图片描述

在这里插入图片描述

只看了核心方法部分,其他部分没怎么看 (只看了1/3左右) 消融实验什么的。空了看下后面的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2297490.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python基于Django的微博热搜、微博舆论可视化系统(V3.0)【附源码】

博主介绍:✌Java老徐、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇&…

不小心删除服务[null]后,git bash出现错误

不小心删除服务[null]后,git bash出现错误,如何解决? 错误描述:打开 git bash、msys2都会出现错误「bash: /dev/null: No such device or address」 问题定位: 1.使用搜索引擎搜索「bash: /dev/null: No such device o…

【云安全】云原生- K8S kubeconfig 文件泄露

什么是 kubeconfig 文件? kubeconfig 文件是 Kubernetes 的配置文件,用于存储集群的访问凭证、API Server 的地址和认证信息,允许用户和 kubectl 等工具与 Kubernetes 集群进行交互。它通常包含多个集群的配置,支持通过上下文&am…

【工业场景】用YOLOv8实现火灾识别

火灾识别任务是工业领域急需关注的重点安全事项,其应用场景和背景意义主要体现在以下几个方面: 应用场景:工业场所:在工厂、仓库等工业场所中,火灾是造成重大财产损失和人员伤亡的主要原因之一。利用火灾识别技术可以及时发现火灾迹象,采取相应的应急措施,保障人员安全和…

(2025)深度分析DeepSeek-R1开源的6种蒸馏模型之间的逻辑处理和编写代码能力区别以及配置要求,并与ChatGPT进行对比(附本地部署教程)

(2025)通过Ollama光速部署本地DeepSeek-R1模型(支持Windows10/11)_deepseek猫娘咒语-CSDN博客文章浏览阅读1k次,点赞19次,收藏9次。通过Ollama光速部署本地DeepSeek-R1(支持Windows10/11)_deepseek猫娘咒语https://blog.csdn.net/m0_70478643/article/de…

【自然语言处理】TextRank 算法提取关键词、短语、句(Python源码实现)

文章目录 一、TextRank 算法提取关键词 [工具包]二、TextRank 算法提取关键短语[工具包]三、TextRank 算法提取关键句[工具包]四、TextRank 算法提取关键句(Python源码实现) 一、TextRank 算法提取关键词 [工具包] 见链接 【自然语言处理】TextRank 算法…

记一次Self XSS+CSRF组合利用

视频教程在我主页简介或专栏里 (不懂都可以来问我 专栏找我哦) 目录:  确认 XSS 漏洞 确认 CSRF 漏洞 这个漏洞是我在应用程序的订阅表单中发现的一个 XSS 漏洞,只能通过 POST 请求进行利用。通常情况下,基于 POST 的…

JDBC如何连接数据库

首先,我们要去下载JDBC的驱动程序 官网下载地址:https://downloads.mysql.com/archives/c-j/ 选择最新版本就可以 然后回到我们idea点击file - project Structure - Modules, 就行了 参考1:如何解决JDBC连接数据库出现问题且对进行数据库操…

AI语言模型的技术之争:DeepSeek与ChatGPT的架构与训练揭秘

云边有个稻草人-CSDN博客 目录 第一章:DeepSeek与ChatGPT的基础概述 1.1 DeepSeek简介 1.2 ChatGPT简介 第二章:模型架构对比 2.1 Transformer架构:核心相似性 2.2 模型规模与参数 第三章:训练方法与技术 3.1 预训练与微调…

网络安全威胁是什么

1.网络安全威胁的概念 网络安全威胁指网络中对存在缺陷的潜在利用,这些缺陷可能导致信息泄露、系统资源耗尽、非法访问、资源被盗、系统或数据被破坏等。 2.网络安全威胁的类型 物理威胁系统漏洞威胁身份鉴别威胁线缆连接威胁有害程序危险 (1&#x…

驱动开发、移植(最后的说法有误,以后会修正)

一、任务明确:把创龙MX8的驱动 按照我们的要求 然后移植到 我们的板子 1.Linux系统启动卡制作, sd卡 先按照 《用户手册—3-2-Linux系统启动卡制作及系统固化》 把创龙的Linux系统刷进去。 2. 把TLIMX8-EVM的板子过一遍 把刚刚烧好系统的sd卡插入 创…

归并排序(C# C++)

目录 1 归并排序的基本概念 2 算法步骤 2-1 分解阶段 2-2 合并阶段 3 代码实现 3-1 C#代码示例(该代码在unity环境下) 3-2 C代码示例 1 归并排序的基本概念 归并排序(Merge Sort)是一种经典的分治算法,由约翰…

如何使用智能化RFID管控系统,对涉密物品进行安全有效的管理?

载体主要包括纸质文件、笔记本电脑、优盘、光盘、移动硬盘、打印机、复印机、录音设备等,载体(特别是涉密载体)是各保密、机要单位保证涉密信息安全、防止涉密信息泄露的重要信息载体。载体管控系统主要采用RFID射频识别及物联网技术&#xf…

华为云kubernetes基于keda自动伸缩deployment副本(监听redis队列长度)

1 概述 KEDA(Kubernetes-based Event-Driven Autoscaler,网址是https://keda.sh)是在 Kubernetes 中事件驱动的弹性伸缩器,功能非常强大。不仅支持根据基础的CPU和内存指标进行伸缩,还支持根据各种消息队列中的长度、…

入选TPAMI2025!傅里叶变换+目标检测新突破!

今天给大家推荐一个目标检测,好发不卷的新思路:与傅里叶变换结合! 一方面,不仅能提升检测的准确性和可靠性,还能增强模型的通用性和适应性,灵活应对复杂场景。比如TPAMI25的FSD模型,便通过该方…

物联网智能语音控制灯光系统设计与实现

背景 随着物联网技术的蓬勃发展,智能家居逐渐成为现代生活的一部分。在众多智能家居应用中,智能灯光控制系统尤为重要。通过语音控制和自动调节灯光,用户可以更便捷地操作家中的照明设备,提高生活的舒适度与便利性。本文将介绍一…

等级保护2.0|网络安全服务

等级保护2.0|网络安全服务 定义 对于国家秘密信息、法人和其他组织及公民专有信息以及公开信息的存储、传输、处理这些信息系统分等级实行安全保护,对信息系统中发生的信息安全时间分等级响应、处置。 思想 对信息安全实行等级化保护和等级化管理 目标 突出重…

安科瑞光伏发电防逆流解决方案——守护电网安全,提升能源效率

安科瑞 华楠 18706163979 在当今大力发展清洁能源的时代背景下,光伏发电作为一种可持续的能源解决方案, 正得到越来越广泛的应用。然而,光伏发电过程中出现的逆流问题,给电网的安全稳定 运行带来了诸多挑战。若不能有效解决&…

Web第二次作业_补充完小鹅通首页(静态)

目录 题目 index css style 解题 技术优势 html css 运营服务 html css 小鹅通 html css 咨询 html css 友情链接、公司信息 html css 效果展示 技术优势 运营服务 小鹅通 咨询 友情链接、公司信息 题目 index <!DOCTYPE html> <html lang…

碳纤维复合材料制造的六西格玛管理实践:破解高端制造良率困局的实战密码

碳纤维复合材料制造的六西格玛管理实践&#xff1a;破解高端制造良率困局的实战密码 在全球碳中和与高端制造升级的双重驱动下&#xff0c;碳纤维复合材料行业正经历前爆发式增长。航空航天、新能源汽车、风电叶片等领域对碳纤维产品的性能稳定性提出近乎苛刻的要求&#xff0…