Understanding and Increasing Efficiency of Frank-Wolfe Adversarial Training

news2024/12/24 3:59:35

AT存在灾难性的过拟合,在训练过程中对抗精度下降,尽管已经提出了改进,但它们增加了训练时间,鲁棒性与多步 AT 相去甚远。我们开发了一个使用 FW 优化 (FW-AT) 进行对抗训练的理论框架,揭示了损失情况与 ℓ∞ FW 攻击的 ℓ2 失真之间的几何联系。我们分析表明,FW 攻击的高失真相当于攻击路径上的小梯度变化。然后在各种深度神经网络架构上通过实验证明,针对鲁棒模型的 ℓ∞ 攻击实现了接近最大的失真,而标准网络具有较低的失真。实验表明,灾难性过拟合与 FW 攻击的低失真密切相关。这种数学透明度将 FW 与投影梯度下降 (PGD) 优化区分开来。为了证明我们的理论框架的实用性,我们开发了 FW-AT-Adapt,这是一种新颖的对抗性训练算法,它使用简单的失真度量来调整训练期间的攻击步骤数量,从而在不影响鲁棒性的情况下提高效率。 FW-AT-Adapt 提供与单步快速 AT 方法相当的训练时间,并缩小了快速 AT 方法和多步 PGD-AT 之间的差距,同时在白盒和黑盒设置中的对抗精度损失最小。

文章主要贡献:

•我们根据经验证明,针对鲁棒模型的FW攻击在各种网络架构中实现了接近最大的失真。
•我们的经验表明,即使只有2个步骤,FW攻击的失真也与灾难性过度拟合密切相关。
•推导出了将FW攻击的失真与攻击路径上的梯度变化相关的理论保证,这意味着通过几个步骤计算的高失真攻击会导致损失的增加。
•受失真和攻击路径梯度变化之间的联系启发,我们提出了一种自适应步长Frank Wolfe对抗性训练算法FW-AT-ADAPT,与单步AT相比,该算法实现了卓越的鲁棒性/训练时间权衡,并在针对强白盒和黑盒攻击进行评估时,弥补了此类方法与多步AT变体之间的差距。

Background and Previous Work

AT:训练分类器的流行方式是通过经验风险最小化ERM:

使用ERM原理(1)训练神经网络在测试集上提供了高精度,但使网络容易受到对抗性攻击。
最流行和有效的防御措施之一是对抗性训练(AT)[20],它不使用ERM原则,而是将对抗性风险降至最低。

 为了在给定的输入x处构建对抗性攻击,这些防御使用投影梯度下降(PGD)来使用固定数量的步骤来近似受约束的内部最大化。PGD使用迭代更新计算对抗性扰动:

 该方法的计算成本主要取决于用于近似内部最大化的步骤数,因为K步PGD近似最大化涉及通过网络的K个正向反向传播。虽然使用较少的PGD步骤可以降低这一成本,但这些步骤会导致较弱的攻击,从而导致梯度混淆,这是一种现象,网络通过使损失场景高度非线性和不太鲁棒的模型来学习抵御基于梯度的攻击。许多防御已经被证明可以被新的攻击所规避,而对抗性训练已经被证明能够保持最先进的鲁棒性。这种性能仅通过半监督方法得到改善。

Frank Wolfe(FW)优化算法起源于凸优化,尽管最近已证明在更一般的设置中表现良。该方法首先优化原始问题的线性近似,称为线性最大化Oracle(LMO)

 

 我们提出了Frank Wolfe对抗训练(FW-AT),它用Frank Wolfe优化器代替PGD内部优化。FW-AT实现了与其PGD对应物类似的鲁棒性。使用FW攻击路径的封闭形式表达式,我们导出了攻击失真和沿攻击路径的损失梯度变化之间的几何关系。这一关键见解导致FW-AT的简单修改,其中每个时期的步长根据ℓ2攻击的失真,并且被证明可以减少训练时间,同时提供强大的鲁棒性而不会遭受灾难性的过度拟合。

许多快速AT方法依赖于单个梯度步长,这可能导致灾难性的过度拟合(CO),这是一种现象,即模型对多步攻击的性能收敛到一个较高的值,但随后突然下降。这表明该模型对单步训练攻击的权重过拟合

Multi-step High Distortion Attacks are Inefficient

我们分析FW攻击失真的主要工具,FW-AT在数学上比PGD-AT更透明的一个主要原因,是将FW攻击表示为LMO迭代的凸组合。我们将优化过程中采取的步骤称为攻击路径。

定理1: Higher distortion is equivalent to lower gradient variation throughout the attack path.(较高的失真相当于整个攻击路径的较低梯度变化。)

 

具体地说,攻击的每一步之间符号变化的累积减少了失真。在极度扭曲攻击的极端情况下,这意味着攻击位于ℓ∞ 在进攻路径上的任何一步之间,球的梯度符号可能没有变化。因此,每个步骤都是恒定的,攻击相当于FW(1)攻击或FGSM。这在图1中以图形方式进行了说明。进一步遵循这一逻辑,我们能够根据最终失真来量化不同阶跃攻击之间的距离。

定理2:Multi-step attacks with high distortion are inefficient.(具有高失真的多级攻击是低效的。) 

这表明,在FW-AT期间,使用大量步骤来近似对抗性风险,一旦达到攻击的高失真,就会导致回报减少,因为最后一步将接近早期步骤。另一个方向也是正确的:
受到低失真扰动攻击的模型可以从更多步骤的训练中受益 

Frank-Wolfe Adversarial Training Algorithm

算法2中提供了自适应弗兰克·沃尔夫对抗训练方法(FW-AT-ADAPT)的伪码。对PGD-AT进行了以下修改:

(i)使用FW优化方案(算法1)计算对抗攻击

(ii)对于每个历元的前Bm批,监测FW(2)攻击的失真。如果这些批次的平均失真高于阈值r,则攻击步骤K的数量在历元的剩余时间内降至K/2。或者,如果它低于r,则K增加2

 虽然深度神经网络中的损失函数L(fθ(x+δ),y)通常是非凸的,但我们做出以下假设

 

 界限(9)断言,在高失真设置中,由高阶FW攻击获得的梯度以及因此的权重更新接近于低阶FW进攻的梯度。因此,期望使用所提出的自适应算法实现类似水平的对抗鲁棒性。

Choosing the Target Distortion Ratio

推论1告诉我们,FW(2)的失真是x处和FGSM攻击时损失梯度的符号变化比数的函数。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/100543.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue - vue中的publicPath讲解

vue.config.js里面的publicPath是部署应用包时的基本 URL; 从 Vue CLI 3.3 起baseUrl已被publicPath替代; 如果想要了解vue的环境变量 process.env 可以阅读这篇文章: vue中的process.env.NODE_ENV讲解 1,publicPath publicPath是…

七、ref引用与数组的常用方法

一、ref 引用 1.1、什么是 ref 引用 ref 用来辅助开发者在不依赖于jQuery的情况下,获取 DOM 元素或组件的引用。 每个vue的组件实例上,都包含一个$refs对象,里面存储着对应的 DOM 元素或组件的引用。默认情况下,组件的$refs指向…

语音识别芯片LD3320介绍

语音识别芯片LD3320简介 LD3320 芯片是一款“语音识别”芯片,集成了语音识别处理器和一些外部电路,包括AD、DA 转换器、麦克风接口、声音输出接口等。LD3320不需要外接任何的辅助芯片如Flash、RAM 等,直接集成在LD3320中即可以实现语音识别/声控/人机对…

黑*头条_第6章_kafka及异步通知文章上下架(新版)

黑*头条_第6章_kafka及异步通知文章上下架(新版) 文章目录黑*头条_第6章_kafka及异步通知文章上下架(新版)1)自媒体文章上下架2)kafka概述3)kafka安装配置4)kafka入门5)kafka高可用设计5.1)集群5.2)备份机制(Replication)6)kafka生产者详解6.1)发送类型6.2)参数详解…

Linux|Ubuntu-18.04上安装discord(二进制安装)

前言: Discord是由两个沉迷游戏的玩家为了解决游戏种玩家交流问题而开发的一个语音聊天软件,它从游戏社交起家。 起初,Discord被定义为“永远在线的聊天室”,专门为游戏玩家设计,可以简单快捷的加入或退出某个群聊进…

【图像去雾】颜色衰减先验图像去雾【含Matlab源码 2036期】

⛄一、颜色衰减先验去雾算法简介 2015年Zhu等的颜色衰减先验去雾算法利用颜色衰减先验建立有雾图像的景深模型, 采用有监督学习的方式得到模型的参数, 结合大气散射模型得到去雾图像。具体内容如下: 1 大气散射模型 Zhu等的颜色衰减先验去雾算法利用计算机视觉和图形图像领域…

大开眼界的4款电脑软件,其中3款大小不到10M,功能却逆天

闲话少说,直上狠货,大开眼界。 1、Ocam录屏 Ocam是一款完全免费的录屏软件,大小仅有9M,功能却非常强大,界面简洁,操作简单一键录制,4k分辨率视频录制时,即便办公电脑配置不高&#x…

我国海洋油气行业勘探力度加大 整体探明程度有待提高 未来储量产量增长潜力仍很大

1、我国海洋油气资源储量情况 根据观研报告网发布的《2022年中国海洋油气市场分析报告-市场发展监测与发展动向预测》显示,根据全国第四次油气调查数据,海洋石油剩余技术可采储量占中国石油剩余技术可采储量的34%;海洋天然气剩余技术可采储量…

二叉搜索树详解

1.二叉搜索树的概念 二叉搜索树又称二叉排序树,它或者是一颗空树,或者是具有以下性质的二叉树: 若它的左子树不为空,则左子树上所有节点的值都小于根节点的值若它的右子树不为空,则右子树上所有的节点的值都大于根节点…

执行pip安装时,如何解决:Unknown or unsupported command install

目录 解决方案1:卸载LoadRunner——显然是不可行的 解决方案2:全路径执行pip 解决方案3:镜像 解决方案4:镜像更新 遇到这种情况一般都是因为已经安装了LoadRunner导致电脑上同时安装了多个pip,执行时,系…

LabVIEW如何以编程方式获取克隆VI名称?

LabVIEW如何以编程方式获取克隆VI名称?如何使用克隆VI名称关闭特定的克隆VI? 调用正在运行的VI服务器引用。 放置一个调用节点,然后选择“打开”前面板>>。 使用属性节点检查VI是否为克隆VI>>。 使用属性节点>>克隆名称…

Java安全--CC2

cc2其实都是建立在我们写的基础之上,只不过路走的不一样罢了,我们可以看一下CC2是怎么走的,我用颜色标出了: 其实就是之前都学过的几个类。 前面代码都和CC4一样 public class CC2 {public static void main(String[] args) thro…

2023春招面试题:Java并发相关知识

1.基础知识回顾 1.1 什么是多线程? 在没有线程的年代,在同一个进程中,程序的处理流程都是顺序的,下一个流程的开始必须等待上 一个流程的结束,如果其中某一个流程非常耗时,那么会影响整个流程的处理时间…

学习.NET MAUI Blazor(一)、Blazor是个啥?

先把Blazor放一边,先来看看目前Web开发的技术栈。 注:上图只是为了说明问题,没有任何语言歧视! 这是目前最常用的前后端分离开发模式,这个开发模式需要配备前端工程师和后端工程师。当然了,全栈工程师另当…

GNN Algorithms(2): GCN, Graph Convolutional Network

GCN Algorithm Essence: 传统的卷积运算无法在graph上进行运算,所有借由傅里叶变换Fourier Transformation实现在graph上的卷积运算,得到graph convolution,退出GCN(graph convolutional network)。 Background graph embedding&#xff1…

mysql优化——mycat数据库中间件

文章目录 目录 文章目录 前言 一、mycat原理 二、mycat完成读写分离 2.1搭建MySQL的主从模式 2.2实现读写分离 三、mycat垂直分库 四、水平分表 五、水平拆分表的连表操作 六、全局表 总结 前言 Mycat是数据库中间件,所谓中间件,是一类连接软件组件和应用的计算机软件,以…

CUDA入门和网络加速学习(三)

0. 简介 最近作者希望系统性的去学习一下CUDA加速的相关知识,正好看到深蓝学院有这一门课程。所以这里作者以此课程来作为主线来进行记录分享,方便能给CUDA网络加速学习的萌新们去提供一定的帮助。 1. CUDA中的Stream和Event 1.1 CUDA stream CUDA s…

蓝桥杯C/C++百校真题赛(1期)Day4题解(左孩子右兄弟、作物杂交)

Q1 左孩子右兄弟 f[u]表示以u为根转化而成的二叉树(以下简称二叉树)的最大高度f[u]max(f[ji])cnt[u]−11,ji是u的所有儿子,cnt[u]表示原树中u的儿子个数。因为以u为根的二叉树肯定由u的一个儿子为根的二叉树构成来作为他的左半部假设f[jt]是最大的那个,那…

A Joint Neural Model for Information Extraction with Global Features论文解读

A Joint Neural Model for Information Extraction with Global Features code:BLENDER Lab | Software (illinois.edu)或者GerlinGreen/OneIE: Forked from OneIE: A Joint Neural Model for Information Extraction with Global Features (github.com) paper&…

超宽带UWB无线技术,厘米级测距定位,精准位置确定方案应用

UWB标签和锚点之间的双向测距测量它们的相对距离,这种方法用于例如安全访问应用程序,其中将根据标签设备的接近程度授予访问权限。 UWB不能被简单的中继攻击欺骗,因为它的距离测量不是基于信号强度,而是基于时间,中继…