原文:[2207.05382] Frequency Domain Model Augmentation for Adversarial Attack (arxiv.org)
代码:https://github.com/yuyang-long/SSA.
黑盒攻击替代模型与受攻击模型之间的差距通常较大,表现为攻击性能脆弱。基于同时攻击不同模型可以提高对抗样本的迁移性观察,提出了利用变换后的图像模拟不同模型的模型增强方法。然而,现有的空间域转换并不能转化为显著多样化的增强模型。为了解决这个问题,我们提出了一种新的频谱模拟攻击,以针对正常训练和防御模型制作更多的可转移的对抗样本,具体地说,我们对输入应用频谱变换,从而在频域执行模型增强。我们从理论上证明了从频域导出的变换会导致一个多样化的频谱显著图,这是我们提出的一个反映替代模型多样性的指标。值得注意的是,我们的方法通常可以与现有的攻击相结合。
文章主要贡献:
1)我们发现,从空间域变换得到的增强模型没有显著的多样性,这可能限制了对抗性示例的可移植性。
2)为了克服这一局限性,我们引入了频谱显著图(基于频域视角)来研究模型之间的差异。受到我们发现的启发,我们提出了一种新的频谱模拟攻击,以有效地缩小替代模型和受害者模型之间的差距。
3)在ImageNet数据集上的大量实验突出了我们提出的方法的有效性。值得注意的是,与最先进的基于转移的攻击相比,我们的方法将正常训练模型的攻击成功率提高了6.3% ~ 12.2%,将防御模型的攻击成功率提高了5.6% ~ 23.1%。
Preliminaries
对抗样本的生成可以表示为以下优化问题:
由于参数不达,故直接优化等式(1)是不现实的,为了克服这一限制,一种常见的做法是通过可访问的替代模型制作对抗样本,并依赖可转移性来欺骗受攻击的模型,如I-FGSM,迭代t+1次时的对抗样本可以表示为:
Spectrum Saliency Map
从频域角度引入频谱显著性图,因为图像在频域的表示有一个固定的模式 。而且不同迭饿模型在做决策时通常依赖于每个输入图像的不同频率成分。
文章从频域角度探讨了模型之间的相关性,采用DCT将输入图像x从空间域变换到频域。DCT的数学定义可以简化为:
A是一个正交矩阵。从形式来看,振幅较高的低频分量往往集中在频谱的左上角,高频分量位于剩余的区域,本文提出了一个频谱显著图来挖掘不同模型的敏感点,其定义为:
表示IDCT,它可以将输入图像从频域恢复到空域。DCT和IDCT都是无损的,
无损:报损变换就是图像进行变换了之后,损失函数没有太大变换
根据之前的可视化,作者观察到,感兴趣的频率成分通常因模型而异。因此,频谱显著性图可以作为一个指标来反映一个特定的模型。
Spectrum Transformation
上述分析激励我们,如果我们可以用与被攻击模型相似的频谱显著图来模拟增强模型,则替代模型和被攻击者模型之间的差距可以显著缩小,对抗样本可以更好地转移。
引理1:
定理1表明,有可能以矩阵变换的形式使两个矩阵(注意频谱显著性图的本质也是一个矩阵)相等。然而,被攻击模型的频谱显著性图在黑箱设置下通常无法获得。此外,替代模型的频谱显著性图是高维的,不保证是可逆的。
为了解决这一问题,我们提出了一种随机谱变换T(·),将矩阵乘法分解为矩阵加法和阿达玛乘积,得到不同的谱。具体来说,结合DCT/IDCT,我们的T(·)可以表示为:
从形式上看, T(⋅) 能够产生多样化的频谱显著性图,能够反映替代模型的多样性,同时,缩小与受害者模型的差距。如上图所示,以前提出的空域的变换(即b和c)对产生多样化的频谱显著性地图不太有效,这可能导致较弱的模型增强。相比之下,通过本文提出的频谱变换,产生的频谱显著性图(即a)几乎可以覆盖其他模型的所有图。
Spectrum Simulation Attack
本文提出的攻击方法称为(频谱模拟迭代快速梯度符号方法)
算法大概分为三个步骤:
step1(3-6):将频谱变换 T(⋅) 应用于输入图像,使从替代模型得到的梯度 与从新模型得到的结果大致相等,即模型增强;
step2(7):对N 个增强的模型的梯度进行平均,以获得一个更稳定的更新方向 g′;
step3(8):更新