【深度学习】李宏毅2021/2022春深度学习课程笔记 - Adversarial Attack（恶意攻击）

news2026/2/13 18:45:25

文章目录

一、基本概念
- 1.1 动机
- 1.2 恶意攻击的例子
- 1.3 如何攻击？
二、White Box vs Black Box
三、One Pixel Attack
四、Universal Adversarial Attack
五、Beyond Image
六、Attack in the Physical World
七、Adversarial Reprogramming
八、Backdoor in Model
九、防御
- 9.1 被动防御
- 9.2 主动防御

一、基本概念

1.1 动机

当我们训练的模型正式上线后，面对的数据分布可能和训练时的数据分布不太一样，甚至会有一些攻击者会尝试用一些虚假的数据来骗过我们的模型。例如，在用AI技术过滤垃圾邮件的问题中，AI的目标是将垃圾邮件识别出来并且过滤掉，而垃圾邮件的发送者为了躲避AI的识别，也会采取一些策略去试图欺骗AI。这就是恶意攻击的由来。

在这里插入图片描述

1.2 恶意攻击的例子

如下图所示，假设原始图片输入模型，模型输出是 Tiger Cat，那么恶意攻击者就希望在原始图片上增加一些杂讯，来改变模型的输出。一般，根据恶意攻击者的意图可分为两种恶意攻击：

有目标的恶意攻击：希望增加了杂讯后，模型输出一个预想的类别
无目标的恶意攻击：希望增加了杂讯后，模型输出的类别和原来不一样即可

在这里插入图片描述

恶意攻击真的可行吗？下面是一个具体的例子，我们采用的网络模型是50层的ResNet，这并不是一个很弱的模型。当输入正常图片的时候，模型给出的输出是Tiger Cat，并且具有0.64的置信分数，在加入了一些人类肉眼看不到的杂讯后，模型给出的输出居然就变成了 Star Fish，而且置信分数还高达1.00！这也太不可思议了。

在这里插入图片描述

为了证明左右两个图片是真的不同，我们可以将其做减法，然后放大50倍，如下图所示，可以看出两个图其实真的是有差异的

在这里插入图片描述

还有更离谱的，在加了另外的杂讯后，模型居然认为图片中的是 Keyboard，由此可见，恶意攻击对模型的影响真的是非常大呀！

在这里插入图片描述

1.3 如何攻击？

无目标攻击希望加了杂讯后网络的输出与没加杂讯时网络的输出相差越大越好
有目标攻击希望加了杂讯后的网络的输出与目标输出越接近越好
无论是有目标攻击还是无目标攻击，杂讯都不能太大，不能被人类肉眼观察到

在这里插入图片描述

下面介绍了计算两个图片之间距离的两个方法。但是一般来说，L-infinity可能更加符合实际人类对图像的观察习惯，我们一般只在意差别最大像素块。

在这里插入图片描述

为了实现杂讯不要太大这一个约束，如下图所示，我们可以在梯度下降后，对新的参数进行clip操作，将其限制在与原图相差较小的范围内

在这里插入图片描述

还有一个方法被称为FGSM，它通过一个sign函数，将梯度调整为±1，这样一来，参数的更新就相当于固定步长。

在这里插入图片描述

传统的FGSM是单步结束的，但是我们也可以进行迭代更新，但是迭代的话就要处理超过范围的情况了。如下图所示：

在这里插入图片描述

二、White Box vs Black Box

之前讲的都是白盒攻击，也就是说我们可以获取到要攻击的模型的参数。但是现实中，大部分情况我们都只有模型的API可以调用，我们不知道模型的具体参数，这种情况下对模型进行攻击，就被称为黑盒攻击

在这里插入图片描述

如何进行黑盒攻击呢？假设我们知道要被攻击的模型的训练资料，那么我们可以用一样的训练资料训练出一个和要被攻击的模型很相似的模型，然后用白盒攻击的方法攻击相似的模型，再用对相似模型攻击有效的带有杂讯的数据去攻击真正要攻击的模型，这时候成功率就会比较高。

在这里插入图片描述

黑盒攻击其实还是蛮容易成功的，如下图所示，即使最差的情况，失败率也只有39%，说明攻击的成功率还是挺高的

在这里插入图片描述

下图所示，横轴依然代表真实模型，而纵轴代表除了该模型以外的4个模型。可以看到，最高的失败率也只有6%，所以说当数据可以骗过4个模型的时候，它能骗过真实模型的概率就会很大！

在这里插入图片描述

为什么攻击那么容易成功？有人做了研究，推测原因可能出现在训练资料上，而非模型上。在有限的资料上，模型学到的特征就是这样，没有办法。

在这里插入图片描述

三、One Pixel Attack

One Pixel Attack 要求只能改变图像中的一个像素点，就可以使得模型识别出错

在这里插入图片描述

四、Universal Adversarial Attack

Universal Adversarial Attack 指找到一个通用的杂讯，这个杂讯加到大多数图片上，都能使得模型识别出错

在这里插入图片描述

五、Beyond Image

当然，恶意攻击不止存在于图像领域。如下图所示，恶意攻击还存在于语音识别和问答系统领域。
在语音识别中，我们的任务是识别出哪些语音是机器合成的，恶意攻击的目标就是让模型认为机器合成的语音是人的语音。
在问答系统中，我们的任务是根据所给的文章和问题，正确地回答问题。恶意攻击的目标就是让模型错误的回答问题

在这里插入图片描述

六、Attack in the Physical World

前面说的，都是在图片上加上一些杂讯，然后试图导致模型输出错误的结果。其实，在真实世界中，我们也可以通过化妆、佩戴一些特定的装饰来攻击模型。如下图所示：男人带上特制的眼镜后，机器就认为他是右边的女人了，是不是很离谱？

在这里插入图片描述

七、Adversarial Reprogramming

Adversarial Reprogramming 指的是我们可以像僵尸一样寄生在别人的模型上，让别人的模型为我们服务。例如下图所示，我们想实现一个模型可以识别图中有几个方块，这时候我们可以寄生与一个分类模型上，当它输出tench时代表图中有1个方块，输出goldfish时代表图中有2个方块，以此类推。

在这里插入图片描述