ICLR2017 | Ens | 深入研究可迁移的对抗样本和黑盒攻击

Delving Into Transferable Adversarial Examples And Black-Box Attacks

摘要-Abstract
引言-Introduction
对抗深度学习和可迁移性-Adversarial Deep Learning And Transferability
- 对抗深度学习问题
- 生成对抗样本的方法
- 评估方法
非目标性对抗样本-Non-Targeted Adversarial Examples
- 优化方法
- 快速梯度方法
- 与随机扰动比较
目标性对抗样本-Targeted Adversarial Examples
- 优化方法
- 快速梯度方法
- 随机噪声方法
Ensemble-Based Approaches
- 基于集成模型的方法原理
- 优化方法的实验与结果
- 快速梯度方法的实验与结果
不同模型的几何特性-Geomertic Peoperties Of Different Models
- 模型梯度方向
- 单模型非目标性方法的决策边界
- 集成模型目标性方法的决策边界
真实世界样本: 针对Clarifai.com的对抗样本-Real World Example: Adversarial Examples For Clarifai.com
- 实验设置
- 实验结果
结论-Conclusion
- 研究总结
- 研究成果

论文链接

本文 “Delving Into Transferable Adversarial Examples And Black-Box Attacks” 首次在ImageNet模型上广泛研究对抗样本可迁移性，表明现有方法对非目标性攻击有效，但目标攻击方法难生成可迁移样本，提出基于集成模型的方法，首次实现大量目标对抗样本迁移；首次展示为ImageNet训练模型生成的目标对抗样本可迁移至未知的Clarifai.com黑盒系统；首次分析ImageNet大模型几何性质，发现不同模型梯度方向正交等现象；新方法在生成非目标可迁移对抗样本方面表现更优。

摘要-Abstract

An intriguing property of deep neural networks is the existence of adversarial examples, which can transfer among different architectures. These transferable adversarial examples may severely hinder deep neural network-based applications. Previous works mostly study the transferability using small scale datasets. In this work, we are the first to conduct an extensive study of the transferability over large models and a large scale dataset, and we are also the first to study the transferability of targeted adversarial examples with their target labels. We study both non-targeted and targeted adversarial examples, and show that while transferable non-targeted adversarial examples are easy to find, targeted adversarial examples generated using existing approaches almost never transfer with their target labels. Therefore, we propose novel ensemble-based approaches to generating transferable adversarial examples. Using such approaches, we observe a large proportion of targeted adversarial examples that are able to transfer with their target labels for the first time. We also present some geometric studies to help understanding the transferable adversarial examples. Finally, we show that the adversarial examples generated using ensemble-based approaches can successfully attack Clarifai.com, which is a black-box image classification system.

深度神经网络的一个有趣特性是存在对抗样本，这些样本可以在不同架构之间迁移。这些可迁移的对抗样本可能会严重阻碍基于深度神经网络的应用。先前的工作大多使用小规模数据集研究可迁移性。在这项工作中，我们首次对大规模模型和大规模数据集上的可迁移性进行了广泛研究，并且也是首次研究带有目标标签的目标对抗样本的可迁移性。我们研究了非目标和目标对抗样本，并表明虽然可迁移的非目标对抗样本很容易找到，但使用现有方法生成的目标对抗样本几乎从未与其目标标签一起迁移。因此，我们提出了基于集成的新颖方法来生成可迁移的对抗样本。使用这些方法，我们首次观察到很大比例的目标对抗样本能够与其目标标签一起迁移。我们还进行了一些几何研究以帮助理解可迁移的对抗样本。最后，我们表明使用基于集成的方法生成的对抗样本可以成功攻击Clarifai.com，这是一个黑盒图像分类系统。

引言-Introduction

该部分主要介绍了深度神经网络中对抗样本的相关研究背景、现有研究的不足以及本文的研究内容和贡献，具体如下：

对抗样本的存在及影响：深度神经网络存在对抗样本，即与原始样本接近但会被误分类的样本，其可能对基于视觉理解的应用（如自动驾驶）产生严重后果。
可迁移性研究现状及局限
- 一些研究表明对抗样本具有可迁移性，可用于黑盒攻击，但此前多在MNIST、CIFAR - 10等小数据集上研究，在大规模数据集（如ImageNet）上的可迁移性尚未得到充分理解。
- 现有黑盒攻击方法多需构造替代模型，且存在训练集和测试集受攻击者控制、数据集规模小等问题。
本文研究内容与贡献
- 对不同对抗样本生成策略在大规模数据集训练的不同模型上的可迁移性进行广泛研究，包括非目标性和目标性对抗样本。
- 发现现有方法生成可迁移非目标性对抗样本相对容易，但生成可迁移目标对抗样本困难，进而提出基于集成的方法，首次实现大量目标性对抗样本的迁移。
- 首次展示为ImageNet训练模型生成的目标性对抗样本可迁移至未知的Clarifai.com黑盒系统。
- 首次对ImageNet大模型进行几何性质分析，揭示不同模型梯度方向正交等现象，有助于理解可迁移对抗样本。

对抗深度学习和可迁移性-Adversarial Deep Learning And Transferability

该部分主要介绍了对抗深度学习问题、生成对抗样本的方法以及评估这些方法的实验设置，具体内容如下：

对抗深度学习问题

分类器 $f_{\theta}(x)$ 输出预测类别（或标签），对抗深度学习问题是为该分类器寻找对抗样本。
非目标对抗样本 $x^{*}$ 接近 $x$ 且应与 $x$ 有相同真实标签，但 $f_{\theta}(x^{*})≠y$ ；目标对抗样本 $x^{*}$ 接近 $x$ 且满足 $f_{\theta}(x^{*}) = y^{*}$ ， $y^{*}$ 是攻击者指定的目标标签且 $y^{*}≠y$ 。

生成对抗样本的方法

生成非目标对抗样本的方法
- 优化方法：通过近似求解优化问题 $\arg\min_{x^{*}} \lambda d\left(x, x^{*}\right)-\ell\left(1_{y}, J_{\theta}\left(x^{*}\right)\right)$ 来寻找非目标对抗样本，其中 $1_{y}$ 是真实标签 $y$ 的独热编码， $\ell$ 是衡量预测与真实标签距离的损失函数（本文选择 $\ell(u, v)=\log (1 - u \cdot v)$ ）， $\lambda$ 平衡距离约束和误分类约束，通过Adam优化器优化目标，可通过调整Adam学习率和 $\lambda$ 控制生成的对抗样本。
- 快速梯度符号法（FGS）：Goodfellow提出的方法，仅需计算一次梯度即可生成对抗样本，通过 $x^{*} \leftarrow clip\left(x + B sgn\left(\nabla_{x} \ell\left(1_{y}, J_{\theta}(x)\right)\right)\right)$ 构造非目标对抗样本， $c l i p (x)$ 用于将 $x$ 的每个维度裁剪到像素值范围（本文为 $[0, 255]$ ），本文选择 $\ell(u, v)=\log (1 - u \cdot v)$ 。
- 快速梯度法（FG）：与FGS类似，但沿梯度方向移动，构造方式为 $x^{*} \leftarrow clip\left(x + B \frac{\nabla_{x} \ell\left(1_{y}, J_{\theta}(x)\right)}{\left\| \nabla_{x} \ell\left(1_{y}, J_{\theta}(x)\right)\right\| }\right)$ ，假设距离度量 $x^{*})=\left\|x - x^{*}\right\|$ 是 $x - x^{*}$ 的范数，通过将FGS中的 $sgn(\nabla_{x} \rho)$ 替换为 $\frac{\nabla_{x} \ell}{\left\|\nabla_{x} \ell\right\|}$ 来满足距离约束，FGS和FG统称为快速梯度方法。
生成目标对抗样本的方法
- 优化方法：通过求解对偶目标 $\arg\min_{x^{*}} \lambda d\left(x, x^{*}\right)+\ell'\left(1_{y^{*}}, J_{\theta}\left(x^{*}\right)\right)$ 近似生成目标对抗样本，本文选择标准交叉熵损失 $\ell'(u, v)=-\sum_{i} u_{i} \log v_{i}$ 。
- FGS和FG方法：构造方式分别为 $x^{*} \leftarrow clip\left(x - B sgn\left(\nabla_{x} \ell'\left(1_{y^{*}}, J_{\theta}(x)\right)\right)\right)$ （FGS）和 $x^{*} \leftarrow clip\left(x - B \frac{\nabla_{x} \ell'\left(1_{y^{*}}, J_{\theta}(x)\right)}{\left\| \nabla_{x} \ell'\left(1_{y^{*}}, J_{\theta}(x)\right)\right\| }\right)$ （FG），其中 $\ell'$ 与优化方法中使用的相同。

评估方法

模型选择：检查五个网络，即ResNet - 50、ResNet - 101、ResNet - 152、GoogLeNet和VGG - 16，从网上获取预训练模型，选择这些模型以研究同质架构（如ResNet模型）和异质架构之间的可迁移性。
数据集选择：从ILSVRC 2012验证集中随机选择100张能被所有五个模型正确分类的图像作为测试集，为进行目标性攻击，手动为每张图像选择一个语义上远离真实标签的目标标签，评估中使用的图像和目标标签可在指定网站找到。
测量指标
- 可迁移性测量：对于非目标性对抗样本，通过计算为一个模型生成的对抗样本在另一个模型上正确分类的百分比（准确率）来衡量可迁移性，准确率越低表示可迁移性越好；对于目标对抗样本，通过计算为一个模型生成的对抗样本被另一个模型分类为目标标签的百分比（匹配率）来衡量可迁移性，匹配率越高表示可迁移性越好，报告结果基于top - 1准确率，top - 5准确率的结果可在附录中找到。
- 失真测量：使用均方根偏差（RMSD）衡量对抗图像与原始图像之间的失真，计算公式为 $d(x^{*}, x)=\sqrt{\sum_{i}(x_{i}^{*}-x_{i})^{2} / N}$ ，其中 $x^{*}$ 和 $x$ 是对抗图像和原始图像的向量表示， $N$ 是维度， $x_{i}$ 和 $x_{i}^{*}$ 分别表示原始图像和对抗图像第 $i$ 维的像素值（范围在 $[0, 255]$ ）。

非目标性对抗样本-Non-Targeted Adversarial Examples

该部分主要研究了不同方法生成非目标性对抗样本的情况，包括优化方法、快速梯度方法（FG和FGS），并与随机扰动方法进行了比较，具体内容如下：

优化方法

参数调整与实验设置：使用Adam优化器初始化 $x^{*}$ 为 $x$ 来优化目标函数，发现可通过调整Adam学习率和 $\lambda$ 控制生成对抗样本的RMSD，当 $\lambda = 0$ 时，Adam优化器能在 $x$ 周围搜索对抗样本，虽小RMSD对抗样本能欺骗目标模型但迁移性差，于是增加学习率（设为4）运行100次迭代生成对抗图像，观察到损失收敛。
实验结果与分析
- 生成的非目标性对抗样本在不同模型间的迁移性表现（表1 A）：对角线上的值为0，表明为一个模型生成的对抗图像能误导该模型本身；大量为一个模型生成的对抗图像可迁移到其他模型；不同ResNet模型间对抗样本迁移性无明显优势，如为VGG - 16生成的对抗样本在ResNet - 50上的准确率低于为ResNet - 152或ResNet - 101生成的对抗样本在ResNet - 50上的准确率。

快速梯度方法

有效性与可迁移性研究（FG）
- 控制RMSD实验：通过选择超参数 $B$ 生成与优化方法RMSD几乎相同的对抗图像，FG生成的对抗样本在不同模型上的对角值均为正，意味着不能完全误导模型，但非对角值与优化方法可比或更小，表明FG生成的非靶向对抗样本也具有可迁移性。
- 寻找最小可迁移RMSD实验：通过线性搜索（采样 $B$ ，步长为0.1）近似最小可迁移RMSD，发现FG和FGS都能找到100%可迁移对抗图像，FG能生成RMSD更小的可迁移攻击，原因是FG最小化 $L_{2}$ 范数（与RMSD成比例），而FGS最小化 $L_{\infty}$ 范数。
有效性与可迁移性研究（FGS）：FGS生成的对抗图像迁移性比FG和优化方法差，当RMSD约为23时，FGS生成的对抗图像准确率高于FG，但可迁移性更差，推测原因与FGS最小化 $L_{\infty}$ 范数有关。

在这里插入图片描述
表1：在成对模型之间生成的非靶向对抗图像的可迁移性。第一列表示为相应行中的模型生成的所有对抗图像的平均均方根偏差（RMSD）。单元格 $(i, j)$ 表示为模型 $i$ （行）生成的对抗图像在模型 $j$ （列）上评估的准确率。top - 5准确率的结果可在附录（表8和表10）中找到.

在这里插入图片描述
图1：使用快速梯度法（FG）（a）和快速梯度符号法（FGS）（b）从VGG - 16到ResNet - 152的最小可迁移RMSD的累积分布函数（CDF）。绿线标记了最小可迁移RMSD的中位数，红线标记了达到90%比例时的最小可迁移RMSD.

与随机扰动比较

通过向测试集中的100张图像添加高斯噪声（标准差从5到40，步长为5）进行实验，发现随机扰动方法的“迁移性”明显比优化方法和快速梯度方法差，当标准差为25时，平均RMSD与前两者方法生成的对抗样本可比，但模型准确率仍高于66%。

目标性对抗样本-Targeted Adversarial Examples

该部分主要研究了目标性对抗样本的可迁移性，通过使用优化方法和快速梯度方法（FG和FGS）生成目标性对抗样本，并在不同模型上进行评估，同时与添加随机噪声的方法进行对比，结果表明现有方法难以生成可迁移的目标性对抗样本，具体内容如下：

优化方法

实验过程与结果：使用优化方法生成目标性对抗样本，发现这些样本在用于生成的模型上能匹配目标标签，但在其他模型上很难被预测为目标标签，即目标标签不迁移。即使增加失真度，目标标签的迁移性也没有改善。计算基于top - 5准确率的匹配率时，最高也仅为10%。

快速梯度方法

实验结果分析：使用FG和FGS生成的靶向对抗样本同样存在目标标签不迁移的问题。大多数目标性对抗图像甚至不能误导生成它们的模型预测目标标签，无论使用多大的失真度。推测原因是快速梯度方法仅在一维子空间中搜索攻击，该子空间中可能的预测标签子集较小，通常不包含目标标签。

随机噪声方法

实验结论：通过向图像添加高斯噪声并评估其在模型上的匹配率，发现所有模型的匹配率均为0%，这表明通过添加随机噪声无法生成成功的目标性对抗样本，更谈不上目标可迁移性。

在这里插入图片描述
表2：使用基于优化的方法生成的靶向对抗图像的匹配率。第一列表示生成的对抗图像的平均均方根偏差（RMSD）。单元格 $(i, j)$ 表示为模型 $i$ （行）生成的靶向对抗图像在模型 $j$ （列）上评估时的匹配率。top - 5结果可在附录（表12）中找到.

Ensemble-Based Approaches

该部分提出了基于集成模型的方法来生成对抗样本，包括优化方法和快速梯度方法，并对其有效性进行了评估，展示了该方法在提高靶向和非靶向对抗样本迁移性方面的优势，具体内容如下：

基于集成模型的方法原理

基本思想是为多个模型生成对抗图像，以提高对抗样本在不同模型间的迁移性。对于给定的 $k$ 个白盒模型（其softmax输出为 $J_1, \cdots, J_k$ ）、原始图像 $x$ 及其真实标签 $y$ ，在靶向攻击时，通过解决优化问题 $\arg\min_{x *}-\log \left(\left(\sum_{i = 1}^{k} \alpha_{i} J_{i}\left(x^{*}\right)\right) \cdot 1_{y^{*}}\right)+\lambda d\left(x, x^{*}\right)$ 来生成对抗样本，其中 $y^{*}$ 是目标标签， $\sum \alpha_{i} J_{i}(x^{*})$ 是集成模型， $\alpha_{i}$ 是集成权重且 $\sum_{i = 1}^{k} \alpha_{i}=1$ 。非靶向攻击的目标函数可类似推导。

优化方法的实验与结果

目标性对抗样本实验
- 实验设置：将五个模型中的每个模型依次视为黑盒模型进行攻击，为其余四个模型的集成生成对抗图像（使用Adam优化器，学习率为8，集成权重相等），然后在所有五个模型上评估生成的对抗图像。
- 实验结果：首次观察到很大比例的目标性对抗图像的目标标签能够迁移，但并非所有目标性对抗图像都能被集成中使用的模型误分类为目标标签，这表明在为集成模型搜索对抗样本时，没有直接监督来误导集成中的任何单个模型预测目标标签。同时，观察到向ResNet模型的迁移性优于向VGG - 16或GoogLeNet的迁移性。
非目标性对抗样本实验：使用与目标性版本类似的过程（仅目标函数不同）生成非目标性对抗图像，评估结果显示生成的对抗图像几乎完全可迁移，RMSD约为17，低于使用单个模型的优化方法生成的对抗样本（22 - 23），在未用于生成攻击的模型上评估时，准确率不超过6%，而单个模型方法的准确率至少为12%，表明该方法能生成几乎完美可迁移的非目标性对抗图像。

在这里插入图片描述
表3：使用基于优化的方法生成的靶向对抗图像的匹配率。第一列表示生成的对抗图像的平均均方根偏差（RMSD）。单元格 $(i, j)$ 表示为除模型 $i$ （行）之外的四个模型的集成生成的靶向对抗图像被模型 $j$ （列）预测为目标标签的百分比。在每一行中，减号“−”表示在生成攻击时不使用该行的模型。top - 5匹配率的结果可在附录（表13）中找到.

在这里插入图片描述
表4：使用基于优化的方法生成的非靶向对抗图像的准确率。第一列表示生成的对抗图像的平均均方根偏差（RMSD）。单元格 $(i, j)$ 对应于使用除模型 $i$ （行）之外的四个模型生成的攻击在模型 $j$ （列）上评估时的准确率。在每一行中，减号“−”表示在生成攻击时不使用该行的模型。top - 5准确率的结果可在附录（表14）中找到.

快速梯度方法的实验与结果

非目标性对抗样本实验：将非目标性快速梯度方法（FG和FGS）应用于集成模型，结果显示对角值不为零，与应用于单个模型时类似，推测原因是集成中不同模型的梯度方向正交，导致搜索方向与每个模型的梯度方向几乎正交，可能需要较大失真才能找到对抗样本。
目标性对抗样本实验：基于集成模型使用FG和FGS生成的目标性对抗样本，其迁移性并不比使用单个模型生成的更好，推测原因是在一维子空间中总可能的目标标签数量较少。

不同模型的几何特性-Geomertic Peoperties Of Different Models

该部分主要研究了不同模型的几何性质，包括模型梯度方向、决策边界等，以更好地理解可迁移对抗样本，具体内容如下：

模型梯度方向

通过计算不同模型梯度方向之间的余弦值，发现对于大多数图像，不同模型的梯度方向几乎正交（非对角值接近0），这表明不同模型在优化过程中的搜索方向差异较大。

单模型非目标性方法的决策边界

决策区域分析：选择VGG - 16的梯度方向和一个随机正交方向构成二维平面，每个点对应添加噪声后的图像，观察不同模型在该平面上的决策区域。发现所有模型正确预测区域集中在中心区域，沿梯度方向模型易被误导，且三个ResNet模型沿梯度方向首次误分类标签多为“orange”。但在远离原始图像的区域，不同模型（包括ResNet模型间）预测标签不同。
决策边界对齐与区域数量：不同模型的决策边界在平面上对齐良好，这部分解释了非目标性对抗图像可在模型间迁移的原因。同时，在该平面上每个模型最多有21个不同区域，仅占ImageNet总类别（1000个）的2.1%，意味着大部分标签在该平面不存在目标性对抗样本，解释了快速梯度方法难以找到目标性对抗图像的原因。此外，VGG - 16模型决策平面存在对应真实标签的小“洞”，可能导致小失真的非目标性对抗图像不迁移，其他模型无此情况。

在这里插入图片描述
图2：用于研究决策边界的示例图像。它在ILSVRC 2012验证集中的ID为49443，其真实标签为“海葵鱼”.

图3：不同模型的决策区域。我们为所有绘图选择相同的两个方向：一个是VGG - 16的梯度方向（x轴），另一个是随机正交方向（y轴）。跨度平面上的每个点显示通过向原始图像添加噪声而生成的图像的预测标签（例如，原点对应于原始图像的预测标签）。两个轴的单位均为1个像素值。所有子图使用相同颜色表示相同标签来绘制跨度平面上的区域。图像见图2.

在这里插入图片描述
表5：在图3所描述的同一平面内每个模型所有可能的预测标签数量.

图4：将所有点都被分类为真实标签（由每个闭合曲线包围的区域）与其他区域分开的决策边界。该平面与图3中描述的平面相同。坐标平面的原点对应于原始图像。两个轴的单位均为1个像素值.

集成模型目标性方法的决策边界

选择集成模型（除ResNet - 101外的所有模型）的目标性对抗方向和一个随机正交方向构成平面，绘制决策边界。结果显示，集成模型中四个模型预测为目标标签的区域对齐良好，未用于生成对抗图像的ResNet - 101也有部分区域预测被误导为目标标签，但面积较小，且各模型区域中心几乎相同。这表明集成模型生成的目标性对抗样本在不同模型间具有一定的一致性和可迁移性。

在这里插入图片描述
图5：将所有点都被分类为目标标签（由各闭合曲线包围的区域）与其他区域分隔开的决策边界。该平面由靶向对抗方向和一个随机正交方向所构成。靶向对抗方向是通过图2中的原始图像与基于优化方法为一个集成模型所生成的对抗图像之间的差值来计算的。该集成模型包含除ResNet101之外的所有模型。坐标平面的原点对应于原始图像。两个坐标轴的单位均为1个像素值.

真实世界样本: 针对Clarifai.com的对抗样本-Real World Example: Adversarial Examples For Clarifai.com

该部分主要介绍了将生成的对抗样本应用于攻击Clarifai.com这一真实世界案例的实验过程与结果，具体内容如下：

实验设置

目标系统与数据准备：Clarifai.com是提供图像分类服务的公司，其模型、训练数据集和标签集对攻击者均未知，仅能黑盒访问其服务。从ILSVRC 2012验证集中选取的100张原始图像提交给Clarifai.com，其返回的标签经主观判断为正确。同时准备了400张对抗图像，其中200张为靶向对抗样本（100张由基于VGG - 16的优化方法生成，100张由基于除ResNet - 152外所有模型集成的优化方法生成），200张为非靶向对抗样本（分别由基于VGG - 16和基于模型集成的方法生成）。

实验结果

非目标性对抗样本：由VGG - 16和模型集成方法生成的非靶向对抗样本大多能成功迁移到Clarifai.com，使分类结果错误。
目标性对抗样本
- 大部分目标性对抗样本能误导Clarifai.com预测与真实标签无关的标签，其中基于VGG - 16生成的有57%成功，基于模型集成生成的有76%成功。
- 基于模型集成生成的目标性对抗样本中有18%能使Clarifai.com预测的标签在语义上接近目标标签，而基于VGG - 16生成的仅有2%。考虑到攻击Clarifai.com时目标模型标签与攻击者使用模型的标签不同，使用集成模型方法仍能使相当比例的目标性对抗样本误导黑盒模型做出与目标标签语义相似的预测，这一结果令人惊讶。所有结果均基于主观判断，并在文中提供了部分示例。

在这里插入图片描述

表6：在Clarifai.com上评估的原始图像和对抗图像。对于Clarifai.com返回的标签，我们首先按照稀有程度（即一个标签在所有对抗图像和原始图像的Clarifai.com结果中出现的次数）对标签进行排序，其次按照置信度排序。仅提供排名前五的标签.

结论-Conclusion

该部分对整个研究工作进行了总结，强调了本文在对抗样本可迁移性研究方面的重要发现、提出方法的有效性以及对黑盒系统攻击的成果，具体内容如下：

研究总结

首次在大模型和大规模数据集上广泛研究了不同方法生成的非目标性和目标性对抗样本的可迁移性。
证实非目标性对抗样本在大模型和大规模数据集上具有显著的可迁移性。
发现现有方法难以生成可迁移的目标性对抗样本，但提出的基于集成模型的方法能以高成功率生成可迁移的目标性对抗样本，且在生成非目标性可迁移对抗样本方面表现优于先前工作。