ECCV 2024 | 深入探索GAN先验，哈工大、清华提出模型反演新方案

介绍

模型反演（MI）攻击的目的是利用输出信息从已发布的模型中重建隐私敏感的训练数据，这引起了人们对深度神经网络（DNNs）安全性的广泛关注。近年来，生成对抗网络（GANs）因其强大的图像生成能力，对模型反演攻击的性能做出了重大贡献。

然而，以往的模型反演攻击只在 GAN 先验的隐空间中搜索私有信息，这限制了它们在语义提取和在多个目标模型和数据集上的可转移性。为了解决这一挑战，我们提出了一种新的方法——中间特征增强的生成式模型反演攻击（IF-GMI），它可以分解 GAN 结构并利用中间块之间的特征。这允许我们将优化空间从输入隐空间扩展到具有增强的表达能力的中间特征。

为了防止 GAN 先验生成不真实的图像，该攻击在优化过程中应用了球约束。在多个基准测试上的实验表明，该方法显著优于先前的攻击策略，特别是在分布外（OOD）场景中。

论文标题：

A Closer Look at GAN Priors: Exploiting Intermediate Features for Enhanced Model Inversion Attacks

作者单位：

哈尔滨工业大学（深圳）、清华大学

论文链接：

https://arxiv.org/pdf/2407.13863

Github链接：

https://github.com/final-solution/IF-GMI

动机

近年来，深度神经网络（DNNs）经历了前所未有的发展，并在广泛的应用中取得了巨大的成功，包括人脸识别、个性化推荐和音频识别等。虽然深度神经网络给我们带来了许多实际的好处，但与之相关的对隐私和安全的关注也引起了极大的关注。

最近的研究表明，深度神经网络存在一定的隐私泄露风险，因为对手可以从这些预先训练过的模型中揭示隐私信息 [1]。其中，模型反演攻击由于其恢复收集和用于模型训练的隐私敏感数据集的强大能力而构成极大的威胁。

虽然近年来基于 GAN 的模型反演攻击在恢复高质量和隐私敏感的图像方面取得了很大的进展，但在某些情况下的有效性有限。一个典型的挑战是分布外场景，在这个场景中，目标私有数据集和在 GAN 先验训练过程中使用的公共数据集之间存在显著的分布偏移。

近年来，一些研究表明，GAN 的隐向量和中间特征中编码着丰富的语义信息。受这些工作的启发，我们通过经验观察到，中间特征中编码的丰富语义信息有助于在更严格的设置下充分恢复高质量的私有数据，因此，有必要探索利用 GAN 的内在分层知识到 MI 攻击中的方法，从而缓解分布偏移问题。

方法

2.1 攻击场景

在本文中，我们主要关注在白盒设置下的 MI 攻击。该设置下，攻击者可获知目标模型的所有信息，包括结构、权重、输出等。我们主要关注图像分类任务，攻击者旨在利用目标分类器的输出预测置信度和其他辅助先验来重建给定身份的代表性隐私面部图像。

2.2 模型反演攻击流程

在基于 GAN 的模型反演攻击中，攻击者使用和目标私有数据集结构相似的公开数据集来训练专门设计的 GAN，或者利用公共预先训练的 GAN（本文使用预训练的 StyleGAN2-Ada）。在攻击过程中，攻击者通过如下公式优化生成器的输入隐向量，优化后的隐向量对应的生成图片即为重建的图像。

其中，是目标身份的类别，是所攻击的目标分类器，是分类损失（本文使用庞加莱损失），是图像先验损失。

2.3 具体方法

本文主要从优化过程对模型反演攻击进行改进，该过程主要分为初始化选择和中间层特征搜索优化两个部分，流程如图 1 所示。

▲ 图1 IF-GMI 算法流程

2.4 初始化选择

隐向量的初始采样具有随机性，并且部分隐向量难以优化到较好的重建结果，导致攻击精度下降。为此，本文采用初始化选择技术对隐向量进行初始化选择。具体来说，我们首先采样大量隐向量并生成图像，进行一系列数据增强变换，并输入目标分类器获得相应置信度分数。通过选择得分较高的潜在向量进行进一步的优化，我们可以显著提高最终图像的质量，从而更好地接近目标分布。

2.5 中间层特征搜索优化

从直观上看，直接优化 GAN 先验的输入隐向量是获得理想重建图像的一种自然方法，这也是以往所有基于 GAN 的攻击方法采取的策略。然而，最近的研究表明，除了输入的隐向量外，GANs 的中间特征中存在相当丰富的语义信息。例如对 StyleGAN [2] 而言，前面一部分层主要控制图像的高层次结构，如脸型、发型等；后面一部分层主要控制图像的细节。

这促使我们超越了仅仅搜索输入隐空间的局限性，提出了一种更关注更接近输出的中间特征域的新方法，伪代码如图 2 所示。

▲ 图2 IF-GMI 算法伪代码

我们首先参照以往的方法，对初始化后的输入隐向量进行优化，然后，将生成器从输入端到输出端依次分割成从到总共个层，对每个层，其输入为上一层的输出向量以及该层对应的输入向量，我们将这两个向量作为剩余层的输入，得到生成的图片，输入目标分类器并得到分类损失，更新这两个向量。

在更新过程中，我们使用球限制向量更新幅度，以免生成不真实的图像。经过轮的中间特征迭代后，我们获取的生成结果即为反演的结果。

实验

4.1 中间层搜索层数 L

我们在公共数据集为 FFHQ，目标模型为在 CelebA 数据集上训练的 DenseNet-169 模型的实验设置上，对不同的中间层搜索层数进行实验和比较，如图 3 所示。结果表明，中间层搜索的层数过小或者过大都会影响攻击效果。当较小时，存在欠拟合的现象；当过大时，会导致某些细节对目标模型过拟合，并产生不真实的图像。因而在实验中选取适中的进行。

▲ 图3 不同中间层搜索层数的攻击准确率及可视化

4.2 标准设置

我们在常见的高分辨率 FFHQ 与 MetFaces 两个公有数据集设置上进行实验，攻击目标为在 FaceScrub 私有数据集上训练的 ResNet-152。其中，FFHQ 与私有数据集的分布偏移较小，MetFaces的分布偏移较大。对比的基线主要有 GMI [3]，KEDMI [4]，PPA [5]，LOMMA [6]，PLGMI [7]。

表 1 结果表明，我们的方法的攻击效果显著优于以前的攻击算法，特别是分布偏移情况较大的情况下，以往的方法攻击效果遭受大幅度的下滑，而我们的方法仍能够保持很好的攻击效果。同时，由图 4 可知我们生成的图片具有更高的高保真度。

▲ 表1 针对在 FaceScrub 私有数据集上训练的 ResNet-152 的攻击结果

▲ 图4 针对在 FaceScrub 私有数据集上训练的 ResNet-152 的重建图片

4.3 不同的数据集和目标模型

在标准设置外，我们对不同私有数据集以及不同架构的目标模型的设置下进行实验，并与高分辨率下当前最好的攻击算法 PPA [5] 进行比较。对于前者，我们将私有数据集修改为 CelebA，结果如表 2 所示；对于后者，我们分别对 ResNet-152，ResNeSt-101，DenseNet-169 三种目标模型进行攻击，结果如表 3 所示。对于所有设置，我们的攻击准确率与特征距离指标均优于 PPA [5]。

▲ 表2 以 CelebA 为私有数据集的攻击结果

▲ 表3 在不同架构的目标模型上的攻击结果

4.4 消融实验

我们在公共数据集为 FFHQ，目标模型为在 CelebA 数据集上训练的 ResNet-152 模型的实验设置上进行消融实验，结果如表 4 所示。其中 IF-GMI- 表示去除中间层搜索，IF-GMI- 表示不使用球限制，IF-GMI 为标准方法。结果表明，中间层搜索能够很好地提高攻击的正确率；而球限制对所有指标均有一定的提升效果。

▲ 表4 消融实验结果

结论

我们提出了一种在分布外场景下行之有效的模型反演攻击方法 IF-GMI，将优化空间从输入隐空间扩展到中间特征，生成稳定、高质量的图像。此外，为了避免产生低保真度的图像，我们在优化过程中应用了球限制。

大量的实验表明，我们所提出的 IF-GMI 在生成高保真度和多样性的样本的同时，达到了最好的攻击效果。我们对 GAN 先验中中间特性的增强利用的探索有助于模型反演攻击领域的发展。我们希望本文能够引起人们对已发布的预训练模型的隐私泄漏风险的关注，更多地应对模型反演攻击的威胁。

参考文献

[1] Fang, H., Qiu, Y., Yu, H., Yu, W., Kong, J., Chong, B., Chen, B., Wang, X., Xia, S.T.: Privacy leakage on dnns: A survey of model inversion attacks and defenses. arXiv preprint arXiv:2402.04013 (2024)

[2] Karras, T., Laine, S., Aittala, M., Hellsten, J., Lehtinen, J., Aila, T.: Analyzing and improving the image quality of stylegan. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 8110–8119 (2020)

[3] Zhang, Y., Jia, R., Pei, H., Wang, W., Li, B., Song, D.: The secret revealer: Generative model-inversion attacks against deep neural networks. In: CVPR (2020)

[4] Chen, S., Kahla, M., Jia, R., Qi, G.J.: Knowledge-enriched distributional model inversion attacks. In: ICCV (2021)

[5] Struppek, L., Hintersdorf, D., Correira, A.D.A., Adler, A., Kersting, K.: Plug & play attacks: Towards robust and flexible model inversion attacks. In: ICML (2022)

[6] Nguyen, N.B., Chandrasegaran, K., Abdollahzadeh, M., Cheung, N.M.: Re-thinking model inversion attacks against deep neural networks. In: CVPR. pp. 16384–16393 (2023)

[7] Yuan, X., Chen, K., Zhang, J., Zhang, W., Yu, N., Zhang, Y.: Pseudo label-guided model inversion attack via conditional generative adversarial network. In: AAAI (2023)

更多阅读