文献综述｜针对图像描述模型的对抗样本攻击

news2025/2/23 5:12:26

前言：图像描述对抗攻击旨在通过攻击正常的图像描述模型，为正常输入图像添加扰动得到对抗样本，使得正常模型输出目标句子或目标关键词，现将当前相关工作大致汇总如下。本综述初写于2022年8月29日。

部分相关工作介绍

Shekhar 等在 [1] 中指出，图像描述模型并未很好的捕捉模态之间的关系，作者通过在MSCOCO数据集上添加图像错误描述，构造 FOIL-COCO 数据集，并在描述分类、异常单词检测和异常单词修正三个角度进行实验，验证了图像描述模型的缺陷所在，这为后续图像描述攻击工作的开展奠定基础。文中使用多模态双向LSTM (Bi-LSTM)模型进行实验。

在这里插入图片描述

Chen等人 [2] 为研究语言模型在机器视觉感知领域对对抗扰动的鲁棒性，提出Show-and-Fool方法，通过构造对抗样本，误导模型生成随机选择的描述或关键词。攻击模型选择Show-and-Tell模型，分别对定向描述和定向关键词场景构造对抗样本图像。

源码详见 https://github.com/huanzhang12/ImageCaptioningAttack

Ji等[5]通过对正常图像描述进行目标单词去除的方式构造对抗样本，同时保证残留描述的质量，设计的损失函数如下：
在这里插入图片描述

其中， $L_{rem}$ 保证目标单词的出现频率足够低， $L_{acc}$ 保证残留描述的质量， $L_{fil}$ 确保添加扰动后生成的描述不会引入多余的视觉噪声。即目标物体。最后一项用来控制生成扰动的程度，确保对抗样本的视觉质量。

在这里插入图片描述

作者还提出攻击质量的评价指标，在确保残留描述与原描述质量相同的同时，保证攻击成功率足够高。其定义如下，其中 $A R$ 是通过计算BLEU、CIDEr等评价指标得出， $SR$ 为攻击成功率，只有当任何目标单词都不出现在生成描述中才算攻击成功。

在这里插入图片描述

Zhang等[7]通过在复数域设计损失函数（如下图），使用词嵌入添加扰动的方式生成对抗样本，对抗样本对应的语义向量作为损失函数的虚部，原图对应的语义向量作为损失函数的实部，设计的损失函数如下：

在这里插入图片描述

其中 $L_{b}$ 项保证对抗样本与原图尽可能相似。文中选取Show-and-Tell模型，能够成功实现词级和句子级别的白盒和黑盒攻击，性能优于Show-and-Fool方法[2]，并验证了生成的对抗样本的迁移性。

图2 复数域对抗扰动示意图

Chen 等另辟蹊径，在 [10] 中首次提出将生成效率作为攻击的目标，并设计一种 NLCGSlowDown 方法，尽可能生成长句，降低生成效率。
在这里插入图片描述

总结与展望

综上所述，就生成的准确性与相关性而言，由于模态间的语义信息难以对齐，跨模态生成模型生成的效果难以保证；与此同时，生成任务的特殊性使其在特定场景下的生成效率颇受关注。现有工作也主要是在生成相关性与生成效率这两方面开展研究。目前，针对多模态任务的安全性研究也在陆续展开，如跨模态模型的生成幻觉问题（参见此篇博客）以及跨模态模型的文本隐写问题。

后记：由于个人的研究方向变更，后续不再跟进本领域相关工作，本综述引用的参考文献只更新至2022年。

参考文献

Ravi Shekhar, et al. FOIL it! Find One mismatch between Image and Language caption, ACL, 2017.
Hongge Chen et al. Attacking Visual Language Grounding with Adversarial Examples: A Case Study on Neural Image Captioning, ACL, 2018.
Xiaojun, Xu, et al. Fooling Vision and Language Models Despite Localization and Attention Mechanism, CVPR, 2018.
Yan, Xu, et al. Exact Adversarial Attack to Image Captioning via Structured Output Learning with Latent Variables, CVPR, 2019.
Jiayi Ji, et al. Attacking Image Captioning Towards Accuracy-Preserving Target Words Removal, ACM MM, 2020.
Malhar Jere et al. Scratch that! An Evolution-based Adversarial Attack against Neural Networks, arXiv, 2020.
Shaofeng Zhang, et al. Fooled by imagination: Adversarial Attack to Image Captioning via Perturbation in Complex Domain, ICME, 2020.
Akshay Chaturvedi and Utpal Garain. Mimic and Fool: A Task-Agnostic Adversarial Attack, TNNLS, 2021.
Nayyer Aafaq, et al. Controlled Caption Generation for Images Through Adversarial Attacks, arXiv, 2021.
Simin Chen et al. NICGSlowDown: Evaluating the Efficiency Robustness of Neural Image Caption Generation Models, CVPR, 2022.
Mirazul Haque, et al. CorrGAN: Input Transformation Technique Against Natural Corruptions, CVPR workshops, 2022.
Hanjie Wu, et al. Learning Transferable Perturbations for Image Captioning, TOMCCAP, 2022.