前言:图像描述对抗攻击旨在通过攻击正常的图像描述模型,为正常输入图像添加扰动得到对抗样本,使得正常模型输出目标句子或目标关键词,现将当前相关工作大致汇总如下。本综述初写于2022年8月29日。
部分相关工作介绍
Shekhar 等在 [1] 中指出,图像描述模型并未很好的捕捉模态之间的关系,作者通过在MSCOCO数据集上添加图像错误描述,构造 FOIL-COCO 数据集,并在描述分类、异常单词检测和异常单词修正三个角度进行实验,验证了图像描述模型的缺陷所在,这为后续图像描述攻击工作的开展奠定基础。文中使用多模态双向LSTM (Bi-LSTM)模型进行实验。
Chen等人 [2] 为研究语言模型在机器视觉感知领域对对抗扰动的鲁棒性,提出Show-and-Fool方法,通过构造对抗样本,误导模型生成随机选择的描述或关键词。攻击模型选择Show-and-Tell模型,分别对定向描述和定向关键词场景构造对抗样本图像。
源码详见 https://github.com/huanzhang12/ImageCaptioningAttack
Ji等[5]通过对正常图像描述进行目标单词去除的方式构造对抗样本,同时保证残留描述的质量,设计的损失函数如下:
其中, L r e m L_{rem} Lrem保证目标单词的出现频率足够低, L a c c L_{acc} Lacc保证残留描述的质量, L f i l L_{fil} Lfil确保添加扰动后生成的描述不会引入多余的视觉噪声。即目标物体。最后一项用来控制生成扰动的程度,确保对抗样本的视觉质量。
作者还提出攻击质量的评价指标,在确保残留描述与原描述质量相同的同时,保证攻击成功率足够高。其定义如下,其中 A R AR AR是通过计算BLEU、CIDEr等评价指标得出, S R SR SR为攻击成功率,只有当任何目标单词都不出现在生成描述中才算攻击成功。
Zhang等[7]通过在复数域设计损失函数(如下图),使用词嵌入添加扰动的方式生成对抗样本,对抗样本对应的语义向量作为损失函数的虚部,原图对应的语义向量作为损失函数的实部,设计的损失函数如下:
其中 L b L_{b} Lb项保证对抗样本与原图尽可能相似。文中选取Show-and-Tell模型,能够成功实现词级和句子级别的白盒和黑盒攻击,性能优于Show-and-Fool方法[2],并验证了生成的对抗样本的迁移性。
Chen 等另辟蹊径,在 [10] 中首次提出将生成效率作为攻击的目标,并设计一种 NLCGSlowDown 方法,尽可能生成长句,降低生成效率。
总结与展望
综上所述,就生成的准确性与相关性而言,由于模态间的语义信息难以对齐,跨模态生成模型生成的效果难以保证;与此同时,生成任务的特殊性使其在特定场景下的生成效率颇受关注。现有工作也主要是在生成相关性与生成效率这两方面开展研究。目前,针对多模态任务的安全性研究也在陆续展开,如跨模态模型的生成幻觉问题(参见此篇博客)以及跨模态模型的文本隐写问题。
后记:由于个人的研究方向变更,后续不再跟进本领域相关工作,本综述引用的参考文献只更新至2022年。
参考文献
- Ravi Shekhar, et al. FOIL it! Find One mismatch between Image and Language caption, ACL, 2017.
- Hongge Chen et al. Attacking Visual Language Grounding with Adversarial Examples: A Case Study on Neural Image Captioning, ACL, 2018.
- Xiaojun, Xu, et al. Fooling Vision and Language Models Despite Localization and Attention Mechanism, CVPR, 2018.
- Yan, Xu, et al. Exact Adversarial Attack to Image Captioning via Structured Output Learning with Latent Variables, CVPR, 2019.
- Jiayi Ji, et al. Attacking Image Captioning Towards Accuracy-Preserving Target Words Removal, ACM MM, 2020.
- Malhar Jere et al. Scratch that! An Evolution-based Adversarial Attack against Neural Networks, arXiv, 2020.
- Shaofeng Zhang, et al. Fooled by imagination: Adversarial Attack to Image Captioning via Perturbation in Complex Domain, ICME, 2020.
- Akshay Chaturvedi and Utpal Garain. Mimic and Fool: A Task-Agnostic Adversarial Attack, TNNLS, 2021.
- Nayyer Aafaq, et al. Controlled Caption Generation for Images Through Adversarial Attacks, arXiv, 2021.
- Simin Chen et al. NICGSlowDown: Evaluating the Efficiency Robustness of Neural Image Caption Generation Models, CVPR, 2022.
- Mirazul Haque, et al. CorrGAN: Input Transformation Technique Against Natural Corruptions, CVPR workshops, 2022.
- Hanjie Wu, et al. Learning Transferable Perturbations for Image Captioning, TOMCCAP, 2022.