文献综述|针对图像描述模型的对抗样本攻击

news2024/11/20 20:19:47

前言:图像描述对抗攻击旨在通过攻击正常的图像描述模型,为正常输入图像添加扰动得到对抗样本,使得正常模型输出目标句子或目标关键词,现将当前相关工作大致汇总如下。本综述初写于2022年8月29日。


部分相关工作介绍

Shekhar 等在 [1] 中指出,图像描述模型并未很好的捕捉模态之间的关系,作者通过在MSCOCO数据集上添加图像错误描述,构造 FOIL-COCO 数据集,并在描述分类、异常单词检测和异常单词修正三个角度进行实验,验证了图像描述模型的缺陷所在,这为后续图像描述攻击工作的开展奠定基础。文中使用多模态双向LSTM (Bi-LSTM)模型进行实验。

在这里插入图片描述

Chen等人 [2] 为研究语言模型在机器视觉感知领域对对抗扰动的鲁棒性,提出Show-and-Fool方法,通过构造对抗样本,误导模型生成随机选择的描述或关键词。攻击模型选择Show-and-Tell模型,分别对定向描述和定向关键词场景构造对抗样本图像。

源码详见 https://github.com/huanzhang12/ImageCaptioningAttack

Ji等[5]通过对正常图像描述进行目标单词去除的方式构造对抗样本,同时保证残留描述的质量,设计的损失函数如下:
在这里插入图片描述

其中, L r e m L_{rem} Lrem保证目标单词的出现频率足够低, L a c c L_{acc} Lacc保证残留描述的质量, L f i l L_{fil} Lfil确保添加扰动后生成的描述不会引入多余的视觉噪声。即目标物体。最后一项用来控制生成扰动的程度,确保对抗样本的视觉质量。

在这里插入图片描述

作者还提出攻击质量的评价指标,在确保残留描述与原描述质量相同的同时,保证攻击成功率足够高。其定义如下,其中 A R AR AR是通过计算BLEU、CIDEr等评价指标得出, S R SR SR为攻击成功率,只有当任何目标单词都不出现在生成描述中才算攻击成功。

在这里插入图片描述

Zhang等[7]通过在复数域设计损失函数(如下图),使用词嵌入添加扰动的方式生成对抗样本,对抗样本对应的语义向量作为损失函数的虚部,原图对应的语义向量作为损失函数的实部,设计的损失函数如下:

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

其中 L b L_{b} Lb项保证对抗样本与原图尽可能相似。文中选取Show-and-Tell模型,能够成功实现词级和句子级别的白盒和黑盒攻击,性能优于Show-and-Fool方法[2],并验证了生成的对抗样本的迁移性。

图2 复数域对抗扰动示意图

Chen 等另辟蹊径,在 [10] 中首次提出将生成效率作为攻击的目标,并设计一种 NLCGSlowDown 方法,尽可能生成长句,降低生成效率。
在这里插入图片描述


总结与展望

综上所述,就生成的准确性与相关性而言,由于模态间的语义信息难以对齐,跨模态生成模型生成的效果难以保证;与此同时,生成任务的特殊性使其在特定场景下的生成效率颇受关注。现有工作也主要是在生成相关性与生成效率这两方面开展研究。目前,针对多模态任务的安全性研究也在陆续展开,如跨模态模型的生成幻觉问题(参见此篇博客)以及跨模态模型的文本隐写问题。

后记:由于个人的研究方向变更,后续不再跟进本领域相关工作,本综述引用的参考文献只更新至2022年。


参考文献

  1. Ravi Shekhar, et al. FOIL it! Find One mismatch between Image and Language caption, ACL, 2017.
  2. Hongge Chen et al. Attacking Visual Language Grounding with Adversarial Examples: A Case Study on Neural Image Captioning, ACL, 2018.
  3. Xiaojun, Xu, et al. Fooling Vision and Language Models Despite Localization and Attention Mechanism, CVPR, 2018.
  4. Yan, Xu, et al. Exact Adversarial Attack to Image Captioning via Structured Output Learning with Latent Variables, CVPR, 2019.
  5. Jiayi Ji, et al. Attacking Image Captioning Towards Accuracy-Preserving Target Words Removal, ACM MM, 2020.
  6. Malhar Jere et al. Scratch that! An Evolution-based Adversarial Attack against Neural Networks, arXiv, 2020.
  7. Shaofeng Zhang, et al. Fooled by imagination: Adversarial Attack to Image Captioning via Perturbation in Complex Domain, ICME, 2020.
  8. Akshay Chaturvedi and Utpal Garain. Mimic and Fool: A Task-Agnostic Adversarial Attack, TNNLS, 2021.
  9. Nayyer Aafaq, et al. Controlled Caption Generation for Images Through Adversarial Attacks, arXiv, 2021.
  10. Simin Chen et al. NICGSlowDown: Evaluating the Efficiency Robustness of Neural Image Caption Generation Models, CVPR, 2022.
  11. Mirazul Haque, et al. CorrGAN: Input Transformation Technique Against Natural Corruptions, CVPR workshops, 2022.
  12. Hanjie Wu, et al. Learning Transferable Perturbations for Image Captioning, TOMCCAP, 2022.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/955126.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【使用DataEase数据可视化分析工具访问cpolar】

DataEase 是开源的数据可视化分析工具,帮助用户快速分析数据并洞察业务趋势,从而实现业务的改进与优化。是开源的数据可视化分析工具,帮助用户快速分析数据并洞察业务趋势,从而实现业务的改进与优化。 在本地搭建后,借助cpolar 内…

阿里云国际站不想自己充值怎么办?-unirech阿里云国际站代充

在阿里云国际版官网注册是需要绑定paypal或者visa卡才可以完成注册,但是很多网友表示没有这些,阿里云国际站不想自己充值怎么办?其实通过分销商Unirech来注册的话就完全不用担心这个问题了,因为可以直接省略这一步,阿里…

【Java从入门到大牛】IO流下篇

🔥 本文由 程序喵正在路上 原创,CSDN首发! 💖 系列专栏:Java从入门到大牛 🌠 首发时间:2023年8月31日 🦋 欢迎关注🖱点赞👍收藏🌟留言&#x1f43…

RT-Thread自动初始化机制

自动初始化机制是指初始化函数不需要被显示调用,只需要在函数定义处通过宏定义的方式进行申明,就会在系统启动过程中被执行。 int rt_hw_usart_init(void) {rt_hw_serial_register(&serial1, "uart1",RT_DEVICE_FLAG_RDWR | RT_DEVICE_FL…

Web服务器简介及HTTP协议

一、HTPP请求/响应报文格式 1.客户端连接到Web服务器 一个HTTP客户端,通常是浏览器,与Web服务器的HTTP端口(默认为80)建立一个TCP套接字连接。例如,http://www.baidu.com(URL) 2.发送HTTP请求 通过TCP套接字&#xff…

C++哈希(散列)与unordered关联式容器封装(Map、Set)

一、unordered系列关联式容器 在C98中,STL提供了以红黑树为底层数据结构的关联式容器(map、set等),查询时的效率可以达到,最差情况下需要比较红黑树的高度次。因此在C11中,STL提供了四个unordered系列关联式容器&…

centos7 docker安装记录

以下所有命令都在root用户下进行,若为普通用户,需要在所有命令前加上 sudo。 1、更新yum包 将yum包更新到最新 yum update2、安装需要的软件包 yum-util 提供yum-config-manager功能,另外两个是devicemapper驱动依赖的; yum …

中国移动加大布局长三角,打造算力产业新高地

8月27日,以“数实融合算启未来”为主题的2023长三角算力发展大会在苏州举办,大会启动了长三角算力调度枢纽,携手各界推动算力产业高质量发展。 会上,移动云作为第一批算力资源提供方,与苏州市公共算力服务平台签订算力…

机器人编程怎么入门?

机器人已经在我们中间存在了二三十年。如今,机器人在我们的文化中比以往任何时候都更加根深蒂固。大多数机器人机器用于各种装配线,或在世界各地的矿山或工业设施中执行密集的物理操作。 还有一些家用机器人,工程师正在对机器人进行编程&…

debug调试时,通过[[FunctionLocation]]找到函数在源代码中的位置

[[FunctionLocation]] 是 JavaScript 引擎内部的一个属性,用于记录函数在代码中的位置。它不是 JavaScript 语法的一部分,而是在调试和开发过程中用于追踪函数定义位置的一个辅助属性。 当我们在浏览器的开发者工具或其他调试工具中查看函数的属性时&am…

【C++】Visual Studio EditorConfig 格式设置

【C】Visual Studio EditorConfig 格式设置 文章目录 【C】Visual Studio EditorConfig 格式设置I - EditorConfig1.1 - 通用设置indent_styleindent_sizetab_widthend_of_linecharsettrim_trailing_whitespaceinsert_final_newline II - Visual Studio 特定键值缩进设置cpp_in…

Docker基础入门:Docker网络与微服务项目发布

Docker基础入门:Docker网络与微服务项目发布 一、前言二、Docker0理解2.1 ip a查看当前网络环境2.2 实战--启动一个tomact01容器(查看网络环境)2.3 实战--启动一个tomact02容器(查看网络环境)2.4 容器与容器之间的通信…

企业数据将作为资产被纳入财务报表?百望云建议企业做好三点准备

在数字化转型过程中,大家一直比较关心技术创新有哪些,我如何能快速使用?却经常忽略了更深层次的问题,如:数字化转型的价值效益“有哪些”、我的企业“怎么获取”、我的系统是否支持“价值传递”? 近日&…

Apipost:为什么是开发者首选的API调试工具

文章目录 前言正文接口调试接口公共参数、环境全局参数的使用快速生成并导出接口文档研发协作接口压测和自动化测试结论 前言 Apipost是一款支持 RESTful API、SOAP API、GraphQL API等多种API类型,支持 HTTPS、WebSocket、gRPC多种通信协议的API调试工具。除此之外…

不知道怎么归类的题型

爆破 weak_auth 进来看到 随便输入 知道账号名为admin,再爆破密码,从返回包中得到flag

【C++】多态学习

多态 多态的概念与定义多态的概念构成多态的两个条件虚函数与重写重写的两个特例 final 和 override重载、重写(覆盖)、重定义(隐藏)的对比抽象类多态的原理静态绑定与动态绑定 单继承与多继承关系下的虚函数表(派生类)单继承中的虚函数表查看多继承中的虚函数表查看 菱形继承与…

JavaScript Web APIs -03 事件流、事件委托、其他事件(加载、滚动、尺寸)

Web APIs - 03 文章目录 Web APIs - 03事件流捕获和冒泡阻止冒泡 事件委托其他事件页面加载事件元素滚动事件页面尺寸事件 元素尺寸与位置 进一步学习 事件进阶,实现更多交互的网页特效,结合事件流的特征优化事件执行的效率 掌握阻止事件冒泡的方法理解事…

第五章 树与二叉树 四、线索树(手算与代码实现)

一、定义 1.线索树是一种二叉树,它在每个节点上增加了两个指针,分别指向其前驱和后继。 2.这些指针称为“线索”,因此线索树也叫做“线索化二叉树”。 3.在线索树中,所有的叶子节点都被线索化,使得遍历树的过程可以…

小程序实现图片上传、数量配置、预览、删除功能的开发指南

当谈到在小程序中实现图片上传、预览和删除等功能时,我们必须认识到这些功能对于提升用户体验和丰富应用的交互性非常关键。随着智能手机的普及,人们越来越习惯于通过图片来表达自己的想法、分享生活点滴,因此,使用户能够方便地在小程序中处理图片是非常重要的一步。 目录 …

MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection 论文解读

MonoDETR论文解读 abstract 单目目标检测在自动驾驶领域,一直是一个具有挑战的任务。现在大部分的方式都是沿用基于卷积的2D 检测器,首先检测物体中心,后通过中心附近的特征去预测3D属性。 但是仅仅通过局部的特征去预测3D特征是不高效的&…