论文阅读 (88):Adversarial Examples for Semantic Segmentation and Object Detection

news2025/1/23 3:24:36

文章目录

  • 1. 概述
  • 2 算法
    • 2.1 稠密对抗生成
    • 2.2 选择用于检测的输入提案

1. 概述

题目:用于语义分割和目标检测的对抗样本
核心点:将对抗性样本的概念扩展到语义分割和对象检测,并提出稠密对抗生成算法 (Dense adversary generation, DAG)。
引用

@inproceedings{Xie:2017:13691378,
author		=	{Ci Hang Xie and Jian Yu Wang and Zhi Shuai Zhang and Yu Yin Zhou and Ling Xi Xie and Alan Yuille},
title		=	{Adversarial examples for semantic segmentation and object detection},
booktitle	=	{{CVPR}},
pages		=	{1369--1378},
year		=	{2017}
}

2 算法

2.1 稠密对抗生成

X \mathbf{X} X表示包含 N N N个识别目标 T = { t 1 , t 2 , … , t N } \mathcal{T}=\{t_1,t_2,\dots,t_N\} T={t1,t2,,tN}的图像。每个目标 t n t_n tn对应一个真实标签 l n ∈ { 1 , 2 , … , C } l_n\in\{ 1,2,\dots, C \} ln{1,2,,C},其中 C C C是类别数。所有的标签记为 L = { l 1 , l 2 , … , l N } \mathcal{L}=\{l_1,l_2,\dots,l_N\} L={l1,l2,,lN}

T \mathcal{T} T依据所在的场景而有所变化,例如在图像分类中, T \mathcal{T} T只包含一个元素,即完整图像;在语义分割中由所有像素,或者说相应地感受野组成;在对象检测中,则由所有提案组成。

给定特定任务下的神经网络,令 f = ( X , t n ) ∈ R c \mathbf{f}=(\mathbf{X},t_n)\in\mathbb{R}^c f=(X,tn)Rc表示第 n n n个识别对象在softmax之前的分数向量。为了生成对抗样本,理想的目标是令所有目标上的预测出错,即:
∀ n , arg max ⁡ c { f c ( X + r , t n ) } ≠ l n \forall n,\argmax_c\{ f_c(\mathbf{X}+\mathbf{r},t_n) \}\neq l_n n,cargmax{fc(X+r,tn)}=ln这里的 r \mathbf{r} r即是想要生成的对抗样本。该公式的含义为,当添加扰动后,应当使得最大预测概率所对应的类别偏离原有类别。对此,我们为每个目标制定一个对抗标签 l n ′ l_n' ln,其中 l n ′ l_n' ln是从其它不正确类别的随机采样,即 l n ′ ∈ [ 1 , C ] ∖ { l n } l_n'\in[1,C]\setminus\{l_n\} ln[1,C]{ln}。同理有 L ′ = { l 1 ′ . l 2 ′ , … , l n ′ } \mathcal{L}'=\{l_1'.l_2',\dots,l_n'\} L={l1.l2,,ln}。实际上,我们定义了一个随机排列函数 π : { 1 , 2 , … , C } → { 1 , 2 , … , C } \pi:\{1,2,\dots,C\}\to\{1,2,\dots,C\} π:{1,2,,C}{1,2,,C},其中 π ( c ) ≠ c \pi(c)\neq c π(c)=c。在这种设置下,损失函数定义为:
L ( X , T , L , L ′ ) = ∑ n = 1 N [ f l n ( X , t n ) − f l n ′ ( X , t n ) ] (1) \tag{1} L(\mathbf{X},\mathcal{T},\mathcal{L},\mathcal{L}')=\sum_{n=1}^N\left[ f_{l_n}(\mathbf{X},t_n) -f_{l_n'}(\mathbf{X},t_n) \right] L(X,T,L,L)=n=1N[fln(X,tn)fln(X,tn)](1)最小化 L L L可以通过使得每一个目标错误预测来实现,即抑制正确类别 f l n ( X + r , t n ) f_{l_n}(\mathbf{X}+\mathbf{r},t_n) fln(X+r,tn)的置信度,而增加不正确类别 f l n ′ ( X + r , t n ) f_{l_n'}(\mathbf{X+r},t_n) fln(X+r,tn)的置信度。

这里使用梯度下降法来优化,在 m m m次迭代时,添加了扰动的图像记为 X m \mathbf{X}_m Xm。我们将寻找一个正确预测目标的集合,称为激活目标集 (Active target set): T m = { t n ∣ a r g m a x c { f c ( X m , t n ) } = l n } \mathcal{T}_m=\{ t_n| argmax_c\{ f_c(\mathbf{X}_m,t_n)\}=l_n \} Tm={tnargmaxc{fc(Xm,tn)}=ln}。然后计算关于输入数据的梯度并累计这些扰动:
r m = ∑ t n ∈ T m [ ∇ X m f l n ′ ( X m , t n ) − ∇ X m f l n ( X m , t n ) ] (2) \tag{2} \mathbf{r}_m=\sum_{t_n \in \mathcal{T}_m}\left[\nabla_{\mathbf{X}_m} f_{l_n^{\prime}}\left(\mathbf{X}_m, t_n\right)-\nabla_{\mathbf{X}_m} f_{l_n}\left(\mathbf{X}_m, t_n\right)\right] rm=tnTm[Xmfln(Xm,tn)Xmfln(Xm,tn)](2)注意当 m m m增大时, ∣ T m ∣ ≪ ∣ T ∣ \left|\mathcal{T}_m\right| \ll|\mathcal{T}| TmT,因此该策略可以降低时间复杂度。为了避免数值不稳定,我们将 r m \mathbf{r}_m rm标准化为:
r m ′ = γ ∥ r m ∥ ∞ ⋅ r m (3) \tag{3} \mathbf{r}_m^{\prime}=\frac{\gamma}{\left\|\mathbf{r}_m\right\|_{\infty}} \cdot \mathbf{r}_m rm=rmγrm(3)其中 γ = 0.5 \gamma=0.5 γ=0.5是一个固定的超参数。然后我们在 X m \mathbf{X}_m Xm中添加 r m ′ \mathbf{r}_m' rm并进行下一次迭代。算法将在 T m = ∅ \mathcal{T}_m=\empty Tm=或者达到最大迭代次数时停止。最大迭代次数在分割和检测时分别设置为 200 200 200 150 150 150

最终的对抗扰动计算为 r = ∑ m r m ′ \mathbf{r}=\sum_m\mathbf{r}_m' r=mrm。注意在算法实现时,输入的图像 X \mathbf{X} X减去均值图像 X ^ \hat{\mathbf{X}} X^,因此对抗图像 Trunc ( X + r + X ^ ) \text{Trunc}(\mathbf{X+r+}\hat{\mathbf{X}}) Trunc(X+r+X^),其中 Trunc( …   ) \text{Trunc(\dots)} Trunc()表示将通过 [ 0 , 255 ] [0,255] [0,255]的像素修剪函数。尽管修剪将损害对抗扰动,我们观察到在实验中这样的影响其实是很小的,因为扰动 r \mathbf{r} r的量级是很小的。DAG算法的总体流程如算法1。

2.2 选择用于检测的输入提案

DAG的一个关键问题是选择一个合适的 T \mathcal{T} T。这种语义分割中是相对简单的,因为我们的目标是在所有的像素上发生错误分类。因此可以将每一个像素设置成为一个独立的目标,即在图像网格上执行稠密采样。该过程的时间复杂度正比于像素的总和。

在对象检测领域,目标选择会相对困难,因为可能的目标 (边界框提案) 的综述比语义分割中的目标大几个量级。一个简单的提案是仅考虑sideway网络,即区域提案网络 (regional proposal network),而我们发现,当对抗扰动 r \mathbf{r} r 被添加到原始图像 X \mathbf{X} X时,提案的差集可以通过新的输入 X + r \mathbf{X+r} X+r来生成,以及网络依然能够正确地分类这些新提案。为了克服这个问题,我们通过增加RPN中非极大值抑制 (non-maximal suppression, NMS) 的阈值来使得提案非常稠密。实际上,当IOU (intersection-over-union) 从0.7增长到0.9,每个图像的平均提案数从300增长到了3000。使用该稠密目标集 T \mathcal{T} T,最可能的对象边界框距离至少一个选定的输入提案只有像素,我们可以预期相邻边界框之间的分类错误转移。在实验中,这样的一个直观方法是很有用的,对抗扰动的性能与DAG中提案的数量成正比。

技术方面,给定RPN生成的提案,我们保留所有正提案而忽略其它。满足以下条件的称为正提案:

  1. 最近的真实目标的IOU大于0.1;
  2. 真实类的置信度得分大于0.1.

如果有多个真实目标满足以上条件,我们选择IOU最大的那一个。提案的标签定义为相应地置信类。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/466855.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python每日一练(20230427)

目录 1. 三数之和 🌟🌟 2. 编辑距离 🌟🌟🌟 3. 翻转字符串里的单词 🌟🌟 🌟 每日一练刷题专栏 🌟 Golang每日一练 专栏 Python每日一练 专栏 C/C每日一练 专栏…

无人机监控交通流量实时传输路况智慧交通系统说明

项目介绍: “现在五星花园环岛通行状况良好,涪江路双向的通行状况也未出现拥堵,接送考生的车辆可以畅通行驶……”昨日上午 8 点 20 分,FM91.5南充交通音乐广播首次启用遥控无人飞行器服务考生。对市区易堵路段,特别是…

学成在线笔记+踩坑(10)——课程搜索、课程发布时同步索引库。

导航: 【黑马Java笔记踩坑汇总】JavaSEJavaWebSSMSpringBoot瑞吉外卖SpringCloud黑马旅游谷粒商城学成在线牛客面试题_java黑马笔记 目录 1 【检索模块】需求分析 1.1 全文检索介绍 1.2 业务流程 1.2.1、课程发布时索引库里新增一条记录 1.2.2、课程搜索 2 准…

Matlab论文插图绘制模板第88期—无向图/图论网络图

在之前的文章中,分享了Matlab线图的绘制模板: 进一步,再来分享一种特殊的线图:无向图。 先来看一下成品效果: 特别提示:本期内容『数据代码』已上传资源群中,加群的朋友请自行下载。有需要的朋…

FreeRTOS 信号量(三) ------ 优先级翻转

一、优先级翻转 (1) 任务 H 和任务 M 处于挂起状态,等待某一事件的发生,任务 L 正在运行。 (2) 某一时刻任务 L 想要访问共享资源,在此之前它必须先获得对应该资源的信号量。 (3) 任务 L 获得信号量并开始使用该共享资源。 (4) 由于任务 H…

mysql慢查询日志

概念 MySQL的慢查询日志是MySQL提供的一种日志记录,它用来记录在MySQL中响应时间超过阀值的语句,具体指运行时间超过long_query_time值的SQL,则会被记录到慢查询日志中。long_query_time的默认值为10,意思是运行10秒以上的语句。…

计算机图形学 | 投影变化

计算机图形学 | 投影变化 计算机图形学 | 投影变化7.1 有趣的投影投影的概念平行投影正投影斜投影 透视投影 7.2 规范化的投影变换观察的要素观察空间规范化的投影变换 华中科技大学《计算机图形学》课程 MOOC地址:计算机图形学(HUST) 计算…

Flink时间和窗口

事件时间 到达时间 处理时间 水位线 1.有序流 2. 无序流 水位线离源越近越好 Flink 自带水位线 有序 WatermarkStrategy.<Event>forMonotonousTimestamps() 或者实现WatermarkStrategy接口 水位线生成 时间字段 乱序 WatermarkStrategy.<Event>forBoundedOut…

【MySQL高级】——InnoDB索引MyISAM索引

一、索引概述 MySQL官方对索引的定义为&#xff1a;索引&#xff08;Index&#xff09;是帮助MySQL高效获取数据的数据结构。 索引的本质&#xff1a;索引是数据结构。你可以简单理解为“排好序的快速查找数据结构”&#xff0c;满足特定查找算法。 这些数据结构以某种方式指向…

Redis基础知识概述

Redis基础知识概述 文章目录 Redis基础知识概述一、Redis简介二、NoSQL技术三、Redis的高并发和快速原因四、Redis为什么是单线程的 五、单线程的优劣势1、优势2、劣势 六、Redis高并发总结七、在java中使用Redis1、添加Jedis依赖 八、Redis在Java Web中的应用1、存储缓存用的数…

亿发软件:按需定制ERP管理解决方案,更合适的企业智能管理软件

亿发软件&#xff1a;按需定制ERP管理解决方案&#xff0c;更合适的企业智能管理软件 在当今瞬息万变的商业环境中&#xff0c;企业面临着新的挑战和机遇。随着国内传统市场的衰落和国际化发展的加速&#xff0c;市场竞争日趋激烈&#xff0c;企业必须寻找新的创新和适应方式才…

Linux基本指令和操作(2)

目录 一. 适配符 * 二. man指令 -- 查看手册 三. echo指令 -- 输出字符串到文件 四. cp指令 -- 复制 五. mv指令 -- 重命名或移动文件&#xff08;剪切&#xff09; 六. which指令 -- 查看指令所在的路径 七. alis指令 -- 指令重命名 八. cat指令 -- 输出文件内容 九…

7.微服务项目实战---Rocketmq--消息驱动

7.1 MQ简介 7.1.1 什么是MQ MQ &#xff08; Message Queue &#xff09;是一种跨进程的通信机制&#xff0c;用于传递消息。通俗点说&#xff0c;就是一个先进先出的数据结构。 7.1.2 MQ的应用场景 7.1.2.1 异步解耦 最常见的一个场景是用户注册后&#xff0c;需要发送注…

怎么注册Google账号(使用国内手机号注册)

怎么注册Google账号&#xff08;使用国内手机号注册&#xff09; 记录一下如何用 国内的手机号 注册Google账号 文章目录 怎么注册Google账号&#xff08;使用国内手机号注册&#xff09;进入Google官网创建账号注册信息填写手机号&#xff08;踩坑版&#xff09;填写手机号&am…

MySQL——超详细数据库触发器教程

文章目录 一、触发器的概念 二、创建触发器 三、查看触发器 四、删除触发器 一、触发器的概念 在实际开发中往往会碰到这样的情况&#xff1a; 当我们对一个表进行数据操作时&#xff0c;需要同步对其它的表执行相应的操作&#xff0c;正常情况下&#xff0c;如果我们使用s…

C语言字符串函数,字符函数,内存操作函数

提示&#xff1a; 本篇文章涉及到以下内容: 求字符串长度 strlen 长度不受限制的字符串函数(被VS认为不安全,就像scanf)–>非法也要完成任务 strcpy 拷贝(将原字符串内容和\0全拷贝过去) strcat 追加(先找到目标空间中的\0,然后把原字符串中的内容直到\0全拷贝过去,原字符串…

【RPA开发】lxml 库之 etree 使用详解

通过 requests.get 方法获得 html 源代码后&#xff0c;可以通过 etree 进行解析&#xff0c;进而从源代码中提取关键信息。etree 同 Beautiful Soup 一样均可以解析 xml 和 html&#xff0c;两者不同之处在于&#xff1a;etree主要通过 xpath 进行定位&#xff0c;而 Beautifu…

基于Spring Boot+Vue 的校园健康系统设计与实现(附源码,文档)

一 简介 校园健康系统本质上是一个健康知识浏览和在线咨询的平台&#xff0c;从用户角度&#xff0c;系统包括大学生、医生和管理员。 二.主要技术 技术名作用Springboot后端框架Vue前端框架MySQL数据库 三 功能介绍 校园健康系统为用户提供医生预约服务&#xff0c;系统…

Clickhouse分布式表引擎(Distributed)查询核心原理解析

Clickhouse分布式表引擎&#xff08;Distributed&#xff09;查询核心原理解析 Clickhouse分布式表引擎&#xff08;Distributed&#xff09;写入核心原理解析Clickhouse分布式表引擎&#xff08;Distributed&#xff09;查询核心原理解析 与分布式数据写入时可以选择写分布式…

有哪家台灯好又便宜的适合学生党使用?真正合格的小学生台灯

都说眼睛是心灵的窗户&#xff0c;但是现在很多小朋友还没上初中&#xff0c;可能就早早的近视了。究其原因&#xff0c;除了和频繁观看电子屏幕密不可分之外&#xff0c;不良的用眼习惯也是一大关键。孩子写作业时不时揉眼睛的动作&#xff0c;其实只要时间一长&#xff0c;眼…