伪装目标检测论文BGNet:Boundary-Guided Camouflaged Object Detection

news2024/11/15 13:48:55

论文地址:link
代码地址:link
这篇论文是22年的CVPR收录的一篇关于伪装目标检测的文章,作者主要是用了一些通道注意力和Atrous卷积来实现边缘引导的伪装目标检测,模型并不复杂,看了两天的论文和代码,为了加深印象在这里总结一下。

摘要

  伪装物体检测(COD)是一项有价值但具有挑战性的任务,它可以分割与周围环境完美融合的物体。现有的深度学习方法往往难以准确识别具有完整精细对象结构的伪装对象。为此,在本文中,我们提出了一种用于伪装目标检测的新型边界引导网络(BGNet)。我们的方法探索了有价值的和额外的对象相关的边缘语义,以指导COD的表示学习,这迫使模型生成突出对象结构的特征,从而促进精确边界定位的伪装对象检测。在三个具有挑战性的基准数据集上进行的大量实验表明,在四个广泛使用的评估指标下,我们的BGNet显著优于现有的18种最先进的方法。

1.介绍

  伪装是自然界中的一种重要防御机制,它帮助某些物种隐藏在周围环境中,通过材料、着色或照明的方式进行隐藏,或伪装成其他东西,如模仿环境的外观、颜色或图案和破坏性着色,来保护自己免受捕食者的伤害[Price等人,2019]。这种机制也影响人类生活,如艺术、文化和设计(如伪装制服)[Stevens等人,2009]。近年来,从背景中识别伪装物体,即伪装物体检测(COD),引起了计算机视觉界越来越多的研究兴趣。它在促进不同领域的各种有价值的应用方面有着广阔的前景,从动物保护,例如物种发现[Rardo et al,2012]和动物监测,以及与视觉相关的领域,包括图像合成[Fan et al,2020a]、医学图像分析[Fan et al.,2020b]以及搜救。然而,由于伪装的性质,即候选对象与混沌背景之间的高度内在相似性,使得人类和机器很难发现伪装对象,因此COD是一项极具挑战性的任务。
  伪装目标检测方法大致可分为三个类型:
  1.设计有针对性的网络模块,以有效地探索COD的有区别的伪装对象特征,如C2FNet、UGTR。
  2.将一些辅助任务纳入联合学习/多任务学习框架,如分类任务、边缘提取、显著对象检测和伪装对象排序等。这种方法可以从共享特征中挖掘出有价值的额外线索,从而显著增强COD的特征表示。
  3.采用仿生方法,模仿出自然界中捕食者的行为过程或者人类的视觉心理模式来设计网络,如SINet、MirrorNet、PFNet。
   上述方法的弊端:边缘干扰或者身体轮廓伪装,难以有效和完整地识别对象的结构和细节,使检测出来的对象具有粗略/不完整的边界。
   MGL:Mutual graph learning model是第一个显式地利用边缘信息来提高COD性能的模型,但是MGL将边缘特征和对象特征一起编码到图卷积网络中,并通过图交互模块来增强特征表示。由此可见,MGL是一个复杂的模型,不可避免地增加了模型的复杂性,并承受着沉重的计算负担。
  为此,本文提出了一种新的边界引导网络(BGNet),该网络明确地利用边缘语义来提高伪装目标检测的性能。首先,我们设计了一个简单而有效的边缘感知模块(EAM),该模块集成了低级的局部边缘信息和高级的全局位置信息,在明确的边界监督下探索与目标边界相关的边缘语义。然后,引入边缘引导特征模块(EFM),将边缘特征与各层伪装对象特征结合起来,指导COD的表示学习;EFM模块可以使网络更加关注对象的结构和细节。然后,从上到下逐步聚合多层融合特征,预测伪装目标。为了增强特征表示,我们构建了一个上下文聚合模块(CAM),该模块通过一系列的属性卷积来挖掘和聚合多尺度上下文语义,以产生具有更强和更有效表示的特征。利用设计良好的模块,BGNet能够预测具有精细目标结构和边界的伪装目标。值得注意的是,与MGL相比,我们设计了一个更简单但更有效的边缘提取模块来挖掘准确的对象边界语义,然后利用所提出的EFM和CAM来指导伪装对象的特征表示学习。此外,该方法实现了更精确的目标定位和更强的目标结构保留。
综上所述,我们的主要贡献如下:
• 对于COD任务,我们提出了一种新的边界引导网络,即BGNet,它挖掘和集成了与边界相关的边缘语义,以提高伪装目标检测的性能。
• 我们精心设计了边缘引导特征模块(EFM)和上下文聚合模块(CAM),以增强边界语义,探索有价值和强大的COD特征表示。

2.方法

2.1 整体结构

  作为我们的骨干网络,从输入图像中提取多层次特征,即 f i ( i = 1 , 2 , . . . . , 5 ) {f_i}\left( {i = 1,2,....,5} \right) fi(i=1,2,....,5)然后,应用边缘感知模块(EAM)在目标边界监督下,从包含局部边缘细节的低级特征 f 2 {f_2} f2和包含全局位置信息 f 5 {f_5} f5的高级特征中挖掘出与对象相关的边缘语义。利用以下多个边缘引导特征模块(EFM)将EAM的边缘线索与每一级的多级骨干特征) f 2 {f_2} f2- f 5 {f_5} f5相结合,指导特征学习,增强了边界表示。最后,采用多个上下文聚合模块(CAM),自上而下逐步聚合多层次融合特征,发现伪装对象。在测试中,我们选择最后一个CAM的预测作为最终结果。请注意,我们没有采用主干特征 f 1 {f_1} f1,因为它太接近输入,有很多冗余信息和一个小的接受域。
在这里插入图片描述

2.2 Edge-aware Module-EAM

  良好的边缘先验有利于分割和定位的目标检测。虽然低级特征包含了丰富的边缘细节,但它们也引入了许多非目标边缘。因此,需要高级语义或位置信息来促进对伪装对象相关边缘特征的探索。在本模块中,我们结合低级特征 f 2 {f_2} f2和高级特征 f 5 {f_5} f5来建模与对象相关的边缘信息,如图8所示。具体来说,首先使用两个1×1卷积层将 f 2 {f_2} f2 f 5 {f_5} f5的通道分别更改为64( f 2 ′ f_2^{'} f2) 和256 ( f 5 ′ f_5^{'} f5)。然后通过串联运算对特征 f 2 ′ f_2^{'} f2和上采样的 f 5 ′ f_5^{'} f5进行积分。最后,通过两个3×3卷积层和一个1×1卷积层,再加上Sigmoid函数,得到边缘特征 f e {f_e} fe。EAM是一种简单而有效的提取特定边缘特征的模块。如图7所示,EAM很好地学习了与对象边界相关的边缘语义。
在这里插入图片描述

2.3 Edge-guidance Feature Module-EFM

  边缘引导特征模块(EFM)旨在将与边界相关的边缘线索注入到表征学习中,以增强具有对象结构语义的特征表征。众所周知,不同的特征通道往往包含不同的语义。因此,为了实现良好的集成并获得强大的表征,我们引入了本地通道注意机制来探索跨通道交互并挖掘通道之间的关键线索。
  如图4所示,给定输入特征 f i ( i ∈ { 2 , 3 , . . . . . , 5 } ) {f_i}\left( {i \in \left\{ {2,3,.....,5} \right\}} \right) fi(i{2,3,.....,5})和边缘特征 f e {f_e} fe,我们首先在它们之间进行逐元素乘法,并进行额外的跳过连接和3×3卷积,得到初始融合特征 f i e f_i^e fie,可以表示为:
f i e = F c o n v ( ( f i ⊗ D ( f e ) ) ⊕ f i ) f_i^e = {F_{conv}}\left( {\left( {{f_i} \otimes D\left( {{f_e}} \right)} \right) \oplus {f_i}} \right) fie=Fconv((fiD(fe))fi)
  式中D为下采样,Fconv为3×3卷积。⊗是元素明智的乘法,⊕是元素明智的加法。为了增强特征表征,受[Wang et al .2020]的启发,我们引入局部关注来探索关键特征通道。具体来说,我们使用通道全球平均池化(GAP)聚合卷积特征 f i e f_i^e fie。然后通过1D卷积和Sigmoid函数得到相应的通道关注(权值)。不像完全连接的操作,捕获所有通道的依赖关系,但显示出很高的复杂性,我们探索本地跨通道交互,并以本地方式学习每个注意,例如,只考虑每个通道的k个邻居。之后,我们将通道注意力与输入特征 f i e f_i^e fie相乘,通过1×1卷积层减少通道,得到最终输出 f i a f_i^a fia,即
f i a = F c o n v 1 ( σ ( F 1 D k ( G A P ( f i e ) ) ) ⊕ f i e ) f_i^a = {F_{conv1}}\left( {\sigma \left( {F_{1D}^k\left( {GAP\left( {f_i^e} \right)} \right)} \right) \oplus f_i^e} \right) fia=Fconv1(σ(F1Dk(GAP(fie)))fie)
式中 F c o n v 1 F_{conv1} Fconv1为1×1卷积, f 1 D k f_{1D}^{k} f1Dk为核大小为k的1D卷积,σ为Sigmoid函数。核大小 k = ∣ ( 1 + l o g 2 ( C ) ) / 2 ∣ o d d k = {\left| {\left( {1 + lo{g_2}\left( C \right)} \right)/2} \right|_{odd}} k=(1+log2(C))/2odd可以自适应地设置为奇数,其中 ∣ ∗ ∣ o d d {\left| * \right|_{odd}} odd表示最近的奇数,C是 f i e f_i^e fie的通道。内核大小与通道尺寸成正比。显然,所提出的注意策略可以突出关键通道,抑制冗余通道或噪声,从而增强语义表征。
在这里插入图片描述

2.4 Context Aggregation Module

  为了整合多层融合特征进行伪装目标预测,我们设计了一个上下文聚合模块(CAM)来挖掘上下文语义以增强目标检测,如图5所示。BBSNet中的全局上下文模块[Fan et al . 2020c]只利用多个独立的并行分支分别提取不同尺度的特征,而不考虑各个分支之间的语义相关性[Wu et al ., 2020],而CAM则考虑了跨尺度交互来增强特征表征。以 f 4 a f_4^a f4a f 5 a f_5^a f5a样,并将它们连接起来,然后进行1×1卷积层,得到初始聚合特征 f m f_m fm。接下来,我们将fm平均分成四个特征图 ( f m 1 , f m 2 , f m 3 , f m 4 ) (f_m^1,f_m^2,f_m^3,f_m^4) (fm1,fm2,fm3,fm4)沿通道维,然后进行跨尺度交互学习,即通过一系列亚元卷积对相邻分支的特征进行积分提取多尺度上下文特征。可表述为:
f m j ′ = F c o n v n j ( f m j − 1 ′ ⊕ f m j ⊕ f m j + 1 ) , j = { 1 , 2 , 3 , 4 } ^{f_m^{{j^{'}}} = F_{conv}^{{n_j}}\left( {f{{_m^{j - 1}}^{'}} \oplus f_m^j \oplus f_m^{j + 1}} \right),j = \left\{ {1,2,3,4} \right\}} fmj=Fconvnj(fmj1fmjfmj+1),j={1,2,3,4}
  其中 F c o n v n j F_{conv}^{{n}_{j}} Fconvnj表示一个3 × 3的卷积,膨胀率为 n j n_j nj。在我们的实验中,设 n j n_j nj={1,2,3,4}.另外,当i = 1时,只有 f m 1 f_m^1 fm1 f m 2 f_m^2 fm2;当i = 4时,只有 f m 4 f_m^4 fm4 f m 3 ′ f_m^{{3^{'}}} fm3。然后,我们将这四个多尺度特征在 f m j ′ f_m^{j^{'}} fmj中进行连接,然后进行1×1卷积、残差连接和3×3卷积,可以表示为:
f i c = F c o n v ( F c o n v 1 ( [ f m j ′ ] ) ⊕ f m ) f_i^c = {F_{conv}}\left( {{F_{conv1}}\left( {\left[ {f_m^{{j^{'}}}} \right]} \right) \oplus {f_m}} \right) fic=Fconv(Fconv1([fmj])fm)
  其中[*]为级联运算, f i c f_i^c fic为CAM的输出。注意,对于i={2,3}时,前一个CAM的输出 f i + 1 c f_{i+1}^c fi+1c将与fci一起作为下一个CAM的输入,得到 f i c f_i^c fic。通过另一个1×1卷积来改变特征的通道数,我们可以得到预测 P i ( i ∈ { 2 , 3 , 4 } ) {P_i}\left( {i \in \{ 2,3,4\} } \right) Pi(i{2,3,4})的伪装物体。
在这里插入图片描述

2.5 Loss Function 损失函数

  我们的模型有两种监督:伪装对象蒙版(Go)和伪装对象边缘(Ge)。对于掩码监督,我们采用加权二元交叉熵损失( L B C E w L_{BCE}^w LBCEw)和加权IOU损失( L I O U w L_{IOU}^w LIOUw) [Wei等,2020],它们更关注硬像素,而不是为所有像素分配相同的权重。对于边缘监督,我们采用骰子损失( L d i c e L_{dice} Ldice) [Xie et al ., 2020]来处理正负样本之间的强烈不平衡。注意到面具监督是在来自CAM的三个伪装对象预测( P i ( i ∈ { 2 , 3 , 4 } ) {P_i}\left( {i \in \{ 2,3,4\} } \right) Pi(i{2,3,4})上进行的。因此,总损耗定义为: L t o t a l = ∑ i = 2 4 ( L B C E w ( P i , G o ) + L I O U w ( P i , G o ) ) + λ L d i c e ( P e , G e ) {L_{total}} = \sum\nolimits_{i = 2}^4 {\left( {L_{BCE}^w\left( {{P_i},{G_o}} \right) + L_{IOU}^w\left( {{P_i},{G_o}} \right)} \right)} + \lambda {L_{dice}}\left( {{P_e},{G_e}} \right) Ltotal=i=24(LBCEw(Pi,Go)+LIOUw(Pi,Go))+λLdice(Pe,Ge),其中λ是权衡参数,在我们的实验中设置λ = 3, P e P_e Pe是对伪装对象边缘的预测。

3.实验

在这里插入图片描述
在这里插入图片描述

4.结论

  在本文中,我们利用边缘先验来帮助恢复目标结构,提高伪装目标检测的性能。我们提出了一个简单而有效的边界引导网络(BGNet),该网络包含边缘感知模块、边缘引导特征模块和上下文聚合模块,用于探索与对象相关的边缘语义,以指导和增强COD的表示学习。通过采用边缘线索,我们的BGNet提供了精确的伪装对象预测,具有完整和精细的对象结构和边界。大量的实验表明,我们的方法在三个基准上优于现有的最先进的方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1518296.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【鸿蒙 HarmonyOS 4.0】通知

一、介绍 通知旨在让用户以合适的方式及时获得有用的新消息,帮助用户高效地处理任务。应用可以通过通知接口发送通知消息,用户可以通过通知栏查看通知内容,也可以点击通知来打开应用,通知主要有以下使用场景: 显示接…

vscode 导入前端项目

vscode 导入前端项目 导入安装依赖 运行 参考vscode 下载 导入 安装依赖 运行 在前端项目的终端中输入npm run serve

洛谷 P5018 对称二叉树

题目背景 NOIP2018 普及组 T4 题目描述 一棵有点权的有根树如果满足以下条件,则被轩轩称为对称二叉树: 二叉树;将这棵树所有节点的左右子树交换,新树和原树对应位置的结构相同且点权相等。 下图中节点内的数字为权值&#xf…

ES6(一):let和const、模板字符串、函数默认值、剩余参数、扩展运算符、箭头函数

一、let和const声明变量 1.let没有变量提升&#xff0c;把let放下面打印不出来&#xff0c;放上面可以 <script>console.log(a);let a1;</script> 2.let是一个块级作用域,花括号里面声明的变量外面找不到 <script>console.log(b);if(true){let b1;}//und…

Ubuntu系统的安装及基础操作

目录 一、VMware虚拟机安装Ubuntu20.04过程 1、安装前的准备工作 2、VMware虚拟机创建Ubuntu操作系统 步骤一&#xff1a;以管理员的身份运行VMware虚拟机 步骤二&#xff1a;新建虚拟机 步骤三&#xff1a;选择类型配置 步骤四&#xff1a;选择安装客户机操作系统 步骤…

一文解答:wifi贴码推广什么时候开始的?

随着互联网的快速发展和智能手机的普及&#xff0c;人们的生活方式也在发生着翻天覆地的变化&#xff0c;对于网络连接的需求也变得越来越迫切。在这样的背景下&#xff0c;WiFi贴码推广作为一种便捷的网络连接方式逐渐流行起来。那么&#xff0c;WiFi贴码推广究竟是什么时候开…

PostgreSQL - 查看表膨胀空间

目录 使用pgstattuple插件查看表膨胀空间 死元组&膨胀系数清理 查看表占用磁盘空间大小是如何组成的 什么是fms和vm&#xff1f; 什么是TOAST&#xff1f; 查看表和其关联的TOAST表的oid的关系 方法一 方法二 参考文档 使用pgstattuple插件查看表膨胀空间 select…

Clickhouse 单机部署安装

前言 在大数据的时代背景下&#xff0c;数据的处理和分析能力成为企业竞争力的关键。ClickHouse&#xff0c;作为一款由俄国Yandex公司开发的分布式数据分析型数据库&#xff0c;凭借其卓越的性能和稳定性&#xff0c;赢得了业界的广泛关注。本文将介绍ClickHouse的基本概念、…

中科数安|公司办公终端、电脑文件数据 \ 资料防泄密系统

#中科数安# 中科数安是一家专注于信息安全技术与产品研发的高新技术企业&#xff0c;其提供的公司办公终端、电脑文件数据及资料防泄密系统&#xff08;也称为终端数据防泄漏系统或简称DLP系统&#xff09;主要服务于企业对内部敏感信息的安全管理需求。 www.weaem.com 该系统…

在webapp中手动发布一个应用

部署应用前&#xff0c;我们需要下载Tomcat。 下载官网: Apache Tomcat - Welcome! 1、下载 第一步 : 找到Download目录下的Tomcat8 第二步:选择下载第一个zip链接 2、下载完成后&#xff0c;解压并打开Tomcat文件 3、找到并点击webapp文件 创建一个文件夹 在创建的文件中…

蓝桥杯第十一届电子类单片机组程序设计

目录 前言 单片机资源数据包_2023&#xff08;点击下载&#xff09; 一、第十一届比赛原题 1.比赛题目 2.赛题解读 1&#xff09;计数功能 2&#xff09;连续按下无效按键 二、部分功能实现 1.计数功能的实现 2.连续按下无效按键的处理 3.其他处理 1&#xff09;对于…

【危化品泄漏源定位】基于改进哈里斯鹰优化算法的危化品泄漏源定位算法 溯源定位算法【Matlab代码#63】

文章目录 【获取资源请见文章第7节&#xff1a;资源获取】1. 算法概述2. 原始哈里斯鹰算法&#xff08;HHO&#xff09;3. 改进哈里斯鹰算法&#xff08;IHHO&#xff09;3.1 动态自适应逃逸能量3.2 动态扰动策略 4. 构建源强和位置反算模型5. 部分代码展示6. 仿真结果展示7. 资…

BigDecimal类 --java学习笔记

BigDecimal 用于解决浮点型运算时&#xff0c;出现结果失真的问题 BigDecimal常用构造器和方法&#xff1a; HALF_UP 四舍五入

Qt-QPainter drawText方法不同重载之间的区别

QPainter类的drawText方法有如下重载&#xff1a; void drawText(const QPointF &position, const QString &text) void drawText(const QPoint &position, const QString &text) void drawText(int x, int y, const QString &text) void drawText(co…

人人站CMS后台登不进去解决方案(已解决)

公司有一个网站使用的是人人站CMS&#xff0c;最近发现后台登录不进去&#xff0c;有以下报错 发生以下错误: file get contents(http://www.rrzcms.com/Public/cms/config/config.ison): failed to open stream: HTTP reguest failed! 请求的URL导致内部服务器错误。 如果您反…

三维铁木辛柯梁Matlab有限元编程 | 弹簧支座 | 弹性支撑单元| Matlab源码 | 理论文本

专栏导读 作者简介&#xff1a;工学博士&#xff0c;高级工程师&#xff0c;专注于工业软件算法研究本文已收录于专栏&#xff1a;《有限元编程从入门到精通》本专栏旨在提供 1.以案例的形式讲解各类有限元问题的程序实现&#xff0c;并提供所有案例完整源码&#xff1b;2.单元…

茶叶加工厂用什么ERP比较好

茶叶加工厂&#xff0c;作为传统与现代相结合的产业&#xff0c;面临着销售渠道多样化、管理场景复杂化以及数据共享需求迫切等挑战。在这样的背景下&#xff0c;选择一款合适的ERP软件显得尤为重要。那么&#xff0c;茶叶加工厂究竟该选用什么样的ERP系统呢? 在众多ERP软件中…

C# danbooru Stable Diffusion 提示词反推 Onnx Demo

目录 说明 效果 模型信息 项目 代码 下载 C# danbooru Stable Diffusion 提示词反推 Onnx Demo 说明 模型下载地址&#xff1a;https://huggingface.co/deepghs/ml-danbooru-onnx 效果 模型信息 Model Properties ------------------------- ----------------------…

用户案例|向量引擎在携程酒店搜索中的应用场景和探索

Zilliz AI 初创计划是面向 AI 初创企业推出的一项扶持计划&#xff0c;预计提供总计 1000 万元的 Zilliz Cloud 抵扣金&#xff0c;致力于帮助 AI 开发者构建高效的非结构化数据管理系统&#xff0c;助力打造高质量 AI 服务与运用&#xff0c;加速产业落地。访问https://zilliz…

部署prometheus+Grafana可视化仪表盘监控服务

一、部署prometheus及监控仪表盘 简介 Prometheus是开源监控报警系统和时序列数据库(TSDB)。 Prometheus的基本原理是通过HTTP协议周期性抓取被监控组件的状态&#xff0c;任意组件只要提供对应的HTTP接口就可以接入监控&#xff0c;输出被监控组件信息的HTTP接口被叫做expo…