2022_SPL_CMINet

news2024/11/15 17:44:58

Cross-Stage Multi-Scale Interaction Network for RGB-D Salient Object Detection 

用于rgb-d显着目标检测的跨阶段多尺度交互网络


目录

文章目录

前言

一、引言

二、提出的方法

A.概述

感觉有点乱,没看太懂,没关系,我们接着往下看

B.自适应权重融合 (AWF) 模块 

 C.多尺度空间池 (MSP) 模块

MSP的走向是 ,一层一层的从上往下,思路应该比较清晰了,我们接着往下看 

D.跨阶段金字塔互动 (CPI) 模块

总结


听取上次有位同学的建议,把论文地址和代码贴上哈哈哈哈~

论文地址:(下载不了的可以私信我发你)Cross-Stage Multi-Scale Interaction Network for RGB-D Salient Object Detection | IEEE Journals & Magazine | IEEE Xplore

代码地址:未共开代码

文章目录


前言

显著性目标检测 (SOD) 旨在检测人类视觉中最突出的物体和区域。由于RGB和深度模态包含不同的特征并传达了不同领域的线索,因此如何探索多模态信息的融合跨阶段特征的相互作用仍然是rgb-d SOD的关键问题。在这篇文章中,我们提出了一个跨阶段多尺度交互网络 (CMINet),由多尺度空间池 (MSP) 模块跨阶段金字塔交互 (CPI) 模块组成,以自下而上和自上而下的方式交织不同阶段的特征图。此外,我们还设计了一个自适应权重融合 (AWF) 模块,以权衡多模态特征的重要性并融合它们。在4个广泛使用的数据集上进行了广泛的实验,以验证所提出的CMINet的有效性。结果表明,在4个评估指标下,我们的方法与其他11种方法相比达到了最先进的性能。


一、引言

深度图的质量差异很大。图像质量不匹配的RGB图和深度图将导致次优的融合结果,并对显着性检测的性能产生负面影响。出发点:低质量深度图会带来噪声。前人提出了一些方法。

尽管这些方法描述的模型已经取得了显著的进步,并提高了SOD模型的性能,但许多常见的局限性仍有待解决。首先,上述方法通常将深度信息视为辅助线索,以增强RGB流的特征表示。此外,它们仅关注跨模态的相互作用和融合,而忽略了特征图在不同阶段之间的互补信息

为了解决这些问题,我们提出了一种跨阶段多尺度交互网络 (CMINet),以有效地整合跨阶段特征并同时自适应地融合不同模态的信息。具体地说,我们设计了一个自适应权重融合 (AWF) 模块,以平等地对待RGB和深度模态,并计算它们在融合特征中的各自权重。我们还介绍了多尺度空间池 (MSP) 模块,该模块使用不同尺度的多个空间平均池层将详细的文本信息传输到高级阶段。此外,开发了跨阶段金字塔交互 (CPI) 模块来探索跨阶段特征的上下文信息。为了证明所提出的CMINet的有效性,我们针对其他11种rgb-d SOD方法对4种广泛使用的数据集进行了综合实验。结果表明,我们的CMINet达到了最先进的性能。这篇文章的主要贡献如下:

1. 我们提出了一种自适应权重融合 (AWF) 模块,通过计算各自的重要性权重来融合RGB和深度特征流。

2. 我们设计了一个多尺度空间池 (MSP) 模块,该模块采用各种池操作,以自下而上的方式对不同阶段之间的上下文信息进行建模。

3. 我们还开发了跨阶段金字塔交互 (CPI) 模块,该模块应用具有多个速率的扩张卷积来解码自顶向下路径中的跨阶段特征。

4. 我们介绍了用于rgb-d SOD的跨阶段多尺度交互网络 (CMINet)。在4个基准数据集上进行的广泛实验显示了与以前的11种方法相比的最新性能。

二、提出的方法

A.概述

我们提出的CMINet的总体框架如图1所示。我们遵循双流端到端架构,并采用ResNet-50作为进行公平比较的骨干。然后,将骨干分为四个阶段。我们采用自适应权重融合 (AWF) 模块来集成各个阶段的跨模态特征。以前的研究人员大多专注于跨模态融合,试图提取它们之间的互补和区别信息。然而,我们专注于研究不同阶段特征的相互作用和融合。在本文中,我们提出了一个多尺度空间池 (MSP) 模块和一个跨阶段金字塔交互 (CPI) 模块,以自下而上和自上而下的方式交织和合并跨阶段特征。此外,我们应用显著性头(saliency head )来生成最终的特征图。混合损失 还用于监督整个网络的预测。

这个显著性头(saliency head )论文里也没说了,不知道什么东西

感觉有点乱,没看太懂,没关系,我们接着往下看

B.自适应权重融合 (AWF) 模块 

如图2所示,我们引入了自适应权重融合 (AWF) 模块,自适应的方式计算不同模态的权重,并有效地融合它们

具体来说,我们首先使用3 × 3卷积来减少通道数量,然后将RGB和深度特征连接起来,得到融合特征:

 其中i ∈ {1,2,3,4} 索引骨干的阶段。随后,我们设计了一种注意力机制,该机制由全局平均池化 (GAP) 层,1 × 1卷积层和sigmoid激活函数组成,以生成每个分支的权重。这两个分支的权重也被添加为融合特征的权重

之后,我们应用元素乘法来选择代表性通道,并通过串联操concatenation作来集成三个分支的特征图。最终的融合特征图可以表述为: 

 C.多尺度空间池 (MSP) 模块

受混合池模块的启发,我们开发了一个多尺度空间池模块,以捕获不同阶段的远程上下文信息。关于具有不同分辨率的特征图,我们首先应用strip pooling(SP)模块,然后使用3 × 3卷积对短程和长程依赖性进行建模。同时,我们使用3 × 3卷积之后具有不同内核大小的多个空间平均池层(AP)并行获得特征图。最后,将具有相同分辨率的特征图串联起来作为下一个模块的输入:

MSP的走向是 ,一层一层的从上往下,思路应该比较清晰了,我们接着往下看 

D.跨阶段金字塔互动 (CPI) 模块

为了有效地开发多尺度和上下文信息,同时促进跨阶段特征的交互,我们提出了跨阶段金字塔交互 (CPI) 模块。给定MSP模块中四个阶段的输出,我们首先利用具有双线性插值的上采样层对其进行多次上采样。同时应用不同空洞率的膨胀卷积来有效地开发多尺度和上下文信息。因此,对于跨阶段交互,将相同分辨率的特征图串联起来:

和MSP的过程差不多,只不过是一层一层从下往上的。首先是f_4^P,经过r=1的3*3卷积,得到f_4^{Out}。将f_4^P2倍上采样,经过r=3的3*3卷积, 将f_3^P经过r=1的3*3卷积,将两者进行拼接,以此类推。

 


 消融实验

总结

我觉的这篇文章主要的创新就在于,跨阶段和跨层次的交互,基于这种金字塔结构,减少信息的丢失。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/381652.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Postman 实现 UI 自动化测试

看到这篇文章的标题,是不是有小伙伴会感到惊讶呢? Postman 不是做接口测试的吗?为什么还能做 UI 自动化测试呢? 其实,只要你了解 Selenium 的运行原理,就可以理解为什么 Postman 也能实现 UI 自动化测试了…

EPICS motor模块

一、概要 1) 在EPICS motor模块中的是什么并且它为了什么? 2) 支持的电机控制器和模型 3)电机记录特性 4)配置示例 5)反馈 6) 重试 7) 回程差矫正 8)发行 二、术…

Linux上的校验和验证

校验和(checksum)程序用来从文件中生成相对较小的唯一密钥。我们可以重新计算该密钥,用以检查文件是否发生改变。修改文件可能是有意为之(添加新用户会改变密码文件),也可能是无意而为(从CD-ROM…

Java:Java仍然处于领先地位?

没有多少编程语言能够自吹自擂并持续流行20多年,但Java就是其中之一。Java应用程序不仅局限于web和移动开发,而且给大数据和人工智能留下了深刻的印象。不用多说,让我们讨论一下Java流行的几个原因!!1.实用性根据JamesGosling的说法&#xff…

QT+OpenGL 面剔除和帧缓冲

QTOpenGL 面剔除和帧缓冲 本篇完整工程见gitee:QtOpenGL 对应点的tag,由turbolove提供技术支持,您可以关注博主或者私信博主 面剔除 OpenGL能够检查所有面向(Front Facing)观察者的面,并且渲染他们,而丢…

springboot logback日志+异常+阿里云日志 aliyun-log-logback-appender

前言最近有个新项目用了,springboot3.0,以前项目日志保存得方式是阿里云云服务自动读取日志文件,最近项目部署得方式可能有变化,所以新项目用logbackaliyun-log-logback-appender得方式保存到阿里云日志服务。用logback得原因主要…

《OpenGL宝典》--统一变量

统一变量 [layout (location 0)] uniform float f 1.0f;若设置layout,则不需要使用glGetUniformLocation来获取统一变量的位置 使用glUniform*传递值,glUniformMatrix*()设置矩阵统一变量。 glUseProgram(myShader); glUniform1f(0,45.2f);//0为loc…

思迅软锁安装配置说明

思迅软锁安装配置说明 一、软锁安装、申请及配置流程 1.软件安装环境要求 2.软件安装配置流程 步骤1: 在平台下载软锁程序并安装。在安装了总部数据库的服务器上,运行“思迅软锁服务.exe”程序,按照指引进行安装,安装完成后将在电脑的桌面上…

微服务之Gateway服务网关

🏠个人主页:阿杰的博客 💪个人简介:大家好,我是阿杰,一个正在努力让自己变得更好的男人👨 目前状况🎉:24届毕业生,奋斗在找实习的路上🌟 &#x1…

「亲测」0成本考证填报个税纳税额减免3600

「亲测」0成本考证填报个税纳税额减免3600 今天开始2022综合所得的年度汇算就开始办理了,刚刚步入工作的同学,对个税的填报有些苦恼,好像除了房租就没有能减税的政策了。 别急别急,其实个⼈所得税⾥⾯包含⼀个叫“专项附加扣除”的…

C++ 认识和了解C++

1.在使用C语言写代码的时候开头要用到的是&#xff1a; #include<iostream> using namespace std;不可以写成这样&#xff1a; #include iostream.h&#xff08;1&#xff09;iostream是输入输出流类&#xff0c; istream输入流类 cin >> ostream输出流类 cout &…

40系笔记本(可不联网激活)深度学习生产力(环境配置和简单训练测试)

40系笔记本深度学习、转码生产力&#xff08;环境配置和简单训练测试&#xff09;这里写自定义目录标题深度学习环境准备CUDA、CUDNN版本问题torch版本问题其他软件版本的安装命令训练测试代码地址关于Linux还是Windows的问题结果博主首发购买了枪神7超竞4080的版本&#xff0c…

git开发流程

分支介绍 dev&#xff1a;开发环境&#xff0c;从feature去mr test: 测试环境&#xff0c;从feature去mr pre&#xff1a; 预生产环境&#xff0c;从master去mr&#xff0c;为了验证master代码 master: 生产环境&#xff0c;从feature去mr feature&#xff1a; 开发分支----小…

4种方法教你如何隐藏电脑磁盘分区?

磁盘分区是电脑的重要组成部分&#xff0c;我们能够在电脑中保存众多数据&#xff0c;就离不开它。那么你知道该如何隐藏磁盘分区吗&#xff1f;下面小编就教你4个方法隐藏电脑磁盘分区。方法一&#xff1a;使用磁盘管理隐藏硬盘分区1、按下“WinR”键&#xff0c;输入“diskmg…

Python3-元组

Python3 元组 Python 的元组与列表类似&#xff0c;不同之处在于元组的元素不能修改。 元组使用小括号 ( )&#xff0c;列表使用方括号 [ ]。 元组创建很简单&#xff0c;只需要在括号中添加元素&#xff0c;并使用逗号隔开即可。 >>> tup1 (Google, Runoob, 19…

4-1 SpringCloud快速开发入门:RestTemplate类详细解读

RestTemplate类详细解读 RestTemplate 的 GET 请求 Get 请求可以有两种方式&#xff1a; 第一种&#xff1a;getForEntity 该方法返回一个 ResponseEntity对象&#xff0c;ResponseEntity是 Spring 对 HTTP 请求响应的封装&#xff0c;包括了几个重要的元素&#xff0c;比如响…

Python基础篇(十五)-- Pygame游戏编程

1 初识Pygame Pygame是一个开源的Python模块&#xff0c;专门用于多媒体应用&#xff08;如电子游戏&#xff09;的开发&#xff0c;其中包含对图像、声音、视频、事件、碰撞等的支持。Pygame建立在SDL的基础上&#xff0c;SDL是一套跨平台的多媒体开发库&#xff0c;用C语言实…

39万字完整版智能矿山项目建设整体解决方案

本资料来源网络&#xff0c;仅做知识分享&#xff0c;请勿商用。完整资料领取见文末&#xff0c;部分资料内容&#xff1a; 1.1 总体技术要求 1.1.1 核心业务架构 智能矿山业务架构是在统一的标准与规范及安全运维保障体系下&#xff0c;按分层设计模式&#xff0c;分为设备层、…

QML鼠标事件

QML中常用的事件有&#xff1a; 鼠标事件键盘事件拖拽事件定时器MouseArea&#xff08;鼠标区域&#xff09; MouseArea是一个不可见的项目&#xff0c;同、通常用来和一个可见的项目配合使用来为其提供鼠标处理。鼠标处理的逻辑可以包含在MouseArea项目中 常用的属性&#xff…

【设计模式】原型模式与建造者模式

原型模式 原型模式是指通过原型实例指定创建对象的种类&#xff0c;然后通过拷贝的方式创建新的对象。属于创建型模式 原型模式的核心在于拷贝原型对象&#xff0c;主要用于对对象的复制。当你需要通过一大段get/set方法去构建对象的时候&#xff0c;就可以考虑使用原型模式了…