2022_SPL_CMINet

news2025/7/3 23:40:34

Cross-Stage Multi-Scale Interaction Network for RGB-D Salient Object Detection

用于rgb-d显着目标检测的跨阶段多尺度交互网络

文章目录

前言

一、引言

二、提出的方法

A.概述

感觉有点乱，没看太懂，没关系，我们接着往下看

B.自适应权重融合 (AWF) 模块

C.多尺度空间池 (MSP) 模块

MSP的走向是，一层一层的从上往下，思路应该比较清晰了，我们接着往下看

D.跨阶段金字塔互动 (CPI) 模块

总结

听取上次有位同学的建议，把论文地址和代码贴上哈哈哈哈~

论文地址：（下载不了的可以私信我发你）Cross-Stage Multi-Scale Interaction Network for RGB-D Salient Object Detection | IEEE Journals & Magazine | IEEE Xplore

代码地址：未共开代码

文章目录

前言

显著性目标检测 (SOD) 旨在检测人类视觉中最突出的物体和区域。由于RGB和深度模态包含不同的特征并传达了不同领域的线索，因此如何探索多模态信息的融合和跨阶段特征的相互作用仍然是rgb-d SOD的关键问题。在这篇文章中，我们提出了一个跨阶段多尺度交互网络 (CMINet)，由多尺度空间池 (MSP) 模块和跨阶段金字塔交互 (CPI) 模块组成，以自下而上和自上而下的方式交织不同阶段的特征图。此外，我们还设计了一个自适应权重融合 (AWF) 模块，以权衡多模态特征的重要性并融合它们。在4个广泛使用的数据集上进行了广泛的实验，以验证所提出的CMINet的有效性。结果表明，在4个评估指标下，我们的方法与其他11种方法相比达到了最先进的性能。。

一、引言

深度图的质量差异很大。图像质量不匹配的RGB图和深度图将导致次优的融合结果，并对显着性检测的性能产生负面影响。出发点：低质量深度图会带来噪声。前人提出了一些方法。

尽管这些方法描述的模型已经取得了显著的进步，并提高了SOD模型的性能，但许多常见的局限性仍有待解决。首先，上述方法通常将深度信息视为辅助线索，以增强RGB流的特征表示。此外，它们仅关注跨模态的相互作用和融合，而忽略了特征图在不同阶段之间的互补信息。

为了解决这些问题，我们提出了一种跨阶段多尺度交互网络 (CMINet)，以有效地整合跨阶段特征并同时自适应地融合不同模态的信息。具体地说，我们设计了一个自适应权重融合 (AWF) 模块，以平等地对待RGB和深度模态，并计算它们在融合特征中的各自权重。我们还介绍了多尺度空间池 (MSP) 模块，该模块使用不同尺度的多个空间平均池层将详细的文本信息传输到高级阶段。此外，开发了跨阶段金字塔交互 (CPI) 模块来探索跨阶段特征的上下文信息。为了证明所提出的CMINet的有效性，我们针对其他11种rgb-d SOD方法对4种广泛使用的数据集进行了综合实验。结果表明，我们的CMINet达到了最先进的性能。这篇文章的主要贡献如下:

1. 我们提出了一种自适应权重融合 (AWF) 模块，通过计算各自的重要性权重来融合RGB和深度特征流。

2. 我们设计了一个多尺度空间池 (MSP) 模块，该模块采用各种池操作，以自下而上的方式对不同阶段之间的上下文信息进行建模。

3. 我们还开发了跨阶段金字塔交互 (CPI) 模块，该模块应用具有多个速率的扩张卷积来解码自顶向下路径中的跨阶段特征。

4. 我们介绍了用于rgb-d SOD的跨阶段多尺度交互网络 (CMINet)。在4个基准数据集上进行的广泛实验显示了与以前的11种方法相比的最新性能。

二、提出的方法

A.概述

我们提出的CMINet的总体框架如图1所示。我们遵循双流端到端架构，并采用ResNet-50作为进行公平比较的骨干。然后，将骨干分为四个阶段。我们采用自适应权重融合 (AWF) 模块来集成各个阶段的跨模态特征。以前的研究人员大多专注于跨模态融合，试图提取它们之间的互补和区别信息。然而，我们专注于研究不同阶段特征的相互作用和融合。在本文中，我们提出了一个多尺度空间池 (MSP) 模块和一个跨阶段金字塔交互 (CPI) 模块，以自下而上和自上而下的方式交织和合并跨阶段特征。此外，我们应用显著性头（saliency head ）来生成最终的特征图。混合损失还用于监督整个网络的预测。

这个显著性头（saliency head ）论文里也没说了，不知道什么东西

感觉有点乱，没看太懂，没关系，我们接着往下看

B.自适应权重融合 (AWF) 模块

如图2所示，我们引入了自适应权重融合 (AWF) 模块，以自适应的方式计算不同模态的权重，并有效地融合它们。

具体来说，我们首先使用3 × 3卷积来减少通道数量，然后将RGB和深度特征连接起来，得到融合特征：

其中i ∈ {1,2，3,4} 索引骨干的阶段。随后，我们设计了一种注意力机制，该机制由全局平均池化 (GAP) 层，1 × 1卷积层和sigmoid激活函数组成，以生成每个分支的权重。这两个分支的权重也被添加为融合特征的权重：

之后，我们应用元素乘法来选择代表性通道，并通过串联操concatenation作来集成三个分支的特征图。最终的融合特征图可以表述为：

C.多尺度空间池 (MSP) 模块

受混合池模块的启发，我们开发了一个多尺度空间池模块，以捕获不同阶段的远程上下文信息。关于具有不同分辨率的特征图，我们首先应用strip pooling(SP)模块，然后使用3 × 3卷积对短程和长程依赖性进行建模。同时，我们使用3 × 3卷积之后具有不同内核大小的多个空间平均池层(AP)来并行获得特征图。最后，将具有相同分辨率的特征图串联起来作为下一个模块的输入:

MSP的走向是，一层一层的从上往下，思路应该比较清晰了，我们接着往下看

D.跨阶段金字塔互动 (CPI) 模块

为了有效地开发多尺度和上下文信息，同时促进跨阶段特征的交互，我们提出了跨阶段金字塔交互 (CPI) 模块。给定MSP模块中四个阶段的输出，我们首先利用具有双线性插值的上采样层对其进行多次上采样。同时应用不同空洞率的膨胀卷积来有效地开发多尺度和上下文信息。因此，对于跨阶段交互，将相同分辨率的特征图串联起来：