Transformer网络学习记录——基于空间约束自注意力和Transformer的RGB-D显著性检测方法研究

news2025/7/16 2:36:43

基于图半监督学习和图卷积的目标分割与跟踪算法研究 (wanfangdata.com.cn)

只能说看不懂，记录是为了有耐心慢消化

原文：

网络整体为通用的编码器-解码器架构，总体上由骨干编码器、交互编码器、RGB 解码器、深度解码器组成。

具体来说，采用 ResNet50 作为骨干网络。给定一对 RGB 模态和 Depth 模态的输入图像，分别得到不同尺度的特征。为了减少参数和提高网络的性能，采用 1×1 卷积对降维到 64。分别将这些特征表示为𝑋 𝑟 {𝑋 𝑟 | 2 3 4 5}和𝑋 {𝑋 | 2 3 4 5}。将 RGB 图像特征和 Depth 图像特征𝑋5 𝑟、𝑋5 作为输入，并利用 PSMA 模块得到更加结构化的特征表示𝑍5 𝑟、𝑍5 。对于特征𝑍5 𝑟、𝑋 𝑟 {𝑋 𝑟 | 2 3 4}和𝑍5 、𝑋 {𝑋 | 2 3 4}，分别用 RGB 解码器和深度解码器将高层特征上采样到与浅层特征相同的尺度，再通过元素相加来融合不同层级的特征（如图 (a)、(c)所示）。

在得到两个分支的输出特征之后，为了更好地挖掘不同模态的共同特征，用交互编码器来促进两个模态之间的信息交换。与文献[49]相似，交互编码器将 RGB 解码器和深度解码器的拼接特征作为输入，它通过叠加多个卷积来提取多层次特征。再分别使用不同的卷积得到适用于 RGB 解码器和深度解码器的交互信息，去自适应地指导 RGB 解码器和深度解码器（如图 3.3(b)所示）。最后将融合交互特征和主干编码器的特征直接相加，以充分利用不同模态的特征。在本章提出的框架中，特征交互是由多次迭代组成的。在第一次迭代中，RGB 解码器和深度解码器两个分支在不交换信息的情况下输出融合特征。从第二次迭代开始，将前一次迭代后的拼接特征作为交互编码器的输入，从而实现两个分支之间的交互。

理解：

1、骨干网络（ResNet50）图中粉色部分

详细介绍：ResNet50网络结构图及结构详解 - 知乎 (zhihu.com)

最开始有一个单独的卷积层stage 0，后4个Stage都由Bottleneck组成，分别是3, 4, 6, 3个小Bottleneck。下面摘取了stage 0的解释：

(3,224,224)指输入INPUT的通道数(channel)、高(height)和宽(width)，即(C,H,W)。现假设输入的高度和宽度相等，所以用(C,W,W)表示。
该stage中第1层包括3个先后操作

CONV
CONV是卷积（Convolution）的缩写，7×7指卷积核大小，64指卷积核的数量（即该卷积层输出的通道数），/2指卷积核的步长为2。
BN
BN是Batch Normalization的缩写，即常说的BN层。
RELU
RELU指ReLU激活函数。

该stage中第2层为MAXPOOL，即最大池化层，其kernel大小为3×3、步长为2。
(64,56,56)是该stage输出的通道数(channel)、高(height)和宽(width)，其中64等于该stage第1层卷积层中卷积核的数量，56等于224/2/2（步长为2会使输入尺寸减半）。

总体来讲，在Stage 0中，形状为(3,224,224)的输入先后经过卷积层、BN层、ReLU激活函数、MaxPooling层得到了形状为(64,56,56)的输出。

2、金字塔结构的空间约束自相互注意力模块（Pyramid Spatial Constrained Self-Mutual Attention, PSMA）

用于学习多模态图像的空间上下文和多模态感知特征表示

RGB 模态和 Depth 模态的特征𝑋 𝑟 ∈ ℝ𝐻×𝑊×𝐶和𝑋d ∈ 𝐻×𝑊×C在通道维度上拼接,然后使用卷积和𝑠𝑜𝑓𝑡𝑚𝑎x激活函数来计算选择注意。

没看懂等等再理解

3、交互编码器

给定一个形状为H×W的输入图像，该主干将生成五个尺度的特征，由于下采样，尺寸减半。我们将这些特征表示为F={Fi|i=1,2,3,4,5}。第i个特征的大小为，其中Ci是第i个特性的通道。已经表明，低级特征大大增加了计算成本，但带来的性能改进有限。因此，我们只利用{Fi|i=2，3，4，5}的特征，如图2所示。将两个卷积层应用于这些特征，以使它们分别适应身体预测任务和细节预测任务。然后，我们得到两组特征B={Bi|i=2，3，4，5}和D={Di|i=2、3，4、5}，它们都被压缩到64个通道，并被发送到解码器网络以生成显著性图。

在获得这两个分支的输出特征之后，处理它们的最简单方法是连接这些特征并应用卷积层以获得最终的显著性图。然而，这种方式忽略了分支之间的关系。为了显式地促进分支之间的信息交换，引入了交互编码器网络。更具体地，交互解码器将主体解码器和细节解码器的级联特征作为输入。它堆叠多个卷积以提取多层次特征。然后，这些多级特征将应用于3x3卷积层，以使它们分别适用于身体解码器和细节解码器。直接相加用于将交互特征与骨干编码器的特征融合，以产生更精确的显著性图。从表面上看，整个网络是不寻常的，因为后者的分支输出用于前者的解码器。但事实上，特征交互包括多次迭代。在第一次迭代中，两个分支输出特征而不交换信息。从第二次迭代开始，分支之间交互。