FRNet：Feature Reconstruction Network for RGB-D Indoor Scene Parsing实验补充

news2026/2/11 16:33:35

FRNet做了大量的消融实验，这里仔细来分析一下。
1：ResNet backbone：
作者消融实验使用了ResNet34作为backbone来提取特征，将最后一层的输出简单相加起来，然后通过不断的上采样获得最终的输出。并且只在最后一层进行监督。最终在NYU取得了45.9%的成绩。我自己也跑过，说实话有些偏高。
在这里插入图片描述

可视化：

作者提到FRNet为什么可以获得比较好的结果其原因是因为考虑到了跨模态的信息，多层信息，上下文信息，多尺度监督。
接着作者对FCE的四个变量进行验证：
WA表示移除掉所有的重建操作，即CEM,而多层特征表示直接又相加替换掉。效果可以达到49.6。相比基础模型多了个信息的回流和融合上采样。等我下去试试这种top-down的结构的表现再回来。
在这里插入图片描述

可视化：

我们通过图片可以看到，如果不对RGB和Depth进行重建和融合，图片的边缘会比较模糊，且有大面积的涂抹感。
OH操作表示重建操作只在第四层有，且反向不再执行。

结果：相比于WA提升很明显有3.1%的提升。
在这里插入图片描述
OR表示我们只重建RGB分支，OH表示我们只重建Depth分支。我们只画rgb，depth同理。效果有所降低，说明只对RGB或Depth分值进行重建不如同时进行重建。

接着作者验证了添加第一层对模型的结构的影响：

结果：添加了不如不加的好，因为第一层噪声比较多。同时参数量肯定增加了不少在这里插入图片描述
作者验证了CAM的三个变量：

首先W+表示将所有的CAMs替换为逐像素相加。
结果：51.3%

WD表示移除掉权重相乘的Wd操作。

结果：提升到了52.4%相比于逐像素相加，效果提升了1%。

WOA表示用逐像素相加和卷积替代ADr和ADd：

结果：和WD结果差不了多少。

WOC：表示移除多尺度特征提取。

结果：相比于之前的效果降低了一些，可以知道多尺度特征提取是有用的，即ASPP比一般的卷积效果好一点，这个我也经过实验的。

WSOF：

结果：稍微有点降低。

接着是CAM模块的效果可视化：

接着是CEM的三个变量：
在这里插入图片描述

首先是RC，删除掉所有的CEMs，输出值用原始的RGB替换掉，这里的原始RGB到底是输入的RGB还是经过每层卷积后的RGB，这里暂且为经过每层卷积后的RGB。
在这里插入图片描述
结果：相比于最好的结果降低了1点多。

结果可视化：

C+：用SUM替代所有的CEMs。

结果：相比于不加高层次的语义信息还是有些许提升。

CA：验证逐像素相减的有效性，将减法替换为加法。

结果：有所下降，相比于逐像素相加，相减可以有效地突出特征的差异。
在这里插入图片描述
CA：将CEM和CAM替换为sum。

结果下降了4%，证明CAM和CEM的有效性。

总结：
1：类似于TOP-Down结构效果还是挺好的。即高层语义信息向低层的细节特征flow。
2：整个模型总体看来就是一个点即RGB和Depth的融合问题。融合的效果好最后的结果也是很好的，比如SA-Gate，encoder只关注RGB和Depth的融合问题，decoder比较简单。
3：RGB和Depth融合，一般三四个分支就足够的，不用太多，说的就是第一层，即经过池化后融合大可不必和decoder融合，增加计算量，并且第一层特征噪声比较多。
4：跨模态，跨层融合比单一的融合效果更好。同时注意力也是必不可少的。
5：类似于ASPP的结构获得更大的感受野，加在模型中会有一点提升。