A Cross-Modal Feature Fusion Model Based on ConvNeXt for RGB-D Semantic Segmentation
基于ConvNeXt的跨模态特征融合模型用于RGB-D语义分割
Tang X, Li B, Guo J, et al. A Cross-Modal Feature Fusion Model Based on ConvNeXt for RGB-D Semantic Segmentation[J]. Mathematics, 2023, 11(8): 1828.
摘要:语义分割是计算机视觉中的一个重要任务,它将图像分成多个块,根据类别之间的相似性和差异性对像素进行分类(即将图像中的每个像素分配到一个类别标签)。结合RGB和深度信息可以提高语义分割的性能。然而,如何深度融合RGB和深度信息仍然是一个问题。本文提出了基于ConvNeXt的跨模态特征融合RGB-D语义分割模型,该模型使用ConvNeXt作为骨架网络,并嵌入了一个跨模态特征融合模块(CMFFM)。CMFFM设计了特征通道和光谱级别的融合,可以实现RGB和深度的深度特征融合。在多个阶段进行深度多模态特征融合可以提高模型的性能。在SUN-RGBD的公共数据集上进行了实验,结果显示,我们提出的ConvNeXt-CMFFM模型在九个比较模型中获得了最高的53.5%的mIoU分数,实现了最佳的分割效果。ConvNeXt-CMFFM在我们自建的RICE-RGBD数据集上也取得了最高的mIoU分数和像素精度,在三个比较数据集中表现出色。我们的水稻数据集上的消融实验显示,与没有CMFFM的ConvNeXt相比,ConvNext-CMFFM的mIoU分数从71.5%提高到74.8%,像素精度从86.2%提高到88.3%,表明添加的特征融合模块有效地提高了分割性能。本研究显示了所提出模型在农业领域的实际应用的可行性。
1.介绍
语义分割是计算机视觉中的重要任务,其目的是将输入图像分割成具有一致语义含义的多个区域,以完成对许多实际应用的像素密集场景理解,如自动驾驶[1]、机器人导航[2]等。近年来,随着深度学习的快速发展[3–7],基于像素的RGB图像语义分割越来越受到关注,并在分割准确性方面取得了显著进展[6,7]。然而,由于RGB图像的特性,当前的深度语义分割模型在某些特定情况下不能始终提取正确的特征。例如,当两个对象具有相似的颜色或纹理时,通过纯粹的RGB图像很难区分它们。为了解决这些问题,一些研究人员使用额外的信息来辅助语义分割。
近年来,随着RGB-D传感器的快速发展,除了RGB信息外,还可以获取深度信息。深度数据可以显示场景中物体的结构和几何信息,并可以用作同时RGB数据的补充数据,以获取更丰富的特征,如颜色、纹理和形状,并提高语义分割的准确性。许多研究已经证明,空间信息对提高语义分割的准确性非常有帮助,并确认了从互补模式中学习的有效性。随着卷积神经网络(CNN或ConvNet)的快速发展,研究人员提出了各种基于CNN的方法来利用深度信息进行RGB-D分割。
在分割任务中,广泛使用了两种主流设计,即单流设计和双流设计。在单流设计中,深度信息直接与RGB在输入端拼接,形成4通道(RGB-D)输入或6通道(RGB-HHA,其中HHA是从深度编码而来,参考了分散、离地高度和法线角度),然后使用单个CNN模块进行进一步处理。然而,RGB和深度在根本上是不同的。RGB值捕捉了在投影图像空间中的光度外观属性,而深度表示几何属性。虽然相邻的像素在图像平面上彼此接近,但它们在3D空间中不一定是几何上一致的。因此,简单地拼接RGB和深度不能充分探索RGB和深度图像之间的相关性。在双流设计中,该架构使用并行编码器,RGB和深度使用单独的流进行处理。然而,大多数研究集中在设计用于处理RGB和深度图像的框架,忽视了RGB和深度之间特征的互补性,导致对个别学习流的过度依赖,从而增加了计算成本。当然,这也导致了RGB和深度图像之间特征融合不足,从而降低了分割准确性。在本文中,考虑到早期特征融合以及对RGB和深度图像的补充,我们提出了基于ConvNeXt [8]的交叉模态特征融合的RGB-D语义分割模型。通过在不同级别之后添加交叉模态特征融合模块,实现了RGB和深度特征的更充分的互补和融合,提高了RGB-D语义分割的准确性。本文的主要贡献如下。
(1) 提出了一种跨模态RGB特征和深度特征融合模块。通过跨模态信息交互,提高了模型的泛化能力,并通过跨注意机制提高了模型的推理能力。
(2) 构建了一个基于ConvNext的平行双分支结构的RGB-D语义分割模型,通过交叉模态特征融合,可以保持RGB和深度分支的强大特征提取能力,并有效地集成和融合RGB和深度特征。该模型对大型数据集具有更好的分割性能。
2.相关工作
在早期的研究中,研究人员手动定制了RGB-D融合特征。近年来,基于深度学习的RGB-D语义分割方法由于深度学习在特征提取能力方面的巨大优势,已经占据了主流地位[9–22]。ACNet [9]提出了一个通道注意模块,用于融合RGB特征和深度特征。参考文献[10,11]的作者使用了水平视差、地面高度、角度和重力的三个通道来对深度图像进行HHA编码,这种深度信息处理方法在后来的算法中被广泛使用。FuseNet [12]引入了一个融合层,将深度特征嵌入到RGB特征中。参考文献[13,14]提出了一个高效的特征融合模块,通过采用多模态特征融合和多级特征细化来捕获RGB-D特征,以适应不同级别信息的对象。LSD-GF [15]引入了一个门控融合层,用于调整每个像素上的RGB和深度贡献度。通过将几何信息整合到RGB特征中实现了深度感知卷积和池化[16]。CFN [17]利用深度信息将图像分割成代表相似视觉特征的层次。SCN [18]利用深度数据灵活选择存在不同对象的图像区域的有用上下文信息。J. McCormac等人[19]将RGB和深度特征叠加到四个通道中以改善语义分割。
由于双流结构具有高效性和可变性,它成为未来RGB-D语义分割的主流框架。Qi等人[20]引入了一个3D图神经网络,通过深度数据提供的几何线索来建模准确的上下文。Zhang等人[21]提出了一种新颖的任务递归学习(TRL)框架,用于联合和递归地进行包含深度估计、表面法线预测和语义分割的三个代表性任务。Zhou等人[22]提出了一种模式结构扩散(PSD)框架,用于在任务级空间中挖掘和传播任务特定和跨任务的模式结构,用于联合深度估计、分割和表面法线预测。由于RGB-D包含两种不同模式的信息,RGB和深度信息的融合成为提高语义分割准确性的有效方法[23–28]。Fan等人[23]构建了一个编码器网络,每个RGB和深度都有两个ConvNext-T背板,以及一个由多尺度监督和多粒度分割分支组成的解码器网络,以实现不同尺度的场景分割。Yang等人[24]提出了一个新的框架,MGCNet,通过差异探索引导模式融合,以减少协同冲突。在解码器中,提出了一个门控特征,以避免层间信息的排除,并充分捕捉上下文信息。Bai等人[28]提出了一个名为差分卷积注意网络(DCANet)的两分支网络,由像素差分卷积注意和集合差分卷积注意组成,用于融合两模数据的局部和全局信息。Wu等人[29]提出了一种新的框架,将深度信息整合到RGB CNN中,以引导RGB图像上的特征提取。一些研究人员关注3D场景完成,使用深度学习方法和RGB-D数据来实现语义分割和三维场景完成[30–32]。这些语义分割网络为准确提取深度信息打开了新的途径。然而,如何充分整合RGB-D信息的难题仍然存在。我们可以得出结论,RGB-D语义分割的关键挑战在于如何识别RGB特征和深度特征之间的差异,有效地整合它们并利用它们来实现更高的分割准确性。
3.方法
3.1. 框架概述
本文提出了一种基于ConvNeXt的跨模态特征融合RGB-D语义分割模型。模型的框架如图1所示。我们使用两个并行的RGB分支和一个深度分支来从RGB和深度图像中提取特征。同时,使用跨模态特征融合模块来补充RGB和深度分支的特征,即通过这个模块来补充不同模态的特征,然后将补充后的特征进行融合,实现跨模态特征融合。
编码器用于在不同级别提取RGB和深度特征,然后解码器用于将不同级别的特征图转换为最终的语义地图。为了提高不同级别特征的特殊利用率,我们在解码器中引入多级特征补充,并使用编码器中不同级别的融合特征作为补充,以提高模型的鲁棒性。模型的编码器由4个阶段组成。随后,交叉模态特征融合模块(CMFFM),见于第3.3节中,嵌入在每个阶段中,RGB特征和深度特征通过CMFFM传递到下一层,RGB和深度的融合特征发送到解码器进行特征补充。在图1中,下采样和上采样的功能是调整图像尺寸。例如,编码器和解码器部分中的“1/4”表示空间尺寸分别减小和扩大到原始尺寸的1/4和4倍。
3.2. ConvNeXt
自从VIT [33]提出以来,它迅速取代了卷积网络成为最先进的图像分类模型。使用Transformer作为骨干网络并引入卷积神经网络(ConvNet)使得Transformer可以应用于各种视觉任务,如目标检测、语义分割等。ConvNeXt建立了一个完全由标准ConvNet模块组成的网络,基于VIT和ResNet的设计,它在准确性和可扩展性方面优于Transformer,同时保持了标准ConvNet的简单性和效率。ConvNeXt的网络结构包含四个层,如图2所示。层1、2和4包含三个基本块,而层3包含27个基本块。每个基本块包含三个卷积层,并在每个基本块中使用高斯误差线性单元(GELU)[34]激活函数和更简单的层归一化(LN)[35]。RGB图像和深度图像通过模型的各自分支输入(图1)。经过第1个下采样层后,通过卷积操作(在图2中),RGB数据和深度数据具有相同的数据形状,均为192个通道,然后将192通道的数据发送到层1进行处理,经过层1的融合模块(即CMFFM)后,数据同时发送到层2(用于进一步下采样)和解码器模块(用于特征补充的上采样),然后到层3和层4。每个层之间通过下采样层连接。