基于ConvNeXt的跨模态特征融合模型用于RGB-D语义分割

news2025/1/15 23:25:33

A Cross-Modal Feature Fusion Model Based on ConvNeXt for RGB-D Semantic Segmentation
基于ConvNeXt的跨模态特征融合模型用于RGB-D语义分割

Tang X, Li B, Guo J, et al. A Cross-Modal Feature Fusion Model Based on ConvNeXt for RGB-D Semantic Segmentation[J]. Mathematics, 2023, 11(8): 1828.

摘要:语义分割是计算机视觉中的一个重要任务,它将图像分成多个块,根据类别之间的相似性和差异性对像素进行分类(即将图像中的每个像素分配到一个类别标签)。结合RGB和深度信息可以提高语义分割的性能。然而,如何深度融合RGB和深度信息仍然是一个问题。本文提出了基于ConvNeXt的跨模态特征融合RGB-D语义分割模型,该模型使用ConvNeXt作为骨架网络,并嵌入了一个跨模态特征融合模块(CMFFM)。CMFFM设计了特征通道和光谱级别的融合,可以实现RGB和深度的深度特征融合。在多个阶段进行深度多模态特征融合可以提高模型的性能。在SUN-RGBD的公共数据集上进行了实验,结果显示,我们提出的ConvNeXt-CMFFM模型在九个比较模型中获得了最高的53.5%的mIoU分数,实现了最佳的分割效果。ConvNeXt-CMFFM在我们自建的RICE-RGBD数据集上也取得了最高的mIoU分数和像素精度,在三个比较数据集中表现出色。我们的水稻数据集上的消融实验显示,与没有CMFFM的ConvNeXt相比,ConvNext-CMFFM的mIoU分数从71.5%提高到74.8%,像素精度从86.2%提高到88.3%,表明添加的特征融合模块有效地提高了分割性能。本研究显示了所提出模型在农业领域的实际应用的可行性。

1.介绍
语义分割是计算机视觉中的重要任务,其目的是将输入图像分割成具有一致语义含义的多个区域,以完成对许多实际应用的像素密集场景理解,如自动驾驶[1]、机器人导航[2]等。近年来,随着深度学习的快速发展[3–7],基于像素的RGB图像语义分割越来越受到关注,并在分割准确性方面取得了显著进展[6,7]。然而,由于RGB图像的特性,当前的深度语义分割模型在某些特定情况下不能始终提取正确的特征。例如,当两个对象具有相似的颜色或纹理时,通过纯粹的RGB图像很难区分它们。为了解决这些问题,一些研究人员使用额外的信息来辅助语义分割。

近年来,随着RGB-D传感器的快速发展,除了RGB信息外,还可以获取深度信息。深度数据可以显示场景中物体的结构和几何信息,并可以用作同时RGB数据的补充数据,以获取更丰富的特征,如颜色、纹理和形状,并提高语义分割的准确性。许多研究已经证明,空间信息对提高语义分割的准确性非常有帮助,并确认了从互补模式中学习的有效性。随着卷积神经网络(CNN或ConvNet)的快速发展,研究人员提出了各种基于CNN的方法来利用深度信息进行RGB-D分割。

在分割任务中,广泛使用了两种主流设计,即单流设计和双流设计。在单流设计中,深度信息直接与RGB在输入端拼接,形成4通道(RGB-D)输入或6通道(RGB-HHA,其中HHA是从深度编码而来,参考了分散、离地高度和法线角度),然后使用单个CNN模块进行进一步处理。然而,RGB和深度在根本上是不同的。RGB值捕捉了在投影图像空间中的光度外观属性,而深度表示几何属性。虽然相邻的像素在图像平面上彼此接近,但它们在3D空间中不一定是几何上一致的。因此,简单地拼接RGB和深度不能充分探索RGB和深度图像之间的相关性。在双流设计中,该架构使用并行编码器,RGB和深度使用单独的流进行处理。然而,大多数研究集中在设计用于处理RGB和深度图像的框架,忽视了RGB和深度之间特征的互补性,导致对个别学习流的过度依赖,从而增加了计算成本。当然,这也导致了RGB和深度图像之间特征融合不足,从而降低了分割准确性。在本文中,考虑到早期特征融合以及对RGB和深度图像的补充,我们提出了基于ConvNeXt [8]的交叉模态特征融合的RGB-D语义分割模型。通过在不同级别之后添加交叉模态特征融合模块,实现了RGB和深度特征的更充分的互补和融合,提高了RGB-D语义分割的准确性。本文的主要贡献如下。

(1) 提出了一种跨模态RGB特征和深度特征融合模块。通过跨模态信息交互,提高了模型的泛化能力,并通过跨注意机制提高了模型的推理能力。
(2) 构建了一个基于ConvNext的平行双分支结构的RGB-D语义分割模型,通过交叉模态特征融合,可以保持RGB和深度分支的强大特征提取能力,并有效地集成和融合RGB和深度特征。该模型对大型数据集具有更好的分割性能。

2.相关工作
在早期的研究中,研究人员手动定制了RGB-D融合特征。近年来,基于深度学习的RGB-D语义分割方法由于深度学习在特征提取能力方面的巨大优势,已经占据了主流地位[9–22]。ACNet [9]提出了一个通道注意模块,用于融合RGB特征和深度特征。参考文献[10,11]的作者使用了水平视差、地面高度、角度和重力的三个通道来对深度图像进行HHA编码,这种深度信息处理方法在后来的算法中被广泛使用。FuseNet [12]引入了一个融合层,将深度特征嵌入到RGB特征中。参考文献[13,14]提出了一个高效的特征融合模块,通过采用多模态特征融合和多级特征细化来捕获RGB-D特征,以适应不同级别信息的对象。LSD-GF [15]引入了一个门控融合层,用于调整每个像素上的RGB和深度贡献度。通过将几何信息整合到RGB特征中实现了深度感知卷积和池化[16]。CFN [17]利用深度信息将图像分割成代表相似视觉特征的层次。SCN [18]利用深度数据灵活选择存在不同对象的图像区域的有用上下文信息。J. McCormac等人[19]将RGB和深度特征叠加到四个通道中以改善语义分割。

由于双流结构具有高效性和可变性,它成为未来RGB-D语义分割的主流框架。Qi等人[20]引入了一个3D图神经网络,通过深度数据提供的几何线索来建模准确的上下文。Zhang等人[21]提出了一种新颖的任务递归学习(TRL)框架,用于联合和递归地进行包含深度估计、表面法线预测和语义分割的三个代表性任务。Zhou等人[22]提出了一种模式结构扩散(PSD)框架,用于在任务级空间中挖掘和传播任务特定和跨任务的模式结构,用于联合深度估计、分割和表面法线预测。由于RGB-D包含两种不同模式的信息,RGB和深度信息的融合成为提高语义分割准确性的有效方法[23–28]。Fan等人[23]构建了一个编码器网络,每个RGB和深度都有两个ConvNext-T背板,以及一个由多尺度监督和多粒度分割分支组成的解码器网络,以实现不同尺度的场景分割。Yang等人[24]提出了一个新的框架,MGCNet,通过差异探索引导模式融合,以减少协同冲突。在解码器中,提出了一个门控特征,以避免层间信息的排除,并充分捕捉上下文信息。Bai等人[28]提出了一个名为差分卷积注意网络(DCANet)的两分支网络,由像素差分卷积注意和集合差分卷积注意组成,用于融合两模数据的局部和全局信息。Wu等人[29]提出了一种新的框架,将深度信息整合到RGB CNN中,以引导RGB图像上的特征提取。一些研究人员关注3D场景完成,使用深度学习方法和RGB-D数据来实现语义分割和三维场景完成[30–32]。这些语义分割网络为准确提取深度信息打开了新的途径。然而,如何充分整合RGB-D信息的难题仍然存在。我们可以得出结论,RGB-D语义分割的关键挑战在于如何识别RGB特征和深度特征之间的差异,有效地整合它们并利用它们来实现更高的分割准确性。

3.方法
3.1. 框架概述
本文提出了一种基于ConvNeXt的跨模态特征融合RGB-D语义分割模型。模型的框架如图1所示。我们使用两个并行的RGB分支和一个深度分支来从RGB和深度图像中提取特征。同时,使用跨模态特征融合模块来补充RGB和深度分支的特征,即通过这个模块来补充不同模态的特征,然后将补充后的特征进行融合,实现跨模态特征融合。

编码器用于在不同级别提取RGB和深度特征,然后解码器用于将不同级别的特征图转换为最终的语义地图。为了提高不同级别特征的特殊利用率,我们在解码器中引入多级特征补充,并使用编码器中不同级别的融合特征作为补充,以提高模型的鲁棒性。模型的编码器由4个阶段组成。随后,交叉模态特征融合模块(CMFFM),见于第3.3节中,嵌入在每个阶段中,RGB特征和深度特征通过CMFFM传递到下一层,RGB和深度的融合特征发送到解码器进行特征补充。在图1中,下采样和上采样的功能是调整图像尺寸。例如,编码器和解码器部分中的“1/4”表示空间尺寸分别减小和扩大到原始尺寸的1/4和4倍。

3.2. ConvNeXt
自从VIT [33]提出以来,它迅速取代了卷积网络成为最先进的图像分类模型。使用Transformer作为骨干网络并引入卷积神经网络(ConvNet)使得Transformer可以应用于各种视觉任务,如目标检测、语义分割等。ConvNeXt建立了一个完全由标准ConvNet模块组成的网络,基于VIT和ResNet的设计,它在准确性和可扩展性方面优于Transformer,同时保持了标准ConvNet的简单性和效率。ConvNeXt的网络结构包含四个层,如图2所示。层1、2和4包含三个基本块,而层3包含27个基本块。每个基本块包含三个卷积层,并在每个基本块中使用高斯误差线性单元(GELU)[34]激活函数和更简单的层归一化(LN)[35]。RGB图像和深度图像通过模型的各自分支输入(图1)。经过第1个下采样层后,通过卷积操作(在图2中),RGB数据和深度数据具有相同的数据形状,均为192个通道,然后将192通道的数据发送到层1进行处理,经过层1的融合模块(即CMFFM)后,数据同时发送到层2(用于进一步下采样)和解码器模块(用于特征补充的上采样),然后到层3和层4。每个层之间通过下采样层连接。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1104727.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

自建应用-企业微信-侧边栏开发配置

企业微信侧边栏开发配置 配置侧边栏配置后效果图js-sdk 配置侧边栏 配置后效果图 js-sdk https://developer.work.weixin.qq.com/document/path/91789

【前端也要学算法系列】经典排序算法JS实现 —— 冒泡排序

一以贯之的努力,不得懈怠的人生。——长洱《天才基本法》 冒泡排序(Bubble Sort) 它会遍历 数据总个数减一 次需要排序的数列, 每次遍历时,它都会从前往后依次的比较相邻两个数的大小;如果前者比后者大&am…

antdv 锚点无滚动效果

背景&#xff1a;使用antd的锚点时&#xff0c;按照官方文档的用法配置之后发现锚点组件的锚点Title位置没办法随着我的页面滚动而变化&#xff0c;但是点击Title跳转具体锚定位置的功能却是没有问题的 解决方法&#xff1a;getContainer绑定滚动范围容器 <a-anchor class&q…

springboot时间管理系统springboot47

大家好✌&#xff01;我是CZ淡陌。一名专注以理论为基础实战为主的技术博主&#xff0c;将再这里为大家分享优质的实战项目&#xff0c;本人在Java毕业设计领域有多年的经验&#xff0c;陆续会更新更多优质的Java实战项目&#xff0c;希望你能有所收获&#xff0c;少走一些弯路…

web前端面试-- http的各个版本的区别(HTTP/0.9、HTTP/1.0、HTTP/1.1、HTTP/2.0、HTTP/3.0)

本人是一个web前端开发工程师&#xff0c;主要是vue框架&#xff0c;整理了一些面试题&#xff0c;今后也会一直更新&#xff0c;有好题目的同学欢迎评论区分享 ;-&#xff09; web面试题专栏&#xff1a;点击此处 http的各个版本的区别 HTTP&#xff08;超文本传输协议&…

ICC2: 限制指定net绕线区域

我正在「拾陆楼」和朋友们讨论有趣的话题&#xff0c;你⼀起来吧&#xff1f; 拾陆楼知识星球入口 有些net有特殊绕线需求&#xff0c;只能在固定区域绕线&#xff0c;这时候就需要用到route corridor命令&#xff0c;参考用法如下: create_routing_corridor -name corridor_b…

【QT开发(9)】QT 中使用CUDA 代码

在之前的文章【CUDA编程&#xff08;1&#xff09;】 初识CUDA编程 写了CUDA相关的知识。最近也在研究 并行异构的课程&#xff0c;在QT里面加入相关的cuda 代码试一下&#xff01; 首先需要 在camke 中开启cuda&#xff0c;参考之前的文章【cmake开发&#xff08;12&#xff…

echarts-liquidfill水球图教程

接到了一个水球图的需求&#xff0c;如上图所示&#xff0c;点击不同的水球&#xff0c;下面的进度条呈现不同维度的百分比情况 。 第一步&#xff0c;安装插件 npm install echarts npm install echarts-liquidfill注意在这里需要查看echarts版本是4还是5&#xff0c;echart…

基于深度学习的地铁客流预测架构

导读 论文题目为&#xff1a;《DeepPF: A deep learning based architecture for metro passenger flow prediction》。是一篇2019年发表于《Transportation Research Part C》的文章&#xff0c;介绍了一种新型的基于深度学习的地铁客流预测架构&#xff0c;通过采取模块化的方…

代码随想录算法训练营第23期day25| 216.组合总和III 、17.电话号码的字母组合

目录 一、&#xff08;leetcode 216&#xff09;组合总和III 剪枝 二、&#xff08;leetcode 17&#xff09;电话号码的字母组合 思路 一、&#xff08;leetcode 216&#xff09;组合总和III 力扣题目链接 状态&#xff1a;已AC&#xff0c;就是在77题的前提下&#xff0c…

【23真题】130分送分!剩下20谁也别拿满!

今天分享的是23年武汉工程大学834的信号与系统试题及解析。 填空涉及到概念题&#xff0c;和简答题&#xff01;这种题型非常少见&#xff01;很像我们的梦马全程班6月模考&#xff0c;也考了简答概念&#xff0c;但是我们只是为了帮助大家理解知识点&#xff0c;他玩真的&…

使用流量管理工具保护 Kubernetes 的六种方法

原文作者&#xff1a;Jenn Gile - F5 NGINX 产品营销经理 原文链接&#xff1a;使用流量管理工具保护 Kubernetes 的六种方法 转载来源&#xff1a;NGINX 中文官网 NGINX 唯一中文官方社区 &#xff0c;尽在 nginx.org.cn 编者按 —— 本文是以下系列博文中的一篇&#xff08;共…

云服务器快速搭建网站

目录 安装Apache Docker 安装 Mysql 安装 Docker 依赖包 添加 Docker 官方仓库 安装 Docker 引擎 启动 Docker 服务并设置开机自启 验证 Docker 是否成功安装 拉取 MySQL 镜像 查看本地镜像 运行容器 停止和启动容器 列出正在运行的容器 安装PHP环境 搭建网站 安装…

前端刷新token,判断token是否过期(jwt鉴权)

4.1 什么是 JWT JWT 是 Auth0 提出的通过 对 JSON 进行加密签名来实现授权验证的方案&#xff1b; 就是登录成功后将相关用户信息组成 JSON 对象&#xff0c;然后对这个对象进行某种方式的加密&#xff0c;返回给客户端&#xff1b; 客户端在下次请求时带上这个 Token&#xff…

Python网络编程改良版服务端

在《Python中套接字实现服务端和客户端3-1》中提到服务端可以接收来自客户端的连接&#xff0c;并且创造新的套接字与客户端进行数据通信。此时的服务端只能与一个客户端进行数据通信&#xff0c;如果有多个客户端连接服务端&#xff0c;该怎么对服务端进行改良呢&#xff1f; …

全流程TOUGH系列软件应用丨入门丨基础丨进阶丨实操

TOUGH系列软件是由美国劳伦斯伯克利实验室开发的&#xff0c;旨在解决非饱和带中地下水、热运移的通用模拟软件。和传统地下水模拟软件Feflow和Modflow不同&#xff0c;TOUGH系列软件采用模块化设计和有限积分差网格剖分方法&#xff0c;通过配合不同状态方程&#xff08;EOS模…

100.一个linux内核选项对ssh的影响

&#xff08;从这开始给文章编号&#xff0c;编号从100开始&#xff09; 平台&#xff1a;rk3399&#xff08;f4932-r2h&#xff09; 内核&#xff1a;linux5.10 文件系统&#xff1a;firefly ssh&#xff1a;有线网卡 串口终端打印正常&#xff0c; 但是ssh登录却出现如下…

Xshell7试用期过了,打开就显示评估期已过,想继续或者不能删除怎么办?详细说明解决步骤

文章目录 1、问题说明2、解决办法2.1 重新安装2.2 卸载 1、问题说明 多长时间没用 Xshell 远程连接服务器&#xff0c;发现之前没有使用魔法工具处理&#xff08;正版&#xff09;&#xff0c;现在过期了。 2、解决办法 想继续使用Xshell的话&#xff0c;有两种方式&#xff…

全光谱台灯对孩子眼睛好吗?2023五款全光谱护眼台灯推荐

全光谱台灯是一种能够模拟自然光谱的照明设备&#xff0c;其光线成分丰富&#xff0c;更接近自然阳光的光谱。相比传统的白炽灯或荧光灯&#xff0c;全光谱台灯在照明效果上更加均匀柔和&#xff0c;并且可以提供更好的颜色还原效果。对于孩子的眼睛来说&#xff0c;全光谱台灯…

ios UI 基础开发二

第一节&#xff1a;UIPickerView、UIPickerViewDataSource、UIPickerViewDelegate 设置约束&#xff0c;如果要设置两个兄弟的约束&#xff0c;可以按住option键&#xff0c;用鼠标右键把a拖到b上面&#xff0c;表示a按照b来对齐 生成随机数 如果后面列的数据&#xff0c;依赖前…