[论文笔记]MRRNET

news2024/11/13 12:48:11

这是一篇河大的论文  感觉跟SANET很像

摘要

摘要:随着物联网(IoT)的大规模部署,道路场景中实时感知和环境理解的需求变得越来越迫切。 同时,语义分割作为像素级场景解析得到了广泛的研究。 然而,资源有限的物联网设备在语义分割时应考虑实时性和准确性性能。 在本文中,我们介绍了一种快速高效的语义分割网络,用于交通场景中的道路感知,部署在云服务器上。

为此,我们提出了一种有效且高效的语义分割网络,称为多分辨率细化网络(MRRNet)。 它采用编码器-解码器架构,可以有效地通信分支特征。

在编码器阶段,集成了语义重建模块(SRM)来捕获尺度特征信息并细化语义特征的性能。 为了解决信息丢失问题并增强特征的表示,提出了多尺度特征抛光模块(MSFPM)。 此外,还设计了对称聚合交互模块(SAIM)来利用低级和高级功能之间固有的互补性。 

引言

在本文中,我们介绍了一种称为 MRRNet 的多分辨率细化网络。

首先,该网络采用了轻量级编码器结构,旨在有效地提取复杂的特征。 其次,为了利用网络内丰富的空间细节,我们重新优化了分支结构,如图2所示。具体来说,MRRNet在编码器末端添加了语义重建模块(SRM)以重用高级特征。

在编码器的前端,引入了由多尺度特征抛光模块(MSFPM)细化的低级特征分支作为特征补充。 对称聚合交互模块(SAIM)由对称结构组成,旨在结合MRRNet每个分支中的空间和上下文增强块。 根据 Cityscapes [18]、CamVid [19] 和 NightCity [20] 三个流行基准的大量实验结果,MRRNet 在分割精度和推理速度之间实现了令人满意的平衡。 在各种基准数据集上进行实验,MRRNet在Cityscapes数据集上的mIoU为78.7%,FPS为112.6,在CamVid数据集上的mIoU为78.9%,FPS为175.7,NightCity 数据集上的mIoU为54.2%,FPS为178.9。  我们还提供了消融研究和特征可视化,以便更好地理解 MRRNet 中每个模块的功能。

本文创新点:

1>   我们精心设计了SRM来改善语义特征并提取不同分辨率的图像特征。

2>  提出了一种新的 MSFPM 来建立与低级特征的连接,从而能够全面捕获跨不同尺度的特征信息。

3>   我们提出了 SAIM,它有助于融合复杂的语义信息,提高语义分割的准确性和鲁棒性。

相关工作

分为三个方面写的   基本都是对前人工作的总结 感兴趣可以自己看看

A. Semantic Segmentation

B. Real-Time Semantic Segmentation

C. Context Information Reconstruction

模型方法

实时高精度网络的设计需要仔细考虑轻量级的结构设计和高效的特征表达。 当信息从浅分辨率提取到深分辨率时,会出现逐渐的过渡,其中空间细节减少,而语义信息增强。 因此,为了实现最佳性能,语义分割网络总是巧妙地利用高分辨率中固有的详细信息,同时利用较低分辨率下可用的上下文信息。

A. Overall Architecture

所提出的MRRNet的整体架构如图3所示,它采用编码器-解码器架构,集成了轻量级而高效的编码器,并采用具有鲁棒特征增强能力的分支结构。 受 ResNet [39] 主干网络的启发,我们的方法确保稳定的信息传输,并通过合并级联残差块来解决梯度消失问题。 我们使用预训练的 ImageNet 模型初始化主干权重,强调训练模型的效率。 在训练过程中,Ground Truth图像被用作目标图像并参与训练过程。 然后,这些图像将被 Canny 边缘检测并用作辅助图像来构建辅助损失,其目的是增强网络的目标边缘分割能力。 基本主干由具有六种不同分辨率的级联残差块组成,与 SRM 一起形成高效编码器,以实现最佳特征提取。 

此外,为了建立多分支特征层次结构,我们采用跨级链接方法,创建具有多尺度形状的层次结构。 在编码方面,我们专注于增强特征捕获能力,实现丰富细节信息的大感受野表达。 精心设计的MSFPM利用低维特征的精确感知,通过主干第三层块的连接改善特征表示并最大限度地减少中继信息丢失。 我们对跨尺度信息融合的重视是通过所提出的 SAIM 的对称结构来实现的,促进高层和低层特征之间的通信。 这种方法增强了低级特征的语义信息,同时为高级特征提供了更详细的信息。

B. Semantic Reconstruction Module

一个轻量级且高效的主干网络,以级联残差块为中心,旨在捕获基本特征以及全局语义特征。 然而,通过网络特征流传输输入信息过程中的下采样操作会导致纹理信息的丢失。 缺失的内容导致高级语义特征包含较少的场景级上下文信息,进而导致分割结果与理想情况之间存在较大差距。 为了解决这个问题,本文引入了 SRM,如图 4 所示,它重建了对于保持语义特征图完整性至关重要的上下文信息。 SRM强调了PPM的优点,采用多级池化层进行语义特征提取。 此外,它采用了在通道维度上构建复合特征图的方法。 值得注意的是,我们不仅结合了多尺度池化操作,还考虑了池后特征交互。 其中,提出了一种自适应引导机制,通过特征折叠形成特征权重,动态影响每个特征的权重。 SRM 包含三个关键组成部分:1)多尺度局部感知; 2)自适应权重引导; 3)跨尺度特征调制模块。

 多尺度局部感知:该块采用具有不同感受野的池化组,并向池化层添加 3 × 3 滤波器以进行特征平滑操作。 具体来说,我们对输入特征F6执行五组非对称分布的平均池化操作,得到感受野分布S ∈{3×3, 5× 5, 7×7, 9× 9, 13× 13},并进行特征处理 通过逐渐增加感受野。 处理的特性可表示为:

 其中Fin表示通过主干网络传输到SRM的输入特征。 Avgn×n表示Fin使用n×n的池化内核的平均池化操作,Conv指的是Convolution、batch Normalization(BN)和ReLU函数的组合操作。 在所提出的表达式中,我们采用平均池化操作来优先考虑模块对平滑噪声背景信息的关注,从而形成有效的特征组合表示。

自适应权重指导:该模块利用输入特征的全局能力来理解全局信息,指导尺度特征的权重生成过程。 这种方法充分利用了输入特征中嵌入的高级上下文信息。 最初,采用全局平均池算子来导出通道级别的一组权重向量。 随后,应用多层感知(MLP)来进一步微调和引导输出长度。 最后通过sigmoid函数生成自适应权重向量,记为w=[w1,w2,...w5] 

 其中 G_avg(·) 表示全局平均池和全局最大池运算符。 MLP(·) 由两个全连接层和一个 ReLU 层组成。

跨尺度特征调制:在该模块中,我们采用全局自适应感知权重(在(2)中表示为w)来调制由局部多尺度感知生成的多尺度上下文特征.F1 in.∼F5 in,如(1)中所述 。 具体来说,我们利用权重 w 来调整组合的多尺度特征的权重。 随后,我们在通道维度中连接重组的多尺度特征以产生场景上下文感知特征,从而细化语义特征 Fout

 C. Multiscale Feature Polishing Module

我们坚持探索低级功能,使我们的方法与其他网络保持一致。 认识到低级特征中丰富的细节和空间信息对准确分割的重大贡献,我们引入了 MSFPM 来增强低级尺度特征的表示并减少信息丢失。 如图5所示,MSFPM采用并联和级联结构的混合连接方法。 最初,输入 FA ∈ RH×W×C 中的低级特征被用作初始特征串联的基本特征,提供必要的原始信息。 此外,通过标准卷积进行主要特征细化以获得特征的重新表示。 后续步骤涉及循环过程,其中扩张卷积后的特征用于进一步级联和后续卷积操作,促进跨尺度特征学习。 这个迭代过程提取了一系列扩张的卷积缩放上下文特征,如下所示

 

 其中 F(p,d) 3×3conv 表示填充为 p 且扩张率为 d 的 3×3 空洞卷积。 在我们的实验中,我们设置 (p, d) = (1, 0), (3, 3), (5, 5), (7, 7), (13, 13)。 然后,这些输出特征将在通道维度上串联并通过1×1卷积输出

 

 D. Symmetric Aggregation Interaction Module

我们意识到高层和低层结构学习到的特征表示是完全不同的。 受跨尺度特征融合[29]、[32]、[40]的启发,我们设计了SAIM模块,如图6所示,

探索跨尺度的语义特征和细节特征之间的交互,强调通道交互ing且揭示了通道之间的关键线索。 其中,高层和低层特征之间的交互是通过DW卷积、标准卷积、元素级乘法实现的,从而融合彼此的特征信息。 具体来说,输入的低级特征Fl in 和高级特征Fh in 将通过DW卷积路径进行清洗,生成Fl1 in 和Fh1 in 。 另一方面,分别进行stride=4的上采样和下采样,最终输出Fl2 in和Fh2 in。 Fl2 in 与 Fh1 in 进行元素特征点乘运算,实现高层特征信息的低层表征,得到 Fhl in。同理,Fh2 in 与 Fl1 in 进行元素特征点乘运算,实现高层特征信息的高层表征 最后,将这两个融合特征与经过1×1卷积的低维特征和高维特征相加,得到F。 Fout是通过3×3卷积得到的,可以表示为

其中Fl in和Fh in是经过1×1卷积的低维特征和高维特征。

实验

消融实验

1>MRRNet 的有效性:为了验证架构中不同组件的有效性,我们选择比较在 ImageNet 上训练的主干网和 seghead 作为基线。 各个模块在 Cityscapes 验证数据集上的消融研究如表 1 所示。基线网络采用标准卷积代替相关运算,并在特征融合点利用加性连接,在 136.7 FPS 下实现了 73.7% 的准确率。 实验过程中,MRRNet在Layer3分支中加入MSFPM,实现边缘监督,在主干输出处连接SRM,并利用SAIM将SRM输出的重构语义信息与MSFPM产生的精细细节特征融合。

 2) Effectiveness of SRM

PPM 扩展了模型的感受野,实现了全局和局部信息的感知。 我们引入SRM来捕获尺度特征信息并增强语义特征。 该模块通过多级池化操作完成语义特征重建,并随后利用丰富的语义信息指导逐步上采样过程。

我们将 SRM 与其他具有类似功能的模块进行了比较,例如 PPM、DAPPM、PAPPM [33] 和 APPPM。 结果如表 II 所示,表明 SRM 的 mIoU 比 PPM 提高了 2.2%。 与广泛使用的 PPM 相比,SRM 表现出最高的 mIoU,为 78.7%。 此外,我们彻底验证了 SRM 结构,实现了池化模块组 {(1, 1), (3, 3), (5, 5), (7, 7), (9, 9), (13, 13) 在设计模块时,我们选择了高阶池化和低阶池化相结合的池化组合方法,通过mIoU的性能比较,我们最终选择了{(3, 3), (5, 5), (7, 7), (9, 9), (13, 13)}池化组合方法。 SRM结构中不同大小的组合卷积核的消融研究如表III所示。

 3) Effectiveness of MSFPM

        如表 I 所示,关于在基线中添加 MSFPM 的消融研究证实了我们提出的结构的有效性。 为了评估 MSFPM 模块的效率,我们使用不同的通道压缩率(表示为 r)进行了消融实验,如表 IV 所示。

        实验结果表明,随着通道组成参数 r 的减小(即随着卷积通道数量的增加),MSFPM 的 mIoU 逐渐增加,尽管代价是网络速度显着降低。 为了在 mIoU 和速度之间取得平衡,我们确定当 r=2 时,实现 MSFPM 的最佳结构。

        此外,我们还可视化了添加了 MSFPM 结构的基线的输出特征热图。 图 7 直观地比较了基线和 MSFPM 增强基线的输出结果。 在本研究中,我们采用梯度加权类激活映射(Grad-CAM)[52]作为可视化方法。 热图可视化的计算过程涉及计算输出卷积层到c类别的logits的梯度。 随后,通过对每个通道维度中的像素值进行平均来导出神经元重要性权重αck。 这由以下公式表示:

其中,z表示特征图中的像素数量,Ak ij 表示第k个特征图的i、j位置处的像素值,yc表示c类的logits。

为了获得类别 c 的 Grad-CAM,利用神经元重要性权重 αck 对所选卷积层的特征 Ak 进行 ReLU 操作。 这个过程用下面的公式表示:

 D. Compare With State-of-the-Art Methods

评价指标

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2145454.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

合宙Air201模组LuatOS:PWRKEY控制,一键解决解决关机难问题

不知不觉间,我们已经发布拉期课程:hello world初体验,点灯、远程控制、定位和扩展功能,你学的怎么样?很多伙伴表示已经有点上瘾啦!合宙Air201,如同我们一路升级打怪的得力法器,让开发…

打通最后一公里:使用CDN加速GitHub Page的访问

无论是互联网从业者还是科研人员,使用Github Page能够很友好的建立个人网站。 目前比较主流的方案是使用GitHub Page托管文字网页,利用GitHub仓库托管图床,稳定可靠(Gitee的page突然撤退,让人不敢再将图床放到上面&am…

大数据-138 - ClickHouse 集群 表引擎详解3 - MergeTree 存储结构 数据标记 分区 索引 标记 压缩协同

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…

Linux上Qt安装相关的内容及在QtCreator使用QChart模块需要的配置

引言 下面是Ubuntu上Qt安装相关的内容及在QtCreator使用QChart模块需要的配置。 关于Qt安装及环境 Qt的模块 查看已经安装的模块 sudo apt search qt5-安装新的模块 sudo apt install qt5-svg # 安装Qt SVG模块3.查看qt已经安装了哪些模块 dpkg -l | grep libqt安装qt,…

【深度学习实战—11】:基于Pytorch实现谷歌QuickDraw数据集的下载、解析、格式转换、DDP分布式训练、测试

✨博客主页:王乐予🎈 ✨年轻人要:Living for the moment(活在当下)!💪 🏆推荐专栏:【图像处理】【千锤百炼Python】【深度学习】【排序算法】 目录 😺〇、仓库…

链式前向星建图

回顾邻接局矩阵和邻接表建图: ​ 在之前的图论基础中,我们提到了两种建图方式:邻接矩阵、邻接表。 邻接矩阵实现: int N; //所有节点个数 int Graph[N][N]; for(int i : Numbers){ //Numbers表示所有节点for(int j : Neighbor…

VC++以资源方式打开可执行文件

刚看一个资料说可以在VC中,以资源方式打开可执行文件,然后它如果包含对话框一些资源,会呈现出来,可以把其他程序界面上的控件直接拷贝到自己程序; 但是操作了一下没有成功, 先新建一个空对话框准备拷贝东…

【Linux】Linux的基本指令(1)

A clown is always a clown.💓💓💓 目录 ✨说在前面 🍋知识点一:Linux的背景 •🌰1.Unix发展的历史 •🌰2.Linux发展历史 •🌰3.企业应用现状 •🌰4.发行版本 &…

【protobuf】ProtoBuf的学习与使用⸺C++

W...Y的主页 😊 代码仓库分享💕 前言:之前我们学习了Linux与windows的protobuf安装,知道protobuf是做序列化操作的应用,今天我们来学习一下protobuf。 目录 ⼀、初识ProtoBuf 步骤1:创建.proto文件 步…

WLAN无线局域网

目录 概述 IEEE 802.11标准与WiFi的世代 ​编辑 无线控制器AC(Access Controller) 无线接入点AP(Access Point) PoE(Power Over Ethernet) PoE交换机 STA(Station) BSS&#x…

简单生活的快乐

小明经常会被问到一个问题:为什么他那么有钱却选择过一种简单、谦逊的生活。先从小明的早年经历说起吧,大概是他六到十三岁的时候,物质对他来说是非常重要的。他记得当妈妈给他买了一双昂贵的鞋子时,他特别兴奋,喜欢向…

GEE 案例:利用sentinel-2数据计算的NDVI指数对比植被退化情况

目录 简介 NDVI指数 数据 函数 ui.Chart.image.series(imageCollection, region, reducer, scale, xProperty) Arguments: Returns: ui.Chart 代码 结果 简介 利用sentinel-2数据计算的NDVI指数对比植被退化情况 NDVI指数 NDVI(Normalized Difference Ve…

武器检测系统源码分享

武器检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vision …

压力测试Monkey命令参数和报告分析!

adb的操作命令格式一般为&#xff1a;adb shell monkey 命令参数 PART 01 常用参数 ⏩ -p <测试的包名列表> 用于约束限制&#xff0c;用此参数指定一个或多个包。指定包之后&#xff0c;Monkey将只允许系统启动指定的APP。如果不指定包&#xff0c;Monkey将允许系统…

【JVM】垃圾回收机制|死亡对象的判断算法|垃圾回收算法

思维导图 目录 1.找到谁是垃圾 1&#xff09;引用计数&#xff08;不是JVM采取的方式&#xff0c;而是Python/PHP的方案&#xff09; 2&#xff09;可达性分析&#xff08;是JVM采用的方案&#xff09; 2.释放对应的内存的策略 1&#xff09;标记-清除&#xff08;并不实…

信息安全数学基础(18)模重复平方计算法

前言 模重复平方计算法&#xff08;Modular Exponentiation by Squaring&#xff09;&#xff0c;也称为快速幂算法&#xff0c;是一种用于高效计算 abmodn 的算法&#xff0c;其中 a、b 和 n 是整数&#xff0c;且 b 可能非常大。这种算法通过减少乘法操作的次数来加速计算过程…

伦敦金的交易差价意味着什么?

在伦敦金投资市场上&#xff0c;点差是指交易平台的买入价&#xff08;买价&#xff09;和卖出价&#xff08;卖价&#xff09;之间的差额。对投资者来说&#xff0c;点差是交易成本的一部分&#xff0c;但它是经纪商的收入来源。点差代表伦敦金投资者在进入和退出交易时需要支…

Python 入门教程(4)数据类型 | 4.5、字符串类型

文章目录 一、字符串类型1、字符串的定义2、字符串索引3、字符串的基本操作4、字符串的编码5、字符串的不可变性6、总结 前言&#xff1a; 在Python中&#xff0c;字符串&#xff08;String&#xff09;是一种非常重要的数据类型&#xff0c;用于表示和存储文本信息。Python的字…

我的AI工具箱Tauri版-VideoIntroductionClipCut视频介绍混剪

本教程基于自研的AI工具箱Tauri版进行VideoIntroductionClipCut视频介绍混剪。 进入软件后可以直接搜索 VideoIntroductionClipCut 或者依次点击 Python音频技术/视频tools 进入该模块。 视频样片《Tara音乐介绍》 《我的AI工具箱Tauri版-VideoIntroductionClipCut视频介绍混…

excel VBA进行间比法设计

在品比试验大家多使用间比法试验设计&#xff0c;这里通过excel VBA实现间比法设计&#xff0c;代码如下&#xff1a; Sub 生成试验设计()Dim ws As Worksheet Dim rng As Range, rng2 As Range, rng3 As Range Dim cell As Range, lastcell As Range Dim rd As String, sn As…