《BASeg: Boundary aware semantic segmentation for autonomous driving》论文解读

news2024/11/15 12:09:17

期刊:Neural Networks | Journal | ScienceDirect.com by Elsevier

年份:2023

代码:https://github.com/Lature-Yang/BASeg

摘要

语义分割是自动驾驶领域街道理解任务的重要组成部分。现有的各种方法要么专注于通过聚合全局或多尺度上下文信息来构建对象内部的一致性,要么简单地将语义特征与边界特征相结合来细化对象细节。尽管令人印象深刻,但大多数都忽略了内部对象和边界之间的长程依赖关系。本文提出一种边界感知网络(BASeg)用于语义分割,利用边界信息作为指导上下文聚合的重要线索。具体而言,在BASeg中提出了边界细化模块(Boundary Refined Module, BRM),通过骨架中的高层多尺度语义特征来细化Canny检测器粗粒度的底层边界特征;在此基础上,进一步提出了上下文聚合模块(Context Aggregation Module, CAM),以捕获边界区域与目标内部像素之间的长程依赖关系,实现相互增益并增强类内一致性。此外,所提出方法可以插入到其他CNN主干中以较小的计算预算获得更高的性能,并在数据集ADE20K、Cityscapes和CamVid上分别获得了45.72%、81.2%和77.3%的mIoU。与一些最新的基于resnet101的分割方法相比,大量的实验证明了该方法的有效性。

Introduction

主要贡献

  • 针对语义分割问题,提出了由边界特征、语义特征和聚合特征组成的语义分割框架BASeg,该框架采用基于注意力的机制来引导边界特征的上下文聚合。
  • 将边界细化模块(BRM)集成到BASeg中,从Canny检测器获得的粗轮廓中生成显著的细化边界信息。
  • 在Cityscapes和CamVid等公共驾驶场景数据集和ADE20K等语义数据集上进行了广泛的实验,证明了所提出模型的优越性能。

Method

网络架构

  • BASeg网络由边界流、语义流和聚合流组成,利用边界上下文信息来分割对象。
  • 边界流用于预测给定图像的二值边界,语义流用于生成语义特征图,聚合流用于捕获语义特征图和边界特征图之间的长距离依赖。
  • 网络架构包括使用ResNet101作为主干网络,ASPP(Atrous Spatial Pyramid Pooling)模块用于提取空间信息,以及引入全局平均池化分支以提供图像级信息。

主要组件: 

  • AGB:注意门块,过滤噪声并增强更高层级特征的细节
  • ASPP:Atrous空间金字塔池,融合多尺度特征
  • CAM:上下文聚合模块,用于捕获边界区域与对象内部像素之间的长距离依赖关系,实现相互增益并增强类内一致性。
  • BRM:边界细化模块,用于通过高级多尺度语义特征来细化Canny检测器粗略检测到的低级边界特征。
  • Canny:边缘检测器

2.1 Boundary Refine Module(BRM)

提升从Canny边缘检测器获得的粗略边界特征,并将其与深层的语义特征结合起来,以便于网络能够更准确地识别和细化对象的边界。

AGB中,特征信号X(来自Canny检测的轮廓特征)和门控信号G(来自语义特征图的高级特征)被结合起来,以增强边界区域的特征。

2.2 Context Aggregation Module (CAM)

负责捕获边界区域与对象内部像素之间的长距离依赖关系,以增强语义分割的性能。

计算过程:

  1. 特征转换:CAM通过三个1×1卷积层将语义特征F和边界特征B转换为三个新的特征图Q (Query), K (Key), V (Value)。这有助于减少参数数量和计算成本。
  2. 亲和力矩阵计算:通过计算Key和Query之间的亲和力矩阵S,来衡量不同像素间的相互影响。亲和力矩阵S是通过Key和Query的矩阵乘法以及Softmax函数得到的。
  3. 注意力机制:亲和力矩阵S反映了像素间的相关性,通过Softmax函数进行归一化处理,以突出显示重要像素对其他像素的影响。
  4. 特征适应:对亲和力矩阵S应用另一个1×1卷积层进行特征适应,以进一步优化特征表示。
  5. 上下文聚合:利用亲和力矩阵和Value特征图V,通过元素级求和操作,聚合输入的语义特征图和上下文注意力图,生成聚合后的特征图F。

 2.3 Loss function

用来衡量模型预测与真实标签之间的差异,并指导网络训练过程中的参数更新。BASeg采用了一个多任务损失函数,它联合了三个独立的损失来优化网络的不同部分:

1. body loss:计算了网络对每个像素预测的类别概率与真实标签之间的差异。

2. bound loss:衡量了预测的边界与真实边界标签之间的差异,有助于细化边界区域的分割。

 3. 辅助损失:像素级交叉熵损失,用于对选定的中间层特征进行辅助监督,以帮助网络学习更泛化的特征表示。中间层 F4 施加辅助监督来训练模型、

4. 联合损失:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1924976.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

读人工智能全传12人工智能导致的问题1

1. 人工智能会导致什么问题 1.1. 人工智能是一门通用技术:它的应用仅仅受限于我们的想象 1.1.1. 所有的技术都可能产生意想不到的效果,未来几十年甚至几百年内都存在可能性 1.2. 所有的技术都可能被滥用 1.2.1. 我们的无名氏祖先率先用上了火&#x…

C#统一委托Func与Action

C#在System命名空间下提供两个委托Action和Func,这两个委托最多提供16个参数,基本上可以满足所有自定义事件所需的委托类型。几乎所有的 事件 都可以使用这两个内置的委托Action和Func进行处理。 Action委托: Action定义提供0~16个参数&…

【深度学习】PyTorch深度学习笔记01-Overview

参考学习:B站视频【《PyTorch深度学习实践》完结合集】-刘二大人 ------------------------------------------------------------------------------------------------------- 1. 基于规则的深度学习 2. 经典的机器学习——手动提取一些简单的特征 3. 表示学习…

【接口设计】为 APP、PC、H5 网页提供统一风格的 API(实战篇,附源码地址)

为 APP、PC、H5 网页提供统一风格的 API 1.实现文章实体2.实现数据持久层3.实现服务接口和服务接口的实现类3.1 创建服务接口3.2 编写服务接口的实现 4.处理返回结果4.1 实现响应的枚举类4.2 实现返回的对象实体4.3 封装返回结果 4.统一处理异常4.1 全局捕捉异常4.2 自定义异常…

【防火墙】防火墙安全策略用户认证综合实验

实验拓扑及要求 拓扑搭建及IP配置 防火墙(总公司)和交换机(汇聚生产区和办公区)的接口配置 生产区在vlan2,办公区在vlan3,防火墙在G1/0/3接口上创建子接口G1/0/3.1和G1/0/3.2对两个区域分别进行管理 交换…

时间轮算法理解、Kafka实现

概述 TimingWheel,时间轮,简单理解就是一种用来存储若干个定时任务的环状队列(或数组),工作原理和钟表的表盘类似。 关于环形队列,请参考环形队列。 时间轮由两个部分组成,一个环状数组&…

企业智能制造赋能的环境条件为什么重要?需要准备什么样的环境?

在全球制造业不断演进的今天,智能制造已经成为推动行业创新和转型的关键力量。它不仅代表了技术的革新,更是企业管理模式和运营思路的全面升级。然而,智能制造的落地实施并非一蹴而就,它需要企业在环境条件上做好充分的准备&#…

Study--Oracle-07-ASM自动存储管理(一)

一、ASM实例和数据库实例对应关系 1、ASM是Oracle 10g R2中为了简化Oracle数据库的管理而推出来的一项新功能,这是Oracle自己提供的卷管理器,主要用于替代操作系统所提供的LVM,它不仅支持单实例,同时对RAC的支持也是非常好。ASM可…

C语言 | Leetcode C语言题解之第231题2的幂

题目&#xff1a; 题解&#xff1a; const int BIG 1 << 30;bool isPowerOfTwo(int n) {return n > 0 && BIG % n 0; }

防火墙--NAT和智能选路的一些知识

目录 NAT 源NAT 包含 目标NAT 包含 双向NAT 防火墙中web页面的nat配置 新建NAT策略 各个选项意思及使用 NAT类型 转换模式 仅转换源地址选项 原始数据包就相当于抓取流量&#xff0c;相当于NAT中acl的配置 转换后的数据包就是转换后的公网地址 配置地址池 端口地…

低代码商城构建专家:Mall-Cook

Mall-Cook&#xff1a;用Mall-Cook&#xff0c;让电商创新触手可及- 精选真开源&#xff0c;释放新价值。 概览 Mall-Cook是一个面向未来的商城低代码开发平台&#xff0c;它通过提供直观的可视化界面&#xff0c;让开发者和商家能够快速构建和部署跨平台的电商解决方案。这个…

国产精品ORM框架-SqlSugar详解 进阶功能 集成整合 脚手架应用 专题二

国产精品ORM框架-SqlSugar详解 SqlSugar初识 专题一-CSDN博客 sqlsugar 官网-CSDN博客 4、进阶功能 5、集成整合 6、脚手架应用 4、进阶功能 4.1、生命周期 Queryable 什么时候操作库 Queryable是一个引用类型 Queryable拷贝机制 4.2、执行Sql 方法列表 方法名 描述 返…

秋招Java后端开发冲刺——MyBatisPlus总结

一、 基本知识 1. 介绍 yBatis-Plus 是一个 MyBatis 的增强工具&#xff0c;在 MyBatis 的基础上增加了大量功能和简化操作&#xff0c;以提高开发效率。 2. 特点 无侵入&#xff1a;只做增强不做改变&#xff0c;引入它不会对现有项目产生影响。依赖少&#xff1a;仅仅依赖 …

智慧校园信息化大平台整体解决方案PPT(75页)

1. 教育信息化政策 教育部印发《教育信息化2.0行动计划》&#xff0c;六部门联合发布《关于推进教育新型基础设施建设构建高质量教育支撑体系的指导意见》&#xff0c;中共中央、国务院印发《中国教育现代化2035》。这些政策文件强调了教育的全面发展、面向人人、终身学习、因…

Linux对文件访问的基本权限

文件权限控制对文件的访问。 有三种权限类别可应用&#xff1a;读取、写入和执行。 权限对文件和目录的影响&#xff1a; 权限 对文件的影响 对目录的影响 r读取 可以读取文件的内容 可以列出目录的内容 w写入 可以更改文件的内容 可以创建或删除目录中任一文件 x执行…

uniapp 支付宝小程序 芝麻免押 免押金

orderStr参数如下&#xff1a; my.tradePay({orderStr:res, // 完整的支付参数拼接成的字符串&#xff0c;从 alipay.fund.auth.order.app.freeze 接口获取success: (res) > {console.log(免押成功);console.log(JSON.stringify(res),不是JOSN);console.log(JSON.stringify…

ClickHouse 查看表的大小

查看表的大小&#xff1a; 使用以下查询语句可以列出表及其占用的磁盘空间大小&#xff1a; SELECTtable,formatReadableSize(sum(bytes_on_disk)) AS size_on_disk FROM system.parts WHERE active GROUP BY table ORDER BY size_on_disk DESC

部署一台本机的ai智能模型

部署ai模型 1.打开地址搜 https://ollama.com/&#xff08;开源ai模型网址&#xff09;下载软件 2.点击安装具有羊驼图标的文件 3.在右下角查看 羊驼图标 4。打开脚本&#xff0c;执行可以切换羊驼安装的位置与环境变量 5.winR 输入cmd,在命令窗口输入ollama命令 如果安装成功…

底软驱动 | Linux字符设备驱动开发基础

文章目录 知识整理--Linux字符设备驱动开发基础字符设备基础1从一个最简单的模块源码说起字符设备驱动工作原理字符设备驱动代码实践--给空模块添加驱动壳子应用程序如何调用驱动 字符设备基础2添加读写接口&#xff08;应用和驱动之间的数据交换&#xff09;驱动中如何操控硬件…

Redis持久化RDB,AOF

目 录 CONFIG动态修改配置 慢查询 持久化 在上一篇主要对redis的了解入门&#xff0c;安装&#xff0c;以及基础配置&#xff0c;多实例的实现&#xff1a;redis的安装看我上一篇&#xff1a; Redis安装部署与使用,多实例 redis是挡在MySQL前面的&#xff0c;运行在内存…