深度学习论文: Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

news2024/11/19 1:50:26

深度学习论文: Multi-modal Sensor Fusion for Auto Driving Perception: A Survey
Multi-modal Sensor Fusion for Auto Driving Perception: A Survey
PDF: https://arxiv.org/pdf/2202.02703.pdf
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

单模态数据(图像或者点云)的感知存在固有的缺陷。例如,摄像机数据主要在前视低位捕获。在更复杂的场景中,物体可能被遮挡,给目标检测和语义分割带来严峻挑战。此外,由于机械结构的限制,激光雷达在不同距离上具有不同的分辨率,并且容易受到极端天气(如雾天和大雨)的影响。尽管两种模态的数据在单独使用时在各个领域都有优秀表现,但激光雷达和摄像机的互补性使得它们的结合可以在感知方面取得更好的性能。

作者对关于自动驾驶中多模态传感器融合论文进行简要综述。同时提出了一种新颖的分类方法,将超过50篇相关论文按照融合阶段的角度划分为两个主类(强融合弱融合)和四个次类(早期融合深度融合后期融合非对称融合)。

2 Tasks, and Open Competitions

2-1 Multi-modal Sensor Fusion Perception Tasks

总的来说,自动驾驶感知任务包括了目标检测、语义分割、深度补全和预测等,这里主要关注目标检测和语义分割。
在这里插入图片描述

2-2 Open competitions and Datasets

KITTI开放基准数据集是自动驾驶中最常用的目标检测数据集之一,包含2D、3D和鸟瞰视图检测任务。配备四个高分辨率视频摄像机、一个Velodyne激光扫描仪和一个最先进的定位系统,KITTI收集了7481张训练图像和7518张测试图像以及相应的点云。其中三种目标被标记为汽车、行人和骑车者,具有超过20万个3D目标注释,分为三类:简单、中等和困难的检测难度。对于KITTI目标检测任务,平均精度通常用于模型性能比较。此外,平均方向相似度也用于评估联合检测目标和估计其3D方向的性能。

Waymo开放数据集由五个LiDAR传感器和五个高分辨率针孔相机收集。具体来说,有79个场景用于训练,202个用于验证,150个场景用于测试。每个场景持续20秒,注释在车辆、骑车者和行人中。对于评估3D目标检测任务,Waymo包括四个指标:AP/L1、APH/L1、AP/L2、APH/L2。更具体地说,AP和APH表示两种不同的性能测量,而L1和L2包含具有不同检测难度的对象。至于APH,它与AP类似,但是会经过航向精度加权计算。

NuScenes开放数据集包含1000个驾驶场景,其中700个用于训练,150个用于验证,150个用于测试。配备了摄像机、LiDAR和雷达传感器,nuScenes在每个关键帧中注释了23种目标类别,包括不同类型的车辆、行人和其他。NuScenes使用AP、TP进行检测性能评估。此外,它提出了一个创新的标量分数作为nuScenes检测分数(NDS),由AP、TP进行计算,分离不同的错误类型。

3 Representations for LiDAR and Image

3-1 Image Representation

一般为RGB通道

3-2 Point-based Point Cloud Representation

大多数LiDAR的原始数据是四元数格式(x; y; z; r) 其中 r表示每个点的反射率。不同的纹理导致不同的反射率,这能为模型提供了额外的信息。

3-3 Voxel-based Point Cloud Representation

通过使用3DCNN将3D空间离散化为3D体素来,表示为 { x 1 ; x 2 ; x 3 : : : x g } \left \{ x_{1}; x_{2}; x_{3}:::x_{g} \right \} {x1;x2;x3:::xg},其中每个 x i x_{i} xi表示一个特征向量 x i = { s i ; v i } x_{i}=\left \{ s_{i}; v_{i}\right \} xi={si;vi} s i s_{i} si表示体素化立方体的中心,而 v i v_{i} vi表示基于统计的局部信息。

3-4 2D-mapping-based Point Cloud Representation

基于2D映射的点云表示将LiDAR数据投影到图像空间中。常见有两种类型:相机平面图(CPM)鸟瞰图(BEV)
相机平面图(CPM):CPM可以通过外参标定来获得,将每个3D点投影到相机坐标系中。由于CPM具有与相机图像相同的格式,可以将CPM作为额外通道自然融合。但是由于投影后LiDAR的分辨率较低,CPM中许多像素的特征已经损坏,因此上采样特征图或者留空等方法用来改善特征图。

鸟瞰图(BEV):BEV映射提供了场景的俯视图。经常被用作定位和检测使用。首先,与安装在挡风玻璃后面的相机不同,大多数LiDAR都在车顶上,遮挡较少。其次,在BEV中,所有物体都放在地面上,模型可以在不扭曲长度和宽度的情况下生成预测。

4 Fusion Methodology

在这里插入图片描述

4-1 Strong-fusion

强融合中的每个次类高度依赖于LiDAR点云,而不是相机数据。

4-1-1 Early-fusion

Early-fusion(数据级融合)方法通过空间对齐直接融合不同模态的原始传感器数据。Early-fusion是一种在每种模态中通过空间对齐和投影直接融合数据的方法,早期融合在数据级别融合LiDAR数据和在数据级别或特征级别融合相机数据。
在这里插入图片描述

4-1-2 Deep-fusion

Deep-fusion(特征级融合)方法通过连接或元素逐位乘法在特征空间中混合跨模态数据。Deep-fusion方法在LiDAR分支的特征层级上融合跨模态数据,但是对于图像分支则进行数据层级和特征层级的融合。在这里插入图片描述

4-1-3 Late-fusion

Late-fusion(对象级融合)方法结合每种模态中模型的预测结果并做出最终决策。Late-fusion可以被视为一种集成方法,利用多模态信息来优化最终结果。
在这里插入图片描述

4-1-4 Asymmetry-fusion

Asymmetry-fusion 从一个分支融合对象级信息,而从其他分支融合数据级或特征级信息的不对称融合方法。与强融合中的其他方法不同,非对称融合中至少有一个分支占主导地位,而其他分支提供辅助信息来进行最终任务。
在这里插入图片描述

4-2 Weak-fusion

基于弱融合的方法通常使用基于规则的方法来利用一种模态的数据作为监督信号来指导另一种模态的交互
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/183811.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

图论中的GLM模型

下面是我对GLM模型的理解: 数据编码的方式 在一般统计中,常用的coding方式有dummy,effect和cell.mean,这个在R和python中都可以实现。 dummy coding 举例 假设有4个组别A, B, C, D,它的自由度是4-13,因此…

自动驾驶专题介绍 ———— APA标准(ISO 16787)

文章目录介绍通用要求泊车控制最大运行速度退出条件建议空间车位水平空间车位垂直空间车位泊车流程流程定义Queiscent ModeSearch ModeSlot FoundMode SelectionAssisted Parking ModeEnd of Assisted Parking Mode人机交互策略车位搜索阶段车位搜索到且未激活泊车驾驶员请求泊…

【手写 Promise 源码】第七篇 - 实现 Promise 返回值 x 的处理

一,前言 上篇,实现了 Promise 的链式调用功能,主要涉及到以下几个点: 介绍了 Promise 的链式调用,返回普通值和抛出异常的共5种情况;分析了当前 Promise 源码的问题以及解决方案;Promise 链式…

亚马逊云科技:大模型的训练和应用门槛亟需降低

在过去的两周里,ChatGPT的热度居高不下,引发全网讨论。虽然AlphaGo这类AI产品也曾引起热议,但是在应用层面终究还是离用户太远了。而ChatGPT更像是「民用级」的产品,真正意义上让AI技术跨入广泛破圈应用时代。在当下,机…

如何准确测试75 Ohm系统的信号?

射频同轴线缆特征阻抗的选择,主要取决于功率容量、衰减强度、可加工性等因素,然而最大功率容量和最小衰减性能对应的特征阻抗是不同的。在射频领域通常采用50 Ohm特征阻抗的原因,就是综合考虑了以上因素。也就是说,50 Ohm特征阻抗…

Vue安装并使用路由和路由器实现页面跳转

前言 想要使用路由和路由器实,必须要知道什么是路由和路由器,可以参考这篇文章:Vue路由和路由器简介 下面通过编写代码演示一下如何使用路由和路由器实现页面跳转。 引入bootstrap.css 本案例所有相关的样式,都是引入的bootst…

基于 Toad 的评分卡模型全流程详解(内含 Python 源码)

不知不觉中,Python 已经在短短几年内一跃成为最热门的编程语言之一,尤其是在数据科学、人工智能和机器学习领域。这除了因为Python相对简单易学,可读性高之外,也有很大一部分原因是因为Python有着良好的开源生态从而产生了许多强大…

Golang如何优雅接入多个远程配置中心?

本文基于viper实现了apollo多实例快速接入,授人以渔,带着大家读源码,详解实现思路,封装成自己的工具类并且开源。 前言 viper是适用于go应用程序的配置解决方案,这款配置管理神器,支持多种类型、开箱即用、…

livedata+ lambda遇到的坑

首先抛出个异常FATAL EXCEPTION: mainProcess: com.lion.media, PID: 5513java.lang.IllegalArgumentException: Cannot add the same observer with different lifecyclesat androidx.lifecycle.LiveData.observe(LiveData.java:199)这是在livedata.observe(this) {// ...}触发…

Android studio Logcat 新版使用命令指南 常用命令集合

只过滤自己的包名 package:mine 过滤自己的包名且只看error级别日志 package:mine level:error 指定消息内容包含12288 message:12288 指定内容不包含12288 -message:12288 其中有 message: 、message~、-message和 -message~ -:对当前标签的过滤结果取反…

智能驾驶 车牌检测和识别(三)《CRNN和LPRNet实现车牌识别(含车牌识别数据集和训练代码)》

智能驾驶 车牌检测和识别(三)《CRNN和LPRNet实现车牌识别(含车牌识别数据集和训练代码)》 目录 智能驾驶 车牌检测和识别(三)《CRNN和LPRNet实现车牌识别(含车牌识别数据集和训练代码&#xf…

2022个人年度总结:拒绝无效努力,实现破圈成长。

在从毕业一直到现在,我都会写一篇关于自己的从技术、商业、人情世故以及未来展望的博文,以至于归纳每个时期的自己, 走在互联网开发的边缘,不得不抽出时间鞭策自己学习新知识,未知的知识是 充满好奇的, 就好…

第五章 ArcGIS数据编辑

文章目录第一节 创建新要素方法1 开始编辑、保存编辑、停止编辑2 捕捉的使用3 创建点、线、面4 编辑器中工具的使用5 根据其他要素创建要素6 注记要素编辑和修改第二节 属性编辑常见方法1 属性编辑2 字段计算器3 字段计算器的特殊应用4 计算几何第三节 模版编辑方法1 定义模版2…

Spring学习笔记(一)【BeanUtils.copyProperties方法】

Spring下的BeanUtils.copyProperties方法是深拷贝还是浅拷贝? 一、浅拷贝深拷贝的理解 简单地说,拷贝就是将一个类中的属性拷贝到另一个中,对于BeanUtils.copyProperties来说,必须保证属性名和类型是相同的,因为它是根…

Windows下安装Python和配置easygui

一、需求说明需要学习Python内容,或者是运行Python程序,需要在Windows系统下进行安装配置Python的相关环境,以便让程序能够正常运行使用。二、安装Python2.1、下载Python安装包打开Python官网下载自己Windows系统需要的Python版本选择【Downl…

大宇无限将全部业务系统都部署在亚马逊云科技上

随着移动互联网的高速发展,人们对精神文化内容消费的追求不断提高,利用互联网技术,便捷地享受资讯内容成为了当代人的诉求。为了实现这个目标,大宇无限面临的首要挑战是如何利用大数据系统高效地分析数据、了解用户的消费行为和国…

1、数据库安装超详细教程(MySql5.0版本)

1.1、SQL概述 SQL,一般发音为sequel,SQL的全称Structured Query Language),SQL用来和数据库打交道,完成和数据库的通信,SQL是一套标准。但是每一个数据库都有自己的特性别的数据库没有,当使用这个数据库特性相关的功能…

Quarkus入门体验,22ms启动一个Web服务

简介 Quarkus是类似于Spring Boot的框架,可以方便大家进行Java开发。利用GraalVM的魔力,能更好的适应云原生的场景,极快的启动速度。 创建项目 在IDEA就直接有创建Quarkus项目的初始化工具,直接根据自己需要填好即可&#xff0…

分享一个可以看历史影像的网站

概述 众所周知,由于某些原因,大家以前经常用的历史地图已经看不了了,那么是否有替代的资源呢,答案是肯定的,而且这个网站的所有者大家都非常的熟悉——Esri,该网站名为World Imagery Wayback,这…

【模型↔关系思考法】如何在一个全新的、陌生的领域快速成为专家?模仿 + 一万小时定律 + 创新...

核心基础:形成模型 行业特性,行业名词术语(模型),行业前规则,行业风险 首先搞懂行业内独有的一些专业名词术语(建立“模型”)的含义,这些是基础。 比如餐饮行业的翻台率、开台率,电商的GMV、SKU、SPU; 通过互联网文章,网站,了解行业的趋势和动向、竞品分析等。 了…