自动驾驶占据感知的综述:信息融合视角

news2025/1/18 18:55:52

24年5月香港理工的论文“A Survey on Occupancy Perception for Autonomous Driving: The Information Fusion Perspective“。

3D 占据感知技术旨在观察和理解自动驾驶车辆的密集 3D 环境。该技术凭借其全面的感知能力,正在成为自动驾驶感知系统的发展趋势,受到工业界和学术界的高度关注。与传统的鸟瞰(BEV)感知类似,3D占据感知具有多源输入的性质和信息融合的必要性。然而,不同之处在于它捕获了 2D BEV 忽略的垂直结构。

该综述回顾了 3D 占据感知的最新研究成果,并对各种输入模态的方法进行了深入分析。具体来说,总结了通用网络流水线,重点介绍了信息融合技术,并讨论了有效的网络训练。在最流行的数据集上评估和分析最先进的占据感知性能。此外,还讨论了挑战和未来的研究方向。

参考文献列表:https://github.com/HuaiyuanXu/3D-Occupancy-Perception。

如图所示是一个自动驾驶车辆系统框图。来自摄像头、激光雷达和雷达的传感数据使车辆能够智能地感知周围环境。随后,智能决策模块生成驾驶行为的控制和规划。占据感知在3D理解、密度和无遮挡方面超越了基于透视图、鸟瞰图或点云空间的感知。

请添加图片描述
占据感知源自占据网格映射(OGM)[21],这是移动机器人导航中的经典主题,旨在从噪声和不确定的测量中生成网格图。该地图中的每个网格都分配有一个值,该值对网格空间被障碍物占据的概率进行评分。语义占据感知源自 SUNCG [22],它从单个图像预测室内场景中所有体素的占据状态和语义。然而,与室内场景相比,研究室外场景的占据感知对于自动驾驶来说是必要的。 MonoScene [23] 是仅使用单目相机进行室外场景占据感知的开创性工作。与 MonoScene 同期,特斯拉在 CVPR 2022 自动驾驶研讨会上宣布了其全新的仅摄像头占据网络[24]。这个新网络根据环视 RGB 图像全面了解车辆周围的 3D 环境。随后,占据感知引起了广泛关注,促进了近年来自动驾驶占据感知研究的激增。

早期的户外占据感知方法主要使用激光雷达输入来推断 3D 占据情况 [25,26,27]。然而,最近的方法已经转向更具挑战性的以视觉为中心的 3D 占据预测 [28,29,30,31]。目前,占据感知研究的主导趋势是以视觉为中心的解决方案,辅以以激光雷达为中心的方法和多模态方法。占据感知可以作为端到端自动驾驶框架内 3D 物理世界的统一表示 [7, 32],随后是涵盖检测、跟踪和规划等各种驾驶任务的下游应用程序。占据感知网络的训练很大程度上依赖于密集的 3D 占据标签,从而导致了多样化街景占据数据集的发展 [10,9,33,34]。最近,利用大模型的强大性能,大模型与占据感知的集成在减轻繁琐的 3D 占据注释的需求方面显示出了希望[35]。

下表详细介绍了自动驾驶占据感知的最新方法及其特征。 该表详细说明了每种方法的发布地点、输入方式、网络设计、目标任务、网络训练和评估以及开源状态。根据输入数据的形式将占据感知方法分为三种类型:以激光雷达为中心的占据感知、以视觉为中心的占据感知和多模态占据感知。
请添加图片描述
其中
模态:C——相机; L——激光雷达; R——雷达。
特征格式:Vol - 体积特征; BEV——鸟瞰图特征; PV - 透视图特征; TPV - 三透视视图特征。
轻量级设计:TPV Rp - 三透视视图表征;稀疏 Rp - 稀疏表征。
头:MLP+T - 多层感知器接着加阈值。
任务:P——预测; F——预测; OP——开放词汇预测; PS - 全景分割。
损失:[几何] BCE - 二元交叉熵,SIL - 尺度不变对数,SI - Soft-IoU; [语义]CE - 交叉熵,PA - 位置感知,FP - 平截头体比例,LS - Lovasz Softmax,Foc - 焦点; [语义和几何] Aff - 场景-类别亲和,MC - 掩码分类; [一致性] SC - 空间一致性,MA - 模态对齐,Pho - 光度一致性;【蒸馏】KD——知识蒸馏。

如图所示:占据感知的架构,(a)激光雷达为中心网络:2D 分支 [68, 72], 3D 分支 [10, 25], 2D-3D 分支 [27];(b)视觉为中心网络,无时域融合 [28, 35, 75, 69, 33, 29, 89, 81, 76, 77] 和带时域融合 [73, 7, 53, 9, 79, 4];(c)多模态网络:点云和图像 [10, 87, 11, 14, 88]。
请添加图片描述
以 激光雷达 为中心的语义分割 [90,91,92] 仅预测稀疏点的语义类别。相比之下,以 激光雷达 为中心的占据感知提供了对环境的密集 3D 了解,这对于自动驾驶系统至关重要。对于激光雷达传感,获取的点云本质上是稀疏的,并且会受到遮挡。这要求以激光雷达为中心的占据感知不仅能够解决场景从稀疏到密集的占据推理,而且能够实现目标从部分到完整估计[11]。
图(a) 说明了以 激光雷达 为中心的占据感知一般流程。输入点云首先进行特征提取和体素化,然后通过编码器-解码器模块进行表示增强。最终推断出场景的完整且密集的占据。

受特斯拉自动驾驶汽车感知系统技术的启发[24],以视觉为中心的占据感知已经引起了工业界和学术界的广泛关注。与以激光雷达为中心的方法相比,仅依赖于摄像头传感器的以视觉为中心占据感知代表了当前的趋势。主要有以下三个原因:(i)摄像头对于在车辆上大规模部署来说具有成本效益。 (ii) RGB 图像捕捉丰富的环境纹理,有助于理解场景和目标,例如交通标志和车道线。 (iii) 深度学习技术的迅速发展使得从 2D 视觉实现 3D 占据感知成为可能。以视觉为中心的占据感知可分为单目解决方案[97,51,23,48,49,30,52,82,78]和多摄像头解决方案[50,98,28,35,58,73, 95、29、75、7]。多摄像头感知覆盖了更广泛的视野,遵循如图 (b )所示的一般流程。它首先从多摄像头图像中提取前视图特征图,然后进行 2D 到 3D 转换、空间信息融合和可选的时间信息融合,最后得到一个推断环境 3D 占据的占据头。

如下是视觉占据网络的主要架构组件图:(a)2D-3D转换;(b)空域信息融合;(c)时域信息融合。
请添加图片描述
摄像头捕获的RGB图像提供了丰富而密集的语义信息,但对天气条件变化敏感且缺乏精确的几何细节。相比之下,激光雷达或雷达的点云对天气变化具有鲁棒性,并且擅长通过精确的深度测量来捕获场景几何形状。然而,它们只产生稀疏特征。多模态占据感知可以结合多种模态的优点,并减轻单模态感知的局限性。上上图(c)说明多模态占据感知的一般流程。大多数多模态方法[10,87,11,14]将2D图像特征映射到3D空间,然后将它们与点云特征融合。此外,在融合过程中结合二维透视图特征可以进一步细化表征[13]。融合表征由可选的细化模块和占据头(例如 3D 卷积或 MLP)进行处理,以生成最终的 3D 占据预测。可选的细化模块[88]可以是交叉注意力、自注意和扩散去噪的组合[108]。

如下表是多模态3-D占据数据集:
请添加图片描述
如下表是3D占据网络感知在SemanticKitti测试集的性能比较:
请添加图片描述
如下表是Occ3D-nuScenes数据集的3D占据感知性能:

请添加图片描述

存在的一些挑战性问题:

3D占据感知能够全面了解3D世界并支持自动驾驶中的各种任务。现有的基于占据的应用程序包括分割、检测、交通预测和规划。 (1)分割:语义占据感知本质上可以被视为3D语义分割任务。 (2)检测:OccupancyM3D [5]和SOGDet [133]是两个基于占据的实现3D目标检测的工作。 OccupancyM3D 首先学习占据率来增强 3D 特征,然后将其用于 3D 检测。 SOGDet 开发了两个并发任务:语义占据预测和 3D 目标检测,同时训练这些任务以相互增强。 (3)交通预测:Cam4DOcc[9]从占据的角度预测3D空间中的前景交通,并实现对周围3D环境变化的理解。 (4)规划:OccNet[7]将物理3D场景量化为语义占据,并训练共享占据描述符。该描述符被馈送到各个任务头以实现驾驶任务。例如,运动规划头输出自车的规划轨迹。
然而,现有的基于占据的应用主要关注感知层面,较少关注决策层面。鉴于3D占据比其他感知方式(例如鸟瞰感知和透视感知)更符合3D物理世界,3D占据在自动驾驶中拥有更广泛的应用机会。在感知层面,它可以提高现有轨迹预测、3D目标跟踪和3D车道线检测的准确性。在决策层面,它可以帮助做出更安全的驾驶决策,并为驾驶行为提供 3D 可解释性。

对于复杂的3D场景,总是需要处理和分析大量的点云数据或多视图视觉信息,以提取和更新占据状态信息。为了实现自动驾驶应用的实时性能,解决方案通常需要在有限的时间内完成计算,并且需要具有高效的数据结构和算法设计。一般来说,在目标边缘设备上部署深度学习算法并不是一件容易的事。

目前,已经尝试了一些关于占据任务的实时工作。例如, [76]提出了一种解决方案FastOcc,基于输入分辨率、视图转换模块和预测头的调整来加速预测推理速度。[96]提出了SparseOcc,一种没有任何密集3D特征的稀疏占据网络,以最小化基于稀疏卷积层和掩码引导稀疏采样的计算成本。[84]提出采用稀疏潜表示代替TPV表示和稀疏插值操作,以避免信息丢失并降低计算复杂度。然而,上述方法距离自动驾驶系统的实时部署还有一段距离。

在动态且不可预测的现实驾驶环境中,感知鲁棒性对于自动驾驶车辆的安全至关重要。最先进的 3D 占据模型可能容易受到分布外场景和数据的影响,例如照明和天气的变化(这会引入视觉偏差)以及输入图像模糊(这是由车辆移动引起的)。此外,传感器故障(例如帧和相机视图丢失)也很常见。鉴于这些挑战,研究强大的 3D 占据感知非常有价值。

然而,对鲁棒 3D 占据的研究是有限的,主要是由于数据集的稀缺。最近,ICRA 2024 RoboDrive 挑战赛 [134] 为研究稳健的 3D 占据感知提供了不完善的场景。稳健 BEV 感知的相关工作 [135,136,137,138,44,45]可以启发稳健占据感知的研究。 M-BEV [136]提出随机掩码和重建相机视图,以增强各种丢失相机情况下的鲁棒性。 GKT [137] 采用粗投影来实现鲁棒的 BEV 表征。在大多数涉及自然损坏的场景中,多模态模型[138,44,45]通过多模态输入的互补性优于单模态模型。此外,在3D LiDAR感知中,Robo3D[139] 将知识从具有完整点云的教师模型提炼到具有不完善输入的学生模型,从而增强了学生模型的鲁棒性。基于这些工作,实现稳健的 3D 占据感知可以包括但不限于稳健的数据表示、多种模态、网络架构和学习策略。

3D 标注成本高昂,而且对现实世界进行大规模 3D 标注是不切实际的。在有限的 3D 标记数据集上训练的现有网络泛化能力尚未得到广泛研究。为了摆脱对 3D 标签的依赖,自监督学习代表了通向广义 3D 占据感知的潜在途径。它从大量未标记的图像中学习占据感知。然而,当前自监督的占据感知的性能[81,35,85,28]很差。在 Occ3D-nuScene 数据集上(见表 4),自监督方法的最高准确度大幅低于强监督方法。此外,当前的自监督方法需要使用更多数据进行训练和评估。因此,增强自监督广义 3D 占据感知是未来的一个重要研究方向。

此外,当前的 3D 占据感知只能识别一组预定义的目标类别,这限制了其通用性和实用性。大语言模型(LLM)[140,141,142,143]和大视觉-语言模型(LVLM)[144,145,146,147,148]的最新进展展示了推理和视觉理解有前途的能力。事实证明,集成这些预训练的大模型可以增强感知的泛化能力[8]。 POP-3D [8] 利用强大的预训练视觉-语言模型 [148] 来训练其网络,并实现开放词汇 3D 占据感知。因此,采用 LLM 和 LVLM 对于实现广义 3D 占据感知来说是挑战也是机遇。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1674430.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Mapbox 天地图暗色系调整

效果: mapbox栅格图层样式设置 {//图层id,要保证唯一性"id": "tdtVec",//图层类型"type": "raster",//数据源"source": "tdtVec","paint": {"raster-hue-rotate": 1…

虚拟化软件栈面临的安全威胁主要涉及几个方面

1.基于虚拟层(Hypervisor)的攻击:VM Escape:攻击者利用虚拟化软件允许多个操作系统共享单个硬件处理器的漏洞。这使得黑客可以在受控制的虚拟层上攻击宿主机上的每个虚拟机。 VM sprawl:当网络上的虚拟机数量超过管理…

OpenAI 2024 Spring推出 GPT-4o,免费向所有人提供GPT-4级别的AI

OpenAI 2024 Spring推出 GPT-4o,这是OpenAI的新旗舰模型,可以实时对音频、视觉和文本进行推理。 GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音…

2024年为什么很多电商商家,都想涌入视频号,究竟是什么原因?

大家好,我是电商糖果 对电商有了解的朋友,在今年肯定发现一个现象,那就是很多商家对视频号比较青睐。 视频号究竟有何魔力,让越来越多的商家都想要入驻。 其实很简单,它让商家看到了市场。 视频号背后是谁&#xf…

【计算机网络】http协议的原理与应用,以及https是如何保证安全传输的

HTTP 超文本传输协议(英文:HyperText Transfer Protocol,缩写:HTTP)是一种用于分布式、协作式和超媒体信息系统的应用层协议。HTTP是万维网的数据通信的基础。 HTTP的发展是由蒂姆伯纳斯-李于1989年在欧洲核子研究组织…

【MySQL数据库】丨高可用之MHA集群部署

一、准备工作 1.1 修改主机名 vim /etc/hosts# 添加对应主机 192.168.28.128 mha1 192.168.28.131 mha2 192.168.28.132 mha31.2 关闭防火墙及修改selinux # 关闭防火墙 systemctl stop firewalld systemctl disable firewalld # 关闭自启动# 修改selinux vim /etc/sy…

技艺高超的魔法师:Java运算符

在Java编程的世界里,运算符是连接变量和表达式的关键纽带,它们使得程序能够执行计算、比较、赋值等一系列操作。 一,基本概念 1,运算符是什么? 运算符是操作变量的符号。 2,分类 Java中的主要运算符类…

如何申请免费一年SSL证书

申请免费一年的SSL证书可以通过以下几个步骤进行,这里以JoySSL为例,因为它是目前提供此类服务的流行平台之一,同时也提到了宝塔面板中的TrustAsia SSL证书。请根据您的具体需求选择合适的方式: 申请免费一年SSL证书: …

最新版rancher环境配置安装和集群搭建详细教程记录

🚀 作者 :“二当家-小D” 🚀 博主简介:⭐前荔枝FM架构师、阿里资深工程师||曾任职于阿里巴巴担任多个项目负责人,8年开发架构经验,精通java,擅长分布式高并发架构,自动化压力测试,微服务容器化k…

Keil编程不同驱动文件引用同一个常量的处理方法

基础不牢,地动山摇,最近单片机编程又遇到一个基础问题。 我在头文件中定义了一个常量同时给两个驱动文件使用,封装的时候编译没问题,但是在main函数中引用驱动函数的时候就出现了重定义的问题,如下如所示。 解决方法很…

Java modbus 实现RTU串口作为slave(服务端)读写数据

这里要了解下modbus的RTU和TCP 的几个名称关系: Modbus/RTU:主站 和从站 关系 Modbus/TCP:客户端和服务端关系 关系 主站主动找从站读写数据 客户端主动找服务端读写数据 所以当使用Modbus/TCP时,主站一般作为客户端&#xff…

C/C++:Windows动态链接库

动态链接库(Dynamic Link Library,简称DLL)是在运行时加载的库,它们的代码和数据在内存中与目标程序共享;这意味着多个程序可以共享相同的库实例,并且库的代码可以在不重新编译目标程序的情况下更新。 工作…

怎么转换音频?看这3款音频转换器

随着数字媒体的发展,音频文件在我们的日常生活中占据了越来越重要的地位。有时候在不同的应用场景里,无论是音乐、语音还是其他类型的音频内容,我们都需要对其进行转换以满足不同的需求。 本文将为您介绍3款常用的音频转换器,帮助…

基于.NetCore和ABP.VNext的项目实战一:abp cli 搭建项目

学习了阿星Plus的博客项目,自己也试着搭建自己的博客。 ABP和ABP.VNext的主要区别在于核心库的精简、对领域驱动设计(DDD)的关注、以及使用的技术栈。 1、ABP VNext的核心库相比ABP更加精简,它将原有许多组件从核心库中抽离成独立的组件,这使得开发者可以更灵活地选择需要…

Github新手入门使用方法

**存在问题:**新手如何快速入门github,能够下载开源文件,并且修改后更新远程github仓库; 解决方案: 参考: http://www.360doc.com/content/24/0301/12/60419_1115656653.shtml https://blog.csdn.net/gongd…

Python环境变量的访问:从入门到精通

环境变量是操作系统中的一种特殊变量,它允许用户在不修改程序的情况下,通过配置文件来改变程序的行为。在Python中,访问环境变量是一个常见的需求,无论是为了读取配置信息、获取系统信息,还是进行程序调试。本文将详细…

荆州科技局副局长乔梁莅临湖北点赋网络科技公司参观调研

近日,荆州科技局副局长乔梁,莅临湖北点赋网络科技公司进行参观调研。点赋科技总经理崔梦娇亲自陪同,向副局长介绍了公司的D咖智能饮品机器人经营状况和研发进展情况。 在参观过程中,副局长乔梁对点赋科技的创新能力和技术成果给予…

商业模式都验证不了,还搞APP,莫非想早死早投胎。

有几个原因可以解释为什么大部分互联网创业者选择先开发小程序而不是直接做App: 低成本和快速开发:相比于开发一个完整的App,开发小程序的成本更低且开发周期更短。小程序可以在现有的移动平台上运行,无需独立的安装和更新&#…

地产人的福音!VR全景分屏对比,让装修施工一目了然

现如今,VR全景已成为地产行业不可或缺的应用工具,从地产直播到楼市VR地图,从效果图到水电家装施工记录,可以说整个地产行业的上下游生态中都可以看到720云VR全景的身影。 以720云VR全景作为直播载体 VR全景高清矩阵地图等多种内容…

干部民主测评:深化管理智慧,凝聚团队力量

在现代化组织管理的广阔舞台上,干部民主测评扮演着举足轻重的角色。它不仅是评价干部工作实绩、能力素质的有力工具,更是推动组织向民主化、科学化、规范化迈进的强大引擎。通过民主测评,我们能够深入洞察每位干部的工作表现、群众基础和领导…