第二十四章 BEV感知系列一(车道线感知)

前言

近期参与到了手写AI的车道线检测的学习中去，以此系列笔记记录学习与思考的全过程。车道线检测系列会持续更新，力求完整精炼，引人启示。所需前期知识，可以结合手写AI进行系统的学习。

BEV感知系列是对论文Delving into the Devils of Bird’s-eye-viewPerception: A Review, Evaluation and Recipe的翻译整理，有多处瑕疵，敬请谅解。

深入研究鸟瞰的感知:回顾、评价和方法

Delving into the Devils of Bird’s-eye-view Perception: A Review, Evaluation and Recipe

**摘要:**在鸟瞰(BEV)中学习强大的感知表征是一种趋势，引起了广泛的关注工业界和学术界都有。大多数自动驾驶算法的传统方法执行检测、分割、跟踪等，在一个正面或透视图。**随着传感器结构的日益复杂，集成多源信息在一个统一的视图中，不同的传感器和表示特征至关重要。**BEV感知继承了几个优点，如在BEV中表现周围场景直观且融合友好;在BEV中表示对象是最理想的计划和/或控制方面的后续模块。**BEV感知的核心问题在于(a)如何重建丢失的3D从透视图到纯电动汽车的视图转换信息;(b)如何获取BEV网格下的地面真值标注;©如何制定管道，以整合来自不同来源和视图的功能;(d)如何适应和推广算法不同场景下的传感器配置不同。**在这项调查中，我们回顾了最近在纯电动汽车感知方面的工作，并提供了深入分析不同的解决方案。此外，业界对纯电动汽车方法的几个系统设计进行了描述好。此外，我们介绍了一套完整的实用指南，以提高BEV感知任务的性能，包括摄像头，激光雷达和融合输入。最后，对该领域未来的研究方向进行了展望。我们希望这篇报道能带来一些启示并鼓励更多关于纯电动汽车感知的研究。我们保留一个活动的存储库来收集最新的工作，并提供一个工具箱袋的技巧在https://github.com/OpenDriveLab/Birds-eye-view-Perception。

介绍

自动驾驶中的感知识别任务是本质上是对物理的三维几何重建世界。随着传感器的多样性和数量变得自动驾驶的装备越来越复杂车辆(SDV)，表示从不同角度的特征统一的观点至关重要。众所周知的鸟瞰图(BEV)是一种自然而直接的候选视图，可以作为统一的表示。与前视图或透视视图相比，在二维视觉领域得到了广泛的研究[1,2]，BEV表示具有几个固有的优点。首先,它是否没有普遍存在的闭塞或鳞片问题在2D任务中。识别有遮挡或交叉交通的车辆可以得到较好的解决。此外，以这种形式表示对象或道路元素将有利于实现它方便后续模块(如规划、控制)开发和部署。

当一个对象被其他物体部分遮挡时，我们称之为“闭塞”；而当多个对象相互重叠，特别是在它们的边缘形成“鳞片”状的图案时，我们称之为“鳞片”问题。这些情况在2D图像处理任务中确实存在，并且可能导致识别和定位的困难。

将对象或道路元素表示为一种格式，这可能有助于简化后续模块的开发和部署，比如路径规划和控制系统。通过提供一致和结构化的数据，可以使这些系统更加高效地工作，减少对复杂后处理步骤的需求。这样的表示可能包括有关物体位置、运动和几何形状的信息，这些都是自动驾驶系统决策过程中不可或缺的部分。

在本调查中，我们用BEV感知来表示所有基于BEV视图表示的视觉算法用于自动驾驶。请注意，我们不打算将聚合纯电动汽车感知作为一个新的研究概念;相反,如何在纯电动汽车下制定新的管道或框架从多个传感器输入中获得更好的特征融合，值得社区更多的关注。

更大的视野

基于输入数据，我们划分了纯电动汽车感知研究主要分为三部分:BEV摄像头、BEV激光雷达和BEV激光雷达贝福融合。图1描述了基于异常族的BEV的总体情况。具体来说，BEV相机表示仅视觉或以视觉为中心的3D物体检测算法或从周围多个摄像头分割;贝芙激光雷达从点描述探测或分割任务
云输入;BEV聚变描述了聚变机制从多个传感器输入，如摄像头，激光雷达，全球导航卫星系统，
里程计、高清地图、can总线等。

图1：纯电动汽车感知概览，基于输入模态由三个子部分组成。BEV感知是建立在一系列基本任务之上的一般任务。为了更好地完善自动驾驶中的整体感知算法，我们还列出了其他主题（例如，基础模型）。

如图1所示，我们将具有自动驾驶任务的基本整体感知算法(分类、检测、分割定位、跟踪等)分为三个层次，其中纯电动汽车感知的概念所在中间。根据不同的传感器组合，从放层，基本任务，和产品场景，一定BEV感知算法可以进行相应的指示。为例如，M2BEV[3]和BEVFormer[4]属于BEV
摄像机跟踪从多个摄像机执行多个任务包括3D物体检测和BEV地图分段定位。BEVFusion[5]设计了一种纯电动汽车的融合策略空间，以便从相机和激光雷达输入同时执行3D检测和跟踪。特斯拉[6]发布了其在矢量空间（BEV）中检测物体和车道线的系统管道，用于L2高速公路导航和智能呼叫。
在本报告中，除了各种输入组合和任务外，我们旨在总结最近先进的纯电动汽车感知研究的总体思路和关键见解。

纯电动汽车感知研究的动机

当谈到纯电动汽车感知研究的动机时，需要考察三个重要方面。

**意义：**纯电动汽车的认知会对学术界和/或社会产生真正的、有意义的影响吗？众所周知，仅相机和激光雷达解决方案之间存在巨大的性能差距。例如，截至2022年8月提交，在nuScenes数据集[7]上，排名第一的纯相机和激光雷达方法之间的差距超过了20%，在Waymo基准[8]上超过了30%。这自然促使我们研究纯相机解决方案是否可以击败或与激光雷达方法持平。

从学术角度来看，设计一个基于相机的管道，使其优于激光雷达，其本质是更好地理解从2D外观输入到3D几何输出的视图转换过程。如何像在点云中那样将相机特征转换为几何表示，给学术界留下了有意义的影响。从工业角度来看，SDV中一套激光雷达设备的成本很高；原始设备制造商（原始设备制造商，如福特、宝马等）更喜欢廉价且准确的软件算法部署。由于相机的成本通常是激光雷达的10倍，因此将仅相机的算法改进为激光雷达的算法自然就属于这一目标。此外，基于相机的管道可以识别长距离物体和基于颜色的道路元素（例如，红绿灯），这两种方法都是激光雷达无法实现的。
尽管基于相机和激光雷达的感知有几种不同的解决方案，但就优异的性能和行业友好的部署而言，BEV表示是基于激光雷达的方法的最佳候选者之一。此外，最近的趋势表明，BEV表示在多摄像头输入方面也取得了巨大进展。由于相机和激光雷达数据可以投影到纯电动汽车空间，纯电动汽车的另一个潜力是，我们可以在统一的表示下轻松融合不同模态的特征。
**空间：**纯电动汽车感知中是否存在需要实质性创新的公开问题或注意事项？BEV感知背后的要点是从相机和激光雷达输入中学习稳健和可推广的特征表示。这在激光雷达分支中很容易，因为输入（点云）具有这样的3D特性。这在相机分支中是不平凡的，因为从单目或多视图设置中学习3D空间信息是困难的。虽然我们看到有人试图通过姿态估计[9]或时间运动[10]来学习更好的2D-3D对应关系，但BEV感知背后的核心问题需要从原始传感器输入进行深度估计的实质性创新，尤其是对于相机分支。

另一个关键问题是如何在管道的早期或中期融合特性。大多数传感器融合算法将该问题视为简单的对象级融合或沿着斑点通道的朴素特征级联。这可能解释了为什么由于相机和激光雷达之间的未对准或不准确的速率深度预测，**一些融合算法的表现不如仅激光雷达的解决方案。如何对齐和集成来自多模态输入的特征起着至关重要的作用，**从而留下了广阔的创新空间。

对象级融合（也称为高级融合）：在这个层面上，每个传感器独立检测对象，然后将对象信息（如位置、速度）合并在一起。这种方法的优点是相对简单，因为它处理的是高级特征，但它可能忽略了传感器原始数据中的细节。
特征级融合（也称为低级融合）：在这里，传感器数据在特征提取之前就被合并了，这可能包括图像像素、雷达回波或激光雷达的点云。特征级融合旨在利用所有传感器数据中的所有可用信息，但这是一个挑战，因为需要处理和理解非常不同类型的数据。

准备就绪：关键条件（如数据集、基准）是否准备好进行纯电动汽车感知研究？简短的回答是肯定的。由于BEV感知需要相机和激光雷达，高质量的注释和2D和3D对象之间的精确对齐是此类基准点的两个关键评估。虽然KITTI[11]是全面的，在早期的自动驾驶研究中备受关注，但Waymo[8]、nuScenes[7]、Argoverse[12]等大规模和多样化的基准为验证纯电动汽车感知理念提供了坚实的平台。这些新提出的基准通常具有高质量的标签；场景多样性和数据量也在很大程度上增加。此外，这些排行榜上的公开挑战[13]为保存的测试数据提供了一个公平的设置，可以在公开和及时的意义上比较所有的技术状态。
关于算法的准备情况，近年来，通用视觉领域出现了巨大的发展，其中Trans-former[14]、ViT[15，16]、Masked Auto encoders（MAE）[17]和CLIP[18]等，比传统方法获得了令人印象深刻的增益。我们相信这些工作将有利于启发了BEV感知研究的伟大之处。
基于以上三个方面的讨论，我们得出结论，纯电动汽车感知研究具有巨大的潜在影响，值得学术界和工业界的广泛关注和长期努力。与最近关于3D对象检测的调查[19，20，21，22，23]相比，我们的调查不仅在更高的水平上总结了最近的BEV感知算法，并将其公式化为一个通用的管道，而且在这种背景下提供了有用的方法，包括基于相机和基于激光雷达的设置中的可靠数据分析、高效的BEV编码器设计，感知头和损失函数族、有用的测试时间扩充（TTA）和集成策略等等。我们希望这项调查能成为新手的一个好的起点，也能成为这个社区当前研究人员的一个有见地的讨论。

贡献

本次调查的主要贡献有三方面：
1）我们回顾了近年来纯电动汽车感知研究的全貌，包括高层哲学和深入细致的讨论。
2）我们对纯电动汽车感知文献进行了全面的分析。涵盖了深度估计、视图转换、传感器融合、do main自适应等核心问题。介绍并讨论了用于纯电动汽车感知的几个重要的工业系统级设计。
3）除了理论贡献外，我们还提供了一本实用指南，用于提高各种BEV感知任务的性能。这样的发布可以促进社区在“随手可得”的意义上实现更好的性能。

三维感知中的背景

在本节中，我们将介绍3D感知中的基本背景知识边缘。在第2.1节中，我们回顾了执行感知任务的传统方法，包括基于单眼相机的3D对象检测、基于激光雷达的3D对象探测和分割以及传感器融合策略。在第2.2节中，我们介绍了3D感知中的主要数据集，如KITTI数据集[11]、nuScenes数据集[7]和Waymo Open数据集[8]。

任务定义及相关工作

基于单目摄像机的目标检测。基于单眼相机的方法将RGB图像作为输入，并尝试预测每个对象的3D位置和类别。单目3D检测的主要挑战是RGB图像缺乏深度信息，因此这类方法需要预测深度。由于从单个图像估计深度是一个不适定的问题，通常基于单目相机的方法比基于激光雷达的方法性能较差

激光雷达检测和分割。激光雷达在三维空间中用一组点描述环绕环境，这些点捕捉物体的几何信息。尽管缺乏颜色和纹理信息，感知范围有限，但由于深度先验，基于激光雷达的方法在很大程度上优于基于相机的方法。
传感器融合。现代自动驾驶汽车配备了不同的传感器，如摄像头、激光雷达和雷达。每个传感器都有优点和缺点。相机数据包含密集的颜色和纹理信息，但无法捕捉深度信息。激光雷达提供了准确的深度和结构信息，但受到有限的范围和稀疏性的影响。雷达比激光雷达更稀疏，但传感范围更长，可以捕捉运动物体的信息。理想情况下，传感器融合将提高感知系统的上限性能，但如何融合来自不同模态的数据仍然是一个具有挑战性的问题。

数据集和度量

我们介绍了一些流行的自动驾驶数据集和常见的评估度量。表1总结了纯电动汽车感知的主要基准统计数据。通常，一个数据集由各种场景组成，每个场景在不同的数据集中具有不同的长度。总持续时间从几十分钟到几百小时不等。对于纯电动汽车感知任务，**3D边界框注释和3D分割注释是必不可少的，高清地图配置已成为主流趋势。**它们中的大多数可以用于不同的任务。达成共识，需要具有多种模态和各种注释的传感器。发布了更多类型的数据[7，12，24，25，33，39]，如IMU/GPS和CAN总线。与Kaggle和EvalAI排行榜类似，我们揭示了每个数据集的提交总数，以表明某个数据集的受欢迎程度。

数据集

KITTI数据集。KITTI[11]是2012年提出的一个开创性的自动驾驶数据集。它有7481个训练图像和7518个测试图像用于3D物体检测任务。它还具有从Velodyne激光扫描仪捕获的相应点云。测试集分为三部分：容易、适度和难，主要取决于边界框大小和遮挡级别。物体检测的评价分为两种：三维物体检测评价和鸟瞰评价。KITTI是第一个用于多种自动驾驶任务的综合数据集，它引起了社区的广泛关注。
Waymo数据集。Waymo Open Dataset v1.3[8]在训练、验证和测试集中分别包含798、202和80个视频序列。每个序列有5个激光雷达和5个左侧、左前、前、右前和右侧视图。图像分辨率为1920×1280像素或1920×886像素。Waymo规模庞大，种类繁多。随着数据集版本的不断更新，它也在不断发展。每年Waymo Open Challenge都会定义新的任务，并鼓励社区解决问题。
nuScenes数据集。nuScenes数据集[7]是一个大规模的自动驾驶数据集，包含两个城市的1000个驾驶场景。850个场景用于训练/验证，150个场景用于测试。每个场景都有20多岁。它有4万关键帧，整个传感器套件包括6个摄像头、1个激光雷达和5个雷达。相机图像分辨率为1600×900。同时，发布了相应的高清地图和CAN总线数据，以探索多输入的辅助。nuScenes在学术文献中越来越受欢迎，因为它提供了一个多样化的多传感器设置；数据规模没有Waymo的那么大，因此在这个基准上快速验证想法是有效的。

表1:BEV Perception数据集一览。场景表示数据集的片段，并且场景的长度对于不同的数据集是不同的。在Region下，“AS”代表亚洲，“EU”代表欧洲，“NA”代表北美，“Sim”代表模拟数据。在“传感器数据”下，“扫描”点云。在“注释”下，“帧”表示三维bbox/三维车道注释帧的数量，三维bbox/3D车道表示三维bbok/三维车道注释实例的数量，即三维seg。表示点云的分割注释帧的数量。“#Subm.”通过Kaggle上提交的数量表示特定数据集的受欢迎程度。†表示统计信息不可用；−表示该字段不存在

估值指标

LET-3D-APL。在仅有相机的3D检测中，使用LET-3D-APL代替3D-AP作为度量。与并集上的3D相交（IoU）相比，LET-3D-APL允许预测边界框的纵向定位误差达到给定的公差。LET-3D-APL通过使用定位亲和度缩放精度来惩罚纵向定位误差。LET-3D-APL的定义在数学上定义为：
$\mathrm{LET-3D-APL}=\int_0^1p_L(r)dr=\int_0^1\overline{a}_l\cdot p(r)dr,\quad(1)$

其中，pL（r）表示纵向亲和度加权的精度值，p（r）意味着调用r时的精度值。乘数al是所有匹配预测的平均纵向亲和度，被视为T p（真阳性）。

**平均精度（mAP）类似于2D对象检测中众所周知的AP度量，但匹配策略被从IoU替换为BEV平面上的2D中心距离。**AP根据不同距离阈值：0.5米、1米、2米和4米。mAP是通过对上述阈值中的AP进行平均来计算的。
NDS。nuScenes检测分数（NDS）是几个指标的组合：mAP、mATE（平均平移误差）、mASE（平均尺度误差）、mAOE（平均方位误差）、AVE（平均速度误差）和mAAE（平均属性误差）。NDS是通过使用上述度量的权重和来计算的。mAP的重量为5，其余为1。在第一步中，将TPerror转换为TPscore，如等式所示。2，则方程。3定义了NDS：
$\begin{gathered} \mathrm{TP}_{\mathrm{score}}=max(1-\mathrm{TP}_{\mathrm{error}},0.0), \text{(2)} \\ \mathrm{NDS}={\frac{5\cdot\mathrm{mAP}+\sum_{i=1}^{5}\mathrm{TP}_{\mathrm{score}}^{\mathrm{i}}}{10}}. \text{(3)} \end{gathered}$

BEV感知方法论

在本节中，我们详细描述了学术界和工业界对纯电动汽车感知的各种观点。
我们根据输入模态在三种设置中区分了纯电动汽车管道，即第3.1节中的纯电动汽车摄像头（仅限摄像头的3D感知）、第3.2节中的全电动汽车激光雷达和第3.3节中的完全电动汽车融合，并在第3.4节中总结了纯电动车辆感知的工业设计。
表2总结了基于输入数据和任务类型的BEV感知文献的分类。我们可以看到，在顶级场馆发表了关于纯电动汽车感知的趋势研究。任务主题以及公式管道（贡献）可以是多种多样的，这表明3D自动驾驶社区正在蓬勃发展。表3描述了多年来，3D对象检测和分割在流行排行榜上的性能提升。我们可以观察到，在纯电动汽车感知知识的精神上，性能增益显著提高。

表2：近年来BEV感知文献。在输入模式下，“L”表示激光雷达，“SC”表示单相机，“MC”对于多摄像机，“T”表示时间信息。在任务下，“ODet”用于三维物体检测，“LDet”用于3D车道检测，
“MapSeg”用于地图分割，“Plan”用于运动规划，“MOT”用于多目标跟踪。**深度监督意味着仅相机模型使用稀疏/密集深度图来监督模型，**✓ 对于是，✗ 对于否，-对于激光雷达输入模型。在数据集下，“nuS”nuScenes数据集[7]，“WOD”Waymo开放数据集[8]，“KITTI”KITTI数据集[11]，“Lyft”Lyft Level 5数据集[28]，“OpenLane”OpenLane数据集[26]，“AV”Argoverse数据集[24]，“Carla”Carla模拟器[40]，“SUN”SUN RGB-D数据集[41]，“ScanNet”ScanNet室内场景数据集[42]。

表3：BEV感知算法在流行基准上的性能比较。我们根据表2对不同的方法进行了分类。在模态下，“SC”、“MC”和“L”分别表示单相机、多相机和激光雷达。在Task Head下，“Det”表示3D对象/车道检测任务，“Seg”表示BEV地图分割任务。在KITTI ODet下，我们报告了KITTI数据集中3D对象在Easy、Medium和Hard级别的AP40[11]。在nuS-ODet下，我们报告了nuScenes数据集中3D对象的NDS和mAP[7]。在nuS MapSeg下，我们报告了nuScenes Map Segmentation设置中DRI（可驾驶区域）和LAN（车道，也称为分隔符）类别的mIOU分数。在OL下，我们报告了OpenLane数据集中3D laneline的F1分数[26]。根据WOD，我们在Waymo开放数据集[8]中报告了仅用于相机的3D对象检测的LET-APL[61]和用于任何模态的3D对象探测的APH/L2[8]。*表示原始论文报告的结果。

BEV摄像头

通用管道

纯相机3D感知吸引了学术界的大量关注。核心问题是2D成像过程本身无法保存3D信息，在没有精确深度提取的情况下阻碍了精确的对象定位。仅限相机的3D感知可以分为三个领域：单眼设置、立体设置和多相机设置。由于多摄像机方法通常从单目基线开始，我们也从单目基准设置开始。
在以下上下文中，我们使用“2D空间”指具有像素坐标的透视图，使用“3D空间”指代具有世界坐标的3D真实世界空间，使用“BEV空间”指指代鸟瞰图。
如图2所示一个通用的仅限相机的3D感知系统可以分为三个部分：2D特征提取器、视图转换模块（可选）和3D解码器。由于仅相机的3D感知具有与2D感知相同的输入，因此一般特征提取器可以被模拟为：
$\mathcal{F}_{2D}^*(u,v)=M_{feat}(\mathcal{I}^*(u,v)),\quad(4)$
其中F2D表示2D特征，I表示图像，Mf-eat表示2D特征提取器，u，v表示2D平面上的坐标，*表示一个或多个图像和相应的2D特征。在2D特征提取器中，在2D感知中存在大量经验，这些经验可以在3D感知中以骨干预训练的形式考虑[79，80]。视图转换模块在很大程度上不同于2D感知系统。请注意，并非所有的3D感知方法都有视图转换模块，有些方法直接从2D空间中的特征检测3D空间中的对象[80，81，82]。如图2所示，通常有三种方法来执行视图转换。这种转换可以公式化为：
$\mathcal{F}_{3D}(x,y,z)=M_{trans}\big(\mathcal{F}_{2D}^{*}(\hat{u},\hat{v}),\big[\boldsymbol{R}\quad\boldsymbol{T}\big],\boldsymbol{K}\big),\quad(5)$
其中F3D表示3D（或体素）特征，x，y，z表示3D空间中的坐标，Mtrans表示视图变换模块，u，vx v vx表示x，y、z方面的对应2D坐标，R T和K是如附录第B节所述的相机外部和内部。请注意，有些方法不依赖于相机的外部和内部。3D解码器接收2D/3D空间中的特征，并输出3D感知结果，如3D边界框、BEV地图分割、3D车道关键点等。大多数3D解码器来自基于LiDAR的方法[44，67，83，84]，这些方法在体素空间/BEV空间中执行检测，但仍有一些仅相机的3D解码器利用2D空间中的特征[81，82，85]并直接回归3D对象的定位。

图2：纯电动汽车摄像头的总体流程（仅摄像头感知）。分为三个部分，包括二维特征提取、视图变换和三维解码器。在视图变换中，有两种方法对三维信息进行编码——一种是从二维特征中预测深度信息；另一种是从3D空间中对2D特征进行采样。

视图转换

视图转换模块在仅相机的3D感知中至关重要，因为它是构建3D数据和编码3D先验假设的主要单元。最近的研究[3，4，10，26，47，48，49，51，56，59]集中在增强该模块上。我们划分视图转换器技术分为三大主流。第一个流被指定为“2D-3D方法”，从2D图像特征开始，并通过深度估计将2D特征“提升”到3D空间。第二个流被称为**“3D-2D方法”，起源于三维空间，并通过3D-2D投影映射将二维特征编码到三维空间。前两个流显式地建模几何变换关系。相反，第三种流被称为“纯基于网络的方法”，它利用神经网络来隐式地获取几何变换**。图3给出了执行视图转换的概要路线图，下面对它们进行了详细分析。

图3：视图转换的分类。根据2D-3D方法，基于LSS的方法[5，46，47，49，57，64，88]根据2D特征预测每个像素的深度分布。从3D-2D方法来看，基于同形矩阵的方法[4，26，92]假定稀疏的3D采样点，并通过相机参数将其投影到2D平面。基于纯网络的方法[94，95，96，97，98]采用MLP或transformer对从3D空间到2D平面的投影进行隐式建模。

2D-3D方法：LSS[57]首次引入的2D-3D法预测二维特征的网格深度分布，然后基于深度将二维特征“提升”到体素空间，并执行类似于基于激光雷达的方法的下游任务。该过程可以公式化为：
$\mathcal{F}_{3D}(x,y,z)=\begin{bmatrix}\mathcal{F}_{2D}^*(\hat{u},\hat{v})\otimes\mathcal{D}^*(\hat{u},\hat{v})\end{bmatrix}_{xyz},\quad(6)$
其中F3D（x，y，z）和F2D（ξu，vξ）保持与等式相同的含义。5，D（576 u，v 576）表示在（576 u，v 593）处的预测深度值或分布，并且⊗表示外部生产或类似操作。注意，这与伪激光雷达方法[86,87]非常不同，伪激光雷达的深度信息是从预训练的深度估计模型中提取的，并且提升过程发生在2D特征提取之前。在LSS[57]之后，还有另一项工作遵循了将深度公式化为逐仓分布的相同思想，即CaDDN[46]。CaDDN采用类似的网络来预测分类深度分布，将体素空间特征压缩到BEV空间，并在最后进行3D检测。LSS[57]和CaDDN[46]之间的主要区别在于，CaDDN使用深度地面实况来监督其分类深度分布预测，因此具有优越的深度网络来从2D空间提取3D信息。这首曲目是后续作品，如BEVDet[47]及其临时版本BEVDet4D[64]、BEVDepth[49]，BEVFusion[5，88]和其他[65，80，89]。注意，在立体设置中，通过强先验更容易获得深度值/分布，其中一对相机之间的距离（即系统的基线）应该是恒定的。这可以公式化为:
$\mathcal{D}(u,v)=f\times\frac{b}{d(u,v)},\quad(7)$
其中，d（u，v）是位置（u，v）处的一对图像上的水平视差（通常在左图像中定义），f是附录第B节中的相机焦距，d（u，v）是（u，v）处的深度值，B是基线的长度。LIGA Stereo[89]和DSGN[65]等立体声方法利用了这种强先验，并在KITTI排行榜[11]上与基于激光雷达的替代方案不相上下。

3D-2D methods:第二个分支（3D到2D）可以追溯到三十年前，当时逆透视映射（IPM）[90]公式化了从3D空间到2D空间的投影，有条件地假设3D空间中的对应点位于水平面上。这样的变换矩阵可以从相机的内在和外在参数[91]中数学推导出来，这个过程的细节在Ap pendix的第B节中给出。一系列工作应用IPM以预处理或后处理的方式将元素从透视图转换为鸟瞰图。在视图转换的背景下，OFT-Net[43]首次引入了从3D到2D的特征投影方法。OFT-Net形成了一个统一分布的三维体素特征网格，通过聚集来自相应投影区域的图像特征来填充体素。然后通过垂直地对体素特征求和来获取正交BEV特征图。最近，受特斯拉感知系统技术路线图[6]的启发，3D-2D几何投影和神经网络的结合变得流行起来[4，26，85，92]。请注意，transformer架构中的交叉注意机制在概念上满足了这种几何投影的需要，如下所示：
$\mathcal{F}_{3D}(x,y,z)=CrossAttn(q:P_{xyz},kv:\mathcal{F}_{2D}^{*}(\hat{u},\hat{v})),\quad(8)$
其中，q，k，v代表查询、键和值，Pxyz是体素空间中预先定义的锚点，其他符号遵循方程。4和5。一些方法[4，85]利用相机参数将Pxyz投影到图像平面，以实现模型的快速收敛。为了获得稳健的检测结果，BEVFormer[4]利用transformer中的交叉注意机制来增强3D-2D视图转换的建模。其他[50，93]简化了网格采样器，以有效地加速这一过程，从而实现大规模生产。尽管如此，这些方法在很大程度上依赖于相机参数的精度，而相机参数在长时间的驾驶中很容易出现波动

基于纯网络的方法：无论是2D-3D方法还是3D-2D方法，这两种技术都引入了几何投影中包含的继承归纳偏差。相比之下，一些方法倾向于将神经网络用于相机投影关系船舶的隐式表示。许多BEV图分割工作[55，56，94]使用多层感知器或变换器[99]架构来隐式地对3D-2D投影建模。VPN[94]引入了视图关系模块——一种多层感知器（MLP），用于通过处理来自所有视图的输入来产生地图视图特征，从而实现了跨各种视角的共享特征表示的获取。HDMapNet[55]采用MLP架构来执行特征图的视图转换。BEVSegFormer构建密集的BEV查询，并通过MLP直接从查询特征中预测其二维投影点，然后使用可变形注意力更新查询嵌入。CVT[54]将图像特征与从相机内在和外在参数导出的相机感知位置em床上用品相结合，并引入了跨视图注意力模块来产生地图视图表示。有些方法没有显式构造BEV特征。PETR[48]将从相机参数导出的3D位置嵌入集成到2D多视图特征中。这种集成使稀疏查询能够通过香草交叉关注直接与3D位置感知图像特征交互。

关于BEV和透视方法的讨论

在纯相机3D感知的最初，主要关注的是如何从透视图（也称为2D空间）预测3D对象的定位。这是因为2D感知在那个阶段得到了很好的发展[1,2100101]，如何为2D检测器配备感知3D场景的能力成为主流方法[62，81，82102]。后来，一些研究涉及BEV表示，因为在这种观点下，很容易解决3D空间中具有相同尺寸的物体由于与相机的距离而在图像平面上具有非常不同的尺寸的问题。这一系列工作[43，46，65，86，89]要么预测深度信息，要么利用3D先验假设来补偿相机输入中3D信息的损失。虽然最近基于BEV的方法[3，4，5，47，49，88，103]已经席卷了3D感知世界，但值得注意的是，这一成功主要从三个方面受益。第一个原因是趋势nuScenes数据集[7]，它具有多摄像头设置，非常适合在BEV下应用多视图特征聚合。第二个原因是，大多数纯相机BEV感知方法都从基于激光雷达的方法[44，45，67，83，84，104，105]中获得了很大的帮助，如探测头和相应的损耗设计。第三个原因是，单目方法[81，82102]的长期发展使基于BEV的方法蓬勃发展，这是处理透视图中特征表示形式的一个良好起点。核心问题是如何从二维图像中重建丢失的三维信息。为此，基于BEV的方法和透视方法是解决同一问题的两种不同方法，它们并不相互排斥。

纯相机BEV感知方法利用算法从摄像头捕获的二维图像中推断三维信息，并尝试生成与激光雷达类似的鸟瞰图。在这个过程中，许多在激光雷达数据上成功应用的技术，比如检测头（用于识别和定位物体）和损失函数设计（用于训练机器学习模型以减少预测误差），都被迁移到了基于相机的方法中。具体来说，通过观察激光雷达数据处理方法的成功之处，研究人员能够借鉴这些技术并将其适应到相机图像上，尽管相机数据缺乏激光雷达那样的深度信息。

在BEV表示中，观察者仿佛从上方俯瞰场景，可以更直观地看到车辆周围的环境，包括其他车辆、行人、路标等的位置。这为自动驾驶车辆的导航和路径规划提供了重要的空间信息，因为在BEV图中，物体的尺度和位置与它们在实际世界中的对应关系更为直接和一致。

BEV激光雷达

图4：BEV激光雷达感知的总体流程。将点云数据转换为BEV表示主要有两个分支。上分支提取三维空间中的点云特征，提供更准确的检测结果。下分支提取2D空间中的BEV特征，提供更高效的网络

通用流程

图4描述了BEV激光雷达探测的一般流程。提取的点云特征被转换为BEV特征图。公共检测头生成3D预测结果。在特征提取部分，主要有两个分支将点云数据转换为BEV表示。根据流水线顺序，我们将这两个选项分别称为前BEV和后BEV，表明骨干网络的输入是来自3D表示还是来自BEV表示。

BEV前特征提取

除了基于点的方法对原始点云进行处理外，基于体素的方法将点体素化为离散网格，通过离散连续三维坐标提供了更有效的表示。基于离散体素表示，可以使用3D卷积或3D稀疏卷积[118119]来提取点云特征。我们使用Yj，c′来表示输出通道c处的第j个体素输出Y’，和Xi，c来表示输入通道c处的第i个体素输入X。正常的3D卷积操作可以描述为：
$Y_{j,c'}=\sum_{i\in P(j)}\sum_{c}W_{k,c,c'}X_{i,c},\quad(9)$
这里，P（j）表示用于获得输入索引i和滤波器偏移的函数，并且Wk，c，c′表示具有核偏移k的滤波器权重。对于稀疏输入X_和输出Y，我们可以重写方程。9转换为3D稀疏卷积：
$\tilde{Y}_{j,c^{\prime}}=\sum_{k}\sum_{c}W_{k,c,c^{\prime}}\tilde{X}_{R_{k,j},k,c},\quad(10)$
其中Rk，j表示在给定核偏移k和输出索引j的情况下指定输入索引i的矩阵。大多数现有技术的方法通常利用3D稀疏卷积来进行特征提取。然后，可以通过对高度轴进行加密和压缩，将3D体素特征格式化为BEV中的2D张量。

VoxelNet[44]堆叠多个体素特征编码（VFE）层，以将体素中的点云分布编码为体素特征。给定V＝｛pi＝〔xi，易，zi，ri]T｝i=1…n as n≤n点在非空体素内，其中xi，易，zi是三维空间中的坐标，ri是反射率，N是最大点数，V的质心（vx，vy，vz）是所有点的局部平均值，每个点的特征通过：
$f_i=FCN([x_i,y_i,z_i,r_i,x_i-v_x,y_i-v_y,z_i-v_z]^T).\quad\text{(11)}$
FCN是一个线性层、一个间歇归一化和一个激活函数的组成。体素的特征是V的所有fi的逐元素最大池化。应用3D卷积来进一步聚集局部体素特征。在合并通道和高度的维度后，由区域建议网络（RPN）处理隐式转换为BEV的特征图，以生成对象建议。SECOND[84]在处理体素表示时引入了稀疏卷积，以大幅降低训练和推理速度。CenterPoint[67]是一种强大的基于中心的无锚3D检测器，它也遵循这种检测模式，成为3D对象检测的基线方法。

点云数据通常由激光雷达（LiDAR）传感器收集，它能够精确测量物体表面的距离，从而形成三维坐标的集合。现在，让我们详细地分解和理解您所提供的信息：

离散体素表示和3D卷积：

离散体素表示：这是将连续的点云数据离散化为固定间隔的3D网格（体素）。每个体素内部的点被转化成该体素的特征表示。
3D卷积：它是深度学习中用于处理三维数据（如体素化的点云）的工具。与2D卷积处理图像类似，3D卷积通过在数据的三个维度上移动过滤器来提取特征。

稀疏卷积：

大多数点云是稀疏的，意味着很多体素是空的（没有点云数据）。稀疏卷积是一种高效的卷积形式，它只在点云数据实际存在的位置上应用卷积运算，从而显著降低计算量。

3D卷积和稀疏卷积的数学表示：

方程（9）和（10）描述了标准3D卷积和稀疏3D卷积的计算过程，其中权重( W )和输入( X )通过一系列求和操作被组合以产生输出( Y )。

体素特征编码（VFE）层：

VoxelNet利用VFE层将体素中的点云信息编码为体素特征。这个过程包括将每个点的坐标及其反射率与该点与体素中心的相对位置结合起来，然后通过一个全连接网络（FCN）处理。

体素到BEV的转换：

通过对体素特征进行处理，可以将3D特征投影到2D的鸟瞰图（BEV），这样就可以使用类似于处理传统图像的方法来检测和识别对象。

具体算法实现：

SECOND 使用稀疏卷积优化体素数据的处理，提高了速度和效率。
CenterPoint 是一种基于检测物体中心的方法，用于3D对象检测，并已经成为一种标准方法。

总结来说，您提供的段落详细地描述了如何从原始点云数据中提取特征，以及如何将这些特征用于识别和检测3D空间中的物体。这些技术的发展和应用是自动驾驶技术中3D感知领域的关键进步。

PV-RCNN[66]结合了点和体素分支，以学习更具判别力的点云特征。具体而言，高质量的3D提案由体素分支生成，而点分支为提案细化提供了额外的信息。SA-SSD[106]设计了一个辅助网络，该网络将骨干网络中的体素特征转换回点级表示，以明确利用3D点云的结构信息，并减轻下采样中的损失。Voxel R-CNN[108]采用三维卷积主干提取点云特征。然后在BEV上应用2D网络来提供对象建议，这些建议通过提取的特征进行细化。它实现了与基于点的方法相当的性能。对象DGCNN[109]对3的任务进行建模对象检测作为BEV中动态图上的消息传递。在将点云转化为BEV特征图后，预测查询点迭代地收集关键点的BEV特征。VoTr[107]引入了局部注意力、扩展注意力和快速体素查询，以在大量体素上实现大上下文信息的注意力机制。SST[68]将提取的体素特征视为标记，然后在非重叠区域中应用稀疏区域注意力和区域Shif，以避免对基于体素的网络进行下采样。AFDetV2[69]通过引入关键点辅助监督和多任务头来制定单级无锚网络。

后BEV特征提取

由于三维空间中的体素稀疏且不规则，因此应用三维卷积是低效的。对于工业应用，可能不支持3D卷积等运算符；需要合适且高效的3D检测网络。MV3D[110]是第一种将点云数据转换为BEV表示的方法。将点离散到BEV网格中后，根据网格中的点获得高度、强度和密度的特征，以表示网格特征。由于纯电动汽车网格中有许多点，在这种处理中，信息损失相当大。其他工作[11111211114115116]遵循类似的模式，使用BEV网格中的统计数据来表示点云，例如强度的最大高度和平均值。PointPillars[45]首先介绍了柱的概念，柱是一种具有无限高度的特殊类型的体素。它利用PointNet[104]的简化版本来学习柱中点的表示。编码特征然后可以由标准2D卷积网络和检测头进行处理。虽然PointPillars的性能不如其他3D主干令人满意，但它及其变体具有很高的效率，因此适合于工业应用。

讨论

点云数据由神经网络直接处理，如[120121]所述。在连续的三维空间中计算点之间的邻域关系。这带来了额外的时间消耗，并限制了神经网络的感受野。最近的工作[44，84]利用离散网格来表示点云数据；采用卷积运算来提取特征。然而，将点云数据转换为任何形式的表示都不可避免地会导致信息的丢失。BEV前特征提取中的现有技术方法利用具有细粒度大小的体素，保留了点云数据中的大部分3D信息，从而有利于3D检测。作为一种权衡，它需要高内存消耗和计算成本。将点云数据直接转换为BEV表示可以避免在三维空间中进行复杂的操作。随着高度维度的压缩，信息的巨大损失变得不可避免。最有效的方法是使用统计学来表示BEV特征图，但它提供了较差的结果。基于支柱的方法[45]平衡性能和成本，成为工业应用的热门选择。如何处理性能和效率之间的权衡成为基于激光雷达的应用面临的重要挑战。

BEV Fusion

图。5:BEV融合算法的两种典型管道设计，适用于学术界和工业界。主要区别在于2D到3D的转换和融合模块。在PV感知管道（a）中，不同算法的结果首先被转换到3D空间，然后使用先验或手工规则进行融合。纯电动汽车感知管道（b）首先将PV特征转换为纯电动汽车，然后融合特征以获得最终预测，从而保持大多数原始信息并避免手工设计。

通用管道

提出了通用管道逆透视映射（IPM）[122]，利用相机的内在和外在矩阵的几何约束将像素映射到BEV平面上。尽管由于平坦地面假设而导致其不准确，但它提供了在BEV中统一图像和点云的可能性。Lift splat shoot（LSS）[57]是第一种预测图像特征深度分布的方法，引入了神经网络来学习不适定相机到激光雷达的转换问题。其他作品[4123]开发了不同的方法来进行视图转换。给定从透视图到BEV的视图转换方法，图5b显示了融合图像和点云数据的通用管道。
模态特定特征提取器用于分别提取透视图和BEV中的特征。在转换为BEV中的表示之后，融合来自不同传感器的特征图。时间和自我运动信息也可以引入BEV表示中。

激光雷达相机融合

同时，两个同名的作品BEVFu sion[5，88]从不同的方向探索BEV中的融合。由于相机到激光雷达的投影[73124]抛弃了相机特征的语义密度，BEVFusion[5]设计一种高效的相机到BEV的转换方法，该方法将相机特征有效地投影到BEV中，然后使用卷积层将其与激光雷达BEV特征融合。BEVFusion[88]将BEV融合视为保持感知系统稳定性的鲁棒性主题。它将相机和激光雷达功能编码到同一BEV中，以确保相机和激光激光雷达流的独立性。这种设计使感知系统能够在传感器故障时保持稳定性。
除了BEVFusion[5，88]之外，UVTR[123]在没有高度压缩的情况下表示模态特定体素空间中的不同输入模态，以避免语义歧义并实现进一步的交互。通过将每个视图的图像特征变换到具有针对每个图像生成的深度分布的预定义空间来构建图像体素空间。点体素空间是使用com mon三维卷积网络构建的。然后在两个体素空间之间进行跨模态交互，以增强模态特定信息

BEVFusion 和 UVTR 的方法总结如下：

BEVFusion：这是一个传感器融合方法，它结合了多个传感器数据来形成一个统一的、多模态的鸟瞰图（BEV）。这种融合有助于改善在某些传感器视角下可能受限的感知能力，如摄像头在夜间或恶劣天气条件下的表现。

UVTR（Unsupervised Voxel to Voxel Translation for Multimodal Fusion）：UVTR代表了一种不同的方法。它旨在保留每种传感器数据的独特性，同时避免在转换过程中产生的语义歧义。方法如下：

图像体素空间构建：通过将每个视图（即从每个摄像头角度）的图像特征转换到一个预定义的空间，这个空间基于每个图像生成的深度分布。这样做可以创建一个富有语义的图像体素表示。
点体素空间构建：与此同时，点云数据（通常由LiDAR生成）被转换和处理通过一个常见的三维卷积网络来建立另一个体素空间。

跨模态交互：UVTR中的关键一步是在上述两个体素空间之间进行交互，以此来增强模态特定的信息。通过这种方式，每种传感器的数据都被利用来互补和增强整个感知系统的性能。

总之，这些方法都是为了克服单一传感器的局限性，并通过有效的数据融合策略来增强自动驾驶车辆的环境感知能力。BEVFusion注重于融合后的表示，而UVTR注重于保留模态特定的信息，并在融合过程中使得不同模态之间可以有效地互相补充。

时间融合

时间信息在推断物体运动状态和识别遮挡方面起着重要作用。BEV提供了一个理想的桥梁来连接不同时间戳中的场景表示，因为BEV特征图的中心位置对ego汽车来说是持久的。 MVFuseNet[125]利用BEV和范围视图进行时间特征提取。其他工作[53，63，64]使用自我运动将先前的BEV特征与当前坐标对齐，然后融合当前BEV特征以获得时间特征。BEVDet4D[64]使用空间对齐操作将先前的特征图与当前帧融合，然后连接多个特征图。BEV Former[4]和UniFormer[126]采用了一种软方法来融合时间信息。注意力模块用于分别融合来自先前BEV特征图和先前帧的时间信息。关于自我汽车的运动，注意力模块在不同时间戳的表示中要参与的位置也通过自我运动信息来校正。

在自动驾驶系统中，时间信息对于理解物体的运动状态和识别潜在的遮挡情况至关重要。在此情境中，鸟瞰图（BEV, Bird’s Eye View）特征映射能够提供跨不同时间戳的场景表示，帮助车辆理解环境中对象的动态变化。下面是一些结合时间信息的BEV方法：

MVFuseNet：这个方法结合使用BEV和范围视图（range view）来提取跨时间的特征，帮助理解物体在不同时间点的状态。

时间对齐：一些研究（如文献53、63、64）使用车辆的自身运动来将之前时间戳的BEV特征图与当前坐标系对齐，以此来理解对象随时间的运动。这涉及将过去的数据转换到当前帧的参考框架中，以实现时间序列的连续性。

BEVDet4D：这个方法使用空间对齐操作将过去的特征图与当前帧融合，通过这种方式，它可以将连续帧的信息结合起来，帮助推断物体的运动。

BEV Former 和 UniFormer：这两个方法采用了一种软融合方法来结合时间信息。它们使用注意力模块来融合之前的BEV特征图中的时间信息和来自之前帧的数据。这些模块通过自身运动信息校正参与不同时间戳表示的具体位置。

总结来说，时间信息的融合允许自动驾驶系统更好地预测和理解路况中的动态变化。通过利用BEV表示的持久性（与自车位置有关的中心位置相对不变），以及通过时间对齐和注意力模块的高级方法，可以在连续的时间戳之间构建上下文，从而提高物体运动状态的预测精度和遮挡物体的识别能力。

讨论

由于图像处于透视坐标中，点云处于三维坐标中，两种模态之间的空间对齐成为一个至关重要的问题。尽管使用几何投影关系将点云数据投影到图像坐标上很容易，但点云数据的稀疏性使得提取信息特征变得困难。相反，由于透视图中缺乏深度信息，将透视图中的图像转换到3D空间将是一个不适定的问题。基于先前的知识，IPM[122]和LSS[57]等先前的工作使将透视图中的信息转换为BEV成为可能，为多传感器和时间融合提供了统一的表示。
激光雷达和相机数据在BEV空间中的融合为3D探测任务提供了令人满意的性能。这种方法还保持了不同模式的独立性，这为建立更强大的感知系统提供了机会。对于时间融合，**通过考虑自我运动信息，可以在BEV空间中直接融合不同时间戳中的表示。由于BEV坐标与3D坐标一致，因此通过监控控制和运动信息很容易获得自我运动的补偿。**考虑到鲁棒性和一致性，BEV是多传感器和时间融合的理想表示。

纯电动汽车感知的工业设计

图。5:BEV融合算法的两种典型管道设计，适用于学术界和工业界。主要区别在于2D到3D的转换和融合模块。在PV感知管道（a）中，不同算法的结果首先被转换到3D空间，然后使用先验或手工规则进行融合。纯电动汽车感知管道（b）首先将PV特征转换为纯电动汽车，然后融合特征以获得最终预测，从而保持大多数原始信息并避免手工设计。

图6:BEV架构与行业解决方案的比较。这些范例遵循类似的工作流程，如图5b所示。每种设计都略有不同。特斯拉[6]的图6a以视觉为主要输入，并包含视频模块，而地平线[127]的图6b包含多模态，以处理多感知任务

近年来，纯电动汽车认知在行业中呈流行趋势。在本节中，我们将在系统级别上描述纯电动汽车感知的架构设计。图5描述了工业应用中传感器融合的两种典型范例。在BEV感知研究之前，大多数自动驾驶公司构建基于透视图输入的感知系统。如图5a所示，在透视图（PV）管道中，激光雷达轨迹直接提供3D结果，而基于图像的3D结果通过几何先验从2D结果转换而来。然后，通过手工制作的方法将图像和激光雷达的预测融合在一起。相反，如图5b所示，基于BEV的方法执行特征级的2D到3D转换，并集成特征，而不是来自不同模态的直接检测输出，从而减少手工设计，提高鲁棒性。

基于BEV的方法的核心在于，它们将这些不同模态的数据首先转换为一个统一的3D表示，即鸟瞰图，这是一种从顶部视角展示环境的2D图像。这个过程通常包括以下步骤：

特征提取：从各种传感器收集的原始数据（2D图像、点云等）中提取特征。

2D到3D转换：将2D特征（尤其是来自相机的图像）映射到3D空间中。这通常涉及到估计场景的深度信息，并将2D像素位置转换到3D空间坐标。

特征融合：将来自不同传感器的3D特征集成到一个统一的BEV表示中。这意味着将各种类型的数据（例如，视觉数据和距离信息）结合到一个共同的参考框架中。

减少手工设计：传统的传感器融合方法可能需要大量的手工调整和规则设计来处理不同传感器的数据。相比之下，基于BEV的方法通过自动学习数据之间的关系，减少了这种手工设计。

提高鲁棒性：由于特征级的融合是在更高的、更抽象的层面上进行的，因此，基于BEV的方法通常对传感器的噪声和偏差更为鲁棒。此外，它们可以更好地处理来自不同视角和距离的数据，提高在多变环境下的性能。

总之，基于BEV的方法通过将不同模态的数据统一到3D空间中的一个共同框架里，并在特征级上进行融合，从而减少了对手工设计的需求，并提高了系统对各种条件变化的鲁棒性。这对于复杂且动态的自动驾驶场景来说是非常重要的。

图6总结了全球企业提出的各种纯电动汽车感知架构。详细的模型/输入选项在附录的第D节中进行了说明。请注意，本次调查中提供的所有信息都是从公共资源中收集的；不同方案之间的比较和分析是基于事实的。图6中的纯电动汽车融合架构遵循图5b所示的流水线，由输入数据、特征提取器、PV到纯电动汽车的转换、特征融合模块、时间和空间模块以及预测头组成。我们将在下面详细介绍每个模块。

输入数据

基于BEV的感知算法支持不同的数据模式，包括相机、激光雷达、雷达、IMU和GPS。相机和激光雷达是越野驾驶的主要感知传感器。一些产品仅将摄像头用作输入传感器，例如Tesla[6]、PhiGent[128]、Mobileye[129]。其他的采用了一套相机和激光雷达的组合，例如Horizon[127]、HAOMO[130]。请注意，IMU和GPS信号通常用于传感器融合计划[6127130]，如特斯拉和地平线等。

相机

优点：能够捕捉到丰富的环境信息，包括颜色、纹理、标志和交通信号。相机数据对于物体识别和场景理解至关重要。
缺点：在光线不足或过强的环境下性能下降；无法直接提供距离信息，对环境的深度感知依赖于复杂的算法。

激光雷达（Light Detection and Ranging, LiDAR）

优点：提供高精度的距离测量和三维点云数据，非常适合精确地理解环境的形状和位置。
缺点：价格昂贵；数据处理要求高；性能可能受雾、雨等恶劣天气影响。

雷达（Radio Detection and Ranging）

优点：能在各种天气条件下稳定工作，尤其擅长速度测量，通常用于自适应巡航控制（ACC）系统。
缺点：分辨率比激光雷达低，难以识别小物体或细节。

惯性测量单元（Inertial Measurement Unit, IMU）

优点：能够精确测量和报告车辆的即时速度、方向和加速度信息，对于估算车辆的位置和行驶轨迹非常有用。
缺点：随时间积累误差，需要与其他系统（如GPS）结合使用来校准。

全球定位系统（Global Positioning System, GPS）

优点：能提供全球范围内的位置信息，对于长距离导航不可或缺。
缺点：在城市峡谷、隧道或室内等地方信号可能受到干扰；精度受到卫星信号质量的影响，有时可能不够精确。

在实际应用中，这些传感器通常结合使用以克服各自的限制并提高整体性能。例如，激光雷达可以补充相机在深度感知上的不足，而IMU和GPS可以帮助车辆在激光雷达和相机无法操作的环境中导航。雷达则为高速行驶时的快速反应提供了可靠的数据支持。通过数据融合，自动驾驶系统能够获得周围世界的全面、准确的认知，从而安全地导航。

特征提取器

特征提取器用于将原始数据转换为适当的特征表示，该模块通常由主干和颈部组成。脊椎和颈部有不同的选择。例如，HAOMO[130]中的ResNet[117]和Tesla[6]中的RegNet[131]可以用作图像主干。颈部可以是HAOMO[130]的FPN[132]、Tesla[6]的BiFPN[133]等。至于点云输入，HAOMO[120]的基于支柱的选项或Mobileye[129]的基于体素的选项是骨干的理想候选者。

PV到BEV的转换

工业中进行视图转换的方法主要有四种：（a）固定IPM。基于平地假设，固定变换可以将光伏特征投影到BEV空间。固定IPM投影可以很好地处理接地平面。然而，它对车辆颠簸和路面平整度很敏感。（b） 自适应IPM利用通过一些姿态估计方法获得的SDV的外部参数，并相应地将特征投影到BEV。尽管自适应IPM对车辆姿态具有鲁棒性，但它仍然是基于平地假设的。（c）基于变压器的纯电动汽车变换采用密集变压器将光伏特征投影到纯电动汽车空间中。特斯拉（Tesla）、地平线（Horizon）、好物（HAOMO）都广泛采用了这种基于数据驱动的转换方法。（d） 2018年初，Waymo和Mobileye首次在不同的场地并行提出了ViDAR[13129]，以表明使用像素级深度基于相机或视觉输入将PV特征投影到BEV空间的做法，类似于LiDAR中的表示形式。ViDAR一词相当于大多数学术文献中提出的伪激光雷达的概念。配备了ViDAR，可以将图像和随后的特征直接转换为点云。然后可以应用基于点云的方法来获得BEV特征。最近，我们看到了许多ViDAR应用[6，131123134135]，例如特斯拉、Mobileye、Waymo、丰田等。总体而言，Transformer和ViDAR的选择在行业中最为普遍。

自适应IPM的工作原理简述：

姿态估计：首先，通过姿态估计方法，比如使用IMU（惯性测量单元）、GPS或者视觉里程计，获取自驾车辆（SDV）当前的姿态信息，包括车辆的俯仰角（pitch）、偏航角（yaw）和翻滚角（roll）。
外部参数利用：这些姿态信息被视为车辆的外部参数，用来调整IPM转换的参数，以确保图像转换能够反映出真实世界中的几何关系。
特征投影：接着，相机捕捉的透视图像特征根据这些调整后的参数，被投影转换到BEV。

基于平地假设的限制：

自适应IPM通常是基于这样一个假设：被观察的环境（比如路面）是平坦的。这意味着它假设没有大的坡度或者凹凸不平的路面。
当这个假设不成立时，例如在多变的地形或是有坡度的道路上，传统的IPM方法可能会出现误差，因为它无法正确处理路面的倾斜或者凹凸。

自适应IPM的优点和挑战：

优点：自适应IPM在车辆姿态发生变化时，能够动态调整投影参数，从而保持了对路面的准确映射，提高了鲁棒性。
挑战：尽管有这种自适应能力，但自适应IPM仍然依赖于平地假设。在复杂的路面条件下，例如驶过坑洼或斜坡，这种方法可能无法提供准确的BEV，因为实际的路面和平地假设之间存在差异。

总的来说，自适应IPM是一种有用的技术，可以提高车辆对环境的理解，但是它也有自己的局限性，特别是在处理复杂路况时。自动驾驶系统通常需要结合其他传感器和技术来克服这些限制。

基于变压器的BEV转换的工作原理简述：

光伏特征提取：首先从多个相机捕获的透视图（PV）图像中提取特征。这些特征包含了路面、车辆、行人等对象的视觉信息。
特征转换：然后，通过使用密集变压器网络，这些特征被转换到BEV空间。变压器网络能够通过其自注意力机制有效地处理和整合这些特征，以反映它们在实际世界中的空间布局。
数据驱动方法：这种变换方法是数据驱动的，意味着它依赖于大量的标注数据来训练网络模型，从而学习如何从透视图到BEV的映射。

ViDAR（视觉检测和测距）是一种技术，它使用来自相机的像素级深度信息来创建与激光雷达相似的数据表示。这种技术使得相机捕捉的图像能够转换为点云形式，类似于激光雷达扫描的输出，进而利用点云处理方法提取特征。ViDAR提供了一种方法，允许仅使用相机输入来模拟激光雷达系统的某些功能。以下是ViDAR的关键点：

像素级深度信息：ViDAR利用计算机视觉技术从二维图像中提取深度信息。这通常通过使用深度感知算法，如立体视觉、结构光或时间飞行（ToF）摄像头，或者更先进的深度学习方法来完成。

伪激光雷达（Pseudo-LiDAR）：ViDAR技术在学术界通常被称为“伪激光雷达”。它创建了一个激光雷达风格的三维点云，但是使用来自视觉传感器的数据而非激光雷达。

BEV特征获取：将图像转换为点云之后，就可以使用那些设计用来处理激光雷达数据的方法来处理这些伪激光雷达数据，进一步转换为BEV特征。

行业应用：Waymo、Mobileye、特斯拉、丰田等领先的自动驾驶和车辆制造商都在探索或应用ViDAR技术。这些公司的目的是通过相机捕获的数据提高感知系统的性能，尤其是在没有激光雷达或者作为激光雷达的补充时。

总结：ViDAR允许自动驾驶车辆的感知系统通过单一或多个相机，而非昂贵的激光雷达，来获取周围环境的深度信息和三维结构。这降低了成本并简化了系统设计，同时保持了一定水平的感知精度。此外，通过模拟激光雷达输出，ViDAR使得现有的基于点云的算法可以无缝地应用于由相机捕获的数据，从而增强了车辆的环境感知和决策能力。

融合模块

在之前的纯电动汽车转换模块中已经完成了不同相机源之间的对准。在融合单元中，他们进一步聚合来自相机和激光雷达的BEV特征。通过这样做，来自不同模式的特征最终被整合到一个统一的形式中。

时间和空间模块

通过在时间和空间上堆叠BEV特征，可以构建特征队列。时间堆栈每隔固定时间推送和弹出一个特征blob，而空间堆栈每隔固定距离推送和跳出一个特征blob。在将这些堆栈中的特征融合为一种形式后，它们可以获得时空BEV特征，该特征对遮挡具有鲁棒性[6130]。聚合模块可以是3D卷积、RNN或Transformer的形式。基于时间模块和车辆运动学，可以维护ego车辆周围的大型纯电动汽车特征图，并在本地更新特征图，就像特斯拉[6]的空间RNN模块一样。

通过结合时间和空间信息，自动驾驶系统可以创建一个更为全面的环境感知模型，这对于动态和复杂的道路场景至关重要。以下是对时间和空间堆叠BEV特征，以及如何创建鲁棒的时空BEV特征的总结：

特征队列：构建特征队列是通过在时间和空间上堆叠BEV（鸟瞰图）特征来实现的。这使得车辆能够记录和分析在连续时间点和不同位置的特征数据。

时间堆栈：时间堆栈通过周期性地添加（推送）新捕获的特征blob并移除（弹出）旧的特征blob来工作。这样，系统保留了最近的历史特征信息，形成了一个随时间变化的特征序列。

空间堆栈：与时间堆栈类似，空间堆栈在车辆通过一定距离后添加新特征blob并移除旧的特征blob。这有助于捕捉随着车辆移动而变化的环境特征。

特征融合：这些堆栈中的特征经过融合处理，可以生成包含时间连续性和空间连续性的时空BEV特征。这种特征在处理遮挡问题时特别有效。

聚合模块：对特征的聚合可以采用多种不同的方法，包括3D卷积、递归神经网络（RNN）或变换器（Transformer）。这些模块处理堆叠的特征，提取用于后续决策的有用信息。

动态特征图维护：系统可利用时间模块和车辆运动学来维护围绕自车的大型BEV特征图，并且根据车辆的实际移动在本地更新特征图。

实例应用：例如特斯拉就使用空间RNN模块来实时更新其BEV特征图，以适应车辆周围环境的变化。

总结：这种时空特征聚合方法使自动驾驶车辆能够更准确地理解和预测其环境。通过考虑时间连续性和空间变化，这些系统能够更好地处理如遮挡等复杂情况，并提高决策的安全性和可靠性。

预测头

在BEV感知中，多头设计被广泛采用。由于BEV特征聚集了来自所有传感器的信息，从BEV特征空间对所有3D检测结果进行解码。同时，在一些设计中，还从相应的PV特征中解码PV结果。预测结果可分为三类[127]：（a）低水平结果与物理约束有关，如光流、深度等。（b）实体水平结果包括物体的概念，即车辆检测、车道线检测等。（c）结构级结果表示对象之间的关系，包括对象跟踪、运动预测等

在基于BEV（鸟瞰图）的感知系统中，多头设计是一种常见的架构，它允许同时从同一个特征空间解码出不同类型的预测结果。以下是对这种多头设计的理解总结：

多头设计：这种设计使用多个“头”（在神经网络中通常指不同的输出层或模块），每个头负责从BEV特征空间中解码不同类型的预测结果。

BEV特征空间：这是一个聚合了来自所有传感器（如相机、激光雷达、雷达）信息的特征表示。在BEV空间中，数据被转换为鸟瞰图表示，这为理解和处理3D场景提供了有利的视角。

3D检测结果解码：从BEV特征空间中，系统可以直接对3D检测结果进行解码，这涉及到对车辆、行人等实体的空间定位和分类。

PV结果解码：在一些设计中，除了BEV结果之外，还会从相应的透视视图（PV）特征中解码结果。这可能是因为某些任务在透视视图中更容易解决或提供了更多的细节。

结果类型：

（a）低水平结果：这些结果涉及物理属性的直接测量，如光流（场景中对象的视觉运动）和深度估计。
（b）实体水平结果：这些结果涉及对场景中具体对象的识别和分类，如车辆检测、车道线检测。
（c）结构级结果：这些结果表示对象之间的关系和相互作用，如对象跟踪和运动预测，它们对于理解场景动态和未来状态预测非常关键。

总结：多头设计在BEV感知中允许高度集成的预测方式，结合了来自不同传感器源的信息，能够同时解决从低级物理属性到高级场景理解的多种任务。通过这种方式，自动驾驶系统能够获得关于周围环境的全面认知，从而做出更准确和可靠的决策。