3D 视觉感知任务,包括基于多摄像头的
3D检测
和地图分割
对于自动驾驶系统至关重要。本文提出了一种名为BEVFormer
的新框架
,它通过使用空间和时间
的Transformer
学习统一的BEV表示来支持多个自动驾驶感知任务。简而言之,BEVFormer通过预定义的网格形式的Bev Query与空间和时间空间交互来提取时间空间信息。为了聚合空间信息,BEVFormer设计空间交叉注意力
(spatial cross-attention),每个BEV Query
从不同摄像头的感兴趣区域
中提取空间特征
。对于时间信息
,BEVFormer中提出时间自注意力
(temporal self-attention)来反复融合历史BEV
信息。BEVFormer在nuScenes测试集上实现了新的SOTA水平,NDS指标为56.9%,相比以往的SOTA提高9.0个点,与基于Lidar的
Baseline性能相当
。作者还进一步表明,BEVFormer在低可见性条件下
显著提高了速度估计的准确性
和召回率。
- paper: BEVFormer: Learnin