1. 引言
在自动驾驶的领域中,BEV
(Bird's Eye View
,鸟瞰图)感知技术扮演着至关重要的角色。它允许自动驾驶车辆从上帝视角“看到”周围的环境,就像一只鸟从空中俯瞰地面一样。这项技术对于理解车辆周围的复杂场景至关重要。虽然BEV
感知技术听起来可能有点高深莫测,别担心,本文将继续用简单的语言解释这一技术。
2. BEV纯视觉感知
BEV
是自动驾驶领域一个庞大的算法家族,包括不同方向的算法选择。其中,以视觉感知为主的技术路线由特斯拉主导,算法主要建立在多个摄像头上。另一大流派主要利用激光雷达、毫米波雷达和多个摄像头进行感知。许多高阶智驾公司都采用了融合式算法,谷歌的Waymo
也是如此。
基于
BEV
的视觉感知指的是基于多个视角的图像序列作为输入,算法需要将这些视角转换为BEV
特征并对其进行感知,例如输出物体的三维检测或在BEV
视图下进行语义分割。与激光雷达相比,视觉感知具有更丰富的语义信息,但缺乏精确的深度测量功能。此外,基于BEV
的深度神经网络模型需要在训练阶段识别图图像中的每个物体。如果遇到训练集中没有的物体类型,或者模型表现不佳,就会出现无法识别的问题。
为了解决通用障碍物识别问题,特斯拉引入了 Occupancy Network
, 该项技术改变了感知策略,不再强调物体细分类类别,而是关注道路上是否有障碍物占用。这种障碍物可以用三维体素Voxel
来表示,这种方法更为贴切,无论障碍物的具体类型如何,只要当前行驶空间上不被障碍物占用,就都能保证车辆不会撞上障碍物。
3. BEVFormer技术
对于自动驾驶车辆来说,对BEV
空间中目标的类型可以大概分为以下两类:
- 不经常变化的目标: 如可行使区域,路面,车道,建筑物,植被,信号灯等一些其他未分类的静态物体
- 可变的目标: 即可以移动的物体,如行人、骑行人、汽车、卡车、锥桶等。
这种分类的目的是方便自动驾驶系统进行后续的驾驶规划和控制。在BEV
的感知阶段,算法根据物体出现在BEV
网格上的概率进行打分,并通过Softmax
函数对概率进行归一化处理,最后选择概率最高的物体类型对应的网格的类别预测结果。
纯视觉BEV
感知中最经典的结构就是BEVForme
r技术,该技术如上图所示,主要包括以下几个组件:
- 使用
Backbone
和Neck
从环视图像中提取多尺度图像特征(ResNet101-DCN + FPN)
- 编码器部分,这里包括基于空间的交叉注意力模块以及基于时序的自注意力模块,主要使用
Transformer
中交叉注意力模块来实现环视图像特征转换为BEV
特征 - 与
Deformable DETR
中解码器类似的解码器,主要用于实现3D
目标检测的分类和定位任务 - 使用匈牙利匹配算法来区分正负样本,并使用
FocalLoss + L1Loss
作为总的损失函数来优化网络参数
在算法创新方面,
BEVFormer
采用Transformer
结构来进行BEV
时空特征融合。它利用预定义的BEV Query
与空间/时间特征进行交互,进而进行时空信息上的融合。这种方法能有效捕捉三维场景中物体的时空关系,并生成更强大的表征。这些创新使BEVFormer
能够更好地处理环境中的物体检测和场景理解任务。
4. 多传感器融合
BEV
融合派在自动驾驶领域的主要任务是融合各类传感器的数据,包括摄像头、激光雷达、毫米波雷达以及高精度地图等。这种融合机制可以充分利用各个传感器的优势,提高自动驾驶系统对周围环境的感知和理解能力。
激光雷达的优势在于可以直接测量物体的距离,其精度远高于视觉推测的场景深度。激光雷达通常将测量结果转化为深度数据或点云,这两种数据形式的应用历史悠久,成熟的算法可以直接借用,从而减少了开发的工作量。
此外,激光雷达在夜间或恶劣天气条件下仍能正常工作,而在这种情况下,摄像头可能会受到很大影响,导致无法准确感知周围环境。
总之,融合派的目标是有效整合多传感器数据,使自动驾驶系统在各种复杂条件下获得更全面、更准确的环境感知,从而提高驾驶的安全性和可靠性。融合技术在自动驾驶领域发挥着关键作用。它融合了来自不同传感器的信息,使整个系统能更好地感知和理解周围环境,做出更准确的决策和规划。
5. 为什么选择BEV感知?
首先,自动驾驶本身是一个 3D
或 BEV
感知问题。使用 BEV
视角可以提供更全面的场景信息,帮助车辆感知周围环境并做出准确决策。在传统的二维视角中,由于透视效应,物体可能会出现遮挡和比例失调等问题,而 BEV
视角可以有效解决这些问题。同时,BEV技术还能将二维图像特征精确转换为三维BEV
特征,并能将提取的 BEV
特征应用于不同的感知任务。
另一个重要原因是BEV
可以方便地促进多模态融合。自动驾驶系统通常使用多种传感器,如摄像头、激光雷达、毫米波雷达等。BEV
视角可以将不同传感器的数据统一表征在同一平面上,这使得传感器数据的融合和处理更加方便直接。
在现有技术中,将单视角检测直接扩展到多视角检测是不可行的。这是因为单视角检测器只能处理单个摄像头的图像数据,而在多视角的情况下,检测结果需要根据相应摄像头的内外参进行转换,才能完成多视角检测。然而,这种简单的后处理方法无法用于数据驱动训练。这使得我们无法轻松地使用端到端训练模型的方式来改进自动驾驶感知系统。为了解决这些问题,基于Transformer
的 BEV
感知技术应运而生。
6. 为什么选择BEV+Transformer结构?
为什么 BEV+Transformer
结构会成为主流模式?其背后的关键在于 “第一性原则”,即智能驾驶应该越来越接近 “像人一样驾驶”,而反映到感知模型本身,BEV
是一种更自然的表达方式,由于全局注意力机制,Transformer
结构更适合进行视图转换。目标BEV
域中的每个位置访问源域图像空间中任何位置的距离都是相同的,克服了CNN
中卷积层的局部有限感受野的缺点。此外,与传统的 CNN 相比,Transformer结构还具有更好的可解释性和灵活性。
随着产学研的推进,BEV+Transformer
近期已从普及走向量产,这在当前智能驾驶商业颠覆的背景下,或许是一个难得的亮点。
7. 总结
本文重点介绍了纯视觉BEV感知和多传感器BEV感知的技术细节,并详细阐述了BEV感知的技术优势以及选择BEV+ Transformer结构的必要性。
您学废了嘛?