1. LSS-Based
1.1 BevDet
通过Lift splat 对于2d 特征中的每个pixel(特征点)估计一个3d的深度分布,这样就可以将2d点投影到3d空间上。这样就可以拿到UVD个3d特征点,然后通过voxel pooling 对高度方向拍平, 这样就得到Bev空间的特征图。然后再通过Bev encoder以及任务头。
BevDet的网络结构如上图所示,它实现了多视角的特征融合。还需要实现时序的融合,这个扩展就想对比较简单了。
- 将上一帧的Bev特征,通过ego pose 对齐到当前帧的Bev空间中
- 然后和当前帧的Bev特征进行特征维度的concate。
- 然后接Bev encoder 和 Bev Head, 这样就拿到了带2帧时序特征信息的融合。
1.2 BevDepth
Lift splat第一步就是做深度估计,深度估计的精度最终会影响检测的性能<