文章目录
-
- 1. 显示Bev方法介绍
-
- 1.1 2D to 3D: LSS-based
-
- 1.1.1 优点
- 1.1.2 缺点
- 1.2. 3D to 2D: BevFormer
-
- 1.2.1 缺点
- 1.2.2优点
- 1.3 常见的Bev感知的问题
- 2. Sparse query
-
- 2.1 PETRv1
-
- 创新点
- 3D 位置编码
- 实验对比
- 2.2 PETRv2
-
- 2.2.1 时序对齐
- 2.2.2 Feature guided 3D PE
- 2.2.3 多任务
- 2.2.3 性能
1. 显示Bev方法介绍
1.1 2D to 3D: LSS-based
2D to 3D主要以LSS-based方法为主,主要是
LSS,BevDet, BevDepth
系列。如下图为例,这种方法一般都会有一个depth估计的网络,还会有一个语义特征提取的分支。利用外积的操作及voxel pooling把提取的image的图像特征拍平到Bev空间上。
- 可以发现它是比较依赖深度估计的准确度的,如果深度估计不准的话,它投到3D空间上会出现位置的偏差,后续Bev Head 基于有偏差的Bev特征,就容易不好refine 回来,容易出现误差累计的问题。
- 比如像当时BevDet刚出来的时候,由于它没有显示的深度监督,所以它当时收敛的是比较慢的,其实慢的原因就在于它需要一定时间来学习深度估计网络。再后来像BevDepth出现,因为它有一个显示的深度估计,所以它的收敛效果相比大大加快。
1.1.1 优点
它的优点也很明显,计算效率非常高,速度快。基于cuda并行和离线查表策略,针对voxel pooling做了很多工程上的优化,从而使得计算效率非常高。
经常看到一些轻量化的方法,大部分都是基于LSS-Based方法