如有错误,恳请指出。
文章目录
- 1. 背景
- 2. 网络结构
- 2.1 Sectorized Proposal-Centric Sampling
- Proposal-Centric Filtering
- Sectorized Keypoint Sampling
- 2.2 VectorPool Aggregation
- 3. 实验结果
paper:《PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector Representation for 3D Object Detection》(2022 IJCV)
做点云检测的肯定知道了,这又是Shaoshuai Shi大佬的另外一篇文章,Shaoshuai Shi大佬的主页介绍:https://shishaoshuai.com/
1. 背景
PV-RCNN++的基本原理延续这PV-RCNN:基于体素的策略可以更有效地编码多尺度特征,并从大规模点云生成高质量的3d候选框;而基于点的策略可以保留精确的位置信息,并具有灵活的感受野,用于细粒度的建议细化。
在PV-RCNN的基础上,PV-RCNN++对其进行了改进。改进的第一点就是关键点的采样,这里提出了分区关键点采样策略(sectorized proposal-centric keypoint sampling strategy),要比原始的距离最远点采样更加高效(D-FPS距离最远点采样的具有二次的算法复杂度)。改进的第二点是roi特征聚合的改进,这里提出了一个VectorPool聚合模块来替换SA层作用。具体来说,将局部空间进行voxel,然后利用独立的kernel weight分别对不同局部位置进行编码再拼接在一起。
对PV-RCNN进行的两点改进后,PV-RCNN++的速度提高了3倍,而且性能更佳。
2. 网络结构
paper中还包含着PV-RCNN的介绍,这里对其pass掉,直接介绍PV-RCNN++的结构。对于PV-RCNN的介绍可以查看之前的笔记。PV-RCNN++完整结构如下图所示:
可能由于nuSences与Waymo的单帧点云场景点数量过于庞大,相比之下KITTI数据集显得就比较小了,基于此原本的PV-RCNN会面临一个性能的问题,计算量过于复杂。为此PV-RCNN++提出了两个新模块来提高PV-RCNN的性能:一种是以分区为中心的关键点采样策略,用于更快更好地进行关键点采样;另一种是VectorPool聚合模块,用于更有效地从大规模点云中聚合局部特征。下面分别对其进行介绍。
2.1 Sectorized Proposal-Centric Sampling
距离最远点采样在之前的多个经典算法中都有使用到,作用是采样点云中的关键点。但其有两个缺点:
1)最远点采样的二次复杂度导致采样时间过长,影响了PV-RCNN的训练和推理速度,尤其是大规模点云上的关键点采样。
2)最远点采样将生成大量的背景点(这一点在3D-SSD中也有提及,其改进的方向是提出了特征最远点采样F-FPS辅助使用),这些背景关键点通常对候选框细化无用,因为RoI-grid pooling模块只能检索候选框周围的关键点。
为此,PV-RCNN++中提出了以提议为中心的过滤和分扇区的采样,其包括两个阶段:以提议为中心的过滤和扇区化采样。结构如下图所示,相关步骤画得相当清晰了。
Proposal-Centric Filtering
在原始的最远点采样中,会在整个3d点云场景以二次复杂度来遍历一个个获取点。这里引出了一个概念是,可以想减少关键点采样的区域,比如对每个候选框中心进行一定距离划分一个球状区域,来限制与缩小原始的采样区域,减少获得的背景点概率。
其中pi是原始点位置,cj是候选框中心位置,dj是候选框尺寸,rs是一个半径范围的超参数设置。通过对候选框划分采样的限制区域,可以大大的减少需要采样点的数量。比如在Waymo数据集中,采样点数量会从180k减低到90k以下。
因此,通过候选框中心区域来进行过滤限制采样范围,不仅降低了后续关键点采样的时间复杂度,而且集中在这些有限数量的关键点上可以更好地编码候选框ROI特征。
Sectorized Keypoint Sampling
在对点云场景进行区域限制后,下一步就是进行分区的操作。具体来说,对点云以场景中心为中心划分出s个扇区,这是通过bev视图对360°进行均匀的角度划分,公式如下:
这里的sk就表示了每个分区点集,从s/2π可以了解是全角度进行均匀分区。假设现在需要采样n个关键点,每个分区s需要采样的个数是按照过滤后的点集中占有比例来确定的,既:(sk/P’)*n。划分分区后,对每个分区进行距离最远点采样即可(距离最远点采样所获得的点是比较均匀的)。需要注意,在每个分区上进行D-FPS是可以在gpu上平行计算的,极大地加速了采样的效率。
从算法层面上来看,这里提出的采样方法将原始的采样规模P降低到了比其小得多的|sk’|中,不仅有效地加快了关键点采样的速度,而且将关键点集中到3D候选框的邻近区域,提高了关键点特征表示的能力。
2.2 VectorPool Aggregation
PV-RCNN中另外一个耗时耗资源的地方就是set abstraction(Keypoint-to-grid RoI Feature Abstraction部分),其利用了多层MLP结构分别处理邻域点集中的所有point-wise feature。此外,为了聚合邻域特征还使用了max pooling,paper提到set abstraction操作中的max pooling会丢失局部邻域的空间分布信息,损害局部聚合特征的表征能力。
为此,引出了另外一个模块。提出了一种基于VectorPool的大规模点云局部特征聚合模块,其能够更好地保持局部邻域点的空间分布,并且比常用的set abstraction操作占用更少的内存和计算资源。结构如下所示:
具体来说,对于候选框内的每一个目标点(target center points),需要利用周围的support points来聚合候选框的ROI信息。这里的具体操作是,对每一个目标点首先识别在其邻近区域内的立方体,具体公式如下:
其中(aj-qk)获取的是3d距离的最大轴对齐值(axis-aligned value)。随后和PV-RCNN类似,将这个邻域立方体切分成nxnynz大小的voxel组成。
现在需要对每个sub-voexl进行特征编码,简单的方法可以是去voxel内点特征的均值或者是随机采样一个点特征作为voxel-wise feature,但是这两种方法会在sub-voxel中产生大量的空特征降低算法性能。PV-RCNN++这里的编码方式是采取PointNet++中的反距离加权策略,从Yk中考虑k个(这里k=3)最邻近的点特征进行反距离加权来作为当前sub-voxel的voxel-wise feature。至此实现了对候选框中的每一个sub-voxel进行编码。
此外,不同局部位置的subvoxel可以表示不同的局部特征,因此这里还利用了单独的核权重对不同的局部位置的subvoxel进行编码操作。此时,对于每一个subvoxel的特征会加上其中心点与三个最邻近点的相对距离,两者进行concat再与核权重编码,公式如下所示。由于有三个临近点,所以(ai-vt)表征的相对位置特征信息维度为9。
随后,由于这里会考虑每个subvoxel的相对位置,所以会对每个候选框的subvoxel都进行排序操作,按照一定的位置关系进行排序拼接成一个hyper vector。
再利用多层MLP对这个hpyer vector进行编码操作,获得每个候选框的最终表征特征,来进行后续的Confidence Score以及Box Refinement预测。
3. 实验结果
感觉20/21年之后,3d检测主流的公开数据集使用的是nuScenes和Waymo,结果如下所示,可以注意到部分方法还利用到了多帧点云(太恐怖了,学不过来了…)。PV-RCNN++利用了多帧信息是要比单帧结果要好1-2%的。
其实在kitti上也做了性能测试,不过可能kitti性能已经接近饱和了,相对其其他的两个数据集也显得简单了一些。PV-RCNN++相比PV-RCNN并没有增加多少的点数。
此外,PV-RCNN++还同时测试了anchor-based策略(类似SECOND)与center-based策略(CenterPoint所提出),也证明了center-based策略更加有效,一般有1%以上的提升。正如CenterPoint中所说,得益于点的灵活性,避免了方向属性,减少了搜索空间。
还有其他的消融实验这里就不一一介绍,实验做得是非常充分。比如,paper中将分区采样与其他的一些采样方法进行了对比。
其他实验详细请查看论文。