Boosting 3D Object Detection by Simulating Multimodality on Point Clouds
- Response Distillation
- Sparse-Voxel Distillation
- Voxel-to-Point Distillation
- Instance Distillation
- loss
- Experiments
稠密(多模态、多帧)信息->稀疏(单模态点云,单帧)信息的知识蒸馏:
模型在稠密信息中的精度高作teacher提升稀疏信息下的精度,具体包括4重蒸馏:
Response Distillation
利用多模态Response中的知识,根据设计的关键响应挖掘来纠正单模态响应,以便将蒸馏集中在对精度计算至关重要的响应上。
通过heatmap设定相应策略求得TP,FP,FN:
hs表示SSD的heatmap,hg表示groundtruth的heatmap
随后根据正确的预测(TP)与错误的预测(FP,FN)进行加权的分类响应蒸馏(错误分类的权重更大):
以及在TP,FN上为每个框设权值做加权定位回归响应蒸馏:
(由于图像特征提供了清晰的对象边界,多模态 SSD 在某些属性(例如大小)中可以更准确地预测边界框)
Sparse-Voxel Distillation
将挖掘策略从Response扩展到体素,对体素特征和关系制定一致性约束,从多模态SSD到单模态SSD中提取关键体素中的语义和关系知识。
通过探索最后一个稀疏卷积层中的体素特征来进一步增强单模态 SSD。该层具有丰富的语义并保留原始的 3D 空间信息。与响应蒸馏相比,稀疏体素蒸馏可以更好地提高单模态和多模态 SSD 中高维特征之间的一致性。
背景特征主导了蒸馏,阻碍了前景知识转移,而且计算大量体素非常耗时且耗时。
利用相应建立非空体素。进行体素的特征蒸馏与关系(体素之间的余弦相似性)蒸馏:
Voxel-to-Point Distillation
通过将粗粒度体素特征转换为细粒度点特征,以点的方式提取细粒度特征来模拟稀疏点或小尺寸对象的细粒度特征。
通过相邻体素特征插值为前景点计算出点级特征:
fv为点p的相邻体素,pv为体素中心坐标。
与体素蒸馏相似,进行特征与关系蒸馏:
Instance Distillation
通过学习NMS过滤的边界框中的深层BEV特征来纠正单模态预测。
在BEV特征层面,首先使用NMS去除冗余框,使用rotated RoI-grid pooling得到5x5的RoI特征并进行蒸馏。
loss
Experiments
在nuScenes测试集上仅SOTA LiDAR检测器:
30%训练数据在nuScenes验证集上消融实验: