最新多模态3D目标检测论文汇总（PDF+代码）

目前在自动驾驶领域，多模态3D目标检测是一个非常重要的研究热点。由于引入了其他传感器数据，多模态3D目标检测在性能上明显优于纯视觉的方案，可以同时预测周围物体的类别、位置和大小，因此对于自动驾驶领域的同学来说，多模态3D目标检测是必须要掌握的部分。

今天要和大家分享的论文正是多模态3D目标检测方向，研究自动驾驶的同学必看！目前共汇总了21篇最新论文，来看看大佬们都有哪些成果吧！

决策融合

1.CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection

标题：CLOCs：用于3D目标检测的Camera-LiDAR对象候选融合

内容：作者提出了一种新颖的 Camera-LiDAR 对象候选(CLOCs)融合网络，可以在保持较低复杂度的情况下，显著提高单模态检测器的性能。CLOCs 在任意2D和3D检测器的非极大值抑制(NMS)之前，对其输出的候选目标进行融合，利用两者的几何和语义一致性进行训练，从而产生更准确的最终3D和2D检测结果。在具有挑战性的KITTI目标检测基准测试中，CLOCs 在3D和鸟瞰图指标上都取得了显著提高，尤其在长距离情况下优于当前最先进的基于融合的方法。

2.Frustum Pointnets for 3D Object Detection from RGB-D Data

作者的方法不仅仅依赖于3D建议，还利用成熟的2D目标检测器和先进的3D深度学习进行目标定位，实现了效率和针对小目标的高召回率。

点/体素融合

1.PointPainting: Sequential Fusion for 3D Object Detection

标题：PointPainting： 3D目标检测的顺序融合

内容：作者提出了PointPainting，一种顺序融合方法来填补这一差距。PointPainting 的工作原理是将激光雷达点投影到仅图像语义分割网络的输出中，并将类别评分追加到每个点上。然后可以将追加(绘制)后的点云馈送到任何仅激光雷达的方法。实验结果显示，在KITTI和nuScenes数据集上，三种不同的最新方法Point-RCNN、VoxelNet和PointPillars都有了很大的改进。在KITTI基准测试的鸟瞰图检测任务中，绘制后的PointRCNN代表了一种新的最先进状态。

2.PointAugmenting: Cross-Modal Augmentation for 3D Object Detection

作者提出了一种新颖的跨模态3D目标检测算法，名为PointAugmenting，受益于一种新的跨模态数据增强算法，该算法在网络训练期间一致地将虚拟对象粘贴到图像和点云中。在大规模的nuScenes和Waymo数据集上的大量实验证明了PointAugmenting的有效性和效率。

3.Multimodal Virtual Point 3D Detection

作者提出了一种无缝融合RGB传感器到基于激光雷达的3D识别的方法，采用一组2D检测来生成密集的3D虚拟点，以增强否则稀疏的3D点云。该方法以显著的6.6 mAP提高了强大的CenterPoint基准，并优于竞争的融合方法。

4.Multi-task Multi-Sensor Fusion for 3D Object Detection

在本文中，作者提出利用多个相关任务来进行精确的多传感器3D目标检测，还提出了一个端到端的可学习架构，可以进行2D和3D目标检测以及地面估计和深度补全推理。实验结果表明，所有这些任务都是互补的，通过在各个层面融合信息，帮助网络学习到更好的表示。

5.MVX-Net: Multimodal VoxelNet for 3D Object Detection

论文提出了PointFusion和VoxelFusion：两种简单而有效的早期融合方法，通过利用最近引入的VoxelNet架构来组合RGB和点云模态。在KITTI数据集上的评估表明，与仅使用点云数据的方法相比，性能有显著改进。

6.PI-RCNN: An Efficient Multi-Sensor 3D Object Detector with Point-based Attentive Cont-Conv Fusion Module

论文提出了一种新颖的融合方法，称为基于点的注意力Cont-conv融合(PACF)模块，它直接在3D点上融合多传感器特征。除了连续卷积之外，作者还额外添加了一个点池化和一个注意力聚合，以使融合特征更加表达。此外，基于PACF模块，作者提出了一个处理图像分割和3D目标检测任务的3D多传感器多任务网络，称为点云图像RCNN(PI-RCNN简称)。

7.EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection

作者提出了一种新颖的融合模块，以点式方式增强点特征与语义图像特征，而不需要任何图像注释。此外，采用一致性约束损失来明确鼓励定位和分类置信度的一致性，设计了一个端到端可学习的框架EPNet来集成这两个组件。在KITTI和SUN-RGBD数据集上的大量实验证明了EPNet优于当前最先进方法的优势。

特征融合

1.Multi-View 3D Object Detection Network for Autonomous Driving

标题：多视角3D目标检测网络用于自动驾驶

内容：论文提出了MV3D多视角3D网络，将激光雷达点云和RGB图像作为输入，预测oriented 3D bounding boxes，对稀疏3D点云进行了紧凑的多视角表示编码。网络由两个子网络组成：一个用于3D对象提议生成，另一个用于多视角特征融合。提案网络高效地从鸟瞰图上生成3D候选框。

作者设计了深度融合方案。结合来自多个视角的区域特征,启用不同路径之间的中间层交互。在KITTI数据集上，该方法的3D定位和检测性能优于目前state-of-the-art 25%和30%，2D检测方面也超过10.3%的AP。

2.Joint 3D Proposal Generation and Object Detection from View Aggregation

本文提出了AVOD，这是一个用于自动驾驶场景的聚合视角目标检测网络。该神经网络架构使用激光雷达点云和RGB图像生成两个子网络共享的特征：区域提议网络(RPN)和第二阶段检测器网络。提出的RPN使用了一种新颖的架构，能在高分辨率特征图上执行多模态特征融合，为多类别道路场景生成可靠的3D对象提议。

3.Cross-Modality 3D Object Detection

该文提出了一个两阶段的多模态融合网络，同时使用双目图像和原始点云作为输入。整个架构实现两阶段的特征融合。此外，该方法还使用伪LiDAR点作为数据增强方法来稠化LiDAR点，因为缺失的目标大多点数太少，尤其是远处目标。实验表明，该多阶段融合机制帮助网络学习到了更好的表示。

4.Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion

本文提出了一种新颖的多模态框架SFD，利用深度补全生成的伪点云来解决仅LiDAR 3D检测中点云稀疏性的问题。不同于以往工作，本文提出了一种新的RoI融合策略3D-GAF，以更充分地利用不同类型点云的信息。此外，本文提出了SynAugment，使多模态框架能够利用所有针对仅LiDAR方法定制的数据增强方法。最后，本文定制了一个有效高效的伪点云特征提取器CPConv，可以同时探索2D图像特征和3D几何特征。

5.EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object Detection

本文提出了EPNet++，通过引入新的串联双向融合(CB-Fusion)模块和多模态一致性(MC)损失，实现多模态3D目标检测。在KITTI、JRDB和SUN-RGBD数据集上的实验表明，EPNet++优于当前最先进的方法。此外，文章强调了一个关键但易被忽略的问题，即探索检测器在更稀疏场景下的性能和鲁棒性。

6.AutoAlign: Pixel-Instance Feature Aggregation for Multi-Modal 3D Object Detection

本文提出了AutoAlign，一个用于3D目标检测的自动特征融合策略。该方法没有依赖确定性的摄像机投影矩阵，而是采用了可学习的对齐映射来建模图像和点云之间的映射关系，以动态的数据驱动方式实现非同构特征的自动对齐。

7.AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection

作者提出了Cross-Domain DeformCAFA模块，用于解决AutoAlign中全局注意力引入的高计算量问题，该模块仅关注可学习的稀疏采样点来进行跨模态关系建模，增强了对校准误差的容忍性，大大加速了不同模态之间的特征聚合。为解决多模态下复杂的GT-AUG，作者还设计了一种简单有效的跨模态数据增强策略，在图像patch的深度信息条件下进行凸组合。另外，还提出了图像级dropout训练方案，使模型能够动态推理。

8.DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection

本文提出了InverseAug逆向增强和LearnableAlign可学习对齐两种新技术，使得激光点和图像像素之间实现准确的几何对齐，以及图像和激光特征之间的动态相关性建模。在此基础上开发了通用的多模态3D检测模型系列DeepFusion，优于之前的方法。

9.TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers

本文提出了TransFusion，一种具有软关联机制的激光雷达-摄像头融合的鲁棒解决方案，以处理inferior image conditions。此外，作者还设计了基于图像的查询初始化策略，以处理在点云中难以检测的对象。该方法在大规模数据集上达到最优性能，并通过大量实验证明其对劣质图像和误校准的鲁棒性。

10.DeepInteraction: 3D Object Detection via Modality Interaction

本文提出了一种新颖的模态交互策略，其中学习和维护各个单模态表示，以发掘其独特特征用于目标检测。为实现该策略，作者设计了具有多模态表征交互编码器和多模态预测交互解码器的DeepInteraction架构。在大规模nuScenes数据集上的实验表明，与所有之前方法相比，提出的方法取得了明显的性能提升。

11.Cross Modal Transformer: Towards Fast and Robust 3D Object Detection

本文提出了一种称为Cross Modal Transformer(CMT)的鲁棒3D检测器，用于端到端的3D多模态检测。CMT无需显式的视角变换，直接以图像和点云作为输入，输出准确的3D边界框。多模态tokens的空间对齐是通过将3D点编码成多模态特征来实现的。CMT的核心设计非常简单，但性能出色，它在nuScenes测试集上达到74.1% NDS(单模型最优)，同时保持更快的推理速度。

12.SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor 3D Object Detection

作者提出了 SparseFusion，一种新颖的多传感器 3D 检测方法，它仅使用稀疏候选框和稀疾表示。作者通过解耦对象表示来将摄像头候选框变换到激光雷达坐标空间。然后，可以在统一的 3D 空间中通过轻量级的自注意力模块融合多模态候选框。为缓解模态之间的负迁移，作者提出了新颖的语义和几何跨模态迁移模块，在特定模态检测器之前应用。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“3D检测”免费领取论文原文+代码合集

码字不易，欢迎大家点赞评论收藏！