19篇ICCV 2023自动驾驶精选论文解析 | 涵盖3D目标检测、语义分割、点云等方向

ICCV 2023榜单上月已出，今年共收录了2160篇论文，这次是精选了今年ICCV 2023 会议中自动驾驶相关的最新论文来和大家分享，涵盖了3D目标检测、BEV感知、目标检测、语义分割、点云等方向，共19篇。

论文原文以及开源代码文末领取！

1、Segment Anything

标题：分割一切

内容：作者介绍了“分割任何物体”（Segment Anything，SA）项目：这是一个新的图像分割任务、模型和数据集。通过在数据收集循环中使用我们的高效模型，作者构建了迄今为止最大的分割数据集，包含超过10亿个掩膜和1100万个受许可和尊重隐私的图像。该模型被设计和训练为可提示性，因此可以在新的图像分布和任务中进行零样本迁移。作者在许多任务上评估其能力，并发现其零样本性能令人印象深刻，通常与甚至优于先前的完全监督结果相竞争。

2、SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor 3D Object Detection

标题： 将多模态稀疏表示融合用于多传感器3D物体检测

内容：通过识别现有激光雷达-摄像头三维物体检测方法的四个重要组成部分（激光雷达和摄像头候选框、变换和融合输出），作者观察到所有现有方法要么寻找密集的候选框，要么生成密集的场景表示。然而，考虑到物体仅占整个场景的一小部分，寻找密集的候选框和生成密集的表示是噪声和低效的。本论文提出了SparseFusion，一种新颖的多传感器三维检测方法，专门使用稀疏的候选框和稀疏的表示。具体而言，SparseFusion利用激光雷达和摄像头模态中并行检测器的输出作为融合的稀疏候选框。作者通过解开对象表示将摄像头候选框转换为激光雷达坐标空间，然后可以通过轻量级自注意模块在统一的三维空间中融合多模态候选框。为了减轻模态之间的负面传递，作者提出了新颖的语义和几何跨模态传递模块，这些模块应用于模态特定检测器之前。SparseFusion在nuScenes基准上取得了最先进的性能，同时运行速度最快，甚至超越了使用更强骨干网络的方法。

3、Ada3D : Exploiting the Spatial Redundancy with Adaptive Inference for Efficient 3D Object Detection

标题：Ada3D：利用自适应推理来挖掘空间冗余，实现高效的3D物体检测

内容：基于体素的方法在自动驾驶中的3D物体检测取得了最先进的性能，然而其显著的计算和内存成本对于资源受限的车辆应用构成了挑战。其中一个原因是在激光雷达点云中存在大量冗余的背景点，导致3D体素和BEV（鸟瞰图）地图表示中存在空间冗余。为了解决这个问题，作者提出了一种自适应推理框架，称为Ada3D，专注于减少空间冗余以压缩模型的计算和内存成本。Ada3D通过轻量级重要性预测器和激光雷达点云的独特属性，自适应地过滤冗余输入。此外，通过引入保持BEV特征固有稀疏性的稀疏保留批归一化，作者保持了BEV特征的稀疏性。通过Ada3D，在不牺牲准确性的前提下，将3D体素减少了40%，将2D BEV特征图的密度从100%降低到20%。Ada3D将模型的计算和内存成本降低了5倍，并分别实现了3D和2D主干网络的1.52倍/1.45倍端到端GPU延迟和1.5倍/4.5倍GPU峰值内存优化。

4、PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

标题：PETRv2：基于多摄像头图像的三维感知统一框架

内容：在本文中，作者提出了PETRv2，这是一个针对多视角图像的三维感知统一框架。基于PETR [24]，PETRv2探索了时间建模的有效性，利用先前帧的时间信息提升三维物体检测性能。具体而言，作者在PETR的基础上扩展了三维位置嵌入（3D PE）以进行时间建模。3D PE实现了不同帧的物体位置的时间对齐。此外，作者还引入了特征引导的位置编码器，进一步提高了3D PE的数据适应性。为了支持多任务学习（例如BEV分割和三维车道检测），PETRv2通过引入在不同空间下初始化的任务特定查询，提供了一个简单而有效的解决方案。PETRv2在三维物体检测、BEV分割和三维车道检测方面实现了最先进的性能。此外，论文还对PETR框架进行了详细的鲁棒性分析。希望PETRv2能够成为三维感知领域的强大基准模型。

5、Cross Modal Transformer: Towards Fast and Robust 3D Object Detection

标题：跨模态Transformer：实现快速和稳健的三维物体检测

内容：在本文中，作者提出了一种名为Cross Modal Transformer（CMT）的稳健三维检测器，用于端到端的三维多模态检测。CMT在没有明确的视图转换的情况下，将图像和点云令牌作为输入，并直接输出精确的三维边界框。通过将3D点编码为多模态特征，实现了多模态令牌的空间对齐。CMT的核心设计相当简单，但性能令人印象深刻。在nuScenes测试集上，它以74.1%的NDS（单模型最先进水平）实现了优异性能，并保持了更快的推理速度。此外，即使缺少LiDAR数据，CMT也具有很强的鲁棒性。

6、DQS3D: Densely-matched Quantization-aware Semi-supervised 3D Detection

标题：DQS3D：密集匹配的量化感知半监督三维检测

内容：本文研究半监督三维物体检测问题，考虑到杂乱的三维室内场景的高标注成本，该问题具有重要意义。作者采用了自我教学的稳健和有原则的框架，这在最近的半监督学习中取得了显著进展。虽然这种范式在图像级或像素级预测方面是自然的，但将其应用于检测问题面临着提案匹配的挑战。以前的方法基于两阶段流程，在第一阶段启发式地选择提案，并在第一阶段生成的提案之间进行匹配，导致空间上稀疏的训练信号。相比之下，论文提出了第一个能以单阶段方式工作并允许空间密集训练信号的半监督三维检测算法。这种新设计的一个基本问题是由点到体素离散化引起的量化误差，这不可避免地导致体素域中两个变换视图之间的不对齐。为此，作者推导并实现了即时补偿这种不对齐的封闭规则。实验结果是显著的，例如，使用20%的注释将ScanNet mAP@0.5从35.2%提升到48.5%。

7、StreamPETR: Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection

标题：StreamPETR：探索面向物体的时间建模，用于高效的多视角三维物体检测

内容：本文提出了一种名为StreamPETR的长序列建模框架，用于多视角3D物体检测。在PETR系列的稀疏查询设计基础上，我们系统地开发了一种面向物体的时间机制。该模型以在线方式执行，通过逐帧传播对象查询来传递长期历史信息。此外，作者引入了一种运动感知的层归一化来建模物体的移动。与单帧基准相比，StreamPETR在几乎没有计算成本的情况下实现了显著的性能提升。在标准的nuScenes基准上，它是首个在线多视角方法，与基于激光雷达的方法实现了可比较的性能（67.6%的NDS和65.3%的AMOTA）。轻量级版本实现了45.0%的mAP和31.7帧/秒的速度，优于最先进方法（SOLOFusion）2.3%的mAP和1.8倍的速度。

8、SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving

标题：SurroundOcc：用于自动驾驶的多摄像头三维占据预测

内容：3D场景理解在基于视觉的自动驾驶中起着至关重要的作用。尽管大多数现有方法专注于3D物体检测，但难以描述任意形状和无限类别的真实世界对象。为了更全面地感知3D场景，在本文中，作者提出了一种名为SurroundOcc的方法，用于通过多摄像头图像预测三维占据情况。首先为每个图像提取多尺度特征，并采用空间2D-3D注意机制将它们提升到三维体积空间。然后，应用三维卷积逐渐上采样体积特征，并在多个层次上施加监督。为了获得密集的占据预测，作者设计了一个流程，以生成不需要大量标注的密集占据地面真值。具体而言，分别融合动态物体和静态场景的多帧激光雷达扫描。然后，采用Poisson重建填补空洞，并将网格体素化以获得密集的占据标签。

9、Scene as Occupancy

标题：将场景视为占据情况

内容：之前的文献主要关注单一的场景补全任务，但作者认为这种占据表示的潜力可能具有更广泛的影响。在本文中，作者提出了OccNet，这是一个多视角以视觉为中心的管道，带有级联和时间体素解码器，用于重建3D占据情况。在OccNet的核心是一种通用的占据嵌入，用于表示3D物理世界。这种描述符可以应用于广泛的驾驶任务，包括检测、分割和规划。为了验证这种新表示法和作者提出的算法的有效性。实证实验显示，在多个任务中都存在明显的性能提升，例如，运动规划的碰撞率可以减少15%-58%，证明了该方法的优越性。

10、MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation

标题：MetaBEV：解决BEV检测和地图分割的传感器故障问题

内容：在本文中，作者提出了一个名为MetaBEV的鲁棒框架，用于应对极端的真实世界环境，包括六种传感器损坏情况和两种极端的传感器丢失情况。在MetaBEV中，来自多个传感器的信号首先通过模态特定的编码器进行处理。随后，初始化一组称为元-BEV的密集BEV查询。然后，这些查询被BEV-Evolving解码器迭代地处理，该解码器有选择地汇聚来自LiDAR、摄像头或两种模态的深度特征。更新后的BEV表示进一步用于多个3D预测任务。此外，作者引入了一个新的M2oE结构，以减轻多任务联合学习中不同任务的性能下降。最后，在nuScenes数据集上对MetaBEV进行了评估，涵盖了3D物体检测和BEV地图分割任务。实验结果显示，MetaBEV在全模态和损坏模态上的性能都远远优于以前的方法。

11、TALL: Thumbnail Layout for Deepfake Video Detection

标题：TALL：用于深伪造视频检测的缩略图布局

内容：本文引入了一种简单而有效的策略，名为Thumbnail Layout（TALL），它将视频剪辑转化为预定义的布局，实现了空间和时间依赖性的保留。具体而言，连续的帧在每帧的固定位置被遮罩以改善泛化能力，然后被调整为子图像并重新排列成预定义的缩略图布局。TALL是与模型无关且极其简单的，只需修改几行代码。受到视觉变换器的成功启发，作者将TALL引入到Swin Transformer中，形成了一种高效且有效的方法TALL-Swin。在数据集内和跨数据集的广泛实验验证了TALL和SOTA TALL-Swin的有效性和优越性。

12、AlignDet: Aligning Pre-training and Fine-tuning in Object Detection

标题：AlignDet：在目标检测中对预训练和微调进行对齐

内容：在目标检测中，作者提出了AlignDet，一个统一的预训练框架，通过解决现有实践中预训练和微调过程之间的差异，显著提升了检测器的性能和泛化能力。

13、Cascade-DETR: Delving into High-Quality Universal Object Detection

标题：Cascade-DETR：深入探讨高质量的通用目标检测

内容：作者引入了Cascade-DETR，一种高质量的通用目标检测方法，通过引入级联注意层和重新评分策略，显著提高了在不同领域的检测性能。

14、Rethinking Range View Representation for LiDAR Segmentation

标题：重新思考激光雷达分割的距离视图表示方式

内容：本研究探索了重新构思激光雷达分割中的距离视图表示方法，提出了RangeFormer框架，有效解决了多个关键问题，并在多个激光雷达分割基准中实现了优越性能。

15、FreeCOS: Self-Supervised Learning from Fractals and Unlabeled Images for Curvilinear Object Segmentation

标题：FreeCOS：基于分形和无标签图像的自监督学习，用于曲线对象分割

内容：本研究提出了FreeCOS方法，利用分形和无标签图像进行自监督学习，实现了高质量的曲线对象分割，在多个公共数据集上表现优于现有方法。

16、MARS: Model-agnostic Biased Object Removal without Additional Supervision for Weakly-Supervised Semantic Segmentation

标题：MARS: 无需额外监督的模型不可知偏置对象移除，用于弱监督语义分割

内容：本研究提出了MARS框架，一种全自动/模型不可知的偏置对象移除方法，通过利用无监督技术的语义一致特征在伪标签中消除偏置对象，在弱监督语义分割任务中取得了显著的性能提升，无需额外监督。

17、DVIS: Decoupled Video Instance Segmentation Framework

标题：DVIS：解耦式视频实例分割框架

内容：视频实例分割中存在的挑战，包括复杂场景和长视频，促使作者提出了解耦式视频实例分割框架（DVIS），通过将任务分解为分割、跟踪和优化三个独立子任务，实现了新的最先进性能，并在OVIS和VIPSeg等数据集上超越当前方法。

18、Open-vocabulary Panoptic Segmentation with Embedding Modulation

标题：使用嵌入调制的开放词汇泛全景分割

内容：作者提出了OPSNet框架，通过Embedding Modulation模块实现分割模型与视觉-语言对齐的CLIP编码器之间的信息交流，在开放和闭合词汇设置下实现了优越的全景分割性能，减少了对额外数据的需求。

19、Robo3D: Towards Robust and Reliable 3D Perception against Corruptions

标题：Robo3D：面向抵御数据损坏的稳健可靠的三维感知

内容：Robo3D提出了首个综合性基准，旨在探索3D检测和分割模型在真实环境中的自然损坏下的鲁棒性，揭示了现有模型在面对多种损坏时的脆弱性，并提出了提升鲁棒性的训练框架和策略。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“ICCV自动驾驶”免费领取全部论文+代码合集

码字不易，欢迎大家点赞评论收藏！