19篇ICCV 2023自动驾驶精选论文解析 | 涵盖3D目标检测、语义分割、点云等方向

news2025/1/12 7:45:47

ICCV 2023榜单上月已出,今年共收录了2160篇论文,这次是精选了今年ICCV 2023 会议中自动驾驶相关的最新论文来和大家分享,涵盖了3D目标检测、BEV感知、目标检测、语义分割、点云等方向,共19篇。

论文原文以及开源代码文末领取!

1、Segment Anything

标题:分割一切

内容:作者介绍了“分割任何物体”(Segment Anything,SA)项目:这是一个新的图像分割任务、模型和数据集。通过在数据收集循环中使用我们的高效模型,作者构建了迄今为止最大的分割数据集,包含超过10亿个掩膜和1100万个受许可和尊重隐私的图像。该模型被设计和训练为可提示性,因此可以在新的图像分布和任务中进行零样本迁移。作者在许多任务上评估其能力,并发现其零样本性能令人印象深刻,通常与甚至优于先前的完全监督结果相竞争。

2、SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor 3D Object Detection

标题: 将多模态稀疏表示融合用于多传感器3D物体检测

内容:通过识别现有激光雷达-摄像头三维物体检测方法的四个重要组成部分(激光雷达和摄像头候选框、变换和融合输出),作者观察到所有现有方法要么寻找密集的候选框,要么生成密集的场景表示。然而,考虑到物体仅占整个场景的一小部分,寻找密集的候选框和生成密集的表示是噪声和低效的。本论文提出了SparseFusion,一种新颖的多传感器三维检测方法,专门使用稀疏的候选框和稀疏的表示。具体而言,SparseFusion利用激光雷达和摄像头模态中并行检测器的输出作为融合的稀疏候选框。作者通过解开对象表示将摄像头候选框转换为激光雷达坐标空间,然后可以通过轻量级自注意模块在统一的三维空间中融合多模态候选框。为了减轻模态之间的负面传递,作者提出了新颖的语义和几何跨模态传递模块,这些模块应用于模态特定检测器之前。SparseFusion在nuScenes基准上取得了最先进的性能,同时运行速度最快,甚至超越了使用更强骨干网络的方法。

3、Ada3D : Exploiting the Spatial Redundancy with Adaptive Inference for Efficient 3D Object Detection

标题:Ada3D:利用自适应推理来挖掘空间冗余,实现高效的3D物体检测

内容:基于体素的方法在自动驾驶中的3D物体检测取得了最先进的性能,然而其显著的计算和内存成本对于资源受限的车辆应用构成了挑战。其中一个原因是在激光雷达点云中存在大量冗余的背景点,导致3D体素和BEV(鸟瞰图)地图表示中存在空间冗余。为了解决这个问题,作者提出了一种自适应推理框架,称为Ada3D,专注于减少空间冗余以压缩模型的计算和内存成本。Ada3D通过轻量级重要性预测器和激光雷达点云的独特属性,自适应地过滤冗余输入。此外,通过引入保持BEV特征固有稀疏性的稀疏保留批归一化,作者保持了BEV特征的稀疏性。通过Ada3D,在不牺牲准确性的前提下,将3D体素减少了40%,将2D BEV特征图的密度从100%降低到20%。Ada3D将模型的计算和内存成本降低了5倍,并分别实现了3D和2D主干网络的1.52倍/1.45倍端到端GPU延迟和1.5倍/4.5倍GPU峰值内存优化。

4、PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

标题:PETRv2:基于多摄像头图像的三维感知统一框架

内容:在本文中,作者提出了PETRv2,这是一个针对多视角图像的三维感知统一框架。基于PETR [24],PETRv2探索了时间建模的有效性,利用先前帧的时间信息提升三维物体检测性能。具体而言,作者在PETR的基础上扩展了三维位置嵌入(3D PE)以进行时间建模。3D PE实现了不同帧的物体位置的时间对齐。此外,作者还引入了特征引导的位置编码器,进一步提高了3D PE的数据适应性。为了支持多任务学习(例如BEV分割和三维车道检测),PETRv2通过引入在不同空间下初始化的任务特定查询,提供了一个简单而有效的解决方案。PETRv2在三维物体检测、BEV分割和三维车道检测方面实现了最先进的性能。此外,论文还对PETR框架进行了详细的鲁棒性分析。希望PETRv2能够成为三维感知领域的强大基准模型。

5、Cross Modal Transformer: Towards Fast and Robust 3D Object Detection

标题:跨模态Transformer:实现快速和稳健的三维物体检测

内容:在本文中,作者提出了一种名为Cross Modal Transformer(CMT)的稳健三维检测器,用于端到端的三维多模态检测。CMT在没有明确的视图转换的情况下,将图像和点云令牌作为输入,并直接输出精确的三维边界框。通过将3D点编码为多模态特征,实现了多模态令牌的空间对齐。CMT的核心设计相当简单,但性能令人印象深刻。在nuScenes测试集上,它以74.1%的NDS(单模型最先进水平)实现了优异性能,并保持了更快的推理速度。此外,即使缺少LiDAR数据,CMT也具有很强的鲁棒性。

6、DQS3D: Densely-matched Quantization-aware Semi-supervised 3D Detection

标题:DQS3D:密集匹配的量化感知半监督三维检测

内容:本文研究半监督三维物体检测问题,考虑到杂乱的三维室内场景的高标注成本,该问题具有重要意义。作者采用了自我教学的稳健和有原则的框架,这在最近的半监督学习中取得了显著进展。虽然这种范式在图像级或像素级预测方面是自然的,但将其应用于检测问题面临着提案匹配的挑战。以前的方法基于两阶段流程,在第一阶段启发式地选择提案,并在第一阶段生成的提案之间进行匹配,导致空间上稀疏的训练信号。相比之下,论文提出了第一个能以单阶段方式工作并允许空间密集训练信号的半监督三维检测算法。这种新设计的一个基本问题是由点到体素离散化引起的量化误差,这不可避免地导致体素域中两个变换视图之间的不对齐。为此,作者推导并实现了即时补偿这种不对齐的封闭规则。实验结果是显著的,例如,使用20%的注释将ScanNet mAP@0.5从35.2%提升到48.5%。

7、StreamPETR: Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection

标题:StreamPETR:探索面向物体的时间建模,用于高效的多视角三维物体检测

内容:本文提出了一种名为StreamPETR的长序列建模框架,用于多视角3D物体检测。在PETR系列的稀疏查询设计基础上,我们系统地开发了一种面向物体的时间机制。该模型以在线方式执行,通过逐帧传播对象查询来传递长期历史信息。此外,作者引入了一种运动感知的层归一化来建模物体的移动。与单帧基准相比,StreamPETR在几乎没有计算成本的情况下实现了显著的性能提升。在标准的nuScenes基准上,它是首个在线多视角方法,与基于激光雷达的方法实现了可比较的性能(67.6%的NDS和65.3%的AMOTA)。轻量级版本实现了45.0%的mAP和31.7帧/秒的速度,优于最先进方法(SOLOFusion)2.3%的mAP和1.8倍的速度。

8、SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving

标题:SurroundOcc:用于自动驾驶的多摄像头三维占据预测

内容:3D场景理解在基于视觉的自动驾驶中起着至关重要的作用。尽管大多数现有方法专注于3D物体检测,但难以描述任意形状和无限类别的真实世界对象。为了更全面地感知3D场景,在本文中,作者提出了一种名为SurroundOcc的方法,用于通过多摄像头图像预测三维占据情况。首先为每个图像提取多尺度特征,并采用空间2D-3D注意机制将它们提升到三维体积空间。然后,应用三维卷积逐渐上采样体积特征,并在多个层次上施加监督。为了获得密集的占据预测,作者设计了一个流程,以生成不需要大量标注的密集占据地面真值。具体而言,分别融合动态物体和静态场景的多帧激光雷达扫描。然后,采用Poisson重建填补空洞,并将网格体素化以获得密集的占据标签。

9、Scene as Occupancy

标题:将场景视为占据情况

内容:之前的文献主要关注单一的场景补全任务,但作者认为这种占据表示的潜力可能具有更广泛的影响。在本文中,作者提出了OccNet,这是一个多视角以视觉为中心的管道,带有级联和时间体素解码器,用于重建3D占据情况。在OccNet的核心是一种通用的占据嵌入,用于表示3D物理世界。这种描述符可以应用于广泛的驾驶任务,包括检测、分割和规划。为了验证这种新表示法和作者提出的算法的有效性。实证实验显示,在多个任务中都存在明显的性能提升,例如,运动规划的碰撞率可以减少15%-58%,证明了该方法的优越性。

10、MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation

标题:MetaBEV:解决BEV检测和地图分割的传感器故障问题

内容:在本文中,作者提出了一个名为MetaBEV的鲁棒框架,用于应对极端的真实世界环境,包括六种传感器损坏情况和两种极端的传感器丢失情况。在MetaBEV中,来自多个传感器的信号首先通过模态特定的编码器进行处理。随后,初始化一组称为元-BEV的密集BEV查询。然后,这些查询被BEV-Evolving解码器迭代地处理,该解码器有选择地汇聚来自LiDAR、摄像头或两种模态的深度特征。更新后的BEV表示进一步用于多个3D预测任务。此外,作者引入了一个新的M2oE结构,以减轻多任务联合学习中不同任务的性能下降。最后,在nuScenes数据集上对MetaBEV进行了评估,涵盖了3D物体检测和BEV地图分割任务。实验结果显示,MetaBEV在全模态和损坏模态上的性能都远远优于以前的方法。

11、TALL: Thumbnail Layout for Deepfake Video Detection

标题:TALL:用于深伪造视频检测的缩略图布局

内容:本文引入了一种简单而有效的策略,名为Thumbnail Layout(TALL),它将视频剪辑转化为预定义的布局,实现了空间和时间依赖性的保留。具体而言,连续的帧在每帧的固定位置被遮罩以改善泛化能力,然后被调整为子图像并重新排列成预定义的缩略图布局。TALL是与模型无关且极其简单的,只需修改几行代码。受到视觉变换器的成功启发,作者将TALL引入到Swin Transformer中,形成了一种高效且有效的方法TALL-Swin。在数据集内和跨数据集的广泛实验验证了TALL和SOTA TALL-Swin的有效性和优越性。

12、AlignDet: Aligning Pre-training and Fine-tuning in Object Detection

标题:AlignDet:在目标检测中对预训练和微调进行对齐

内容:在目标检测中,作者提出了AlignDet,一个统一的预训练框架,通过解决现有实践中预训练和微调过程之间的差异,显著提升了检测器的性能和泛化能力。

13、Cascade-DETR: Delving into High-Quality Universal Object Detection

标题:Cascade-DETR:深入探讨高质量的通用目标检测

内容:作者引入了Cascade-DETR,一种高质量的通用目标检测方法,通过引入级联注意层和重新评分策略,显著提高了在不同领域的检测性能。

14、Rethinking Range View Representation for LiDAR Segmentation

标题:重新思考激光雷达分割的距离视图表示方式

内容:本研究探索了重新构思激光雷达分割中的距离视图表示方法,提出了RangeFormer框架,有效解决了多个关键问题,并在多个激光雷达分割基准中实现了优越性能。

15、FreeCOS: Self-Supervised Learning from Fractals and Unlabeled Images for Curvilinear Object Segmentation

标题:FreeCOS:基于分形和无标签图像的自监督学习,用于曲线对象分割

内容:本研究提出了FreeCOS方法,利用分形和无标签图像进行自监督学习,实现了高质量的曲线对象分割,在多个公共数据集上表现优于现有方法。

16、MARS: Model-agnostic Biased Object Removal without Additional Supervision for Weakly-Supervised Semantic Segmentation

标题:MARS: 无需额外监督的模型不可知偏置对象移除,用于弱监督语义分割

内容:本研究提出了MARS框架,一种全自动/模型不可知的偏置对象移除方法,通过利用无监督技术的语义一致特征在伪标签中消除偏置对象,在弱监督语义分割任务中取得了显著的性能提升,无需额外监督。

17、DVIS: Decoupled Video Instance Segmentation Framework

标题:DVIS:解耦式视频实例分割框架

内容:视频实例分割中存在的挑战,包括复杂场景和长视频,促使作者提出了解耦式视频实例分割框架(DVIS),通过将任务分解为分割、跟踪和优化三个独立子任务,实现了新的最先进性能,并在OVIS和VIPSeg等数据集上超越当前方法。

18、Open-vocabulary Panoptic Segmentation with Embedding Modulation

标题:使用嵌入调制的开放词汇泛全景分割

内容:作者提出了OPSNet框架,通过Embedding Modulation模块实现分割模型与视觉-语言对齐的CLIP编码器之间的信息交流,在开放和闭合词汇设置下实现了优越的全景分割性能,减少了对额外数据的需求。

19、Robo3D: Towards Robust and Reliable 3D Perception against Corruptions

标题:Robo3D:面向抵御数据损坏的稳健可靠的三维感知

内容:Robo3D提出了首个综合性基准,旨在探索3D检测和分割模型在真实环境中的自然损坏下的鲁棒性,揭示了现有模型在面对多种损坏时的脆弱性,并提出了提升鲁棒性的训练框架和策略。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“ICCV自动驾驶”免费领取全部论文+代码合集

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/922961.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Apipost:提升API开发效率的利器

在数字化时代,API已经成为企业和开发者实现业务互通的关键工具。然而,API的开发、调试、文档编写以及测试等工作繁琐且复杂。Apipost为这一问题提供了完美的解决方案。 Apipost是一款专为API开发人员设计的协同研发平台,旨在简化API的生命周…

多数元素00

题目链接 多数元素 题目描述 注意点 给定的数组总是存在多数元素多数元素是指在数组中出现次数 大于 ⌊ n/2 ⌋ 的元素 解答思路 初始想到使用map存每个元素和元素出现的次数,但是时间和空间都不理想因为本题给定的数组总是存在多数元素,使用投票算…

在CSS中,盒模型中的padding、border、margin是什么意思?

在CSS中,盒模型(Box Model)是用来描述和布局HTML元素的基本概念。它将每个HTML元素看作是一个矩形的盒子,这个盒子包括了内容(content)、内边距(padding)、边框(border&a…

第二节 分支和循环语句

第二节 分支和循环语句 目录 一. 什么是语句?二. 分支语句(选择结构)三. 循环语句 本章重点: 分支语句  if  switch 循环语句  while  for  do while goto语句 一. 什么是…

Spark on Yarn集群模式搭建及测试

🥇🥇【大数据学习记录篇】-持续更新中~🥇🥇 点击传送:大数据学习专栏 持续更新中,感谢各位前辈朋友们支持学习~ 文章目录 1.Spark on Yarn集群模式介绍2.搭建环境准备3.搭建步骤 1.Spark on Yarn集群模式介…

华为USG防火墙登录提示:登录失败,可能的原因时账户被锁定

问题: 密码是正确的,但是华为USG6305E 防火墙登录提示:登录失败,可能的原因时账户被锁定 解决办法: 清楚浏览器所有的缓存,重启浏览器后再登录,正常可以登录

创建导航卡 “系统管理_导航卡_Demo”

前言 apex和pl/sql要学的东西还有很多,一次性放在一个里面老是找不着,细分一下单独说,也方便复习。 创建导航卡“系统管理_导航卡_Demo” 1.创建列表 创建成功 点开还可以继续修改,设置图标 2 创建导航页面 Step 1创建空白页面…

Visual Studio中Linux开发头文件intellisense问题的解决办法

文章目录 前言个人环境 SSH到WSL复制文件后记 前言 最近在用我心爱的Visual Studio配合WSL2做一些Linux开发&#xff0c;但是有一个问题&#xff0c;就是当我#include <sys/socket.h>&#xff0c;会提示找不到文件 我尝试了各种姿势&#xff0c;包括修改CMakeSettings.…

Linux 多线程解决客户端与服务器端通信

一、一个服务器端只能和一个客户端进行通信&#xff08;单线程模式&#xff09; 客户端代码ser.c如下&#xff1a; #include<stdio.h> #include<stdlib.h> #include<string.h> #include<unistd.h> #include<sys/socket.h> #include<netinet…

美国商务签证拒签了怎么办?

当面临美国商务签证被拒签的情况时&#xff0c;许多申请人可能会感到失望和困惑。然而&#xff0c;拒签并不意味着绝望&#xff0c;您仍然有一些选项可以考虑。以下是知识人网小编的一些建议&#xff0c;希望能对您有所帮助&#xff1a; 1.查明拒签原因&#xff1a;首先&#x…

vue中使用echarts三维的项目

需要安装 echarts 同时引入 echarts-gl 我安装的版本&#xff1a; "echarts": "^5.3.2", "echarts-gl": "^2.0.9", 效果 &#xff1a; 安装后main.js引入 import Vue from "vue"; import * as echarts from "echart…

八月更新 | CI 构建计划触发机制升级、制品扫描 SBOM 分析功能上线!

点击链接了解详情 这个八月&#xff0c;腾讯云 CODING DevOps 对持续集成、制品管理、项目协同、平台权限等多个产品模块进行了升级改进&#xff0c;为用户提供更灵活便捷的使用体验。以下是 CODING 新功能速递&#xff0c;快来看看是否有您期待已久的功能特性&#xff1a; 01…

人工智能与机器学习Pytorch手写数字识别-MINIST数据集识别篇

上期文章,我们分享了Pytorch手写数字的训练,当pytorch训练完成后,保存了训练的参数,方便本期使用预训练参数,进行手写数字的识别,我们准备一个手写数字的图片,可以自己在画图软件中,直接写个数字 手写数字 1、导入第三方库 导入第三方库 2、建立神经网络 神经网络的…

如何保护自己知识产权,建立代码护城河——建立自己的静态库,x86和arm平台的实例讲解

前言 &#xff08;1&#xff09;想象一下&#xff0c;假如我们幸幸苦苦写了一个封装库代码&#xff0c;为了建立护城河&#xff0c;我们企业不愿意把真实的代码提供给用户。怕客户拿了代码&#xff0c;这个合同结束&#xff0c;稍微改一点点&#xff0c;就盗用我们的技术&#…

四信桥梁监测解决方案

方案背景 随着我国经济水平的快速发展,桥梁作为交通运输的重要组成节点&#xff0c;其设计结构、耐久性和使用年限以及维护管理等安全状况一直是公众关心的问题。由于对桥梁运营状态下产生结构问题不能及时发现&#xff0c;近年来桥梁事故屡见不鲜&#xff0c;传播迅速&#x…

MinIO【部署 01】MinIO安装及SpringBoot集成简单测试

MinIO安装及SpringBoot集成测试 1.下载安装1.1 Install the MinIO Server1.2 Launch the MinIO Server1.3 Connect Your Browser to the MinIO Server 2.SpringBoot集成2.1 依赖及配置2.2 代码2.3 测试结果 1.下载安装 下载 https://min.io/download#/linux&#xff1b; 安装文…

Map和Set—数据结构

文章目录 1.搜索1.1常见搜索方式1.2模型 2.map2.1介绍2.2 Map.Entry<K, V>2.3map的使用2.4遍历map2.5TreeMap和HashMap的区别 3.set3.1介绍3.2set的使用3.3遍历set3.4 TreeSet和HashSet的不同 4.搜索树4.1概念4.2实现4.3性能分析 5.哈希表5.1查找数据5.2冲突的概念5.3冲突…

一个新的品牌如何快速做好品牌宣传?媒介盒子有绝招

互联网快速发展的今天&#xff0c;大量信息进入人们的生活&#xff0c;只要有流量就将成为广告的渠道。今天这里提到的是新品牌&#xff0c;相比较而言又具有一定的特殊性。 新品牌可能是一个创业公司&#xff0c;刚刚研发出来的品牌&#xff0c;想要冲进这个信息化的市场&…

libjpeg实践1:源码编译和MJPG转BMP测试:

编译源码 下载源码 http://www.ijg.org/files/ wget http://www.ijg.org/files/jpegsrc.v9b.tar.gz解压&#xff1a; tar zxvf jpegsrc.v9b.tar.gz 开始配置和编译&#xff0c;因为是在ubuntu中测试。所以配置很简单 ./configure --prefix/home/lkmao/linux/3588-linux/…

SpringBoot 2.7 集成 Netty 4 解决粘包半包问题

文章目录 1 摘要2 核心代码2.1 Netty 服务端连接器2.2 Netty 客户端连接器2.3 Netty 服务端 Handler2.4 Netty 客户端 Handler 3 推荐参考资料4 Github 源码 1 摘要 Netty 的粘包和半包问题是由于 Netty 在接收消息时无法判断消息是否发送完毕&#xff0c;只能靠读取消息时是否…