最新多模态3D目标检测论文汇总(PDF+代码)

news2025/1/7 4:57:23

目前在自动驾驶领域,多模态3D目标检测是一个非常重要的研究热点。由于引入了其他传感器数据,多模态3D目标检测在性能上明显优于纯视觉的方案,可以同时预测周围物体的类别、位置和大小,因此对于自动驾驶领域的同学来说,多模态3D目标检测是必须要掌握的部分。

今天要和大家分享的论文正是多模态3D目标检测方向,研究自动驾驶的同学必看!目前共汇总了21篇最新论文,来看看大佬们都有哪些成果吧!

决策融合

1.CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection

标题:CLOCs:用于3D目标检测的Camera-LiDAR对象候选融合

内容:作者提出了一种新颖的 Camera-LiDAR 对象候选(CLOCs)融合网络,可以在保持较低复杂度的情况下,显著提高单模态检测器的性能。CLOCs 在任意2D和3D检测器的非极大值抑制(NMS)之前,对其输出的候选目标进行融合,利用两者的几何和语义一致性进行训练,从而产生更准确的最终3D和2D检测结果。在具有挑战性的KITTI目标检测基准测试中,CLOCs 在3D和鸟瞰图指标上都取得了显著提高,尤其在长距离情况下优于当前最先进的基于融合的方法。

​2.Frustum Pointnets for 3D Object Detection from RGB-D Data

作者的方法不仅仅依赖于3D建议,还利用成熟的2D目标检测器和先进的3D深度学习进行目标定位,实现了效率和针对小目标的高召回率。

点/体素融合

1.PointPainting: Sequential Fusion for 3D Object Detection

标题:PointPainting: 3D目标检测的顺序融合

内容:作者提出了PointPainting,一种顺序融合方法来填补这一差距。PointPainting 的工作原理是将激光雷达点投影到仅图像语义分割网络的输出中,并将类别评分追加到每个点上。然后可以将追加(绘制)后的点云馈送到任何仅激光雷达的方法。实验结果显示,在KITTI和nuScenes数据集上,三种不同的最新方法Point-RCNN、VoxelNet和PointPillars都有了很大的改进。在KITTI基准测试的鸟瞰图检测任务中,绘制后的PointRCNN代表了一种新的最先进状态。

​2.PointAugmenting: Cross-Modal Augmentation for 3D Object Detection

作者提出了一种新颖的跨模态3D目标检测算法,名为PointAugmenting,受益于一种新的跨模态数据增强算法,该算法在网络训练期间一致地将虚拟对象粘贴到图像和点云中。在大规模的nuScenes和Waymo数据集上的大量实验证明了PointAugmenting的有效性和效率。

3.Multimodal Virtual Point 3D Detection

作者提出了一种无缝融合RGB传感器到基于激光雷达的3D识别的方法,采用一组2D检测来生成密集的3D虚拟点,以增强否则稀疏的3D点云。该方法以显著的6.6 mAP提高了强大的CenterPoint基准,并优于竞争的融合方法。

4.Multi-task Multi-Sensor Fusion for 3D Object Detection

在本文中,作者提出利用多个相关任务来进行精确的多传感器3D目标检测,还提出了一个端到端的可学习架构,可以进行2D和3D目标检测以及地面估计和深度补全推理。实验结果表明,所有这些任务都是互补的,通过在各个层面融合信息,帮助网络学习到更好的表示。

5.MVX-Net: Multimodal VoxelNet for 3D Object Detection

论文提出了PointFusion和VoxelFusion:两种简单而有效的早期融合方法,通过利用最近引入的VoxelNet架构来组合RGB和点云模态。在KITTI数据集上的评估表明,与仅使用点云数据的方法相比,性能有显著改进。

6.PI-RCNN: An Efficient Multi-Sensor 3D Object Detector with Point-based Attentive Cont-Conv Fusion Module

论文提出了一种新颖的融合方法,称为基于点的注意力Cont-conv融合(PACF)模块,它直接在3D点上融合多传感器特征。除了连续卷积之外,作者还额外添加了一个点池化和一个注意力聚合,以使融合特征更加表达。此外,基于PACF模块,作者提出了一个处理图像分割和3D目标检测任务的3D多传感器多任务网络,称为点云图像RCNN(PI-RCNN简称)。

7.EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection

作者提出了一种新颖的融合模块,以点式方式增强点特征与语义图像特征,而不需要任何图像注释。此外,采用一致性约束损失来明确鼓励定位和分类置信度的一致性,设计了一个端到端可学习的框架EPNet来集成这两个组件。在KITTI和SUN-RGBD数据集上的大量实验证明了EPNet优于当前最先进方法的优势。

特征融合

1.Multi-View 3D Object Detection Network for Autonomous Driving

标题:多视角3D目标检测网络用于自动驾驶

内容:论文提出了MV3D多视角3D网络,将激光雷达点云和RGB图像作为输入,预测oriented 3D bounding boxes,对稀疏3D点云进行了紧凑的多视角表示编码。网络由两个子网络组成:一个用于3D对象提议生成,另一个用于多视角特征融合。提案网络高效地从鸟瞰图上生成3D候选框。

作者设计了深度融合方案。结合来自多个视角的区域特征,启用不同路径之间的中间层交互。在KITTI数据集上,该方法的3D定位和检测性能优于目前state-of-the-art 25%和30%,2D检测方面也超过10.3%的AP。

​2.Joint 3D Proposal Generation and Object Detection from View Aggregation

本文提出了AVOD,这是一个用于自动驾驶场景的聚合视角目标检测网络。该神经网络架构使用激光雷达点云和RGB图像生成两个子网络共享的特征:区域提议网络(RPN)和第二阶段检测器网络。提出的RPN使用了一种新颖的架构,能在高分辨率特征图上执行多模态特征融合,为多类别道路场景生成可靠的3D对象提议。

3.Cross-Modality 3D Object Detection

该文提出了一个两阶段的多模态融合网络,同时使用双目图像和原始点云作为输入。整个架构实现两阶段的特征融合。此外,该方法还使用伪LiDAR点作为数据增强方法来稠化LiDAR点,因为缺失的目标大多点数太少,尤其是远处目标。实验表明,该多阶段融合机制帮助网络学习到了更好的表示。

4.Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion

本文提出了一种新颖的多模态框架SFD,利用深度补全生成的伪点云来解决仅LiDAR 3D检测中点云稀疏性的问题。不同于以往工作,本文提出了一种新的RoI融合策略3D-GAF,以更充分地利用不同类型点云的信息。此外,本文提出了SynAugment,使多模态框架能够利用所有针对仅LiDAR方法定制的数据增强方法。最后,本文定制了一个有效高效的伪点云特征提取器CPConv,可以同时探索2D图像特征和3D几何特征。

5.EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object Detection

本文提出了EPNet++,通过引入新的串联双向融合(CB-Fusion)模块和多模态一致性(MC)损失,实现多模态3D目标检测。在KITTI、JRDB和SUN-RGBD数据集上的实验表明,EPNet++优于当前最先进的方法。此外,文章强调了一个关键但易被忽略的问题,即探索检测器在更稀疏场景下的性能和鲁棒性。

6.AutoAlign: Pixel-Instance Feature Aggregation for Multi-Modal 3D Object Detection

本文提出了AutoAlign,一个用于3D目标检测的自动特征融合策略。该方法没有依赖确定性的摄像机投影矩阵,而是采用了可学习的对齐映射来建模图像和点云之间的映射关系,以动态的数据驱动方式实现非同构特征的自动对齐。

7.AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection

作者提出了Cross-Domain DeformCAFA模块,用于解决AutoAlign中全局注意力引入的高计算量问题,该模块仅关注可学习的稀疏采样点来进行跨模态关系建模,增强了对校准误差的容忍性,大大加速了不同模态之间的特征聚合。为解决多模态下复杂的GT-AUG,作者还设计了一种简单有效的跨模态数据增强策略,在图像patch的深度信息条件下进行凸组合。另外,还提出了图像级dropout训练方案,使模型能够动态推理。

8.DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection

本文提出了InverseAug逆向增强和LearnableAlign可学习对齐两种新技术,使得激光点和图像像素之间实现准确的几何对齐,以及图像和激光特征之间的动态相关性建模。在此基础上开发了通用的多模态3D检测模型系列DeepFusion,优于之前的方法。

9.TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers

本文提出了TransFusion,一种具有软关联机制的激光雷达-摄像头融合的鲁棒解决方案,以处理inferior image conditions。此外,作者还设计了基于图像的查询初始化策略,以处理在点云中难以检测的对象。该方法在大规模数据集上达到最优性能,并通过大量实验证明其对劣质图像和误校准的鲁棒性。

10.DeepInteraction: 3D Object Detection via Modality Interaction

本文提出了一种新颖的模态交互策略,其中学习和维护各个单模态表示,以发掘其独特特征用于目标检测。为实现该策略,作者设计了具有多模态表征交互编码器和多模态预测交互解码器的DeepInteraction架构。在大规模nuScenes数据集上的实验表明,与所有之前方法相比,提出的方法取得了明显的性能提升。

11.Cross Modal Transformer: Towards Fast and Robust 3D Object Detection

本文提出了一种称为Cross Modal Transformer(CMT)的鲁棒3D检测器,用于端到端的3D多模态检测。CMT无需显式的视角变换,直接以图像和点云作为输入,输出准确的3D边界框。多模态tokens的空间对齐是通过将3D点编码成多模态特征来实现的。CMT的核心设计非常简单,但性能出色,它在nuScenes测试集上达到74.1% NDS(单模型最优),同时保持更快的推理速度。

12.SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor 3D Object Detection

作者提出了 SparseFusion,一种新颖的多传感器 3D 检测方法,它仅使用稀疏候选框和稀疾表示。作者通过解耦对象表示来将摄像头候选框变换到激光雷达坐标空间。然后,可以在统一的 3D 空间中通过轻量级的自注意力模块融合多模态候选框。为缓解模态之间的负迁移,作者提出了新颖的语义和几何跨模态迁移模块,在特定模态检测器之前应用。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“3D检测”免费领取论文原文+代码合集

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/816303.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【gitlib】linux系统rpm安装gitlib最新版本

目录 下载gitlib安装包 安装需要的依赖 设置开机启动 安装邮件服务器并设置开机启动 rpm执行安装gitlib 修改gitlib.rb文件的属性 修改完毕后执行更新配置 查看gitlib运行 查看gitlib初始化root密码 gitlib入口访问地址 下载gitlib安装包 Index of /gitlab-ce/yum/el7/…

龙蜥社区用户案例征集开始啦,欢迎投稿!

征集倡议 龙蜥社区在 2022 年首次发布了《2022 龙蜥操作系统生态用户实践精选》,为龙蜥广大用户提供了成熟实践样板。随着社区的迅速发展,龙蜥生态和用户的规模迅速壮大,为了更好的服务于广大龙蜥用户,现面向各行业征集龙蜥用户案…

Mybatis源码解析(三)------SqlSession

Mybatis源码解析(三)------SqlSession 序言SqlSession接口SqlSession的实现类DefaultSqlSessionSelect获取Statement查询 序言 Mybatis里面的核心就是SqlSession这个接口,前面我们已经研究了Mybatis的配置过程和Mapper的注册过程&#xff0c…

jsp实现打印功能

1.先实现列表页查询 2.做一个打印按钮 function plprint(){var rows $(#whYcfTzList).datagrid(getData);var ORGCODE$(input[nameORGCODE]).val();var ISCONTAIN$(input[nameISCONTAIN]).val();var RECCODE$(input[nameRECCODE]).val();var CUSTOMERNAME$(input[nameCUSTOM…

安卓抓包神器黄鸟HttpCanary安装配置及使用教程

1、下载安装包 黄鸟抓包下载地址 2、安装下载的apk 3、证书安装问题 vivo手机我安装时打开黄鸟app,会直接弹出,直接安装即可 其他手机,需要去系统设置中安装 3.1 搜索 证书,选择CA证书 3.2 进行本人操作验证 3.3 安装HttpCa…

【LeetCode】下降路径最小和

下降路径最小和 题目描述算法分析编程代码 链接: 下降路径最小和 题目描述 算法分析 编程代码 class Solution { public:int minFallingPathSum(vector<vector<int>>& matrix) {int n matrix.size();vector<vector<int>> dp(n1,vector(n2,INT_M…

【密码学】五、序列密码

序列密码 1、概述1.1序列密码的分类1.1.1同步序列密码1.1.2自同步序列密码 2、序列密码的组成2.1密钥序列生成器KG2.2有限状态自动机 3、LFSR 1、概述 采用一个短的种子密钥来控制某种算法获得长的密钥序列的办法&#xff0c;用以提供加解密&#xff0c;这个种子密钥的长度较短…

java实现文件下载

1.文件上传 文件上传&#xff0c;也称为upload&#xff0c;是指将本地图片、视频、音频等文件上传到服务器上&#xff0c;可以供其他用户浏览或下载的过程。文件上传在项目中应用非常广泛&#xff0c;我们经常发微博、发微信朋友圈都用到了文件上传功能。 import com.itheima.…

Leetcode-每日一题【剑指 Offer II 006. 排序数组中两个数字之和】

题目 给定一个已按照 升序排列 的整数数组 numbers &#xff0c;请你从数组中找出两个数满足相加之和等于目标数 target 。 函数应该以长度为 2 的整数数组的形式返回这两个数的下标值。numbers 的下标 从 0 开始计数 &#xff0c;所以答案数组应当满足 0 < answer[0] &l…

简述token和如何使用token

一、什么是token&#xff08;理论&#xff09; 解决http短连接,无状态管理的问题。 Jeb web token(JWT),是为了在网络应用环境间传递声明而执行的一种基于JSON的开发标准&#xff0c;JWT的声明一般被用来在身份提供者和服务提供者间传递被认证的用户身份信息&#xff0c;以便于…

ChatGPT在法律行业的市场潜力

​ChatGPT现在已经成为我们的文字生成辅助工具、搜索引擎助手&#xff0c;许多体验过它的朋友会发现对它越来越依赖&#xff0c;并将其逐渐融入到自己的日常工作、生活。但有一点值得注意&#xff1a;这种人工智能除了技术可行、经济价值可行还要与相关规范即人类普遍的价值观念…

JVM复习(史上最全!!!)

一、JDK、JRE、JVM的区别 JDK: 全称Java Development Kit&#xff0c;是 Java 语言的软件开发工具包&#xff0c;主要用于移动设备、嵌入式设备上的Java应用程序。JDK是整个Java开发的核心。 JRE: JRE&#xff0c;全称Java Runtime Environment&#xff0c;是指Java的运行环境&…

vue3如何封装框架

在Vue 3中&#xff0c;你可以通过创建一个基础的框架来封装一些常用的功能、组件和样式&#xff0c;以便在不同的项目中重复使用。下面是一个简单的步骤来封装一个Vue 3框架&#xff1a; 创建一个新的Vue项目&#xff1a;首先&#xff0c;使用Vue CLI创建一个新的Vue项目。 v…

eam资产管理系统,eam资产管理系统功能介绍

基于固定资产管理系统PDA并结合RFID技术固定资产管理信息系统将固定资产管理、低价值消耗品管理和设备维护融为一体。根据先进的射频识别技术&#xff0c;从资产购买公司到资产退出的整个生命周期&#xff0c;每一个固定资产唯一的条形码资产标签都被赋予了后续管理&#xff0c…

【多模态】23、RO-ViT | 基于 Transformer 的开发词汇目标检测(CVPR2023)

文章目录 一、背景二、方法2.1 基础内容2.2 Region-aware Image-text Pretraining2.3 Open-vocabulary Detector Finetuning 三、效果3.1 细节3.2 开放词汇目标检测效果3.3 Image-text retrieval3.4 Transfer object detection3.5 消融实验 论文&#xff1a;Region-Aware Pretr…

大数据课程D4——hadoop的YARN

文章作者邮箱&#xff1a;yugongshiyesina.cn 地址&#xff1a;广东惠州 ▲ 本章节目的 ⚪ 了解YARN的概念和结构&#xff1b; ⚪ 掌握YARN的资源调度流程&#xff1b; ⚪ 了解Hadoop支持的资源调度器&#xff1a;FIFO、Capacity、Fair&#xff1b; ⚪ 掌握YA…

4090Ti被取消,NVIDIA还要推出新“甜品卡“

不知不觉距离 NVIDIA RTX 40 系显卡发布已快一年&#xff0c;4090 到 4060 从旗舰到甜品也都差不多了。 不过每个男孩子都想要的礼物 - RTX 4090 Ti &#xff0c;至今仅在春晚发布。 从核心架构上来看&#xff0c;RTX 4090 上的 AD 102-300 也确实不是完全体。 仅拥有144组 S…

模拟一个一维排斥场

( A, B )---3*30*2---( 1, 0 )( 0, 1 ) 让网络的输入只有3个节点&#xff0c;AB训练集各由5张二值化的图片组成&#xff0c;让A有6个1&#xff0c;B有4个1&#xff0c;比较迭代次数的顺序。 其中有12组数据 差值结构 迭代次数 全0行 位置 构造平均列 平均列 列排斥能 …

手机照片转换成pdf怎么做?了解这几种方法就可以了

手机照片转换成pdf怎么做&#xff1f;转换照片为PDF的需求在日常生活中很常见。无论是收集有关旅行、家庭或工作的照片&#xff0c;将它们组织成一个PDF文件可以更方便地分享给朋友或同事。那么下面就给大家分享几个手机照片转换成pdf的方法。 虽然有多种软件和工具可以将照片转…

八大排序算法--直接插入排序(动图理解)

目录 直接插入排序 概念 算法思路 动画演示 代码如下 复杂度分析 时间复杂度测试 运行结果 完整代码 创作不易&#xff0c;如果本篇博客对您有一定的帮助&#xff0c;大家记得留言点赞哦。 直接插入排序 概念 直接插入排序是插入排序的一种。把待排序的数字按大小逐个插…