北京大学长安汽车发布毫米波与相机融合模型RCBEVDet:最快能达到每秒28帧

news2025/1/11 22:38:27

Abstract

三维目标检测是自动驾驶中的关键任务之一。为了在实际应用中降低成本,提出了利用低成本的多视角相机进行3D目标检测,以取代昂贵的LiDAR传感器。然而,仅依靠相机很难实现高精度和鲁棒性的3D目标检测。解决这一问题的有效方法是将多视角相机与经济的毫米波雷达传感器相结合,以实现更可靠的多模态3D目标检测。在本文中,我们介绍了RCBEVDet,这是一种在鸟瞰视角(BEV)下的雷达-相机融合3D目标检测方法。具体而言,我们首先设计了RadarBEVNet用于雷达BEV特征提取。RadarBEVNet由一个双流雷达骨干网和一个RCS(雷达截面)感知的BEV编码器组成。在双流雷达骨干网中,提出了基于点的编码器和基于Transformer的编码器用于提取雷达特征,并通过注入和提取模块来促进两个编码器之间的通信。RCS感知的BEV编码器以RCS作为对象大小的先验信息,将点特征散布在BEV中。此外,我们提出了跨注意力多层融合模块,利用可变形注意力机制自动对齐来自雷达和相机的多模态BEV特征,然后通过通道和空间融合层进行融合。实验结果表明,RCBEVDet在nuScenes和view-of-delft(VoD)3D目标检测基准测试中实现了新的最先进的雷达-相机融合结果。此外,RCBEVDet在21~28 FPS的更快推理速度下,实现了比所有实时相机仅和雷达-相机3D目标检测器更好的3D检测结果。源代码将发布在https://github.com/VDIGPKU/RCBEVDet。

图片

Introction

3D目标检测技术在自动驾驶领域迅速发展,多视角相机因其成本效益和提供高分辨率语义信息而受到青睐。但单一相机存在深度信息捕捉不精确和在恶劣环境下性能下降的问题。结合经济的毫米波雷达传感器,可以提供距离和速度的高精度测量,且不受天气和光照影响,实现更可靠的多模态目标检测。

毫米波雷达虽然数据稀疏且缺乏语义信息,但作为辅助传感器,与多视角相机结合使用,可提供互补信息,提高3D目标检测的准确性。近年来,这种融合方法受到广泛关注。

Method

1、RadarBEVNet

RCBEVDet的整体流程如下图所示。多视角图像被发送到图像编码器以提取特征。然后,应用视图转换模块将多视角图像特征转换为图像BEV特征。同时,通过提出的RadarBEVNet将对齐的雷达点云编码为雷达BEV特征。随后,通过跨注意力多层融合模块融合图像和雷达BEV特征。最后,融合的多模态BEV特征用于3D目标检测任务。

图片

先前的雷达-相机融合方法主要采用为LiDAR点云设计的雷达编码器,如PointPillars。相反,我们提出了RadarBEVNet,特别是用于高效的雷达BEV特征提取。

1.1 双流雷达骨干网(Dual-stream radar backbone:双流雷达骨干网有两个骨干网,即基于点的骨干网和基于Transformer的骨干网。基于点的骨干网学习局部雷达特征,而基于Transformer的骨干网捕获全局信息。具体来说,对于基于点的骨干网,我们采用类似于PointNet的简单结构。如下图所示,基于点的骨干网有S个块,每个块包含一个MLP和一个最大池化操作。输入的雷达点特征首先发送到MLP以增加其特征维度。然后,通过对所有雷达点的最大池化操作提取全局信息,并将其与高维雷达特征连接。至于基于Transformer的骨干网,它包含S个标准的Transformer块,具有注意力机制、前馈网络和归一化层,如下图所示。由于自动驾驶场景的广泛性,直接使用标准的自注意力机制可能使模型优化变得困难。为了解决这个问题,我们提出了一种距离调制自注意力机制(DMSA),以使模型在早期训练迭代中聚合邻近信息,从而促进模型收敛

图片

图片

1.2 RCS感知的BEV编码器:目前的雷达BEV编码器通常根据点的3D坐标将点特征散布到体素空间,并压缩z轴以生成BEV特征。然而,生成的BEV特征是稀疏的,也就是说,大多数像素的特征是零。有些像素很难聚集特征,这可能会影响检测性能。一种解决方案是增加BEV编码器层的数量,但这通常会导致小物体的特征被背景特征平滑掉。为了解决这个问题,我们提出了一种RCS感知的BEV编码器。雷达截面积(RCS)衡量物体被雷达检测到的能力。通常,较大的物体会产生较强的雷达波反射,导致较大的RCS测量值。因此,RCS可以提供物体大小的粗略测量。RCS感知的BEV编码器的关键设计是RCS感知散布操作,它利用RCS作为物体大小的先验,将一个雷达点的特征散布到多个像素,而不是在BEV空间中的一个像素,如图5所示。

图片

2、跨注意力多层融合模块

2.1 利用跨注意力机制进行多模态特征对齐(Multi-modal Feature Alignment with Cross-Attention)。雷达点云经常受到方位误差的影响。因此,雷达传感器可能会获取超出物体边界的雷达点。结果,由RadarBEVNet生成的雷达特征可能会分配到相邻的BEV网格上,导致来自相机和雷达的BEV特征对齐错误。为了解决这个问题,我们使用跨注意力机制动态对齐多模态特征。由于未对齐的雷达点会偏离其真实位置一定距离,我们建议使用可变形跨注意力机制来捕捉这种偏差。

图片

2.2 通道和空间融合(Channel and Spatial Fusion)。在通过交叉注意力对齐来自相机和雷达的BEV特征后,我们提出了通道和空间融合层来聚合多模态BEV特征.

Experiment

1.NuScenes 结果 :我们在 nuScenes 验证集和测试集上将提出的 RCBEVDet 与之前的最先进的 3D 检测方法进行了比较,如表 1 和表 2 所示。在各种主干设置下,RCBEVDet 在推理速度更快的情况下显示出具有竞争力的 3D 物体检测性能。值得注意的是,与之前最好的仅使用相机的方法(SOLOFusion)和雷达-相机方法(CRN)相比,RCBEVDet 使用 ResNet-50 将速度误差(mAVE)分别减少了 14.7% 和 37.5%。此外,RCBEVDet 超越了所有基于相机的 3D 检测方法,展示了使用互补雷达信息以实现更好的 3D 检测的有效性。

图片

如表 1 所示,RCBEVDet 尤其在整体指标(NDS)和速度误差(mAVE)方面显示出竞争力。具体来说,RCBEVDet 在之前的雷达-相机融合方法中表现出色。

图片

2.VoD 结果:为了进一步证明 RCBEVDet 的有效性,我们在 4D 毫米波雷达数据集 view-of-delft (VoD) 上训练了 RCBEVDet。我们在 VoD 验证集上的结果如表 3 所示。在整个区域内,RCBEVDet 比 RCFusion 高出 0.34 mAP。在感兴趣区域,RCBEVDet 也以 69.80 mAP 达到了最先进的结果。

图片

总结

文章的主要贡献可以概括为以下几点:

  1. 提出了一种名为RCBEVDet的雷达-相机多模态3D目标检测器,旨在实现高精度、高效且鲁棒的检测。
  2. 设计了一种高效的雷达特征提取器RadarBEVNet,它包含双流雷达骨干网络,用于提取并编码雷达特征到鸟瞰视图(BEV)中。
  3. 引入了跨注意力多层融合模块,通过可变形跨注意力机制实现雷达和相机特征的鲁棒对齐和融合。
  4. RCBEVDet在nuScenes和VoD数据集上取得了雷达-相机多模态3D目标检测的先进结果,并在实时检测器中实现了精度和速度的最佳平衡。5. RCBEVDet在传感器故障情况下展现出良好的鲁棒性。

引用CVPR2024文章: RCBEVDet: Radar-camera Fusion in Bird’s Eye View for 3D Object Detection

欢迎关注我的公众号auto_driver_ai(Ai fighting), 第一时间获取更新内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1911933.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

思维+数学,CF 1138B - Circus

一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 1138B - Circus 二、解题报告 1、思路分析 设第一组会小丑和杂技的人数分别为x1, y1 第二组会小丑和杂技的人数分别为x2, y2 显然根据要求有: x1 y2 > x1 x2 x2 y2 上式说明第二组每…

【QT中实现摄像头播放、以及视频录制】

学习分享 1、效果图2、camerathread.h3、camerathread.cpp4、mainwindow.h5、mainwindow.cpp6、main.cpp 1、效果图 2、camerathread.h #ifndef CAMERATHREAD_H #define CAMERATHREAD_H#include <QObject> #include <QThread> #include <QDebug> #include &…

OpenFWI代码

重点关注文章第4部分 一、代码模块概览 这一部分了解代码主要实现的功能有哪些。 二、运行 这一部分关注如何跑通。 三、数据集 12个数据集&#xff08;11个2D1个3D&#xff09; 对计算机而言&#xff0c;上述输入、输出维度大小是按次数定义的。 以“Vel&#xff0c;F…

Celery,一个实时处理的 Python 分布式系统

大家好&#xff01;我是爱摸鱼的小鸿&#xff0c;关注我&#xff0c;收看每期的编程干货。 一个简单的库&#xff0c;也许能够开启我们的智慧之门&#xff0c; 一个普通的方法&#xff0c;也许能在危急时刻挽救我们于水深火热&#xff0c; 一个新颖的思维方式&#xff0c;也许能…

Spring-AOP(二)

作者&#xff1a;月下山川 公众号&#xff1a;月下山川 1、什么是AOP AOP&#xff08;Aspect Oriented Programming&#xff09;是一种设计思想&#xff0c;是软件设计领域中的面向切面编程&#xff0c;它是面向对象编程的一种补充和完善&#xff0c;它以通过预编译方式和运行期…

MySQL:TABLE_SCHEMA及其应用

MySQL TABLE_SCHEMA及其应用 - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite&#xff1a;http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this article:https://blog.csdn.net/qq_28550263/ar…

持久化存储与设备环境查询的最佳实践

ArkUI框架中的PersistentStorage和Environment 在ArkUI框架中&#xff0c;持久化存储和设备环境查询是应用开发中不可或缺的两个重要功能。在本文中&#xff0c;我们将深入了解框架提供的PersistentStorage和Environment&#xff0c;它们的用途、限制条件以及在应用开发中的使…

SDIO CMD 数据部分 CRC 计算规则

使用的在线 crc 计算工具网址&#xff1a;http://www.ip33.com/crc.html CMD CRC7 计算 如下图为使用逻辑分析仪获取的SDIO读写SD卡时&#xff0c;CMD16指令发送的格式&#xff0c;通过逻辑分析仪总线分析&#xff0c;可以看到&#xff0c;该部分的CRC7校验值得0x05,大多数情况…

二战架构师,拿下

前言 已经许久更新文章了&#xff0c;并不是因为我懒了&#xff0c;而是在备考系统架构师考试。个人感觉还是比较幸运的&#xff0c;低分飘过。现阶段任务也算完成了&#xff0c;记录一下感受。 什么是软考 软考&#xff0c;全称“计算机技术与软件专业技术资格&#xff08…

Agent如何帮助大模型“增强记忆”?

Agent如何帮助大模型“增强记忆”&#xff1f; 原创 格林 神州问学 2024年07月08日 17:50 日本 记忆反馈 >规划&#xff1f; 来源|神州问学 引言 去年6月份&#xff0c;Lilian发布了关于LLM驱动的Agent的结构和组件&#xff0c;其中包括规划、行动、工具还有记忆&#xff…

去除Win32 Tab Control控件每个选项卡上的深色对话框背景

一般情况下&#xff0c;我们是用不带边框的对话框来充当Tab Control的每个选项卡的内容的。 例如&#xff0c;主对话框IDD_TABBOX上有一个Tab Control&#xff0c;上面有两个选项卡&#xff0c;第一个选项卡用的是IDD_DIALOG1充当内容&#xff0c;第二个用的则是IDD_DIALOG2。I…

C++相关概念和易错语法(17)(适配器模式、仿函数)

1.stack和queue stack和queue的相关接口如下&#xff1a; stack queue 我们发现不管是stack还是queue&#xff0c;它们都有push和pop&#xff0c;不区分push_back和push_front&#xff0c;这是由它们的入栈特定顺序特性决定的&#xff0c;并且它们都没有迭代器&#xff0c;st…

【系统架构设计】计算机组成与体系结构(一)

计算机组成与体系结构 计算机系统组成计算机硬件组成控制器运算器主存储器辅助存储器输入设备输出设备 计算机系统结构的分类存储程序的概念Flynn分类 复杂指令集系统与精简指令集系统总线 存储器系统流水线 兜兜转转&#xff0c;最后还是回到了4大件&#xff0c;补基础&#x…

【力扣】数组中的第K个最大元素

一、题目描述 给定整数数组 nums 和整数 k&#xff0c;请返回数组中第 k 个最大的元素。 请注意&#xff0c;你需要找的是数组排序后的第 k 个最大的元素&#xff0c;而不是第 k 个不同的元素。 你必须设计并实现时间复杂度为 O(n) 的算法解决此问题。 示例 1: 输入: [3,2,1,5,…

图片像素坐标转实际坐标的一种转换方案

原图 红色的点是我们标注的像素点&#xff0c;这些红色的点我们知道它的像素坐标&#xff0c;以及以右下角相机位置为原点的x y 实际坐标数值 通过转换&#xff0c;可以得到整个图片内部其余像素点的实际坐标&#xff0c; 这些红色的点是通过转换关系生成的&#xff0c;每隔一米…

python破解密码·筛查和选择

破解密码时可能遇到的几种情况 ① 已知密码字符&#xff0c;破排序 ② 已知密码位数&#xff0c;破字符 ③ 已知密码类型&#xff0c;破字位 ④ 已知部分密码&#xff0c;破未知 ⑤ 啥都不知道&#xff0c;盲破&#xff0c;玩完 ⑥ 已知位数、字符、类型、部分密码中的几个&am…

2024全网最全面及最新且最为详细的网络安全技巧五 之 SSRF 漏洞EXP技巧,典例分析以及 如何修复 (下册)———— 作者:LJS

五.SSRF 漏洞EXP技巧&#xff0c;典例分析以及 如何修复 (下册) 目录 五.SSRF 漏洞EXP技巧&#xff0c;典例分析以及 如何修复 (下册) 5.4gopher 协议初探 0x01 Gopher协议 0x02 协议访问学习 复现环境 centos7 kali 2018 发送http get请求 发送http post请求 5.5 SSRF…

☺初识c++(语法篇)☺

目录 一命名空间&#xff08;namespace&#xff09;&#xff1a; 二cout与cin简述&#xff1a; 三缺省参数&#xff1a; 四函数重载&#xff1a; 五引用&#xff1a; 六内联函数: 七c中的nullptr简述&#xff1a; 一命名空间&#xff08;namespace&#xff09;&#xff1…

Chromium编译指南2024 Linux篇-同步Chromium第三方库(四)

1.引言 在成功拉取Chromium源码并创建新分支后&#xff0c;我们需要进一步配置开发环境。这包括拉取必要的第三方库以及设置hooks&#xff0c;以确保我们能够顺利进行编译和开发工作。以下步骤将详细介绍如何进行这些配置。 2.拉取第三方库以及hooks Chromium 使用了大量的第…

2024第六届上海国际新材料展览会-12月精彩呈现

2024第六届上海国际新材料展览会 The 6th shanghai International New Materials Exhibition in 2024 时 间&#xff1a;2024年12月18-20日 地 点&#xff1a;上海新国际博览中心 CIME 2024专业、权威&#xff0c;涵盖整个新材料行业的国际盛会。 期待与您在CIME 2024现场相…