【论文笔记】Cross Modal Transformer: Towards Fast and Robust 3D Object Detection

news2024/9/24 9:20:27

原文链接:https://arxiv.org/abs/2301.01283

1. 引言

  受到DETR启发,本文提出鲁棒的端到端多模态3D目标检测方法CMT(跨模态Transformer)。首先使用坐标编码模块(CEM),通过将3D点集隐式地编码为多模态token,产生位置感知的特征。对图像分支,从视锥空间采样的3D点用来表达每个像素3D位置的概率;对激光雷达分支,将BEV坐标直接编码为点云token。然后引入位置指导的查询,类似PETR,首先初始化3D参考点,并投影到图像和激光雷达空间分别进行坐标编码。
  CMT的优点如下:

  1. 隐式地将3D位置编码到多模态特征中,避免了显式跨视图特征对齐时存在的偏差(bias)。
  2. 模型仅包含基础操作,无需2D到3D的视图变换,能达到SotA性能。
  3. 鲁棒性强。在没有激光雷达的情况下,模型的性能能达到与基于视觉的方法相当的水平。

3. 方法

  下图为模型框图。图像与激光雷达点云首先通过主干获取多模态token。然后,通过坐标编码将3D坐标编码进多模态token中。位置指导的查询生成器生成的查询在Transformer解码器中与多模态token交互,预测类别与边界框。
在这里插入图片描述

3.1. 坐标编码模块(CEM)

  CEM将3D位置信息编码进多模态token中,从而隐式地对齐多模态token。具体来说,CEM生成相机和BEV的位置编码,分别与图像token和激光雷达token相加。设 P ( u , v ) P(u,v) P(u,v)为特征图对应的3D点集,其中 ( u , v ) (u,v) (u,v)为特征图的坐标,则通过MLP ψ \psi ψ,可得到CEM的输出位置嵌入: Γ ( u , v ) = ψ ( P ( u , v ) ) \Gamma(u,v)=\psi(P(u,v)) Γ(u,v)=ψ(P(u,v))

图像坐标编码

  受PETR启发,由于一个像素对应3D空间的一条射线,可以在视锥空间中选取一组点进行编码。给定图像特征 F i m F_{im} Fim,每个像素对应相机视锥坐标系下的一组点 { p k ( u , v ) = ( u d k , v d k , d k , 1 ) T } k = 1 d \{p_k(u,v)=(ud_k,vd_k,d_k,1)^T\}_{k=1}^d {pk(u,v)=(udk,vdk,dk,1)T}k=1d其中 d d d是沿深度轴的采样点数量。对应的3D点可按下式计算: p k i m ( u , v ) = T c i l K i − 1 p k ( u , v ) p^{im}_k(u,v)=T_{c_i}^lK_i^{-1}p_k(u,v) pkim(u,v)=TcilKi1pk(u,v)其中 T c i l ∈ R 4 × 4 T_{c_i}^l\in\mathbb{R}^{4\times4} TcilR4×4是从第 i i i个相机到激光雷达的坐标变换矩阵, K i ∈ R 4 × 4 K_i\in\mathbb{R}^{4\times4} KiR4×4是第 i i i个相机的内参矩阵。则像素 ( u , v ) (u,v) (u,v)的位置编码为 Γ i m ( u , v ) = ψ i m ( { p k i m ( u , v ) } k = 1 d ) \Gamma_{im}(u,v)=\psi_{im}(\{p_k^{im}(u,v)\}_{k=1}^d) Γim(u,v)=ψim({pkim(u,v)}k=1d)

点云坐标编码

  使用VoxelNet或PointPillars作为主干网络获取点云token F p c F_{pc} Fpc。设 ( u , v ) (u,v) (u,v)是BEV特征图中的坐标,则采样点集为 p k ( u , v ) = ( u , v , h k , 1 ) T p_k(u,v)=(u,v,h_k,1)^T pk(u,v)=(u,v,hk,1)T,其中 h k h_k hk为第 k k k个点的采样高度,且 h 0 = 0 h_0=0 h0=0。则对应的3D点为 p k p c ( u , v ) = ( u d u , v d v , h k , 1 ) p_k^{pc}(u,v)=(u_du,v_dv,h_k,1) pkpc(u,v)=(udu,vdv,hk,1)其中 ( u d , v d ) (u_d,v_d) (ud,vd)是BEV网格的大小。本文仅采样1个高度,此时等价于BEV空间的2D位置编码。 Γ p c ( u , v ) = ψ p c ( { p k p c ( u , v ) } k = 1 h ) \Gamma_{pc}(u,v)=\psi_{pc}(\{p_k^{pc}(u,v)\}_{k=1}^h) Γpc(u,v)=ψpc({pkpc(u,v)}k=1h)

3.2. 位置指导的查询生成器

  从 [ 0 , 1 ] [0,1] [0,1]之间的均匀分布采样,为查询初始化 n n n个锚点 A = { a i ∈ R 3 } i = 1 n A=\{a_i\in\mathbb{R}^3\}_{i=1}^n A={aiR3}i=1n。随后将这些归一化坐标转化到3D世界空间: { a x , i = a x , i ( x max ⁡ − x min ⁡ ) + x min ⁡ a y , i = a y , i ( y max ⁡ − y min ⁡ ) + y min ⁡ a z , i = a z , i ( z max ⁡ − z min ⁡ ) + z min ⁡ \left\{ \begin{matrix}a_{x,i}=a_{x,i}(x_{\max}-x_{\min})+x_{\min}\\a_{y,i}=a_{y,i}(y_{\max}-y_{\min})+y_{\min}\\a_{z,i}=a_{z,i}(z_{\max}-z_{\min})+z_{\min}\end{matrix}\right. ax,i=ax,i(xmaxxmin)+xminay,i=ay,i(ymaxymin)+yminaz,i=az,i(zmaxzmin)+zmin其中 p max ⁡ , p min ⁡ ( p ∈ { x , y , z } ) p_{\max},p_{\min}(p\in\{x,y,z\}) pmax,pmin(p{x,y,z})为感兴趣的坐标范围。然后将 A A A投影到各模态并通过CEM编码。物体查询嵌入为 Γ q = ψ p c ( A p c ) + ψ i m ( A i m ) \Gamma_q=\psi_{pc}(A_{pc})+\psi_{im}(A_{im}) Γq=ψpc(Apc)+ψim(Aim)其中 A p c A_{pc} Apc A i m A_{im} Aim分别为 A A A在BEV和图像上的投影。 Γ q \Gamma_q Γq会与查询内容嵌入相加,生成初始的位置指导的查询 Q 0 Q_0 Q0

3.3. 解码器和损失

  解码器与DETR相同,使用 L L L层解码层,逐渐更新查询,并使用两个FFN预测物体类别与边界框。分类使用focal损失,边界框回归使用L1损失。在查询去噪过程中,使用相同方式计算损失。

3.4. 丢弃模态训练以获得鲁棒性

  为保证模型在单一相机失效、相机完全失效和激光雷达失效的情况下均保证可靠性,本文提出丢弃模态训练方法,在训练过程中以一定的概率随机使用单一模态数据,保证模型在单一模态和多模态下均得到训练。这样,模型能在单一模态或多模态下测试而无需调整网络权重。实验表明该策略不影响融合模型的性能。

3.5. 讨论

  与FUTR3D不同,CMT无需反复从多模态采样和投影,而只需进行多模态位置编码与token相加。

4. 实验

4.1. 数据集和评价指标

  对相机图像,仅使用关键帧;对激光雷达,将过去的非关键帧的点云转换到关键帧下。

4.2. 实施细节

  在训练前中期使用了GT增广;为加快收敛,引入基于点的去噪策略(类似DN-DETR),通过中心位移判断有噪声锚点。

4.3. 与SotA比较

  单一模态方案CMT-L能达到接近激光雷达SotA的水平;多模态CMT能超过目前所有SotA。相比TransFusion,CMT-L引入图像后有更高的性能提升。

4.4. 强鲁棒性

  使用普通训练方案训练的模型在激光雷达模态失效时几乎完全失效。而使用丢弃模态训练方案训练的模型在任一模态失效时都能达到另一模态的单一模态水平。单一相机失效时,性能仅有略微下降。

4.5. 消融研究

  移除点云位置编码会带来显著的性能下降,而移除图像位置编码仅有略微下降。基于点的查询去噪(PQD)也能带来较大的性能提升并加速收敛。增大输入图像尺寸主要对小物体的检测有较大提升。

4.6. 分析

  可视化表明,注意力图中响应较强的区域为前景物体所在区域,且多数锚点更关注最近的前景物体。

5. 结论

局限性

  CMT的计算开销较高,因为有大量的多模态token,且Transformer解码器中使用了全局注意力。有两个可能的解决方案:一是减小token数量,如通过网络预测前景token输入CMT;二是替换注意力机制,如使用可变形注意力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/854689.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

面试笔记:Android 架构岗,一次4小时4面的体验

作者:橘子树 此次面试一共4面4小时,中间只有几分钟间隔。对持续的面试状态考验还是蛮大的。 关于面试的心态,保持悲观的乐观主义心态比较好。面前做面试准备时保持悲观,尽可能的做足准备。面后积极做复盘,乐观的接受最…

[分享]STM32G070 串口 乱码 解决方法

硬件 NUCLEO-G070RB 工具 cubemx 解决方法 7bit 改为 8bit printf 配置方法 添加头文件 #include <stdio.h> 添加重定向代码 #ifdef __GNUC__#define PUTCHAR_PROTOTYPE int __io_putchar(int ch)#else#define PUTCHAR_PROTOTYPE int fputc(int ch, FILE *f)#endi…

安装程序报错问题解决 -2147287037 <<30005>> 2203

本文如下报错适用&#xff1a; 一、The installer has encountered an unexpected error installing this package. Thismay indicate a problem with this package. The error code is 2203 二、错误 2203.数据库&#xff1a; C:\WINDOWS\Installer\inprogressinstallinfo.i…

别找了,这7个AI绘画图软件够你用了!

AI 绘图工具最妙的是也让人人都能成为朋友圈里的“画家”&#xff0c;如果你也想要拥有一个趁手的 AI 绘画工具&#xff0c;那么就跟随本文一起来看看吧&#xff01;本文精选了7全球顶尖的AI绘图工具给大家&#xff0c;包括&#xff1a;即时灵感、Jasper Art、Images.ai、Night…

休闲卤味强势崛起:卤味零食成为新一代热门美食

随着人们生活水平的提高和消费观念的转变&#xff0c;休闲卤味逐渐成为了人们日常生活中的热门美食。据最新数据显示&#xff0c;2022年&#xff0c;我国卤味市场销售额达到了约2000亿元&#xff0c;预计到2025年将突破3000亿元大关。其中&#xff0c;休闲卤味以每年10%的速度持…

趋势洞察:中国企业高质量出海白皮书!

目前&#xff0c;我国仍处于战略发展机遇期的大背景&#xff0c; 面对全球经济放缓、不确定性增强的常态&#xff0c;国内高端市场的竞争也日趋激烈&#xff0c;对于寻求高质量发展的中国企业&#xff0c; 出海将成为重要的增长点。 今天运营坛为大家整理了一份《中国企业高质量…

弹簧阻尼系统前馈PID位置控制(PLC完整闭环仿真SCL+ST代码)

弹簧阻尼系统的前馈PID控制请参看下面文章链接: 前馈控制之如何计算前馈量(质量弹簧阻尼系统)_前馈控制量_RXXW_Dor的博客-CSDN博客带前馈控制的博途PID程序请参看下面的文章链接:首先我们看下什么是弹簧阻尼系统。1、质量弹簧阻尼模型。_前馈控制量https://rxxw-control.bl…

使用Spring五大注解来更加简单的存储Bean对象

在使用Spring框架的时候我们如果使用这种方式来存储bean对象的话未免有点太麻烦了 <bean id"xxx" class"xxx"> </bean> 为了简化存储Bean对象的操作&#xff0c;我们可以使用五大类注解来进行存储Bean对象 我们首先要在配置文件配置扫描路径…

IoTDB在springboot2中的(二) 查询

上一章我们处理的基本的构建接入&#xff0c;以及插入的处理&#xff0c;那么接下来我们进行查询的操作处理。 我们继续在IoTDBSessionConfig工具类中加入查询的方法处理 /*** description: 根据SQL查询最新一条数据* author:zgy* param sql sql查询语句&#xff0c;count查询…

JVM 类加载和垃圾回收

JVM 1. 类加载1.1 类加载过程1.2 双亲委派模型 2. 垃圾回收机制2.1 死亡对象的判断算法2.2 垃圾回收算法 1. 类加载 1.1 类加载过程 对应一个类来说, 它的生命周期是这样的: 其中前 5 步是固定的顺序并且也是类加载的过程&#xff0c;其中中间的 3 步我们都属于连接&#xf…

【Java-16】动态代理的使用方法及原理实现

代理模式&#xff1a;静态代理 目标 了解静态代理模式实现 路径 静态代理概述静态代理案例 静态代理概述 静态代理&#xff1a; 是由程序员创建或工具生成代理类的源码&#xff0c;再编译成为字节码 &#xff08;字节码文件在没有运行java之前就存在了&#xff09; 在编译…

Linux——常用命令(2)

作者简介&#xff1a;一名云计算网络运维人员、每天分享网络与运维的技术与干货。 座右铭&#xff1a;低头赶路&#xff0c;敬事如仪 个人主页&#xff1a;网络豆的主页​​​​​ 前期回顾 【新星计划Linux】——常用命令&#xff08;1&#xff09; 目录 一.其它常用命…

vue或uniapp使用pdf.js预览

一、先下载稳定版的pdf.js&#xff0c;可以去官网下载 官网下载地址 或 pdf.js包下载(已配置好&#xff0c;无需修改) 二、下载好的pdf.js文件放在public下静态文件里&#xff0c; uniapp是放在 static下静态文件里 三、使用方式 1. vue项目 注意路径 :src"static/pd…

在矩池云使用ChatGLM-6B ChatGLM2-6B

ChatGLM-6B 和 ChatGLM2-6B都是基于 General Language Model (GLM) 架构的对话语言模型&#xff0c;是清华大学 KEG 实验室和智谱 AI 公司于 2023 年共同发布的语言模型。模型有 62 亿参数&#xff0c;一经发布便受到了开源社区的欢迎&#xff0c;在中文语义理解和对话生成上有…

语音信号的A律压缩和u律压缩matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 A律压缩算法 4.2 μ律压缩算法 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 MATLAB2022a 3.部分核心程序 clc; clear; close all; warning off; addpath(genpath(…

DanceFight VoxEdit 大赛

准备好让自己的创造力更上一层楼了吗&#xff1f;别再犹豫了&#xff0c;The Sandbox 将为你们带来一场激动人心的挑战&#xff0c;让你们的 VoxEdit 技能和舞蹈动作激情四射&#xff01;准备好参加终极数字盛会——DanceFight VoxEdit 大赛&#xff01;&#x1f57a;&#x1…

物理层扩展以太网

扩展站点与集线器之间的距离&#xff1a;   在10BASE-T星型以太网中&#xff0c;可使用光纤和一对光纤调制解调器来扩展站点与集线器之间的距离。   为站点和集线器各增加一个用于电信号和光信息号转换的光纤调制解调器&#xff0c;以及他们之间的通信光纤。 扩展共享式以太…

ICS PA0

目录 环境配置工具的使用及相关资源Compling and Running NEMU配置系统make menuconfig项目构建make运行与调试 Submit 环境配置 Ubuntu安装中的分区不太明白安装了中文输入法和必要的工具链虚拟机与主机互联 工具的使用及相关资源 vim&#xff08;vimtutor是vim的一个内置教…

Nginx跳转模块——location与rewrite

一、location 1、location作用 用于匹配uri&#xff08;文件、图片、视频&#xff09; uri&#xff1a;统一资源标识符。是一种字符串标识&#xff0c;用于标识抽象的或物理资源文件、图片、视频 2、locatin分类 1、精准匹配&#xff1a;location / {...} 2、一般匹配&a…

【80天学习完《深入理解计算机系统》】第三天 2.3 整数运算【正负溢出】【运算的溢出】【类型转换的二进制扩展】

专注 效率 记忆 预习 笔记 复习 做题 欢迎观看我的博客&#xff0c;如有问题交流&#xff0c;欢迎评论区留言&#xff0c;一定尽快回复&#xff01;&#xff08;大家可以去看我的专栏&#xff0c;是所有文章的目录&#xff09;   文章字体风格&#xff1a; 红色文字表示&#…