1. 引言

受到DETR启发，本文提出鲁棒的端到端多模态3D目标检测方法CMT（跨模态Transformer）。首先使用坐标编码模块（CEM），通过将3D点集隐式地编码为多模态token，产生位置感知的特征。对图像分支，从视锥空间采样的3D点用来表达每个像素3D位置的概率；对激光雷达分支，将BEV坐标直接编码为点云token。然后引入位置指导的查询，类似PETR，首先初始化3D参考点，并投影到图像和激光雷达空间分别进行坐标编码。
CMT的优点如下：

隐式地将3D位置编码到多模态特征中，避免了显式跨视图特征对齐时存在的偏差（bias）。
模型仅包含基础操作，无需2D到3D的视图变换，能达到SotA性能。
鲁棒性强。在没有激光雷达的情况下，模型的性能能达到与基于视觉的方法相当的水平。

3. 方法

下图为模型框图。图像与激光雷达点云首先通过主干获取多模态token。然后，通过坐标编码将3D坐标编码进多模态token中。位置指导的查询生成器生成的查询在Transformer解码器中与多模态token交互，预测类别与边界框。
在这里插入图片描述

3.1. 坐标编码模块（CEM）

CEM将3D位置信息编码进多模态token中，从而隐式地对齐多模态token。具体来说，CEM生成相机和BEV的位置编码，分别与图像token和激光雷达token相加。设 $P (u, v)$ 为特征图对应的3D点集，其中 $(u, v)$ 为特征图的坐标，则通过MLP $\psi$ ，可得到CEM的输出位置嵌入： $\Gamma(u,v)=\psi(P(u,v))$

图像坐标编码

受PETR启发，由于一个像素对应3D空间的一条射线，可以在视锥空间中选取一组点进行编码。给定图像特征 $F_{im}$ ，每个像素对应相机视锥坐标系下的一组点 ${p_k(u,v)=(ud_k,vd_k,d_k,1)^T\}_{k=1}^d$ 其中 $d$ 是沿深度轴的采样点数量。对应的3D点可按下式计算： $p^{im}_k(u,v)=T_{c_i}^lK_i^{-1}p_k(u,v)$ 其中 $T_{c_i}^l\in\mathbb{R}^{4\times4}$ 是从第 $i$ 个相机到激光雷达的坐标变换矩阵， $K_i\in\mathbb{R}^{4\times4}$ 是第 $i$ 个相机的内参矩阵。则像素 $(u, v)$ 的位置编码为 $\Gamma_{im}(u,v)=\psi_{im}(\{p_k^{im}(u,v)\}_{k=1}^d)$

点云坐标编码

使用VoxelNet或PointPillars作为主干网络获取点云token $F_{pc}$ 。设 $(u, v)$ 是BEV特征图中的坐标，则采样点集为 $p_k(u,v)=(u,v,h_k,1)^T$ ，其中 $h_k$ 为第 $k$ 个点的采样高度，且 $h_0=0$ 。则对应的3D点为 $p_k^{pc}(u,v)=(u_du,v_dv,h_k,1)$ 其中 $u_d,v_d)$ 是BEV网格的大小。本文仅采样1个高度，此时等价于BEV空间的2D位置编码。 $\Gamma_{pc}(u,v)=\psi_{pc}(\{p_k^{pc}(u,v)\}_{k=1}^h)$

3.2. 位置指导的查询生成器

从 $[0, 1]$ 之间的均匀分布采样，为查询初始化 $n$ 个锚点 $A=\{a_i\in\mathbb{R}^3\}_{i=1}^n$ 。随后将这些归一化坐标转化到3D世界空间： $\left\{ \begin{matrix}a_{x,i}=a_{x,i}(x_{\max}-x_{\min})+x_{\min}\\a_{y,i}=a_{y,i}(y_{\max}-y_{\min})+y_{\min}\\a_{z,i}=a_{z,i}(z_{\max}-z_{\min})+z_{\min}\end{matrix}\right.$ 其中 $p_{\max},p_{\min}(p\in\{x,y,z\})$ 为感兴趣的坐标范围。然后将 $A$ 投影到各模态并通过CEM编码。物体查询嵌入为 $\Gamma_q=\psi_{pc}(A_{pc})+\psi_{im}(A_{im})$ 其中 $A_{pc}$ 和 $A_{im}$ 分别为 $A$ 在BEV和图像上的投影。 $\Gamma_q$ 会与查询内容嵌入相加，生成初始的位置指导的查询 $Q_0$ 。