1. 解决了什么问题？

对于低成本自动驾驶系统，仅凭视觉信息进行 3D 目标检测是非常有挑战性的。目前的多相机 3D 目标检测方法有两类，一类直接对单目图像做预测，没有考虑 3D 场景的结构或传感器配置。这类方法需要多步后处理，融合不同相机输出的预测结果，去除冗余边框。另一类方法则使用了 3D 重建，从图像信息构造 pseudo-LiDAR 数据或场景的深度信息，然后应用 3D 目标检测方法。但是这类方法会面临复合性错误，若深度信息估计错了，则 3D 目标检测就会很受影响。

2. 提出了什么方法？

本方法针对 2D 现有信息和 3D 预测任务提出了一个 top-down 的方案，不需要预测深度信息。它从多个相机的图像中提取 2D 特征，使用一组稀疏的 3D object queries 索引 2D 特征，通过相机变换矩阵将 3D 坐标和多视角图像关联起来。对每个 object query 都会预测一个边框，然后使用 set-to-set 损失函数计算预测框和 ground-truth 的距离。
本方法包括 3 个部分。

首先是一个 ResNet 主干网络，用于提取特征。
其次是一个检测 head，通过几何的方式将 2D 特征和 3D 边框预测联系起来。每个 object query 编码一个 3D 坐标，映射到相机平面，通过双线性插值获取图像特征。然后使用 multi-head attention 层计算目标之间的关系，再用于优化 object queries。这一层会重复多次，交替地采样特征和优化 object query。
最后计算一个 set-to-set 损失，训练网络。

在这里插入图片描述

2.1 特征学习

模型的输入是一个图像集合， $\mathcal{I}=\lbrace \text{im}_1,...,\text{im}_K \rbrace \subset \mathbb{R}^{H_{im}\times W_{im}\times 3}$ ，相机参数矩阵 $\mathcal{T}=\lbrace T_1,...,T_K \rbrace \subset \mathbb{R}^{3\times 4}$ ，ground-truth 边框 $\mathcal{B}\subset \lbrace b_1,...,b_j,...,b_M \rbrace \subset \mathbb{R}^9$ ，以及类别标签 $\mathcal{C}\subset \lbrace c_1,...,c_j,...,c_M \rbrace \subset \mathbb{Z}$ 。每个 $b_j$ 包括鸟瞰视角（BEV）的位置、大小、航向角、速度。模型从图像中预测出它们的边框和标签。

使用了一个 ResNet 和 FPN 来编码这些图像特征，得到 4 个特征集合 $\mathcal{F}_1,\mathcal{F}_2,\mathcal{F}_3,\mathcal{F}_4$ 。每个集合 $\mathcal{F}_k=\lbrace f_{k1},...,f_{k6}\rbrace \subset \mathbb{R}^{H\times W\times C}$ 对应 6 张输入图像的一个特征层级。这些多尺度信息为识别不同大小的目标提供了丰富的信息。

2.2 检测 Head

DETR3D 是迭代进行的，从 2D 特征图上预测边框，共有 $L$ 层。每一层的操作如下：

关于 object queries 预测一组 3D 边框中心点坐标；
通过相机变换矩阵，将这些中心点映射到特征图上；
通过双线性插值采样特征，并融入 object queries；
用 multi-head attention 计算出目标之间的关系。

每一层 $\mathcal{l}\in \lbrace 0,...,L-1 \rbrace$ 都在一个 object queries 集合 $\mathcal{Q}_l=\lbrace q_{l1},...,q_{lM^*} \rbrace \subset \mathbb{R}^C$ 上操作，输出一个新的集合 $\mathcal{Q}_{l+1}$ 。从 object query $q_{li}$ 解码出一个 reference point $c_{li}\in \mathbb{R}^3$ ：
$c_{li}=\Phi^{\text{ref}}(q_{li})$

其中 $\Phi^{\text{ref}}$ 是一个神经网络。 $c_{li}$ 可以假定为第 $i$ 个边框的中心点。接下来，通过相机矩阵，将 $c_{li}$ 映射到图像上：
$c_{li}^*=c_{li}\oplus 1\quad \quad c_{lmi}=T_m c^*_{li}$

$\oplus$ 表示 concat， $c_{lmi}$ 是 reference point 映射到第 $m$ 个相机画面的位置，对其做了归一化 $c_{lmi}\in [-1,1]$ 。通过双线性插值获取图像特征：

$f_{lkmi}=f^{\text{bilinear}}(\mathcal{F}_{km},c_{lmi})$

$f_{lkmi}$ 是第 $l$ 个网络层、第 $m$ 个相机、第 $i$ 个引用点、第 $k$ 个特征层的特征。
一个 reference point 并不会出现在所有的相机画面中，我们需要过滤掉无效的点。根据 reference point 是否映射到某图像平面之外，定义了一个 binary value $\sigma_{lkmi}$ 。

$f_{li}=\frac{1}{\sum_k \sum_m \sigma_{lkmi}+\epsilon}\sum_k \sum_m f_{lkmi}\sigma_{lkmi} \quad \text{and} \quad q_{(l+1)i} = f_{li} + q_{li}$

$\epsilon$ 防止除数为0。最终，对于每个 $q_{li}$ ，用神经网络 $\Phi_l^{\text{reg}}$ 和 $\Phi_l^{\text{cls}}$ 预测一个边框 $\hat{b}_{li}$ 和类别标签 $\hat{c}_{li}$ ：

$\hat{b}_{li}=\Phi_l^{\text{reg}}(q_{li}) \quad \text{and}\quad \hat{c}_{li}=\Phi_l^{\text{cls}}(q_{li})$

训练时，计算每一层预测的边框 $\hat{\mathcal{B}}_l=\lbrace \hat{b}_{l1},...,\hat{b}_{lj},...,\hat{b}_{lM^*} \rbrace\subset \mathbb{R}^9$ 和 $\hat{\mathcal{C}}_l=\lbrace \hat{c}_{l1},...,\hat{c}_{lj},...,\hat{c}_{lM} \rbrace \subset \mathbb{Z}$ 。推理时，只使用最后一层的输出。

2.3 Loss

使用了 set-to-set 损失来计算预测集合 $(\hat{\mathcal{B}}_l, \hat{\mathcal{C}}_l)$ 和 ground-truth 集合 $(\mathcal{B},\mathcal{C})$ 的距离。损失包括两个部分：类别标签的 focal loss、边框回归的 $L_1$ 损失。Ground-truth 边框个数 $M$ 一般要小于预测框的个数 $M^*$ ，用 $\varnothing$ 来补充 ground-truth 集合，使其元素个数等于 $M^*$ 。通过二分匹配，在 ground-truth 和预测框之间建立对应关系： $\sigma^* = \argmin_{\sigma\in\mathcal{P}} \sum_{j=1}^M -\mathbb{I}_{\lbrace c_j\neq \varnothing \rbrace} \hat{p}_{\sigma(j)}(c_j) + \mathbb{I}_{\lbrace c_j\neq\varnothing \rbrace}\mathcal{L}_{box}(b_j, \hat{b}_{\sigma(j)})$ ， $\mathcal{P}$ 表示所有排列组合的集合， $\hat{p}_{\sigma(j)}(c_j)$ 是索引为 $\sigma(j)$ 的预测框类别是 $c_j$ 的概率。 $\mathcal{L}_{box}$ 是边框的 $L_1$ 损失。使用 Hungarian 算法解决这个分配问题，得到 set-to-set 损失：

$\mathcal{L}_{sup}=\sum_{j=1}^N\left[ -\log \hat{p}_{\sigma^*(j)}(c_j) + \mathbb{I}_{\lbrace c_j\neq\varnothing \rbrace} \mathcal{L}_{box}(b_j, \hat{b}_{\sigma^*(j)})\right]$

2.4 实验

2.4.1 数据集

作者使用了 nuScenes 数据集，包括 1000 个帧序列，每个序列约 20 秒，帧率是 20 FPS。每个样本包括从 6 个相机采集的画面 [front left, front, front right, back left, back, back right]。nuScenes 提供了相机的内参和外参。每 0.5 秒提供一个标注，总共有 2.8 万个训练样本、6000 个验证样本、6000 个测试样本。

2.4.2 Metrics

使用的 nuScenes 官方评价标准： average translation error (ATE), average scale error (ASE), average orientation error (AOE), average velocity error (AVE), 以及 average attribute error (AAE)。这些度量都是 true positive metrics(TP metrics)，nuScenes 提供了 nuScenes Detection Score(NDS)：
$\text{NDS}=\frac{1}{10}\left[ 5\text{mAP} + \sum_{\text{mTP}\in \mathbb{TP}}(1-\min(1, \text{mTP})) \right]$

2.4.3 Model

包括一个 ResNet-101、一个 FPN、一个 DETR3D 检测 head。在 ResNet-101 的第 3 和第 4 阶段，使用了 deformable conv。FPN 输出 4 个特征图，大小分别是输入图像大小的 $1/8, 1/16, 1/32$ 和 $1/64$ 。DETR3D 检测 head 有 6 层，每一层都由一个特征优化步骤和一个 multi-head 注意力层组成。DETR3D 检测 head 的隐藏维度是 256。最后是两个子网络，分别预测每个 object query 的边框的坐标信息和类别标签，每个子网络包含 2 个全连接层，隐藏层维度是 256。在检测 head 中也使用了 layer norm。

2.4.4 训练

训练时使用 AdamW 策略，weight decay 是 $10^{-4}$ ，初始学习率是 $10^{-4}$ ，在第 8 和第 11 个 epoch 学习率降为 $10^{-5}$ 和 $10^{-6}$ 。在 8 张 3090 GPUs 上总共训练 12 个 epochs，mini-batch 为 1。