1. 解决了什么问题？

单目 3D 检测成本低、配置简单，对一张 RGB 图像预测 3D 空间的 3D 边框。最难的任务就是预测实例深度，因为相机投影后会丢失深度信息。以前的方法大多直接预测深度，本文则指出 RGB 图像上的实例深度不是一目了然的，它由视觉深度信息和实例属性信息耦合，很难直接用网络学到。
在这里插入图片描述

2. 提出了什么方法？

将实例深度看作为实例视觉表面深度（visual depth）和实例属性深度（attribute depth）的结合。Visual depth 与物体的外观和画面中的位置有关。Attribute depth 则取决于物体的内在属性（维度、朝向等），它关注于 RoI 内的特征，与图像中的仿射变换无关。Visual depth 定义是物体上每个点到相机的绝对深度值，attribute depth 是从这些点到物体 3D 中心的相对深度偏移量。我们用不同的 heads 来提取不同类型的特征，分别进行深度预测。

对于每个图块，分割为 $m\times n$ 个网格。每个网格表示物体的一小部分，它有一个 visual depth 和 attribute depth。考虑到遮挡和 3D 位置的不确定性，uncertainty 表示每个深度预测的置信度。推理时，每个目标输出 $m\times n$ 个实例深度预测，自适应地获取最终的实例深度预测和置信读。

Preliminaries

单目 3D 目标检测的输入是一张 RGB 图像 $\text{I}\in \mathbb{R}^{H\times W\times 3}$ ，在 3D 空间预测单模态的 3D 边框，包括 3D 中心点位置 $(x, y, z)$ 、维度 $(h, w, l)$ 和朝向角 $\theta$ ，朝向角通常指的是偏航角。经过特征编码后，得到特征图 $\text{F}\in \mathbb{R}^{\frac{H}{4}\times \frac{W}{4}\times C}$ ， $C$ 是通道数。然后 $\text{F}$ 输入进 3 个 2D 检测 heads，即 2D 热力图 $\text{H}\in \mathbb{R}^{\frac{H}{4}\times \frac{W}{4}\times B}$ 、2D 偏移量 $\text{O}_{2d}\in \mathbb{R}^{\frac{H}{4}\times \frac{W}{4}\times 2}$ 、2D size $\text{S}_{2d}\in \mathbb{R}^{\frac{H}{4}\times \frac{W}{4}\times 2}$ ， $B$ 是类别数。这样，我们可以得到 2D 边框预测。然后，根据这些 2D 框从特征图 $\text{F}$ 上使用 RoI Align 提取单个目标的特征， $\text{F}_{obj}\in \mathbb{R}^{n\times 7\times 7\times C}$ ，其中 $7\times 7$ 是 RoI Align 的大小， $n$ 是 RoIs 的个数。最后，将这些目标特征 $\text{F}_{obj}$ 输入进 3D 检测 heads 获取 3D 参数。于是，我们就有了 3D 中心点映射偏移量 $\text{O}_{3d}\in \mathbb{R}^{n\times 2}$ 、3D 边框维度 $\text{S}_{3d}\in \mathbb{R}^{n\times 3}$ 、朝向角 $\Theta\in \mathbb{R}^{n\times k\times 2}$ （ $k$ 是 multi-bin 里面的个数）、visual depth $\text{D}_{vis}\in \mathbb{R}^{n\times 7\times 7}$ 、visual depth uncertainty $\text{U}_{vis}\in \mathbb{R}^{n\times 7\times 7}$ 、attribute depth $\text{D}_{attr}\in \mathbb{R}^{n\times 7\times 7}$ 、attribute depth uncertainty $\text{U}_{attr}\in \mathbb{R}^{n\times 7\times 7}$ 。有了这些参数，我们就可计算出最终的 3D 边框预测。

Decoupled Instance Depth

Visual Depth

表示物体表面在小 RoI 网格上的物理深度。每个网格的 visual depth 就是网格内所有像素的平均深度。单目图像里的 visual depth 有一个重要特性。对于一个单目系统，visual depth 高度依赖物体的 2D 框大小（远处的物体在图像上要小一些）以及图像中的位置（图像坐标系里的 $v$ 越小，表示深度越深）。所以，如果我们对图像做仿射变换，visual depth 也会随之变换，深度值应该随之缩放。这个过程就是 affine-sensitive。
在这里插入图片描述

Attribute Depth

表示从物体视觉表面到目标 3D 中心点的深度偏移量。它和物体的内在属性联系更加紧密，所以叫做 attribute depth。例如，当车辆朝向与 3D 空间的 $z$ 轴（深度方向）平行时，车尾的 attribute depth 就是车子长度的一半；当朝向与 $x$ 轴平行，则 attribute depth 是车子宽度的一半。Attribute depth 取决于物体的语义信息和内在特性，并且对于仿射变换是不敏感的，因为物体的内在特性不会随着仿射变换而变化。这个过程就是 affine-invariant。

作者使用 2 个 heads 分别预测 visual depth 和 attribute depth。有以下的好处：

以一种合理并自然的方式将目标深度解耦，更能全面、准确地表示物体；
网络针对不同类型的深度提取不同的特征，加速学习；
深度解耦了，就能通过仿射变换进行有效的数据增广。

数据增广

在单目 3D 检测领域，很少用仿射变换做数据增广，因为变换后的深度信息是不知道的。在数据增广中，作者增加了随机裁剪和尺度缩放策略。图像上的 3D 中心映射点也进行相同的仿射变换。用图像上 $y$ 轴的缩放系数来对 visual depth 做缩放，因为 $d=\frac{f\cdot h_{3d}}{h_{2d}}$ ， $f,h_{3d},h_{2d}$ 分别是焦距、物体的 3D 高度和 2D 高度。Attribute depth 会保持不变，因为它对仿射变换无感。类似地，物体的其它内在特性如观测角、维度，都保持不变。
在这里插入图片描述

Depth Uncertainty and Aggregation

因为 3D 定位比较困难，2D 分类得分无法充分表示单目 3D 检测的置信度。本文将实例深度 uncertainty 解耦为 visual depth uncertainty 和 attribute depth uncertainty。只有当物体的 visual depth uncertainty 和 attribute depth uncertainty 都很低时，实例深度的置信度才。

假设 $\text{D}_{vis}\in \mathbb{R}^{n\times 7\times 7}$ 里的每一个 visual depth $d_{vis}$ 以及 $\text{U}_{vis}\in \mathbb{R}^{n\times 7\times 7}$ 里其对应的 uncertainty $u_{vis}$ 预测都服从 Laplace 分布 $L(d_{vis},u_{vis})$ 。类似，attribute depth 的分布是 $L(d_{att},u_{att})$ ，其中 $d_{att}\in \text{D}_{att} \in \mathbb{R}^{n\times 7\times 7}$ ， $u_{att}\in \text{U}_{att}\in \mathbb{R}^{n\times 7\times 7}$ 。因此，实例深度分布就是 $L(\tilde{d}_{ins}, \tilde{u}_{ins})$ ，其中 $\tilde{d}_{ins} = d_{vis}+d_{att}$ ， $\tilde{u}_{ins}=\sqrt{u_{vis}^2 + u_{att}^2}$ 。然后用 $\tilde{\text{D}}_{ins(patch)}\in \mathbb{R}^{n\times 7\times 7}$ 和 $\tilde{\text{U}}_{ins(patch)}\in \mathbb{R}^{n\times 7\times 7}$ 表示 RoI 内的实例深度以及 uncertainty。

为了获得最终的实例深度，首先将 uncertainty 转化为概率， ${\text{P}}_{ins(patch)}=\exp(-\tilde{\text{U}}_{ins(patch)})$ ，其中 ${\text{P}}_{ins(patch)}\in \mathbb{R}^{n\times 7\times 7}$ 。然后聚合图块内的实例深度。对于第 $i\in \lbrace i,...,N\rbrace$ 个物体，我们有：
$d_{ins}=\sum \frac{\tilde{\text{D}}_{ins(patch)_i}{\text{P}}_{ins(patch)_i}}{\sum {\text{P}}_{ins(patch)_i}}$

对应的实例深度置信度就是：

$p_{ins}=\sum \left( \frac{\text{P}_{ins(patch)_i}}{\sum \text{P}_{ins(patch)_i}}\text{P}_{ins(patch)_i}\right)$
因此，最终的 3D 检测置信度就是 $p=p_{2d}\cdot p_{ins}$ ， $p_{2d}$ 是 2D 检测置信度。

损失函数

2D 检测：延续了 CenterNet，2D 热力图 $\text{H}$ 表示图像上物体大概的中心位置。其大小是 $\frac{H}{4}\times \frac{W}{4}\times B$ ， $H, W, B$ 分别是输入图像的高度、宽度和类别数。2D 偏移量 $O_{2d}$ 表示相对于 2D 中心点的偏移。2D 大小 $S_{2d}$ 表示 2D 框的高度和宽度。跟 CenterNet 一样，损失函数由 $\mathcal{L}_H,\mathcal{L}_{O_{2d}},\mathcal{L}_{S_{2d}}$ 组成。

3D 检测：

对于 3D 物体的维度，使用了常用的变换和损失设计 $\mathcal{L}_{S_{3d}}$ 。
对于朝向角，网络预测观测角，使用 multi-bin 损失 $\mathcal{L}_{\Theta}$ 。
使用图像平面上的 3D 中心点投影和实例的深度来还原物体的 3D 坐标。通过预测关于 2D 中心点的 3D 投影的偏移量，实
现 3D 中心点投影。损失函数是 $\mathcal{L}_{O_{3d}}=\text{Smooth}L_1(O_{3d}, O_{3d}^*)$ ， $*$ 表示对应的标签。
通过将激光雷达的点云投影到图像上得到 visual depth，然后实例深度标签减去 visual depth 标签，得到 attribute depth 标签。Visual depth 损失是： $\mathcal{L}_{D_{vis}}=\frac{\sqrt{2}}{u_{vis}}\left\|d_{vis}-d_{vis}^*\right\|+\log(u_{vis})$ ， $u_{vis}$ 是 uncertainty。

类似地，我们有 attribute depth 损失 $\mathcal{L}_{D_{att}}$ ，实例深度损失 $\mathcal{L}_{D_{ins}}$ 。整体损失是：

$\mathcal{L}=\mathcal{L}_H+\mathcal{L}_{O_{2d}}+\mathcal{L}_{S_{2d}}+\mathcal{L}_{S_{3d}}+\mathcal{L}_\Theta+\mathcal{L}_{D_{vis}}+\mathcal{L}_{D_{att}}+\mathcal{L}_{D_{ins}}$