CasA：用于点云 3D 目标检测的级联注意力网络

论文摘要

LiDAR 收集的数据通常表现出稀疏和不规则的分布。
3D 空间中的 LiDAR 扫描并不均匀。近处和远处的物体之间存在巨大的分布差距。

CasA(Cascade Attention) 由 RPN（Region proposal Network）和 CRN（cascade refinement Network）组成。
RPN 使用 3-D backbone 网络将体素编码为 3-D 特征 volumes。然后采用二维检测头来生成区域 proposal。与大多数使用单个子网络细化区域建议的最先进的两级 3D 检测器不同， CRN 逐步细化和补充来自一系列子网工作的预测，形成高质量的预测。此外，论文设计了一种新的级联注意力模块（CAM）来聚合来自不同阶段的特征以进行全面的区域提议细化。
CasA 集成了 part-aided 评分，将 parts 的目标完整性视为 structure-aware 单级 3D 目标检测 [structure-aware 单级检测器 (SA-SSD)]，以更好地估计 proposal confidence。

论文背景

3D 目标检测是场景理解的关键任务之一。
现有方法主要遵循单级或两级检测框架。
单阶段方法直接使用点云的编码特征执行目标检测。
两阶段方法遵循 region-based 卷积神经网络（RCNN）框架。首先生成一组候选边界框，然后使用感兴趣区域（RoI）池化方法提取提案的区域特征，最后使用提取的特征细化 proposal。

多阶段（两阶段之外）的方法已经被广泛探索，并在2D 目标检测中被证明是有效的。但在点云上进行完全监督的 3-D 目标检测的多阶段方法仍未得到充分探索。当前的多阶段方法和级联结构使用一系列独立的子网络来细化目标 proposal。一般来说，这些方法可以学习各种困难下的对象特征，但在后面的阶段衡量所有先前阶段 proposal 质量的能力有限。

论文工作

在这里插入图片描述
CasA 是一个多级检测框架，可以集成到各种两阶段 3D 检测器中。目的是以级联注意力方式聚合来自所有阶段的特征。
CasA 由一个 RPN 和一个 CRN 组成：RPN 首先使用 3-D 主干网络和 2-D 检测头来生成区域提案。CRN 由多个子网络组成，该方案聚合不同阶段的提案特征以进行更全面的边界框预测。

Cascade Attention for Proposal Refinemen

普通级联结构

Cascade R-CNN [1] 使用普通级联结构，该结构使用一系列单独的子网络并提高 IoU 阈值来细化区域提案。

[1] Z. Cai and N. Vasconcelos, “Cascade R-CNN: Delving into high quality object detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2018, pp. 6154–6162.

这样一个普通级联结构包括 $N_r$ 个refiner。第 $j$ 个 refiner 将来自前一阶段的 region proposal $B^{j-1}$ 作为输入，并利用特征提取器 $\phi(\cdot)$ 来提取目标特征 $F^{j}$ 。然后，对 $F^{j}$ 进行置信度预测 $\mathcal {S(\cdot)}$ 以及 box 回归 $\mathcal R(\cdot)$ ，输出为一个新的置信分数 $C^j$ 和新的 box $B^j$ 。公式如下： $\tag 1 F^{j}=\phi^{j}(B^{j-1})，C^{j} = \mathcal S^{j}(F^j)，B^{j}=\mathcal R^{j}(F^{j})$ 其中 $j = 1,2,...,N_r$ 。
这种设计已在二维物体检测中被证明是有效的。然而，直接在 3D 中应用这种普通级联结构并不能带来理想的改进。例如，在 KITTI 验证集上，使用具有普通级联结构的 Voxel-RCNN 检测器，检测性能（在中等汽车类别上），如表 1 所示，没有改善。

在这里插入图片描述
改进不理想的原因有：
1.忽略了远处的目标
在多阶段方法中，由于缺乏负训练样本，后期阶段往往会过度拟合。2-D 方法建立不断上升的 IoU 阈值来重新采样平衡样本。然而，在 3D 点云中，这种重采样会导致附近和远处对象之间的训练不平衡，因为点云通常是非均匀分布的。具有密集点的附近物体可以产生被选为正样本的高质量提案，而远处的物体往往是负样本。
在这种不平衡的训练下，后期会准确地预测附近的物体，而忽略远处的物体。
应对措施：在前面阶段中增加更多的目标 appearance 来确保后面阶段中仍然有足够的 evidence 来恢复被忽略的远处目标

2.误差传播问题
由于需要物体高度和非轴对齐角度估计，3D 检测更具挑战性。Small errors 可能会沿着下游多级框架传播，从而导致检测失败。
应对措施：在阶段之间建立更多的连接，并且单个阶段的 errors 可以由其他阶段以互补的方式修复。

论文在这些 refiner 之间建立有效的连接，以组成有效的精炼。最后，设计了特征提取器 CAM 来聚合不同阶段的目标特征。

通过级联注意力进行特征聚合

给出一个 region proposal $B^{j-1}$ ，大部分已知的检测器使用一个 region pooling module 来提取提议特征 $\hat F^j \in \R^{1 \times C}$ 来做 box 回归以及置信度预测，其中 $C$ 是特征维度。
然而在级联结构中，这样的策略只能捕捉到当前阶段的 proposal 特征，忽略了先前的其他阶段。一个简单的方法是直接拼接来自不同阶段的特征。但是这很难学习到阶段与阶段之间的特征重要性，并且它带来的性能提升有限。

论在对于每个编码的特征 $\hat F^j$ ，首先连接了一个阶段的的位置 embedding $P^j$ 。 $\hat F^j = [\hat F^j,P^j]$ 。在第 $j$ 个 refinement 阶段，收集来自其他所有先前阶段的 $\boldsymbol F^j=[\hat F^0,\hat F^1,...,\hat F^j]$ 。然后有 $\boldsymbol Q^j = \hat F^j \boldsymbol W_q^j,\boldsymbol K^j = \hat F^j \boldsymbol W_k^j\boldsymbol, V^j = \hat F^j \boldsymbol W_v^j$ ，其中 $\boldsymbol {W_q^j,W_k^j,W_v^j}$ 都是线性投影。 $\boldsymbol {Q^j,K^j,V^j}$ 分别是 Query、Key 和 value embedding。为了增强 representational ability，采取了多头设计。来自第 $i$ 个头的 embeding 为 $\boldsymbol {Q_i^j,K_i^j,V_i^j}$ 。一个头的注意力为： $\tag2 \hat F_i^j = \text{softmax} \Big( \frac{ \boldsymbol {Q_i^j} (\boldsymbol K_i^j)^T} {\sqrt{C^{'}}} \Big) \boldsymbol V_i^j .$ 其中 $C^{'}$ 是多头注意力中的特征维度。直观上，现阶段的特征对 proposal refinement 贡献更大。因此，我们还将特征 $\hat F^j$ 与 $H$ 多头注意力特征连接起来，以制定用于框回归和置信度预测的特征向量 $F^j$ ： $\tag3 F^j = \text{Concat}(\hat F^j,\boldsymbol F^j_1,\boldsymbol F^j_2,...,\boldsymbol F^j_H).$ 对于第一个细化阶段，实际上执行自注意力操作。对于其他阶段，我们执行 cross-attention 操作，聚合来自不同阶段的特征。通过采用这样的级联注意力设计，CasA可以更好地估计所有阶段的 proposal 质量，这有助于提高提案细化的准确性。

Box Regression and Part-Aided Scoring

对相对于输入 3D proposal 的 box size，位置，方向残差进行回归。论文受到 part-sensitive warping[2] 对部分分数图中的目标分数进行平均的启发设计了一个 part-Aided score $a^j$ 来增强置信度预测。

C. He, H. Zeng, J. Huang, X.-S. Hua, and L. Zhang, “Structure aware single-stage 3D object detection from point cloud,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2020, pp. 11873–11882.

在 pipeline 中，从局部（part-based）和全局视角进行 part-aided score 的计算。具体来说， $\alpha^j$ 由置信度预测分支 $\mathcal S(\cdot)$ 和 part-sensitive warping $\mathcal W(\cdot)$ 来计算： $\tag4 \alpha^j=\mathcal S^j(F^j)+\mathcal W(B^j,\boldsymbol X)$ 其中 $\boldsymbol X$ 是由 RPN 预测的 part score map。通过这样调制，新的 part-aided scoring 使检测器可以更加精确的估计每个阶段的对象置信度。

在训练中，类似于级联的 R-CNN，设置 3-D IoU 阈值 $u =\{ u^1,u^2,...,u^{N_r}\}$ 来定义在不同精细化阶段的正负。
在测试中，对所有细化阶段的框和分数进行平均生成最终检测结果。

Boxes Voting

由于需要物体高度和非轴对齐角度估计，3D 检测更具挑战性。错误倾向于沿着下游多级框架传播。为了进一步解决这个问题，在测试过程中，提出了 Boxes Voting，以建立更多的阶段之间的连接。每个阶段都会输出弱预测和强预测，这些预测可以集成在一起以生成更准确的预测。每个阶段都会输出弱预测和强预测，这些预测可以集成在一起以生成更准确的预测。

一种简单的方法是直接对所有框进行非极大值抑制（Nonmaximum Suppression，NMS），并通过选择置信度最高的框来 assemble 结果。然而，它忽略了低置信度的框，这些框有可能可以检测出未被检测出的目标。

应对措施：论文采用加权 Boxes Voting，直接平均检测置信度，并将按检测置信度加权的框合并为 $\tag 5 C=\frac{1}{N_r}\sum_jC^j$ $\tag6 B = \frac{1}{\sum_jC^j}\sum_jC^j \cdot B^j$ 其中 $C$ 和 $B$ 分别是合并的置信度和框。
经过 Boxes Voting，得到了一组 refined 高品质 boxes。尽管如此，仍然存在很多冗余 boxes，因为每个目标都有许多 refined proposal。为了删除冗余框，最终对投票结果执行 NMS 以产生检测输出。

通过采用投票机制，不同精炼者产生的各种预测（置信度较低、视角/尺度不同）可以以互补的方式组合成更准确/可靠的最终预测。

Backbone Network

首先将原始点云 P 分割成小体素。对于每个体素，使用所有内部点的原始特征的平均值来计算原始特征。采用 3-D 稀疏卷积 $\mathcal S(·)$ 将 3-D 点云编码为特征 volumes。这里， $\mathcal S(·)$ 由一系列 $3 \times 3 \times 3$ 的 3-D 稀疏卷积核组成，它们将空间特征下采样到 $1 \times 、 2 \times 、 4 \times$ ，最终得到 $8 \times$ 下采样的张量。最后一层中的 3D 特征沿着高度维度被压缩为 BEV 特征，用于生成目标 proposal。

区域提议网络 RPN

通过在 BEV 特征图上应用一系列二维卷积来生成目标 proposal ，并从 BEV 图生成目标 proposal。
首先在 BEV 地图的最后一层上预定义称为锚点的 $N_p$ 个目标模板。通过对锚点进行分类并回归相对于真实框的对象大小、位置和方向角的残差来生成目标 proposal。通过基于 IoU 的匹配将真实边界框分配给锚点。对于第 $i$ 个锚点，描述得分预测，得分目标以及残差预测和残差目标为 $a_i,\hat a_i,\delta_i,\hat \delta_i^j$ 。Proposal network的损失定义为： $\tag7 \mathcal L_{RPN} = \frac{1}{N_p} \Big[ \sum_i \mathcal L_{score}(\alpha,\hat \alpha_i)+ \mathcal I(IoU > u) \sum_i{\mathcal L_{reg}(\delta_i,\hat \delta_i)} \Big]$ 其中 $\mathcal I(IoU_i > u)$ 表示只有 $IoU_i > u$ 的目标 proposal 才会产生回归损失， $\mathcal L_{reg}$ 和 $\mathcal L_{score}$ 分别是平滑 L1 和二元交叉熵损失。

总体训练损失

CasA 可以通过 RPN 损失 $L_{RPN}$ 和 CRN 损失 $L_{CRN}$ 进行端到端训练。将两个损失以相同的权重结合起来，即 $L = L_{RPN} + L_{CRN}$ 。
CRN 损失是多个阶段的多个细化损失的总和。在每个细化阶段，采用框回归损失 $L_{reg}$ 和得分损失 $L_{score}$ 。对于第 $j$ 个细化阶段的第 $i$ 个提案， $a_i^j,\hat a_i^j,\delta_i^j,\hat \delta_i^j$ 表示分数预测、分数目标、残差预测、残差目标。

CRN 的 loss 被定义为： $\tag 8 \mathcal L = \frac{1}{N_b} \Big[ \sum_i \sum_j \mathcal L_{score}*(\alpha_i^j,\hat \alpha_i^j)+\mathcal I\Big( IoU_i^j > u^j \Big) \sum_i \sum_j \mathcal L_{reg} \Big( \delta_i^j, \hat\delta_i^j \Big) \Big]$ 其中， $\mathcal I\Big( IoU_i^j > u^j \Big)$ 表示只有 $IoU^j_i > u^j$ 的 object proposals 才会产生回归损失。