计算机视觉算法——基于深度学习的高精地图算法（MapTRv2 / PivotNet / BeMapNet）

计算机视觉算法——基于深度学习的高精地图算法（MapTRv2 / PivotNet / BeMapNet）
1. MapTRv2
- 1.1 网络结构及特点
- 1.2 Decoupled Self-Attention
- 1.3 One-to-many Set Prediction Loss & Auxiliary Dense Prediction Loss
- 1.4 实验结果
2. PivotNet
- 2.1 网络结构及特点
- 2.2 Line-Aware Point Decoder
- 2.3 Pivot Dynamic Matching Module
- 2.4 损失函数
- 2.5 实验结果
3. BeMapNet
- 3.1 网络结构
- 3.2 IPM-PE Align Layer
- 3.3 Bezier Output Head
- 3.4 损失函数
- 3.5 实验结果

计算机视觉算法——基于深度学习的高精地图算法（MapTRv2 / PivotNet / BeMapNet）

去年总结过几篇经典的高精地图算法计算机视觉算法——基于深度学习的高精地图算法（HDMapNet / VectorMapNet / MapTR / VectorNet），一年过去了这个方向上又许多进展，这篇博客主要记录最近看过的几篇相关Paper

1. MapTRv2

MapTRv2是对MapTR的扩展，相对于MapTR其主要内容区别主要在于

引入了Decoupled Self-Attention模块，可以减少内存占用以及提高性能；
引入了辅助的One-to-many Set Prediction Loss和Auxiliary Dense Prediction Loss来加速收敛；

1.1 网络结构及特点

MapTRv2的网络结构如下图所示：
在这里插入图片描述

1.2 Decoupled Self-Attention

Decouple Self-Attention的原理如上图中Self-Attention Variants所展示的，在原始的MapTR中如果有 $N$ 个Instantce Query和 $N_v$ 个Point Query，则Self-Attention是在 $\times N_v$ 个组合Query上进行的，计算复杂度为 $O\left(\left(N \times N_v\right)^2\right)$ ，MapTRv2中提出的方法是先进行Instance级别的Self-Attention，再进行Point级别的Self-Attention，这样计算复杂度可以降低为 $\left.O\left(N^2+N_v^2\right)\right)$ ，实验结果如下：
在这里插入图片描述
可以看到如果只进行Instance级别的Self-Attention网络性能是会下降的，使用Decoupled Self-Attention不仅可以降低GPU内存占用，同时可以提高网络性能。

在Cross-Attention部分作者也做了部分调整，如下图所示
在这里插入图片描述
当使用BEV+PV混合Cross Attention时，当在有准确的Z值是（av2.3D）数据集，是有性能提升的。

1.3 One-to-many Set Prediction Loss & Auxiliary Dense Prediction Loss

在MapTRv2中损失函数一共由One-to-One Set Prediction Loss、One-to-many Set Prediction Loss、Auxiliary Dense Prediction Loss三部分构成： $\mathcal{L}=\beta_o \mathcal{L}_{\text {one2one }}+\beta_m \mathcal{L}_{\text {one2many }}+\beta_d \mathcal{L}_{\text {dense }} .$ 其中One-to-One Set Prediction Loss和MapTR中是一致的，参见计算机视觉算法——基于深度学习的高精地图算法（HDMapNet / VectorMapNet / MapTR / VectorNet）

One-to-many Set Prediction Loss的原理如下图所示：
在这里插入图片描述
对于One-to-One Set Prediction Branch是对 $L$ 个真值分配 $N$ 个预测的Instance Query，在 One-to-many Set Prediction Branch中则将 $L$ 个真值复制 $K$ 份，然后使用额外的 $T$ 个Instance Query进行预测，在One-to-many Set Prediction Branch中和One-to-One Set Prediction Branch共享Point Query。这样做相当于增加了正样本的比例，从而可以加速收敛。

Auxiliary Dense Prediction Loss分为三个部分，分别是深度监督损失 $\mathcal{L}_{\text {depth }}$ ，BEV分割损失 $\mathcal{L}_{\text {BEVSeg }}$ ，PV分割损失 $\mathcal{L}_{\text {PVSeg }}$ ，其中深度监督损失使用的是激光点云作为真值，使用Cross Entropy Loss进行监督： $\mathcal{L}_{\text {depth }}=\sum_{m=1}^M \mathcal{L}_{\mathrm{CE}}\left(\phi_{\text {depth }}\left(F_m\right), D_m\right)$ BEV分割损失 $\mathcal{L}_{\text {BEVSeg }}$ ，PV分割损失 $\mathcal{L}_{\text {PVSeg }}$ 如下： $\mathcal{L}_{\text {BEVSeg }}=\mathcal{L}_{\mathrm{CE}}\left(\phi_{\mathrm{BEVSeg}}\left(F_{B E V}\right), M_{B E V}\right) .$ $\mathcal{L}_{\mathrm{PVSeg}}=\sum_{m=1}^M \mathcal{L}_{\mathrm{CE}}\left(\phi_{\mathrm{PVSeg}}\left(F_m\right), M_{P V}^m\right) .$ 如下图是各个各个损失带来的收益:
在这里插入图片描述
可以看到收益最明显的是 One-to-many Set Prediction Loss。

1.4 实验结果

MapTRv2和其他方法的对比结果如下：
在这里插入图片描述
在相同的配置下，MapTRv2相对于MapTR有10个点的提升，如下图是MapTR和MapTRv2的训练收敛速度，同样提升明显

2. PivotNet

PivotNet发表于2023年ICCV，PivotNet提出了一种基于枢纽点的高精地图建模方法，该方法相对于MapTR提出的基于均匀点的建模方法有Corner Friendly、Geometry Robust、Expression Compact等优势，如下图所示：
在这里插入图片描述
枢纽点的定义如下图所示：

Pivot Point $\mathcal{S}^p$ 是对线的整体形状和方向有贡献的、保持其基本特征所必需的点。Collinear Point $\mathcal{S}^c$ 则是那些除枢纽点之外可以安全删除并且不影响线条形状的点。

2.1 网络结构及特点

网络结构如下图所示：
在这里插入图片描述
在Decoder部分使用是Line-Aware Point Decoder获得Point Feature，然后再通过Pivotal Point Predictor进行最终结果预测，下面我们对这两部分进行详细介绍

2.2 Line-Aware Point Decoder

Line-Aware Point Decoder的结构图如下图所示
在这里插入图片描述
Decoder的输入是

维度为 $\times W \times C'$ 的BEV Feature；
随机初始化的 $\times N$ 个维度为 $C$ 的Point Query，其中 $M$ 为Instance的数量， $N$ 为每个Instance上Point的数量。

该模块首先将属于同一个Instance的Point Query进行Concat，然后Concat后维度为 $\times C$ 的Feature经过一个MLP将维度降到和BEV Feature相同的维度 $C^{'}$ ，得到Line Feature，然后将Line Feature和BEV Feature进行逐Pixel的矩阵相乘得到维度为 $\times W \times 1$ 的Line-aware Mask。该Line-aware Mask主要是用来限制Point Query和BEV Feature进行Cross Attention的范围，通过这种方式就显示编码了点和线的从属关系

2.3 Pivot Dynamic Matching Module

在MapTR中，因为真值在每个Instance上的Point的数量都是相等的，因此我们设置固定数量的Point Query，对Point Query进行匹配时计算最小距离即可。但是在PivotNet中，真值的每个Instance上Pivot Point的数量都是不相等的，当我们设置固定数量的Point Query时就会面临如何将不同数量的Pivot Point匹配当固定数量的Point Query上进行监督。
在这里插入图片描述

例如我们将Point Query定义为 $\hat{\mathcal{S}}=\left\{\hat{v}_n\right\}_{n=1}^N$ ，其中 $N$ 为每个Instance分配的Point Query的数量，真值定义为 $\mathcal{S}^p=\left\{v_n\right\}_{n=1}^T$ ， $T$ 每个Instance真值中Pivot Point的数量，不同Instance这个值是动态变化的。如果我们不进行任何限制，那么这种匹配关系就会有 $\beta = C_N^T$ 中可能，那么正确的匹配结果定义如下： $\mathcal{L}_{\text {match }}\left(\hat{\mathcal{S}}, \mathcal{S}^p, \beta\right)=\frac{1}{T} \sum_{n=1}^T\left\|v_n-\hat{v}_{\beta(n)}\right\|_1$ $\beta^*=\underset{\beta}{\arg \min } \mathcal{L}_{\text {match }}\left(\hat{\mathcal{S}}, \mathcal{S}^p, \beta\right),$ 为了减小匹配的计算复杂度，算法指定真值的Pivot Point序列和预测的Point Query序列的收尾的对应的，即 $\beta(1)=1, \beta(T)=N$ ，通过动态规划的方法求解匹配关系，定义 $d p [i] [j]$ 为前 $i$ 个Pivot Point和前 $j$ 个Point Query的最小匹配损失，然后计算 $p[i][j]=\min _{k \in[1, j-1]} d p[i-1][k]+\left\|v_i-\hat{v}_j\right\|_1$ 定义 $p[1][1]=\left\|v_1-\hat{v}_1\right\|_1$ ，通过这种方式可以将计算复杂度从 $O\left(C_N^T\right)$ 降低为 $O (NT)$

在Ablation Study中可以看到Pivot Dynamic Matching Module可以带来性能上的提升
在这里插入图片描述

2.4 损失函数

Pivot损失函数主要由三部分构成： $\mathcal{L}_{T O T A L}=\mathcal{L}_{D V S}+\lambda_1 \mathcal{L}_{L A}+\lambda_2 \mathcal{L}_{B E V}$ 其中Line-aware Loss监督的是Instance级别Line-aware Mask，其定义为 $\mathcal{L}_{L A}=\mathcal{L}_{\text {bce }}\left(\hat{M}_{\text {line }}, M_{\text {line }}\right)+\mathcal{L}_{\text {dice }}\left(\hat{M}_{\text {line }}, M_{\text {line }}\right)$ Auxiliary BEV Loss是对整个BEV的分割结果定义为： $\mathcal{L}_{B E V}=\mathcal{L}_{\text {bce }}\left(\hat{M}_{\text {bev }}, M_{\text {bev }}\right)+\mathcal{L}_{\text {dice }}\left(\hat{M}_{\text {bev }}, M_{\text {bev }}\right)$ Dynamic Vectorized Sequence Loss由Pivotal Point Loss $\mathcal{L}_{p p}$ 、Collinear Point Loss $\mathcal{L}_{c p}$ 和Pivot Classification Loss $\mathcal{L}_{c l s}$ 三部分构成 $\mathcal{L}_{D V S}=\alpha_1 \mathcal{L}_{p p}+\alpha_2 \mathcal{L}_{c p}+\alpha_3 \mathcal{L}_{c l s}$ 其中 $\mathcal{L}_{p p}=\frac{1}{T} \sum_{n=1}^T\left\|\hat{\mathcal{S}}_n^p-\mathcal{S}_n^p\right\|_1$ 为Pivot Point距离上的L1损失 $\mathcal{L}_{c p}=\frac{1}{N-T} \sum_{n=1}^{T-1} \sum_{r=1}^{R_n}\left\|\hat{C}_{n, r}-C_{n, r}\right\|_1 \\ C_{n, r}=\left(1-\theta_{n, r}\right) S_n^p+\theta_{n, r} S_{n+1}^p,$ 为Collinear Point距离上的L1损失，Collinear Point等间距地分布在Pivot Point之间 $\mathcal{L}_{c l s}=\frac{1}{N} \sum_{n=1}^N \mathcal{L}_{b c e}\left(p_n, \mathbb{1}_{\hat{\mathcal{S}}_n \in \hat{\mathcal{S}}^p}\right),$ 为Pivot Point和Collinear Point分类损失，在进行预测时只输出Pivot Point。

2.5 实验结果

PivotNet和其他方法的对比结果如下
在这里插入图片描述
PivotNet相对于MapTR在指标上大概有10个点的提升，但是FPS有所下降。

3. BeMapNet

BeMapNet发表于2023年，该方法提出了一种基于贝塞尔曲线的高精地图建模方法，贝塞尔曲线是由一组有序控制点组成的参数曲线，在论文中的定义如下： $p(t)=\sum_{i=0}^n b_{i, n}(t) c_i, t \in[0,1]$ 其中 $c_i$ 为控制点坐标， $n$ 为曲线阶数， $b_{i, n}(t)$ 为 $n$ 阶伯因斯坦多项式基： $b_{i, n}(t)=\binom{n}{i} t^i(1-t)^{n-i}, i=0, \ldots, n$ 我们通过控制不同 $t$ 就可以得到贝塞尔曲线上不同的点，其中一、二、三阶贝塞尔曲线公式如下： $\mathbf{B}(t)=(1-t) \mathbf{P}_0+t \mathbf{P}_1 \quad, t \in[0,1]$ $\mathbf{B}(t)=(1-t)^2 \mathbf{P}_0+2 t(1-t) \mathbf{P}_1+t^2 \mathbf{P}_2 \quad, t \in[0,1]$ $\mathbf{B}(t)=\mathbf{P}_0(1-t)^3+3 \mathbf{P}_1 t(1-t)^2+3 \mathbf{P}_2 t^2(1-t)+\mathbf{P}_3 t^3 \quad, t \in[0,1]$ 对应的示意图为
在这里插入图片描述
如下图所示，我们可以通多段低阶贝塞尔曲线进行组合进行高精地图的表达，在BMapNet中要求同一种地图元素其采用的贝塞尔曲线的阶数是一致的，但是段数是不同的，其中Lane-Divider默认使用3段2阶贝塞尔曲线，Ped-Crossing默认使用的是1段1阶贝塞尔曲线，Road-Boundary默认使用的是7段3阶贝塞尔曲线：
在这里插入图片描述

3.1 网络结构

在这里插入图片描述
其中Semantic BEV Decoder结合一个 $\times 1$ 的卷积可以获得一个Semantic-Level Mask，Instance Bezier Decoder采用的是MaskFormer的结构，其可以输出Instance-Level Mask，最后通过Piecewise Bezier Output Head可以输出控制点序列，下面我们逐模块看下其设计

3.2 IPM-PE Align Layer

在BeMapNet中BEV Decoder部分采用的是原始的DETR形式的Decoder，具体说来就是将PV图像的Feature进行Flatten，然后使用BEV Query与其进行Cross Attention，这种方法的明显问题是没有用到PV和BEV之间的投影几何关系。IPM-PE Align Layer的作用就是期望将这种几何关系通过Position Embedding引入到Decoder中，如下图所示：
在这里插入图片描述
具体来说就是将PV Feature上的每一个点通过IPM映射获得对应Work系下的一个坐标，同时BEV Feature上的每一个点通过Scale操作也对应World系下的一个坐标，然后分别通过Sin映射获得World PE，最后一个Shared FC Layer分别获得PV Feature和BEV Feature对应的Position Embedding，使用Shared FC Layer的目的是为了消除IPM引入的高度误差。
在这里插入图片描述
如下是IPM-PE的效果对比

值得关注的是Shared FC模块的作用是最重要的，如果使用两个分开的FC则会抵消掉IPM-PE带来的收益

3.3 Bezier Output Head

首先，如下图所示，Bezier Output Head预测的是下图中蓝色的显示控制点以及显示控制点中点到隐式控制点的向量，并没有直接预测隐式控制点的坐标。
在这里插入图片描述
Bezier Output Head的结构如下图所示：

其中End-Index Classifier用于预测使用的贝塞尔曲线的段数，Explicit Point和Implicit Offsets则是通过Split Coordinate Regression对每段贝塞尔曲线的显示控制点和隐式控制点的预测。

Split Coordinate Regression模块的一路输入为Instance Bezier Descriptor $\vec{z}_i \in \mathbb{R}^C$ ，通过一个全卷积层将维度统一为 $\cdot v$ ，然后通过Split操作将特征拆分为 $u$ 个维度为 $v$ 的特征 $x_i^j \in \mathbb{R}^v$ ， $\in[1, u]$ 。另外一路输入是表征二维坐标的矩阵 $\in \mathbb{R}^{2 \times H_s \times W_s}$ ，通过一个 $\times 1$ 卷积转化为 $F_G \in \mathbb{R}^{v \times H_s \times W_s}$ ，将 $x_i^j$ 和 $F_G$ 进行矩阵乘得到 $h_i^j \in \mathbb{R}^{H_s \times W_s}$ ，将 $h_i^j$ 进行Global Average Pooling就得到最后的坐标值。

3.4 损失函数

损失函数中最主要的是Poin-Curve-Region Recovery Loss，该Loss如下图所示由三部分构成：
在这里插入图片描述
$\mathcal{L}_{P C R}=\lambda_p \mathcal{L}_{\text {point }}+\lambda_c \mathcal{L}_{\text {curve }}+\lambda_r \mathcal{L}_{\text {region }}$ Point-Level Supervision即对控制点进行L1 Loss的监督： $\mathcal{L}_{\text {point }}=\frac{1}{|\widehat{\mathbb{C}}|} \sum_{i=1}^{|\widehat{\mathbb{C}}|}\left\|\mathbb{C}_i-\widehat{\mathbb{C}}_i\right\|_1,$ 其中 $\mathbb{C}_i$ 为真值， $\widehat{\mathbb{C}}_i$ 为预测值

Curve-Level Supervision即对使用控制点向量化得到曲线上的点进行L1 Loss监督 $\mathcal{L}_{\text {curve }}=\frac{1}{|\widehat{\mathcal{P}}|} \sum_{i=1}^{|\widehat{\mathcal{P}}|}\left\|\mathcal{P}_i-\widehat{\mathcal{P}}_i\right\|_1$ 同理 $\mathcal{P}_i$ 为真值， $\widehat{\mathcal{P}}_i$ 为预测值

Region-Level Supervision即对曲线膨胀获得的区域构建监督： $\mathcal{L}_{\text {region }}=\mathcal{L}_{\text {dice }}\left(\mathcal{S}\left(M, \widehat{\mathcal{P}}^{\sharp}\right), \mathcal{S}\left(\widehat{M}, \widehat{\mathcal{P}}^{\sharp}\right)\right)$ 其中 $S$ 为基于Grid采样的运算符， $\mathcal{P}^{\sharp}$ 为 $\mathcal{P}_i$ 的膨胀后区域， $\widehat{M}$ 为预测的Instance Mask， $M$ 为Instance Mask的真值。

除了Poin-Curve-Region Recovery Loss，BeMapNet同样加入了多任务辅助损失： $\mathcal{L}_{A U X}=\lambda_s \mathcal{L}\left(\mathbb{M}_s, \widehat{\mathbb{M}}_s\right)+\lambda_z \mathcal{L}\left(\mathbb{M}_z, \widehat{\mathbb{M}}_z\right)$
包括对BEV的分割损失 $\mathcal{L}\left(\mathbb{M}_s, \widehat{\mathbb{M}}_s\right)$ ，Instance Level Mask的监督 $\mathcal{L}\left(\mathbb{M}_z, \widehat{\mathbb{M}}_z\right)$ 。