VAD 论文学习

VAD: Vectorized Scene Representation for Efficient Autonomous Driving

解决了什么问题？
相关工作
- 感知
- 运动预测
- 规划
提出了什么方法？
- 概览
- 1. 矢量化的场景学习
- - 矢量化地图
  - 交通参与者的矢量化运动
- 2. Planning via Interaction
- - 自车-其它交通参与者的交流
  - 自车-地图之间的交流
  - 规划头
- 3. Vectorized Planning Constraint
- - 自车-其它交通参与者的碰撞约束
  - 自车-边界的越界约束
  - 自车-车道线方向的约束
- 4. End-to-End Learning
- - - 矢量化的场景学习损失
  - 矢量化约束损失
  - 模仿学习损失
实验
- 实现细节
- 主要结果
- - 开环规划结果
  - 闭环规划结果
- 消融实验
- - 设计的有效性
  - 栅格化地图表示
  - 每个模块的运行时间
- 定性结果

论文地址：https://arxiv.org/abs/2303.12077
代码地址：https://github.com/hustvl/VAD

解决了什么问题？

出于安全性考虑，自动驾驶需要对场景的全面理解；同时，为了实际部署考虑，也需要考虑到效率问题。自动驾驶车辆需要高效地感知驾驶场景，基于场景信息来做合理的规划。

传统的自动驾驶方法采用了模块化范式，感知和规划被解耦成两个单独的模块。缺点就是，规划模块无法获取传感器的原始数据，而这些数据具有丰富的语义信息。规划模块完全基于前面的感知结果，感知模块的错误会严重影响后面的规划任务，如果规划模块无法识别和纠正的话就会引发安全问题。

最近，端到端的自动驾驶方法将传感器数据作为输入，直接输出规划结果，整个过程由一个整体的模型完成。一些工作直接基于传感器数据输出规划结果，而没有学习场景表示，这就缺乏可解释性，很难对其做优化。大多数的工作为了做规划，将传感器数据转化为栅格化的场景表示（语义地图、占用地图、光流图和代价图）。虽然栅格化表示够直接，但非常消耗计算资源，丢失了重要的实例级的结构信息。

提出了什么方法？

本文提出了 VAD (Vectorized Autonomous Driving)，它是一个针对自动驾驶任务的端到端的矢量化范式，将驾驶场景建模为一个完全矢量化的表示（即矢量化的交通参与者运动和矢量化地图），无需算力密集型的栅格化表示。矢量化地图（表示为边界矢量和车道矢量）提供了道路结构信息（如交通流、可行驶区域、车道方向），帮助自动驾驶车辆缩小轨迹的搜索空间，并规划出一条更加合理的轨迹。交通参与者的运动趋势（表示为交通参与者的运动矢量）则为防止碰撞发生，提供了实例级的约束。

这个矢量化范式有两个显著优势：

VAD 将交通参与者的矢量化运动趋势和地图元素直接作为实例级的规划约束，有效提升了规划的安全性。
VAD 要比之前的端到端规划方案快很多，因为它摆脱了计算密集型的栅格化表示和人为设计的后处理步骤。

VAD 充分利用了矢量化信息，直接或间接地指导规划。一方面，VAD 利用地图 queries 和交通参与者 queries 从传感器数据隐式地学习实例级地图特征和参与者的运动特征。通过 query 交流提取规划任务的指导信息。另一方面，VAD 基于直接的矢量化场景空间，提出了三个实例级的规划约束：

自车-交通参与者碰撞约束，在自车和其它动态参与者之间保持一定的纵向和横向安全距离；
自车边界越界约束，将规划的轨迹推向远离道路边界的方向，确保车辆不会驶出道路，从而提高行车安全性；
自车车道方向约束，规范自车未来的运动方向，使其与矢量化的车道方向一致，有助于自车保持在车道内，并按照预期的方向行驶。

VAD 在 nuScenes 数据集上取得了 SOTA 的规划表现，大幅度地超越了之前的最佳方法。与之前的 SOTA 方法 UniAD 相比，基线模型 VAD-base 极大地降低了平均规划位移误差约 $30.1\%$ ，平均碰撞率降低了 $29\%$ ，而运行速度快了 $2.5\times$ 倍。此外，轻量级版本 VAD-Tiny 也显著地提升了推理速度（提升了 $9.3\times$ 倍），平均位移错误为 $0.78 m$ 、平均碰撞率为 $0.38\%$ 。

概览

VAD 的整体结构如下图所示。给定多帧的多视角图像作为输入，VAD 首先用一个主干网络编码图像特征，利用一组 BEV queries 将图像特征映射为 BEV 特征。其次，VAD 利用一组交通参与者 queries 和地图 queries，学习矢量化的场景表示，包括矢量化的地图和矢量化的参与者运动。然后，基于场景信息做规划。VAD 通过自车 query 与参与者 queries 和地图 queries 交流，隐式地学习场景信息。根据自车 query、自车状态特征和高层级的驾驶指令，规划头输出规划的轨迹。此外，VAD 引入了三个矢量化的规划约束，限制每个实例的规划轨迹。VAD 完全可微，以端到端的方式训练。

1. 矢量化的场景学习

感知交通参与者和地图元素对于场景理解非常重要。VAD 将场景信息编码为 query 特征，用地图矢量和交通参与者的运动矢量来表示场景。

矢量化地图

之前的工作使用栅格化语义图来指导规划，丢失了地图上重要的实例结构信息。VAD 使用一组地图 queries $Q_m$ ，从 BEV 特征图上提取地图信息，预测地图矢量 $\hat{V}_m \in \mathbb{R}^{N_m\times N_p\times 2}$ 及每个地图矢量的类别分数， $N_m$ 和 $N_p$ 分别是预测的地图矢量的个数和每个地图矢量里的点的个数。地图元素有三种：分道线、道路边缘和人行横道。分道线提供方向信息，道路边缘表示可行驶区域。利用地图 queries 和地图矢量来提升规划的表现。

交通参与者的矢量化运动

VAD 首先用一组参与者 queries $Q_a$ 从 BEV 特征图上，通过可变形注意力来学习交通参与者的特征。用一个基于 MLP 的解码头，对参与者 queries 做解码，得到交通参与者的属性（位置、类别分数、朝向角等）。为了使参与者的特征更加丰富，VAD 通过注意力机制，进行了参与者之间的信息交流、参与者与地图的信息交流。VAD 预测每个参与者的未来轨迹，表示为多模态的运动矢量 $\hat{V} \in \mathbb{R}^{N_a \times N_k \times T_f \times 2}$ ， $N_a, N_k, T_f$ 分别是参与者的个数、轨迹模态的个数和未来时间戳的个数。运动矢量的每个模态表示一种驾驶意图。VAD 针对每个模态都输出一个概率分数。参与者的运动矢量用来限制自车的规划轨迹，避免发生碰撞。同时，参与者 queries 会作为场景信息，被送入规划模块。

2. Planning via Interaction

自车-其它交通参与者的交流

VAD 使用一个随机初始化的自车 query $Q_{ego}$ 来学习隐式的场景特征。为了学习其它动态交通参与者的位置和运动信息，自车 query 首先通过一个 Transformer 解码器与其它参与者 queries 做交流，自车 query $Q_{ego}$ 作为注意力的 query $q$ 使用，而其它参与者的 queries $Q_a$ 作为 key $k$ 和 value $v$ 使用。感知模块预测自车的位置 $p_{ego}$ 和其它参与者的位置 $p_a$ ，然后用一个单层 MLP $\text{PE}_1$ 来编码 $p_{ego}$ 和 $p_a$ ，得到 query 位置编码 $q_{pos}$ 和 key 位置编码 $k_{pos}$ 使用。位置编码提供了自车和其它交通参与者之间的相对位置关系，上述过程可以表述为：

$\begin{equation} \begin{split} &Q_{ego}'=\text{TransformerDecoder}(q,k,v,q_{pos},k_{pos}) \\ &q=Q_{ego},\ k=v=Q_a,\\ &q_{pos}=\text{PE}_1 (p_{ego}),\ k_{pos}=\text{PE}_1(p_a). \end{split} \end{equation}$

自车-地图之间的交流

当和其它参与者 queries 完成交流后，更新后的自车 query $Q_{ego}'$ 会和地图 queries $Q_m$ 以相似的方式进一步做交流。唯一的区别就是使用了一个不同的 MLP $\text{PE}_2$ ，编码自车的位置和地图元素的位置。输出的自车 query $Q_{ego}''$ 包含了驾驶场景的动态和静态信息。该过程表述为：

$\begin{equation} \begin{split} &Q_{ego}''=\text{TransformerDecoder}(q,k,v,q_{pos},k_{pos}) \\ &q=Q_{ego}',\ k=v=Q_m,\\ &q_{pos}=\text{PE}_2 (p_{ego}),\ k_{pos}=\text{PE}_2(p_a). \end{split} \end{equation}$

规划头

因为 VAD 所做的规划是不带高精地图的，因此需要高层级驾驶指令 $c$ 来做导航。VAD 使用三种驾驶指令：左转、右转和直行。因此，规划头将 $Q_{ego}', Q_{ego}'')$ 和当前自车的状态 $s_{ego}$ （可选的）作为自车特征 $f_{ego}$ ，以及指令 $c$ 作为输入，输出规划轨迹 $\hat{V}\in\mathbb{R}^{T_f\times 2}$ 。VAD 使用一个简单的 MLP 规划头，解码过程如下所示：

$\begin{equation} \begin{split} &\hat{V}_{ego} = \text{PlanHead}(\text{ft}=f_{ego},\ \text{cmd}=c),\\ &f_{ego}=[Q_{ego}', Q_{ego}'', s_{ego}] \end{split} \end{equation}$

3. Vectorized Planning Constraint

基于地图矢量和运动矢量，VAD 在训练时通过实例级的矢量约束条件来正则化规划轨迹 $\hat{V}_{ego}$ ，如下图所示。

自车-其它交通参与者的碰撞约束

这个碰撞约束直接考虑了自车规划轨迹和其它车辆未来的轨迹之间的兼容性，提升规划的安全性，避免碰撞发生。之前的一些工作使用密集占用地图，而本文所使用矢量化的运动轨迹具有很强的可解释性，对算力要求也不高。作者首先通过一个阈值 $\epsilon_a$ 筛选出低置信度的参与者预测轨迹。对于多轨迹模态的运动预测，将置信度得分最高的那条轨迹作为最终的预测结果。本文将自车在横向和纵向上的安全距离作为碰撞约束。多台车可能在横向方向上靠的比较近，那么就需要在纵向方向上保持一段较安全的距离。因此，作者对不同的方向使用不同的距离阈值 $\delta_X$ 和 $\delta_Y$ 。关于未来的每个时间戳，我们在这两个方向上搜索在 $\delta_a$ 范围内最近的交通参与者。对于每个方向 $i\in \{X,Y\}$ ，如果最近的交通参与者的距离 $d_a^i$ 小于阈值 $\delta_i$ ，则这部分约束的损失项就是 $\mathcal{L}_{col}^i = \delta_i - d_a^i$ ，不然就是 $0$ 。自车-其它交通参与者的碰撞约束可以表述为：

$\begin{equation} \begin{split} &\mathcal{L}_{col} = \frac{1}{T_f} \sum_{t=1}^{T_f} \sum_{i} \mathcal{L}_{col}^{it},\ i\in \{X,Y\}, \\ &\mathcal{L}_{col}^{it}=\left\{ \begin{array}{lr} \delta_i - d_a^{it},&\text{if} \ \ d_a^{it} < \delta_i & \\ 0, &\text{if} \ \ d_a^{it} \geq \delta_i. \end{array} \right. \end{split} \end{equation}$

自车-边界的越界约束

该约束的目的是迫使规划轨迹远离道路的边缘，这样轨迹能保持在可行驶区域里面。我们首先用阈值 $\epsilon_m$ 筛选出低置信度的地图预测。然后，对于每个未来时间戳，计算规划路径点和最近的地图边界线之间的距离 $d_{bd}^t$ 。那么，该项的损失就是：

$\begin{equation} \begin{split} &\mathcal{L}_{bd} = \frac{1}{T_f} \sum_{t=1}^{T_f} \mathcal{L}_{bd}^{t}, \\ &\mathcal{L}_{col}^{it}=\left\{ \begin{array}{lr} \delta_{bd} - d_{bd}^{it},&\text{if} \ \ d_{bd}^{t} < \delta_{bd} & \\ 0, &\text{if} \ \ d_{bd}^{t} \geq \delta_{bd}. \end{array} \right. \end{split} \end{equation}$

$\delta_{bd}$ 就是地图边界的阈值。

自车-车道线方向的约束

车辆的运动方向应该和该车所处的车道线方向保持一致，基于这个先验产生了自车和车道线方向的约束条件。该方向约束通过矢量化的车道线方向来正则化规划轨迹的运动方向。首先，通过阈值 $\epsilon_m$ 筛选出低置信度的地图预测。然后，找到距离每个时刻的预测路径点最近的分道线矢量 $\hat{v}\in \mathbb{R}^{T_f\times 2\times 2}$ （在一定的范围 $\delta_{dir}$ 内）。最后，该项损失就是不同时刻，自车矢量和车道线矢量的角度距离的平均值：

$\begin{equation} \begin{split} &\mathcal{L}_{dir} = \frac{1}{T_f} \sum_{t=1}^{T_f} \text{F}_{ang}(\hat{v}_m^t, \hat{v}_{ego}^t) \end{split} \end{equation}$

$\hat{v}_{ego} \in \mathbb{R}^{T_f \times 2\times 2}$ 是规划的自车矢量。 $\hat{v}_{ego}^t$ 表示从 $t - 1$ 时刻的规划路径点指向 $t$ 时刻的路径点的自车矢量。 $\text{F}_{ang}$ 表示矢量 $v_1$ 和矢量 $v_2$ 之间的角度距离。

4. End-to-End Learning

矢量化的场景学习损失

矢量化的场景学习包括矢量化地图学习和矢量化的运动预测。对于矢量化地图学习，采用了曼哈顿距离来计算预测地图点和 ground-truth 地图点之间的回归损失。此外，使用 focal loss 作为地图分类损失。整体损失记作 $\mathcal{L}_{map}$ 。

对于矢量化运动预测，使用 $l_1$ 损失作为回归损失，预测交通参与者的属性（位置、朝向角和大小等），用 focal loss 预测交通参与者的类别。对于每个与 ground-truth 匹配的交通参与者，预测 $N_k$ 条未来的轨迹，使用最终位移损失最低的那条轨迹作为预测值。然后，计算该预测轨迹和 ground-truth 轨迹的 $l_1$ 损失，作为运动回归损失。使用 focal loss 作为多模态运动的分类损失。整体的运动损失记作 $\mathcal{L}_{mot}$ 。

矢量化约束损失

矢量化的约束损失包括三项约束条件：自车-其它交通参与者的碰撞约束 $\mathcal{L}_{col}$ 、自车-边界的越界约束 $\mathcal{L}_{bd}$ 、自车-车道线方向的约束 $\mathcal{L}_{dir}$ ，用矢量化场景表示对规划轨迹 $\hat{V}_{ego}$ 做正则。

模仿学习损失

模仿学习损失 $\mathcal{L}_{imi}$ 是规划轨迹 $\hat{V}_{ego}$ 和 ground-truth 的自车轨迹 $V_{ego}$ 之间的 $l_1$ 损失，目的是用专家驾驶行为来指导规划轨迹。 $\mathcal{L}_{imi}$ 表示如下：

$\begin{equation} \begin{split} &\mathcal{L}_{imi} = \frac{1}{T_f} \sum_{t=1}^{T_f} \left\| V_{ego}^t - \hat{V}^t_{ego} \right\|_1 \end{split} \end{equation}$

基于矢量化规划约束，VAD 可以做到端到端训练。整体损失是矢量化场景学习损失、矢量化规划约束损失和模仿学习损失的加权和：

$\begin{equation} \begin{split} \mathcal{L} = &\omega_1 \mathcal{L}_{map} + \omega_2 \mathcal{L}_{mot} + \omega_3 \mathcal{L}_{col} +\\ &\omega_4 \mathcal{L}_{bd} + \omega_5 \mathcal{L}_{dir}+ \omega_6 \mathcal{L}_{imi} \end{split} \end{equation}$

实验

作者在 nuScenes 数据集上进行了实验，该数据集包含 1000 段驾驶场景，每个场景大约 20 秒时长。nuScenes 提供了 140 万个 3D 框，属于 23 个类别。用 6 个相机采集了场景的图像，水平覆盖了 $360\degree$ FOV，以 2Hz 的频率标注了关键帧。使用位移损失和碰撞率来综合评价规划的表现。

对于闭环设定，使用 CARLA 模拟器和 Town05 基准来做仿真。使用 Route Completion 和驾驶得分来评价规划的表现。

实现细节

VAD 基于两秒钟的历史信息，规划一个三秒钟的未来轨迹。使用 ResNet-50 作为主干网络，编码图像特征。VAD 在一个 $60m \times 30m$ 的纵向和横向距离的范围内做矢量化建图和运动预测。本文提供了两个版本的 VAD：VAD-Tiny 和 VAD-Base。VAD-Base 是实验的默认模型。BEV query、map query 和 agent query 的个数分别是 $200\times 200, 100\times 20$ 和 $300$ 个。总共有 $100$ 个地图矢量 queries，每个包含 $20$ 个地图点。特征维度和默认的隐藏大小是 $256$ 。与 VAD-Base 相比，VAD-Tiny 所拥有的 BEV queries 个数为 $100\times 100$ 。在运动和地图模块中，BEV 编码层和解码层的个数从 $6$ 降到了 $3$ ，输入图像的尺寸从 $1280\times 720$ 降低到了 $640\times 360$ 。

训练时，置信度阈值 $\epsilon_a$ 和 $\epsilon_m$ 设为 $0.5$ ，距离阈值 $\delta_a$ 、 $\delta_{bd}$ 和 $\delta_{dir}$ 设为了 3米、1米和2米。交通参与者的安全阈值 $\delta_X$ 和 $\delta_Y$ 设为了 1.5米和3米。在训练 VAD 时，使用 AdamW 优化器和余弦退火，weight decay 为 $0.01$ ，初始学习率设为了 $2\times 10^{-4}$ 。在 8 张 GeForce RTX 3090 显卡上训练了 60 个 epochs，每张卡的 batch size 为 1。

用 VAD-Base 做闭环评测。输入图像大小是 $640\times 320$ 。导航信息包括一个稀疏的目的地坐标和对应的离散导航指令。用一个 MLP 编码这部分的导航信息，作为一个输入特征，被送入规划头。

此外，作者加入了一个交通灯识别分支，识别交通信号。它包括一个 ResNet-50 网络和一个 MLP 分类头。该分支的输入是裁剪后的前视图像，对应着图像的上中部分区域。对图像特征图做 flatten 操作，然后送入规划头，帮助模型感知到交通灯信息。

主要结果

开环规划结果

如下表所示，和当前的 SOTA 方法相比，VAD 在速度和表现方面都具有优势。一方面，VAD-Tiny 和 VAD-Base 极大地降低了规划位移错误： $0.25 m$ 和 $0.31 m$ 。同时，VAD-Base 降低了 $29\%$ 的碰撞率。另一方面，由于 VAD 不需要辅助任务（如跟踪和占用图预测）以及繁琐的后处理，它能实现最快的推理速度。VAD-Tiny 在保持准确率的同时，速度提升了 $9.3\times$ 。VAD-Base 取得了最佳的规划表现，运行速度快了 $2.5\times$ 。在开环规划任务，为了防止出现捷径学习，VAD 省略了自车的状态特征，但在下表中，仍然保留了使用自车状态特征的 VAD 结果。

闭环规划结果

VAD 在 Town05 short 基准上，超越了当前 SOTA 的纯视觉端到端规划方法。与 ST-P3 相比，VAD 提升了 $9.15$ 驾驶得分，并有着更优异的 Route Completion。在 Town05 Long 基准上，VAD 取得了 $30.31$ 的驾驶得分，接近基于激光雷达的方法，并且显著地提升了 Route Completion（从 $56.36$ 提升到了 $75.2$ ）。ST-P3 取得了更优异的 Route Completion，但是驾驶得分比较差。

消融实验

设计的有效性

下表展示了各设计选项的有效性。首先，地图能为规划提供重要的指导，如果没有自车和地图的交流（ID 1），则规划的距离错误就会很大。其次，自车和其它交通参与者的交流、自车和地图的交流能为自车 query 提供隐式的场景特征，这样自车能了解到其它车辆的驾驶意图，从而安全地规划轨迹。如果没有这些交流（ID 1-2），碰撞率会变得很高。最后，加入了任意的矢量化规划约束后（ID 4-6），碰撞率就会降低。当使用了三种碰撞约束后，VAD 实现了最低的碰撞率和最佳的规划准确率（ID 7）。

栅格化地图表示

在下表，作者展示了用栅格化地图表示的 VAD 变种。该 VAD 变种使用地图 queries 做 BEV 地图分割（而非矢量化地图检测），在规划 transformer 中使用更新后的地图 queries。如下表所示，使用栅格化地图表示的 VAD 的碰撞率很高。

每个模块的运行时间

作者评测了 VAD-Tiny 的每个模块的运行时间，如下表所示。主干网络和 BEV 编码器占据了最多的运行时间，做特征提取和变换。运动模块和地图模块占据了 $34.6\%$ 的运行时间，完成多个参与者的矢量化运动预测和矢量化地图预测。得益于稀疏的矢量化表示和简洁设计，规划模块的运行时间只有 3.4 毫秒。