BEVGPT展示自动驾驶的“全知视角”，预测决策规划三合一的革新之作！

前言

本篇文章由原paper一作Pengqin Wang（王鹏钦）全权翻译分享，王鹏钦为香港科技大学博士生，师从沈劭劼教授、朱美新教授。他的研究方向为自动驾驶和机器人系统中的决策、预测和规划。他的研究成果发表于TMECH、RAL、IROS、TRB等一系列机器人和自动驾驶顶刊顶会。

1. BEVGPT开发背景

预测、决策和运动规划对于自动驾驶至关重要。在大多数传统算法架构中，它们被视为单独的模块或组合成具有共享主干但独立任务头的多任务学习范例。然而，我们认为理想的算法是将它们整合到一个综合框架中，且这种整合过程不应受到复杂的输入表示（即输入解耦）和冗余框架设计的困扰。为了解决上述问题，我们重新思考了自动驾驶任务中各个模块的必要性，并将所需的模块纳入到极简的自动驾驶框架中。我们提出了BEVGPT，一种新的集成驾驶场景预测、决策和运动规划的生成式预训练模型。该模型以鸟瞰图像（BEV）作为唯一输入源，并根据周围的交通场景做出驾驶决策。最后通过基于优化的运动规划方法来保证驾驶轨迹的可行性和平滑性。

2. BEVGPT整体框架

在这里插入图片描述
图1｜BEVGPT整体框架©️【深蓝AI】

如图所示，BEVGPT采用两阶段训练过程。首先，我们使用大量自动驾驶数据来训练生成式大模型。随后，使用自动驾驶仿真模拟器通过在线学习对模型进行微调。具体来说，预训练阶段的目标是学习驾驶场景预测和决策，即自动驾驶任务中的BEV生成和自车轨迹预测。该模型能够输出未来4秒内的决策轨迹，并在长达6秒内预测未来驾驶场景。接下来是在线微调阶段，通过在线学习的方式实现模型微调，从而保证符合动力学的运动规划和更为精确的BEV预测。在微调阶段，运动规划器被设计为自动驾驶车辆生成平滑且可行的轨迹。

2.1 框架设计

我们从人类驾驶员的角度重新评估每个模块的必要性，以设计自动驾驶系统框架。首先，人类驾驶员对环境地图有先验的知识，比如在使用导航软件时，每条道路的结构和路口位置都比较明显。其次，人类驾驶员并不会显示地追踪周围的其他车辆，并预测它们的未来轨迹。相反，他们更关注的是预测的自车轨迹是否会被其他车辆所占据。然后，他们会做出相应地驾驶决策。基于上述思考，我们设计了一个极简的自动驾驶框架，即包括决策，运动规划和驾驶场景预测，而把目标跟踪以及他车运动预测模块去掉了。在该框架中，决策输出的是自车未来T=4秒内的位置，在motion planner进一步处理后生成一个符合动力学和平滑的轨迹。考虑到静态环境信息可以从高清地图轻松获取，我们更加关注包括车辆和行人在内的动态物体的精确预测。驾驶场景预测通过环境地图和动态物体预测的组合获得，如下图所示。

在这里插入图片描述
图2｜驾驶场景预测©️【深蓝AI】

2.2 轨迹表示

我们采用分段多项式轨迹来表示我们的微分平坦输出，即 $p_x$ 和 $p_y$ 。为了在后续的motion planning模块中minimum Jerk，我们选择五次多项式表示。假设轨迹总共由 $M$ 段组成。在这种情况下，便可以表示为下面的多项式：

$f_n(t) = \sum_{k=0}^{5} f_{n,k} t^k, t \in [T_{n}, T_{n+1}]$

这里的 $n$ 表示轨迹的段数，每段具有相同的时间间隔 $\Delta t$ 。

2.3 运动规划

在我们的轨迹规划问题中，自车的初始状态和末状态已知。同时，决策模块的输出应当被包含在未来的轨迹中。另外，分段多项式轨迹的连续性也需要得到保证。因此，我们的运动规划问题被表达为了如下的minimum Jerk问题：

$\begin{aligned} & \min ~ J(f(t)), \\ s.t. ~ & f_{0}(0)= \mathbf {p_0}, ~ \dot{f}_{0}(0) = \mathbf {\dot{p}_0}, \\ ~ & f_{M-1}(T_M)= \mathbf {p_M}, ~ \dot{f}_{M-1}(T_M) = \mathbf {\dot{p}_M}, \\ ~ & f_n(T_{n}) = p(T_{n}), ~ f_{n-1}(T_n)=f_{n}(T_n), \\ ~ & \dot{f}_{n-1}(T_n) = \dot{f}_{n}(T_n), ~ \ddot{f}_{n-1}(T_n) = \ddot{f}_{n}(T_n), \\ ~ & \left \|\dot{f}_{n}(T_n)\right \| \leq \mathbf {v_{max}}, ~ \left \|\ddot{f}_{n}(T_n)\right \| \leq \mathbf {a_{max}}, \\ ~ & n \in \{1, 2, ..., M - 1\} \end{aligned}$

在这里，我们将自车的初始状态和最终状态考虑在内，同时确保了两个相邻轨迹段之间的连续性和光滑性，并且考虑了最大速度和最大加速度的限制，以确保动力学的可行性。

3. BEVGPT模型训练

3.1 数据集

我们采用了Lyft Level 5 Dataset，这是一个由Houston等人于2021年提出的自动驾驶数据集，包含了超过1000个小时的驾驶数据，采集跨度4个月，采集车辆是由20辆车组成的车队。关于数据处理，我们从数据集中提取车辆姿态、语义BEV图像和静态环境地图图像。去除持续时间短于24秒（即240帧，时间间隔 $\Delta t = 0.1$ 秒）的驾驶情景。然后将自车的未来目标位置作为决策训练的label。我们将每帧的车辆位置、当前BEV图像、下一帧BEV图像和下一帧环境地图图像记录下来作为训练数据集。

3.2 模型架构

GPT体系结构在自然语言处理（NLP）领域取得了很大的进展，它通过添加因果自关注掩码来修改变压器体系结构，从而自动回归生成预测tokens。由于其强大的理解和泛化能力，我们采用GPT架构来处理复杂的自动驾驶任务和各种场景。我们的超参数如下表所示。

在这里插入图片描述
表1｜BEVGPT超参数©️【深蓝AI】

3.3 预训练

在预训练阶段，BEVGPT进行了20个epochs的训练。为了提高模型的决策能力和预测能力，这里使用均方误差（MSE）作为Loss。

$loss_{decision} = MSE(p_{de}, p_{gt})$
$loss_{prediction} = 100 \cdot MSE(env_{gt}+bev_{pr}, bev_{gt})$
$\sin{\alpha} \cdot loss_{decision} + \cos{\alpha} \cdot loss_{prediction}$

这里我们采用三角函数来平衡预测和决策的loss。

3.4 在线微调

我们使用的是Woven Planet L5Kit进行自动驾驶仿真，以微调预训练模型。BEV输入模型后，输出未来时间间隔内的轨迹点。紧接着motion planner根据决策输出生成动态可行的轨迹，而后得到BEV的预测。回看上面的loss公式，模型要fine-tuning，需要地图的信息，这里我们开发了一种经验光栅化器（experience rasterizer），以帮助模型获得仿真驾驶场景的静态信息。这里的出发点是一旦知道静态全局地图、自车的初始世界坐标和世界坐标与光栅坐标之间的转换，就可以将所有车道和交叉口轻松映射到光栅化的BEV图像中。仿真器经过 $\Delta t$ 时间间隔的仿真后，就可以获得接下来BEV图像的真实数据。这部分的loss如下：

$loss = MSE(env_{er}+bev_{pr}, bev_{sm})$