让自动驾驶系统无限逼近人类？最新混合规划器实现高度安全的实车导航

导读：

本篇文章针对基于学习的规划器难以保证安全闭环驾驶这一问题，提出了一种新型的混合运动规划器，其结合了基于学习和基于优化的技术。通过仿真实验和实车实验，证明了本文规划器的有效性和鲁棒性。©️【深蓝AI】编译

1. 摘要

随着nuPlan和Argoverse等开源数据集的发布，围绕基于学习的规划器的研究在过去几年中得到迅速发展。现有的系统在模仿人类驾驶员行为方面展现出卓越的能力，但是它们难以保证安全的闭环驾驶。相反，基于优化的规划器在短期规划场景中提供了更高的安全性。为了应对这一挑战，本文提出了一种新型的混合运动规划器，其结合了基于学习和基于优化的技术。最初，多层感知器（MLP）生成了类人的轨迹，然后由基于优化的组件进行细化。该组件不仅最小化跟踪误差，还计算出运动学可行且与障碍物和道路边界不发生碰撞的轨迹。本文模型有效地平衡了安全性和类人性，缓解了这些目标的固有权衡。本文通过仿真实验验证了所提出的方法，并且通过将其部署在现实世界自动驾驶汽车上，以进一步证明其有效性。

2. 介绍

由于自动驾驶汽车具有提高安全性和道路使用率的潜力，预计将在未来的出行中发挥至关重要的作用。为了确保这些优势，其规划组件必须提供安全、舒适且无碰撞的轨迹，同时考虑静态和动态交通元素。传统的轨迹规划方法包括基于规则、基于采样和基于优化的方法，这些方法依赖于人工定义的代价和目标函数，通过A*、RRT、动态规划和模型预测轨迹算法等经典技术进行优化。这些方法是可靠且可解释的，但是难以扩展到复杂的城市场景中，并且无法使用数据来改进，需要大量的工程调试。

nuPlan和Argoverse等开源数据集的可用性推动了基于学习的规划器研究的发展，这些规划器非常擅长生成类人的轨迹。然而，这些在开环设置下训练的模型无法保证在闭环应用（特别是新的场景）中的安全性，因为它们太过依赖训练数据。为了解决此类局限，学者们可以在训练数据集中引入扰动，以帮助车辆从危险情况中恢复并且缓解协变量偏移问题。或者，使用可微分仿真器进行闭环训练。尽管存在多种改进方向，但是基于学习的模型仍然难以泛化到未见过的场景，这使其对现实世界交通不安全。

基于上述泛化性问题，本文提出了两个关键贡献：

1）结合基于学习和基于优化的技术，以构建混合模仿学习模型。这种结合旨在生成安全、类人的轨迹，平衡这些目标之间的权衡；

2）在城市环境中的实车上验证该混合模型，证明其在仿真之外的实际有效性和鲁棒性。

针对基于学习的规划器的大多数研究仅限于仿真，这可能无法体现在现实世界中的性能。本文的目标是提高基于学习的模型的短期规划能力，确保其在现实城市环境中的安全性和可靠性。本项研究着重于规划，假设定位、感知、建图和控制模块已经存在。

3. 系统架构

本节描述混合模仿学习模型——其结合了基于学习的规划器与基于优化的组件，从而生成运动学可行的无碰撞轨迹。如图1所示，该系统输入自车状态、感知观测和目的地，通过规划器模块生成基于采样的轨迹。多层感知器（MLP）对该轨迹进行细化，以模仿类人的行为。模型预测轨迹（MPT）模块对其进行优化，以避免与障碍物和道路边界发生碰撞。

图1｜模型的结构©️【深蓝AI】编译

3.1 规划器

规划器模块与多层感知器结合的灵感来自于PDM-Open模型，该模型将自车的位姿、速度和加速度、观测结果（用于智能体预测）和目标作为输入，负责利用Dijkstra算法寻找从起始位置到终点的中心线，并且依靠基于采样的方法计算无碰撞路径。

规划器按以下方式计算出15条不同的路径：

1）从中心线开始，采用5种不同的智能驾驶员模型（IDM）策略以及特定的目标速度，具体为速度限制的20%、40%、60%、80%和100%。当前方有先行车辆时，速度限制定义为先行车辆的速度；

2）其次，为了获得横向方差，还应用3种不同的偏移，分别为+1m、-1m和0m。

这样，就获得了15条不同的路径，其具有纵向和横向变化，这在预测环境中进行仿真，并且根据nuPlan提供的闭环指标进行评分。然后，选择具有最高得分的路径，如果在2秒内发生预期的故障碰撞，则输出将被最大制动力所覆盖。

3.2 多层感知器（MLP）

多层感知器负责生成输出轨迹，该轨迹可能与专家驾驶员轨迹相似。为了完成轨迹生成任务，神经网络将自车的位姿、纵向、横向和角轴的速度和加速度（从过去2秒到当前时刻）以及规划器模块计算的路径作为输入。这些输入通过线性层缩放到512维向量，然后将它们连接起来并且传入MLP。

MLP由两个512维线性层组成，具有dropout（p=0.1）和ReLU激活函数。输出层是一个线性层，在接下来8秒内对未来路径点进行回归。该输出称为“神经网络轨迹”，其经过训练以最小化路径点与数据集提供的专家驾驶员轨迹之间的L2距离，该数据集提供了超过88000个场景，长度为15秒，其中包含用于训练目的的人类驾驶员轨迹。

3.3 模型预测轨迹（MPT）

基于优化的组件利用了MPT算法，该算法结合了MLP生成的“神经网络轨迹”、可行驶区域、自车位姿和速度以及感知系统的观测结果等输入。其主要功能是生成最优轨迹，其确保了无碰撞导航并且遵循运动学可行性。

为了求解优化问题，本文定义了软约束和硬约束：

1）软约束：无碰撞条件被作为软约束，因为如果优化的轨迹不是无碰撞的，则考虑先前生成的轨迹；

2）硬约束：由于自车附近的轨迹必须是平滑的，因此唯一的硬约束是自车附近的轨迹点必须与先前生成的轨迹相同，以避免突然的转向行为。该硬约束如下：

$\delta_k = \delta_k^{prev} \quad if(0 \leq i \leq N_{fix})$

其中：

● $\delta_k$ 表示当前轨迹点的转向角；

● $\delta_k^{prev}$ 表示先前轨迹点的转向角，它确保当前轨迹点的转向角与先前轨迹点的转向角保持一致；

● $N_{fix}$ 表示固定轨迹点的数量，它决定了硬约束应用的范围。

优化问题的目标函数最小化跟踪误差和自车的转向加速度、速度和角度，其定义如下：

$$\begin{matrix} J = w_y \sum_{k}y^2_k + w_{\theta}\sum_{k}\theta^2_k + w_{\delta}\sum_{k}\delta^2_k \newline \

w_{\dot\delta}\sum_{k}\dot\delta^2_k
w_{\ddot\delta}\sum_{k}\ddot\delta^2_k
\end{matrix} \tag{1}$$

其中在时刻 $k$ ，定义如下变量：

● $y_k$ ：到参考路径的横向距离；

● $\theta_k$ ：相对参考路径的朝向角度；

● $\delta_k$ ：转向角；

● $\dot\delta_k$ ：转向速度；

● $\ddot\delta_k$ ：转向加速度；

● $w_y$ 、 $w_{\theta}$ 、 $w_{\delta}$ 、 $w_{\dot\delta}$ 和 $w_{\ddot\delta}$ ：调整权重。

MPT通过将其它智能体的观测结果作为输入，也能够执行自适应巡航规划行为。巡航规划的作用是通过平滑的速度过渡与动态车辆目标保持安全距离。

该安全距离由如下公式动态计算：

$v_{ego}t_{idling} + \frac{1}{2}a_{ego}t^2_{idling} + \frac{v^2_{ego}}{2a_{ego}} - \frac{v^2_{obstacle}}{2a_{obstacle}}$

其中：

● $d$ 为计算的安全距离；

● $t_{idling}$ 为自车检测前方车辆减速的怠速时间；

● $v_{ego}$ 为自车的当前速度；

● $v_{obstacle}$ 为前方障碍物的当前速度；

● $a_{ego}$ 为自车的加速度；

● $a_{obstacle}$ 为障碍物的加速度。

为了在优化平滑速度过渡的同时维持安全距离，本文求解了一个优化问题。目标函数最小化与期望速度的偏差和加速度的平滑性：

$\sum_k(w_v(v_{desired} - v_{ego,k})^2 + w_aa^2_{ego,k})$

该优化问题受安全距离 $d$ 、速度和加速度的限制。通过在每一时刻求解该问题，自车能够适应变化，并且确保安全且高效的巡航（注意， $w_v$ 和 $w_a$ 是调整权重）。

4. 实验和结果

4.1 基线

本文首先分析了nuPlan开环（OL）、闭环非反应（CL-NR）和闭环反应（CL-R）仿真中基线模型的结果，如表1所示。通过仿真器的内置指标计算得分。开环仿真评估了规划器对专家驾驶员路线的模仿，而闭环仿真评估了轨迹的安全性、舒适性和避障能力。每个仿真根据这些标准分配一个0到100之间的得分。

表1｜nuPlan中基线的得分©️【深蓝AI】编译

仔细观察表1，结果中出现了可辩别的模式。具体而言，Urban Driver、PDM-Open和GC-PGP作为基于学习的模型，在开环仿真中展现出卓越的性能，但是在闭环场景中表现不佳。

相反，基于规则的IDM和基于采样的PDM-Closed模型表现出相反的行为：在开环仿真中表现不佳，而在闭环仿真中超越了基于学习的模型。

这些研究结果表明，基于学习的模型在预测自车运动方面表现出色，该模型能够复制人类轨迹。但与基于规则、采样或者优化的方法不同，该模型本身并不能确保安全的闭环驾驶。

4.2 ROS仿真器

研究者们在实车上直接测试模型之前，在仿真器中已进行了若干实验，图2展现了不同的实验结果。

图2｜来自自动驾驶仿真的四帧，绿线展现出神经网络的输出，粉线展现出基于优化的组件的输出©️【深蓝AI】编译

绿线是“神经网络轨迹”，是神经网络的直接输出。正如预期的那样，它无法提供安全的闭环驾驶，如图2提供的极端情况，它通常会超过车道的边界，导致不安全且危险的情况发生，而无法保证生成无碰撞的轨迹。尽管如此，它展现出良好的泛化能力，因为评估过程中考虑的地图和场景与训练阶段的完全不同。

然而，代表“MPT轨迹”的粉线完美地使车辆在车道边界内行驶，将多层感知器的输出重新定义为安全且无碰撞的路径。

该模型还能够与静态障碍物进行避障操作，并且与动态智能体进行自适应巡航控制驾驶。

这些实验结果可以证明混合运动规划器安全闭环驾驶能力的有效性，其能够通过优化过程计算细化的输出来防止碰撞和不可行的轨迹。

然而，评估模型模仿人类驾驶风格的能力需要定性分析。

为此，本文研究了若干个定性结果，展现了默认的基于优化的规划器与本文提出的混合运动规划器之间的一些比较。除了轨迹形状之外，还提供了速度和加速度曲线，以更好地评估类人性。

在图3中，默认规划器和混合规划器的轨迹在形状方面展现出惊人的相似性。然而，经过仔细检查，可以注意到一个有趣的区别：混合模型的轨迹在弯道周围逐渐变宽，偏离车道中心线，更接近人类驾驶员行为。

此外，与基于优化的模型相比，混合规划器的速度和加速度曲线平滑得多。在基于优化的模型中，很明显存在突然的加速行为，这会导致整体运动不连续。

在图4中，尽管两个规划器的速度和加速度曲线看起来非常相似，但是读者们可以从中区分出轨迹形状的显著差异。尽管默认规划器几乎完美地遵循车道中心线，从而形成几何路径，而混合模型会远离中心线，但是其通过一次操作就完成两次转弯。

类似地，图5中使用混合模型获得了类人的轨迹，该轨迹在弯道处变宽。此外，在图像的顶部，可以注意到一个关于轨迹形状的有趣行为，即车道右边界有一个突然的台阶，这会影响默认规划器的轨迹。相反，混合规划器完全忽略了车道边界上的台阶并且不影响运动，从而获得了更舒适的路径。

图6展示了另一个有趣的情况，其中仿真了自适应巡航控制行为。

默认规划器在开始时突然加速，在短时间内达到高速，并且在遇到前方车辆时突然刹车，这导致运动不舒适且不连续，而混合规划器采用更平滑的轨迹，推断出正确的加速度，以避免莽撞且草率的行为。

由于实验是沿着直线进行的，因此两条轨迹之间没有明显的差异，本文将重点转移到分析图7中时域速度和加速度上，可以注意到混合模型的运动更具平滑性。

除了定性分析之外，本文还通过检查时域中的加加速度曲线，以将重点转移到定量结果上。突然提高的加加速度是机器人行为的特性，而平稳的加加速度则反映了更像人类的驾驶风格。

在图8中，可以注意到基于优化的规划器的加加速度曲线有一处高峰，而混合运动规划器的加加速度曲线仍然维持不变。

4.3 现实世界驾驶

在仿真器环境中进行若干次成功的测试后，现在将案例研究转移到现实世界场景中。该模型已经部署到Pix Moving公司制造和设计的车辆上，该车辆称为Robobus。Robobus是一款双向L4级别的自动驾驶汽车，其配备了激光雷达、雷达、相机、GNSS和IMU等传感器。其设计最多可运送6人，最高时速为30km/h，已经在中国和日本的一些地区投入使用。实验在真实的交通场景中进行，涉及其它静态和动态智能体，如图9所示。

该规划器在交通场景中导航时展现出稳定性和鲁棒性，特别是在低速（低于15km/h）场景。由于基于优化的组件改进了神经网络的输出，最终的轨迹始终在车道边界内，并且与障碍物和其它智能体不会发生碰撞。

5. 总结

本文引入了一种混合模仿学习运动规划器，旨在确保安全、无碰撞的轨迹，这些轨迹与人类行为非常相似。本文的模型在仿真中展现出令人印象深刻的性能，对训练过程中没有见过的各种地图、场景和环境表现出强大的泛化能力。这突显了其鲁棒的能力。此外，本文方法在现实世界自动驾驶汽车上部署时证明是有效的，特别是在低速时。未来的研究工作应该优先考虑以更高的速度测试模型，以更好地为现实世界城市驾驶场景做好准备。
©️【深蓝AI】

Ref：
Hybrid Imitation-Learning Motion Planner for Urban Driving
编译｜auto_driver
审核｜Los

本文首发于微信公众号【深蓝AI】，移步公众号【深蓝AI】，第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态👇
深蓝AI·赋能自动驾驶+机器人+AI