自动驾驶真正踏出迈向“用户”的第一步：IROS24新SOTA提出个性化的实例迁移模仿学习

导读：

本文针对自动驾驶规划任务，提出了一种基于实例的迁移模仿学习方法，通过预先训练的微调框架从专家域迁移专业知识，以解决用户域数据稀缺问题。实验结果显示，该方法能有效捕捉用户驾驶风格并实现具有竞争力的规划性能，但仍需开发合适的用户风格测量方法。©️【深蓝AI】编译

1. 摘要

个性化运动规划在自动驾驶领域中具有重要意义，可以满足个人用户的独特需求。然而，以往的工作在同时解决两个关键问题方面经常遇到困难：

在复杂的城市环境中进行个性化规划；
通过高效数据使用提高规划性能。

上述困难主要来自于用户数据的昂贵和有限性，再加上场景状态空间趋向于无穷大。这些因素导致模型训练期间出现过拟合和泛化能力差的问题。因此，本文提出了一种基于实例的迁移模仿学习方法，该方法有助于将知识数据从广泛的专家领域转移到用户领域，从而为上述问题提供解决方案。

图1｜驾驶风格方法示意图©️【深蓝AI】编译

作者最初使用大规模专家数据训练预训练模型。随后，在微调阶段，作者输入包含专家和用户数据的批次数据。采用逆向强化学习技术，作者从用户演示中提取风格特征分布，构建用于近似用户风格的正则化项。在实验中，作者对所提出的方法进行了全面的评估和分析。与基线方法相比，本文的方法缓解了由稀疏用户数据引起的过拟合问题。此外，作者发现将驾驶模型与可微分非线性优化器集成作为端到端个性化微调的安全保护层可实现卓越的规划性能。

2. 引言

自动驾驶已然成为近十年来研究和开发的焦点，而运动规划模块是自动驾驶系统中的关键组成部分。该模块通常考虑安全性、行驶效率和舒适度等因素。实际上，用户对舒适度的个人感知可能存在很大差异。例如，有些人可能更喜欢高速运动驾驶体验，而另一些人可能倾向于更轻松的驾驶风格。提供个性化的运动规划对于提高用户对自动驾驶的接受度具有重要意义。然而，由于大量参数可能产生相反作用，手动调整规划模型的参数以实现指定的风格可能具有挑战性。幸运的是，数据驱动的方法可以有效地解决这个问题。

对于数据驱动的个性化规划，图1展示了本文提出的方法与先前方法的比较分析。现有的方法大致可分为两大类：基于逆强化学习的方法和基于模仿学习的方法。对于基于逆强化学习的方法，之前的研究已经尝试探索复杂城市环境中的风格学习。相反，其他研究人员利用逆强化学习来获取线性结构成本函数，从而实现用户风格的自动驾驶。这些方法从演示中学习用户风格的成本函数，以实现个性化规划。然而，基于模仿学习的方法通常旨在通过从大规模人类专家演示中学习来获得类似人类的驾驶策略。然而，当涉及到个性化规划时，用户演示既昂贵且数据有限。在预训练模型中使用上述方法对稀疏的用户演示进行操作会导致规划性能下降和驾驶风格的泛化能力差等问题。

为了解决上述挑战，本文基于gapBoost中提出的四个设计原则，提出了一种有效的迁移模仿学习方法。下面是作者整合的原则：

规则1： 作者基于模仿学习方法构建加权经验损失；

规则2： 作者为同一域中的样本分配相同的权重，以避免高昂的计算成本；

规则3： 作者通过修改输入批次中专家样本与用户样本的比例来调整源数据集和目标数据集的采样概率。由于专家数据量远远超过用户数据量，因此分配给用户样本的权重具有更高的期望值；

规则4： 作者利用逆强化学习方法构造正则化项，通过计算轨迹的风格特征期望误差来衡量风格差距。本文通过调整模型参数来隐式学习每个样本的权重。

作者对他们提出的方法进行了大量实验分析，以及用所提出的方法来评估各种微调结构的性能。作者的方法在风格错误和规划性能方面都优于所有基线方法。值得注意的是，基线方法取得的结果比预训练模型更差，而作者的方法取得了优异的性能。此外，通过足够的更新步骤分析，作者发现将神经网络与可微分非线性优化器相结合的微调架构可获得最佳性能。

3. 相关工作

3.1 基于机器学习的自动驾驶规划

在城市结构化场景中，一些传统的基于优化的轨迹规划方法在工业界和学术界得到了广泛的应用。然而，这些手工设计的方法往往决策能力较弱，无法处理长尾场景，并且不会随着数据的增加而改进。近年来，越来越多的研究工作证明了基于机器学习的规划方法在处理大量不同的自动驾驶城市场景中的潜力。但基于机器学习的规划往往难以解释其输出，并且当它遇到超出分布的情况时，很可能会导致危险的行为。

一些混合框架将基于机器学习的方法和基于优化的方法结合起来。虽然它们很好地结合了基于机器学习的方法和基于优化的方法的优点，但它们需要大量的人工数据来训练。在稀疏的用户演示的情况下，以前的方法在学习风格时很难获得足够安全的策略，并且存在过拟合和泛化能力差的问题。为了解决这些问题，本文提出了基于预训练和微调框架的迁移模仿学习个性化规划，它可以从用户数据中学习风格并提高规划的性能。

3.2 自动驾驶个性化规划

个性化规划是提升用户体验的关键要素。一些基于优化的方法往往只关注特定场景或任务，例如变道和避障。此外，某些关于用户风格学习的研究经常采用最大熵逆强化学习（MaxEnt-IRL）方法来学习用于建模用户驾驶风格的成本函数。然而，将这种方法应用于复杂的城市场景会带来重大挑战。此外，虽然通用规划方法考虑了复杂城市场景中的风格学习，但它不能利用数据来持续提高规划绩效。

对于这些努力来说，同时完成两个规划任务往往具有挑战性，具体的挑战包括：复杂城市场景的个性化规划和通过数据利用持续提高规划绩效。本文的工作则通过从专家数据中转移知识来解决稀疏用户数据和数据驱动规划的问题。

3.3 基于实例的迁移学习

在自动驾驶场景中的个性化规划任务中，来自专家领域和用户领域的数据表现出很强的相似性。在这种情况下，基于实例的迁移学习方法成为一种有前途的解决方案。基于案例的迁移学习方法一般采用样本权重的计算来促进有效的样本迁移。此外，还有一些工作集中在从目标或源域中筛选有效样本。受这些方法的启发，本文设计了一种有效的迁移模仿学习方法，通过数据分类删除无效条目。此外，本文的方法通过样本采样概率和模型参数学习隐式调整样本权重，从而避免了与显式样本权重计算相关的计算开销。

图2｜给予迁移模仿学习的个性化规划框架图©️【深蓝AI】编译

4. 方法细节

4.1 问题定义

假设当前时间步长为 $t$ ，当前时刻的代理状态表示为 ${s}_t=[x_t,y_t,\theta_t,v_t]$ ，其中 $x_t,y_t)$ 为二维空间坐标， $\theta_t$ 为航向角， $v_t$ 为速度。轨迹 $\xi_{0:t}$ 表示为一组离散点 ${s_0,...,s_t\}$ 。该模型预测代理 $i$ 在接下来的 $T$ 个时间步长的未来轨迹，表示为 $\hat{\xi}^i_{t:t+T}$ 。神经网络的输出是控制动作序列，表示为 ${\Pi}^m_{t:t+T}(m={1,..., N_m})$ ，其中 $N_m$ 为多模态组合的数量。具体而言，选定的最优控制动作序列表示为 ${\pi}_{t: T}$ 。所有可学习的参数都表示为 $\omega$ ，包括神经网络参数 $\omega^{n}$ 和成本函数权重 $\omega^{c}$ 。

4.2 使用大规模专家数据的与训练

1）可微分运动学模型： 为获得满足运动学约束的规划轨迹，神经网络输出控制动作 $u_t=\{a_t,\delta_t\}$ （其中 $a_t$ 为加速度， $\delta_t$ 为转向角），通过运动学模型计算轨迹：

$\pi_{t:t+T} = \begin{bmatrix} u_t & \dots & u_T \end{bmatrix}^\intercal$
$\hat{\xi}^0_{t:t+T} = \psi(s_t, \pi_{t:t+T})$

其中 $\psi$ 代表运动学模型。

2）神经网络： 在模仿学习的预训练阶段，本文采用与DIPP 相同的结构。预训练损失总结如下：

$\mathcal{L}_{IL} = \lambda_1\mathcal{L}_{prediction} +\lambda_2\mathcal{L}_{score} +\lambda_3\mathcal{L}_{imitation}$

其中 $\lambda_i(i=1,2,3)$ 是衡量不同损失项的权重。

对于模仿损失，利用控制动作序列通过运动学模型计算自动驾驶汽车的轨迹，并测量与地面真实情况的距离，形成模仿损失：

$\mathcal{L}_{imitation} = \mathrm{smooth} L1(\psi(s_t, \pi_{t:t+T}) - \xi^0_{t:t+T})$

其中$\xi^0_{t:t+T}$表示数据集中的真实轨迹。

4.3 使用基于实例的迁移模仿学习进行微调

1）可微分非线性优化： 在微调阶段，本文使用可微分非线性优化来细化预训练模型输出的控制动作序列。具体而言，优化过程如下：

${\pi}^* = \arg \min_{\pi}\ \frac{1}{2}\sum_i^{N_f}\Vert \omega_i^c c_i(\pi)\Vert^2$

其中 $c_i(\pi)$ 是控制动作序列 $\pi$ 的成本函数， $\omega_i^c(i=1,...,N_f)$ 是缩放权重， $N_f$ 是成本函数 $c_i(\pi)$ 的数量。轨迹特征是根据自动驾驶规划任务设计的，其中包括行驶效率、乘坐舒适度、车道偏离、交通规则以及最重要的安全性。

2）最大熵逆强化学习： 为了解决多解的模糊性和专家行为的随机性，作者采用最大熵逆强化学习（MaxEnt-IRL）来学习权重：

$P(\xi|\omega^c) = \frac{\exp(-c(\xi|\omega^c))}{Z(\omega^c)}$

其中 $Z(\omega^c)$ 称为配分函数，等于 $\sum_\xi\exp(-c(\xi|\omega^c))$ 。根据该函数，具有相同成本的计划具有相同的概率。

MaxEnt-IRL方法通过最大化用户演示轨迹 $\xi \in D$ 的概率来优化权重 $\omega^c$ 。该优化问题的梯度可以按如下方式计算：

$\nabla \mathcal{L}_{IRL} = \mathbb{E}_{P(\xi|\omega^c)}[\hat f_i]-f_i$

然而，利用上述采样计算公式中的期望值具有挑战性。预期特征值的一种可能近似方法是计算最可能轨迹的特征值。为了扩展到神经网络参数更新，作者不是使用特征误差作为梯度，而是通过对以下目标执行梯度下降来近似解决方案：

$\mathcal{L}_{IRL} \approx \frac{1}{N_f} \sum_{i=1}^{N_f}{\beta_i|\hat f_i-f_i|}$

其中 $f$ 是轨迹的特征， $\beta$ 是相应的缩放因子。作者参考设计了七个指标来描述轨迹特征。每个特征的名称和缩放因子如表1所示。

在这里插入图片描述

3）基于实例的迁移模仿学习： 遵循gapBoost中描述的设计原则，作者提出了一种基于实例的迁移模仿学习算法。通过合并上述公式，作者制定了基于实例的迁移模仿学习的优化目标，如下所示：

$\mathcal{L}_{TIL}^\alpha = \mathcal{L}_{IL} + \alpha\mathcal{L}_{IRL}$

参数 $\alpha > 0$ 表示 $L_{IRL}$ 项的缩放因子，用于调整优化目标中正则化分量的权重。 $L_{IRL}$ 用作正则化项，旨在减少跨域性能差异，它通过将输入样本的特征分布期望与用户样本的特征分布期望对齐来实现风格近似。在实际操作中，作者利用这个正则化项以及模仿学习项来更新所有可学习参数 $\omega$ 。

如下伪代码所示，作者描述了基于实例的迁移模仿学习的详细过程。首先，根据规划轨迹的类型对数据集进行分类。具体分类标准见表2。在本文的研究中，作者将其分为三类：静止、直线和转弯。由于静止类别缺乏用户风格信息，作者在微调阶段将其排除。本文从剩余类别中的专家和用户数据中抽样，以在每次迭代中构建混合输入批次。同时，作者利用相应的用户数据类别来制定IRL正则化项。最后，作者将批次数据输入模型进行梯度计算，并使用 $L_{IRL}$ 更新参数。

在这里插入图片描述

5. 实验

5.1 实验设定

1）数据集设置： 作者在Waymo Open Motion数据集（WOMD）上训练和验证方法，这是一个大规模的真实驾驶数据集，专注于城市驾驶场景。本文设置了一个7秒的时间窗口，将20秒的驾驶场景分割成帧，其中包括2秒的历史观察范围和5秒的未来预测和规划范围。窗口从场景开始以10个时间步长滑动，并产生14帧的片段。在实验中，作者从场景中获得916808帧，其中80%用于训练，其余用于开环测试。此外，基于表1中的特征项和缩放因子，计算轨迹特征向量。随后，作者从测试集中提取10000个样本，并应用k均值聚类算法获得三个聚类中心。最后，本文选取距离每个聚类中心最近的64个样本帧，形成三个不同的数据集，作为用户训练的数据。用户风格特征的期望值如表3所示。

在这里插入图片描述

2）指标： 在实验中，本文参考DIPP设计了碰撞率、红灯、偏离路线、规划误差和预测误差。此外，作者定义了“风格误差”指标，计算方法如上述公式所示。“风格误差”通过计算模型产生的轨迹特征与用户演示的轨迹特征之间的平均绝对误差来评估，从而评估风格相似性。

3）实施细节： 预训练模型在专家数据集上进行五次训练。在整个训练过程中，非线性优化器的步长固定为0.4，迭代次数设置为2。本文中的所有实验都遵循相同的初始参数设置，如下图所示：批量大小为64，神经网络学习率为1e-5，成本函数的线性权重学习率为1e-3。

在这里插入图片描述

5.2 开环测试

如上表所示，作者进行了全面的实验分析，涉及各种微调架构和微调方法。“ $\mathcal{L}_{IL}$ ”表示公式中概述的模仿学习方法，而“ $\mathcal{L}_{IRL}$ ”表示公式中所示的逆强化学习方法。“ $\mathcal{L}_{TIL}$ ”表示利用公式中详述的迁移模仿学习方法。由于没有预训练过程的方法效率低下，作者建立了更强的基线来证明我们方法的优越性。具体而言，表中列出的所有实验都是基于预训练模型进行的，作者在微调阶段比较了不同方法的性能。对每个模型更新 100 次，并重复每个微调方法三次，在表中显示平均结果。“人”表示手动调整成本函数的权重，如表4所示。在这个实验中，作者的方法涉及以 50% 的比例混合专家数据和用户数据，其中“ $\mathcal{L}_{TIL}$ ”的 $\alpha$ 设置为100。作者对用户数据集执行域内评估，对测试数据集执行域外评估。

在这里插入图片描述

表5中列出的实验结果表明，由于过度拟合，基线方法在微调后的性能比之前更差，而所提出的方法实现了微调性能的提升。此外，本文的方法有效地考虑了域内的用户行为模仿和域外的风格泛化。值得注意的是，作者的方法实现了具有竞争力的规划性能，同时降低了风格错误。

为了进一步评估我们的算法是否容易出现过度拟合，作者在图4中展示了三种学习结构中风格特征匹配误差和碰撞率随更新步骤的变化趋势。图中的曲线值表示从三个域外实验中获得的平均结果。由于对稀疏用户数据的过度拟合，“LfD”和“DIPP”表现出更高的碰撞率和更差的风格泛化能力。通过分析曲线趋势，“NN&CF”框架的最终收敛结果在两个关键指标上超过了“NN”框架：风格误差和碰撞率。“(NN&CF) / CF”最初收敛速度更快。然而，由于成本函数仅学习线性权重，其最终收敛性能有限。当更新步骤数较少时，“(NN&CF) / NN&CF”被证明效果较差。这种情况下，代价函数的线性权重还没有得到充分的学习，无法很好地适应神经网络。然而，在更新步数足够多的情况下，“(NN&CF) / NN&CF”取得了最好的效果，甚至超过了人工调整。这归功于神经网络强大的拟合能力，弥补了代价函数拟合能力不足的问题。

在这里插入图片描述

5.3 消融实验

损失消融研究： 如表6所示，各种损失都被消融了。表中所有实验的输入批次数据由50%的专家数据和用户数据混合而成。本文对每个设置进行100次更新，并呈现三次重复实验的平均值。为了更好地验证损失的有效性，作者仅修改损失以探索所提出方法的有效性。结果表明，仅使用 $\mathcal{L}_{IL}$ 进行参数更新的方法在“风格误差”指标中表现出最差的性能，并且对用户风格实现了最低的近似精度。相反，仅采用 $\mathcal{L}_{IRL}$ 的方法在其他重要的规划性能指标上表现不佳。 $\mathcal{L}_{TIL}$ 有效地平衡了用户风格近似与规划和预测模块的性能增强。此外，作者对 $\mathcal{L}_{IL}$ 和 $\mathcal{L}_{IRL}$ 之间的权重比例进行了参数敏感性实验。结果表明， $\alpha = 100$ 是计划性能改进和用户风格近似之间的合适权衡，这往往会导致较低的风格错误和冲突率。

在这里插入图片描述

混合比例消融研究： 如表7所示，本文研究了不同比例的专家数据混合，以探索它们对微调结果的影响。对于每个设置，我们进行100次更新并报告三次重复实验的平均值。在整个实验过程中，我们利用 $\mathcal{L}_{TIL}$ 更新参数并将 $\alpha$ 参数设置为100。结果表明，当专家数据的混合率为0%时，模型倾向于过度拟合用户数据，导致泛化性能不佳，因为只使用了用户数据。相反，当专家数据的混合率为100%时，由于只输入了专家数据，用户域内的规划误差会显着增加。在实验中，很明显，混合率为75%时，规划性能增强和用户风格近似之间的权衡可以更好地实现，通常会导致更低的风格错误和碰撞率。