自动驾驶---不依赖地图的大模型轨迹预测

news2025/4/21 10:55:22

1 前言

早期传统自动驾驶方案通常依赖高精地图（HD Map）提供道路结构、车道线、交通规则等信息，可参考博客《自动驾驶---方案从有图迈进无图》，本质上还是存在问题：

数据依赖性高：地图构建成本昂贵，且跨区域泛化能力受限。
动态场景局限性：地图无法实时反映临时障碍物或施工区域。
计算复杂度：地图的复杂拓扑结构需要额外编码模块处理。

在之前的博客中，笔者分别介绍过华为《自动驾驶---行泊一体（车位到车位功能）》ADS3.0智驾方案中，RCR网络（Road Cognition & Reasoning，道路拓扑推理网络）：结合普通导航地图来与现实进行匹配和印证，再实时通过传感器来拓补绘制一幅可用的行车地图。通过RCR网络便摆脱了高精地图，实现绝大多数场景下的无图就能开。

小米智驾同样也有一套系统《自动驾驶---小米汽车智驾进展》，道路大模型：小米道路大模型，实时生成道路拓扑，效果媲美高精地图，实现全国都能用的城市领航。

小米和华为类似，都是通过模型来建立车道信息，尽量不高度依赖高精地图。

最近介绍的博客《自动驾驶---LSTM模型用于轨迹预测》，仅依赖于动态车辆的历史轨迹，有其局限性，以及《自动驾驶---基于深度学习模型的轨迹预测》中介绍通过深度学习模型进行轨迹预测，基于此轨迹预测的深度学习模型，后期是可以用于自车轨迹生成的端到端大模型。

目前特斯拉的端到端大模型的输入应该是包括地图数据的，但国内量产端到端大模型的公司目前做到这一点的几乎没有。

2 轨迹预测

目前，很多公司的端到端整体方案如下所示，地图信息作为模型的输入（以特斯拉为代表），或者干脆就不包括（国内的模块化大模型）。

MFTP（Map-Free Trajectory Prediction），这是一种无需地图的轨迹预测方法（如下图所示），它在训练期间通过知识蒸馏从高清地图中获益，而在推理期间则不需要高清地图。论文中提出了一种新颖的层次编码器，有效地提取时空智能体特征，并将它们聚合成多个轨迹查询。此外，引入了一个迭代解码器，顺序解码轨迹查询以生成最终预测。在Argoverse数据集下的无地图设置中，该方法实现了最先进的性能。

2.1 方法论

（1）知识蒸馏

前段时间也是Deepseek带火了知识蒸馏这一概念。知识蒸馏（Knowledge Distillation） 其实是一种机器学习技术，旨在将复杂模型（通常称为“教师模型”）的知识迁移到更简单、更高效的模型（“学生模型”）中，从而实现模型压缩、性能提升或部署优化。其核心思想是让学生模型模仿教师模型的输出或中间特征，而不仅仅依赖原始训练数据的标签。

知识蒸馏的大概过程：
- 训练教师模型：在目标任务上训练一个高性能的大模型。
- 生成软标签：用教师模型对训练数据推理，得到概率分布（软标签）。
- 训练学生模型：学生模型同时拟合硬标签（原始标签）和软标签（教师输出），损失函数通常为：，其中衡量学生与教师输出的差异，为权重系数。
套用到 MFTP（Map-Free Trajectory Prediction）中的大概过程如下：
- 教师模型：使用高精地图的轨迹预测模型。
- 学生模型：无地图的轨迹预测模型。
- 蒸馏内容：将教师模型对地图拓扑的理解（如车道连接、交通规则）迁移到学生模型中，使其隐式学习道路结构约束，而无需显式地图输入。

（2）MFTP架构

整体框架：MFTP包括一个预训练的基于地图的教师网络和一个无需地图的学生网络。教师网络利用高清地图和其它智能体的历史轨迹作为输入，而学生网络则不依赖地图信息。
层次编码器：提出了一种新颖的层次编码器，用于提取智能体的多层次时空特征，并将它们聚合成多个轨迹查询。
- 输入表示：在采用向量表示的情况下，智能体的历史轨迹和地图折线被表示为二维或三维空间中的一组点。我们没有使用智能体轨迹和地图点的绝对位置，而是选择相对运动向量作为输入。
- 上下文建模：轨迹预测本质上是一项序列性且涉及交互的任务，在其中，一个智能体过去的行为以及周围环境都起着至关重要的作用。为了提取智能体的时空特征，我们按顺序对地图与地图之间、智能体与地图之间以及智能体与智能体之间的交互进行建模。首先，我们利用中提出的带有注意力机制的地图与地图注意力模块，对地图结构和车道交互进行建模，将其视为地图先验知识，随后再接入一个前馈神经网络（FFN）。
- 分层特征聚合与融合：利用特征聚合（FA）模块对智能体的时空特征进行聚合，以生成多个轨迹查询。这些查询起到了桥梁的作用，连接着编码器和解码器，并且代表着潜在的多模态未来轨迹。
迭代解码器：使用迭代解码器顺序解码轨迹queries，以生成最终的预测。

整体的框架如下图所示，多模态融合轨迹预测（MFTP）有一个基于地图的预训练教师模型和一个无地图的学生模型。除了与地图相关的模块之外，学生模型与教师模型具有相同的架构。在编码器中，通过特征聚合（FA）模块在进行智能体间的时间和空间注意力计算后，分层的智能体特征会被逐步提取出来，然后这些特征被融合，形成 K 个轨迹查询，对应着 K 条多模态的未来轨迹。在教师网络中，智能体在编码器阶段通过智能体 - 地图注意力模块学习地图先验知识，并在解码器阶段通过查询 - 地图注意力模块学习相关知识。通过对中间特征进行知识蒸馏，我们将地图先验知识融入到无地图的学生网络中。

2.2 验证

关于轨迹预测具体的评测指标在之前的博客中多次介绍过，这里就不赘述了。通过数据对比，MFTP方法在某些方面还是存在优势的。

数据集和评估：在Argoverse数据集上进行了广泛的实验，证明了MFTP在无需地图的情况下实现了最先进的性能。
定量结果：与现有的无需地图的方法相比，MFTP在所有指标上均优于其他非蒸馏的无需地图方法，并在应用知识蒸馏后进一步提高了性能。

在 Argoverse 验证集上的定性结果。（a）展示了无地图模型在交叉路口场景中的性能表现，该场景存在各种驾驶行为（例如，直行、左转、大角度左转以及从左至右的右转），且该模型未利用地图先验知识。（b）表明，在知识蒸馏（KD）的帮助下，无地图模型能够预测出与真实轨迹更为接近的未来轨迹。（a）和（b）使用相同的图例。建议以彩色模式并放大查看效果最佳。