Topo2Seq：突破DETR局限，车道拓扑推理新高度

本篇针对先前DETR类框架远距离感知较弱且车道端点不对齐问题，提出了一种通过拓扑序列学习来增强拓扑推理的新方法Topo2Seq。在OpenLane-V2数据集上的实验结果表明，Topo2Seq在拓扑推理方面实现了最先进的性能。

©️【深蓝AI】编译

论文标题：Divide and Merge: Motion and Semantic Learning in End-to-End Autonomous Driving

论文作者：Yinzhe Shen, Ömer Şahin Taş, Kaiwen Wang, Royden Wagner, Christoph Stiller

论文地址：https://arxiv.org/pdf/2502.07631

01 摘要

从透视图（PV）中提取车道拓扑对于自动驾驶的规划和控制是至关重要的。该方法为自动驾驶汽车提取潜在的可行驶轨迹，而不依赖于高精（HD）地图。然而，DETR类框架的无序性和弱远距离感知可能会导致线段端点错位和拓扑预测能力有限等问题。受到语言模型中上下文关系学习的启发，道路的连接关系可以表征为显式的拓扑序列。本文引入了Topo2Seq，这是一种通过拓扑序列学习来增强拓扑推理的新方法。Topo2Seq的核心概念为车道线段解码器和拓扑序列解码器之间随机顺序的提示到序列学习。双解码器分支同时学习从有向无环图（DAG）和包含几何信息的车道图中提取的车道拓扑序列。随机顺序的提示到序列学习从车道线段解码器预测的车道图中提取无序关键点，然后将它们传入拓扑序列解码器的提示设计中，以重建有序且完整的车道图。通过这种方式，车道线段解码器从拓扑序列解码器中学习到强大的远距离感知和准确的拓扑推理。值得注意的是，拓扑序列解码器仅在训练过程中引入，不影响推理效率。在OpenLane-V2数据集上的实验评估证明了Topo2Seq在拓扑推理方面的最新性能。

02 介绍

近年来，自动驾驶中的车道拓扑推理越来越受关注。这是因为自动驾驶传统上依赖于离线的高精地图以提供路径信息。然而，道路条件可能不确定且具有挑战性，过时的在线高精地图对于自动驾驶汽车是灾难性的。仅仅依靠这些地图不足以满足高级自动驾驶的更高要求，例如L4和L5级别。

为了解决这些问题，自动驾驶汽车需要执行车道拓扑推理，这涉及从全景图像中实时感知周围道路流，并且提取中心线的几何位置及其拓扑关系。因此，车道拓扑推理对于端到端自动驾驶中的轨迹预测和规划是至关重要的。

早期工作着重于表征地图元素。语义地图学习方法为每个像素分配标签以标记地图元素。然而，不一致的语义预测和不足的实例感知可能会导致自动驾驶系统规划的混乱。此外，逐像素后处理在拓扑提取方面经常失败，并且造成耗时问题。作为一种升级的替代方案，矢量化地图学习方法采用可学习的查询来提取地图元素，它在DETR类框架中矢量化线条和多边形。这些方法提供了较高的检测精度和较快的推理速度。然而，它们在地图学习中缺乏全面的轨迹检测，例如车道方向和连通性。为了解决这些问题，关于车道拓扑推理的最新研究将中心线拓扑转化为车道图。这些端到端的框架旨在预测以有序点表征的线段和由邻接矩阵表示的拓扑关系。然而，这些方法没有显式建模车道之间的关系，而是依赖于MLPs来确定查询之间的连接概率。由于DETR类框架中的弱远距离感知和无序检测特性，简单的MLPs难以有效地学习车道之间的连通性。因此，现有方法存在若干局限性，如图1（a）所示。

▲图1｜先前方法与Topo2Seq的比较©️【深蓝AI】编译

在语言模型中，序列学习可以捕获长文本中的上下文关系，同时维持正确的顺序。受到语言模型的启发，将车道图表示为序列可以显式地捕获车道的几何位置和拓扑关系。然而，在序列到序列的方法中，自回归模型依赖于先验预测来生成后续输出，由于需要重复推理，因此效率相当低下。

本文引入了Topo2Seq，这是一种通过拓扑序列学习来增强拓扑推理的新方法。Topo2Seq利用了双解码器架构，包括车道线段解码器和拓扑序列解码器。拓扑序列解码器预测从有向无环图（DAG）中提取的车道拓扑序列，而车道线段解码器提取包含几何信息的车道图。然后，采用随机顺序的提示到序列学习，从车道线段解码器预测的车道图中提取无序关键点。这些关键点被传入拓扑序列解码器的提示设计中，从而能够重建有序且完整的车道图。

通过这种方式，车道线段解码器通过共享的解码器从拓扑序列解码器中获得强大的远距离感知和精确的拓扑推理，如图1（b）所示。值得注意的是，拓扑序列解码器仅在训练过程中引入，而不会影响推理效率。

本文的贡献总结如下：

1）本文提出了Topo2Seq，这是一种具有双解码器训练的新框架，它通过利用拓扑序列学习来增强拓扑推理；

2）本文显式地将车道图建模为序列，以捕获车道的远距离几何位置和拓扑关系；

3）本文引入了一种随机顺序的提示到序列学习机制，它使车道线段解码器能够从拓扑序列解码器中获得鲁棒的远距离感知和准确的拓扑推理能力；

4）本文在多视图拓扑推理基准OpenLane-V2上进行了大量实验，结果证明了Topo2Seq在拓扑推理方面的最先进性能。

03 方法

3.1. 问题表述

给定通过车辆环视相机获取的多视图图像 L，Topo2Seq 的目标是感知中心线及其拓扑结构。中心线被表示为一组有序的 3D 点 $L = [k^0, k^1, \dots, k^{n-1}]$ ，其中 n 设置为 10，并且每个 3D 点表示为 $k_i = (x, y, z) \in \mathbb{R}^3$ 。拓扑描述为一个邻接矩阵 $A \in \mathbb{R}^{m \times m}$ ，其中 m 为检测到的中心线数量。在该矩阵中， $A_{ij} = 1$ 表示车道 Li 的终点与车道 Lj 的起点对齐。然而，实现网络预测的连接车道的起点和终点的精确对齐通常具有挑战性。

3.2. 概述

如图2所示，Topo2Seq采用多视图图像作为输入。

▲图2｜ Topo2Seq的框架©️【深蓝AI】编译

本文利用图像主干网络、FPN 和 BEVFormer 将这些多视图图像编码为 BEV 特征 $F \in \mathbb{R}^{H \times W \times C}$ 。车道线段解码器通过自注意力和与 BEV 特征 $F$ 的交叉注意力来更新可学习的查询 $Q^l$ 。更新后的查询被传入预测头进行车道分割。本文从预测车道图的起点和终点中提取关键点作为关键点提示 $Y^k$ 。真值 (GT) 车道图被转换为边序列 $Y^l$ 。边序列与关键点提示 $Y^k$ 连接，并且被传入拓扑序列解码器中，其中它们与 BEV 特征 $F$ 交互。预测序列由目标边序列监督，并且去量化为车道图。在测试过程中，拓扑序列解码器没有执行推理，而车道线段解码器预测了中心线和邻接矩阵。

车道线段解码器

本文将一组实例级查询表示为 $\{Q^l\}_{j=1}^{N_L}$ ，其中 $N_L$ 为预设的查询数量，通常大于车道图中的中心线数量。查询被传入车道线段解码器中，以获得更新的查询：

$\hat{Q}^l = \text{LaneDec}(F, Q^l)$

其中，LaneDec 表示车道线段解码器。在每个车道线段解码器层内，车道查询通过自注意力模块、车道注意力模块和前馈网络来顺序更新。

头

本文采用 MLPs 来生成车道 L 和拓扑 A 的 3D 坐标。车道之间的拓扑由下式预测：

$\hat{Q}^l_{emb_1}, \hat{Q}^l_{emb_2} = \text{MLP}(\hat{Q}^l), \text{MLP}(\hat{Q}^l)$

$A = \text{Sigmoid}(\text{MLP}(\text{Concat}(\hat{Q}^l_{emb_1}, \hat{Q}^l_{emb_2})))$

其中，MLPs 相互独立。为了提供车道图更细节的表示，不仅可以预测拓扑结构，还可以预测左右车道边界的偏移、这些边界的类型和人行横道。

拓扑序列解码器

本文构建了拓扑序列解码器。每个解码器层包含一个自注意力模块、一个交叉注意力模块和一个前馈网络。自注意力模块中的因果掩码维持了自回归性质。整个结构在提取和细化 BEV 特征方面具有若干个优势：

(1) 增强的特征细化：该模型可以根据序列选择性地着重于 BEV 特征的相关区域。这种具有针对性的注意力有助于通过突出对准确重建车道图或者理解场景关键的区域来细化 BEV 特征；

(2) 改进的远距离依赖关系：拓扑序列解码器增强了对远距离关键点之间依赖关系的捕获。它将关键点之间的上下文信息加入到车道线段解码器中，使其能够预测更对齐的车道线段端点。

(3) 上下文集成：通过着重于特定的关键点提示，该模型可以降低 BEV 特征中不相关或者冗余信息的影响。这导致特征提取更高效，并且可能会减少最终预测结果中的噪声。训练拓扑序列解码器的输出结果可以表示为：

$\hat{y}^E = \text{TopoSeqDec}(F, \text{Concat}(y^K, y^E))$

其中， $\text{TopoSeqDec}$ 表示拓扑序列解码器， $\hat{y}^E$ 表示预测的边序列。

序列结构

本文遵循 RoadNet，将有向无环图 (DAG) 转换为边序列。车道上的每个关键点都可以作为起点或者终点，每条边可以表示为六个整数：

$\hat{y}^E = [\text{int}(x_i), \text{int}(y_i), \text{cls}, \text{con}, \text{int}(bx_i), \text{int}(by_i)]$

其中，前两个整数 $\text{int}(x_i)$ 、 $\text{int}(y_i)$ 表示关键点的离散坐标。 $\text{cls}$ 表示关键点的类别，可以为 Ancestor、Lineal、Offshoot 或者 Clone。con 表示关键点的连接。如果 cls 为 Ancestor 或者 Lineal，则 con 设置为 0。否则，con 被设置为父关键点的索引。由于三次贝塞尔曲线可以有效地表示两个关键点之间车道的轨迹，因此最后两个整数 int(bxi)、int(byi) 表示贝塞尔曲线的中间控制点。为了确定关键点的唯一顺序，本文选择 BEV 透视图右前方的位置作为起点，并且使用深度优先搜索进行排序。

在训练过程中，本文构建了两种类型的序列，如图 3 所示。其中，输入序列和目标序列用于监督。

▲图3｜输入序列和目标序列©️【深蓝AI】编译

输入序列以 Start token 为开始，随后是关键点提示，然后为 GT 边，剩余长度由噪声边填充。关键点提示 $y_k$ 包括所有预测边以及噪声边的关键点。值得注意的是，所有预测边的关键点都是无序的，并且与边序列中的坐标顺序不对应。最后，关键点提示以 EOK token 结束。在目标序列中，关键点提示的位置由 pad tokens 填充，随后是真值边和噪声边，最后以 EOS token结束。

随机顺序的提示到序列学习

车道线段解码器预测的车道往往端点不对齐。表示两条车道需要四个端点，这可能会出现不同车道端点之间几何不一致的现象。相比之下，边序列仅使用三个点来表示具有完美对齐端点的两条相邻车道线，从而提高了自动驾驶的轨迹理解能力。为了利用序列到序列学习的远距离理解和顺序关系的能力，本文在关键点提示下促进了车道线段解码器和序列拓扑解码器之间的交互。基于车道线段解码器的预测结果，本文根据置信度从高到低的顺序对预测的车道进行排序，并且使用预测的邻接矩阵滤除每条预测车道中任何重复的关键点：

$y_k^E \leftarrow \begin{cases} k_{j}^{n-1} & A_{ij} = 1 \\ k_{j}^{0} k_{j}^{n-1} & A_{ij} = 0 \end{cases}$

其中，关键点的坐标是离散的。随机顺序的提示到序列学习的目标表述如下：

$\max \sum_{i=1}^{L} w_i \log P(y_i^E | \text{Concat}(y_i^E, y_i^E), \mathcal{F})$

其中， $w_i$ 表示类别权重， $y_i^E$ 表示 $y_i^E$ 之前的 tokens， $y^E$ 为预测的目标序列。输入关键点提示相对于边序列是无序的，这使得序列拓扑解码器能够引导网络推理离散关键点之间的关系。通过这种方式，网络推理了无序关键点提示之间的正确关联。此外，该过程促进网络细化高置信度的关键点位置，减少重复预测并且在 BEV 域中对齐端点。通过增强两个解码器之间的交互，该方法间接解决了基于序列到序列学习捕获远距离关系的局限性。

损失函数

Topo2Seq 中的整体损失函数定义如下：

$L = \alpha_1 L_1 + \alpha_2 L_{\text{cls}} + \alpha_3 L_{\text{seg}} + \alpha_4 L_{\text{lt}} + \alpha_5 L_{\text{top}} + \alpha_6 L_{\text{seq}}$

其中，L1 表示 L1 损失。 $L_{\text{cls}}$ 表示焦点损失，用于车道分类。 $L_{\text{seg}}$ 包括交叉熵损失和 diss 损失。 $L_{\text{lt}}$ 表示交叉熵损失，用于分类左右车道类型。 $L_{\text{top}}$ 为焦点损失，用于监督预测邻接矩阵 A 和真值邻接矩阵 A¯ 之间的关系信息。Lseq 表示最大似然损失，它监督拓扑序列解码器。每个损失的权重表示为 α1，α2，α3，α4，α5 和 α6。

04 实验

4.1. 数据集

本文在OpenLane-V2数据集上评估了Topo2Seq模型，OpenLane-V2是一个最近发布的开源数据集，专门用于自动驾驶中的拓扑推理。OpenLane-V2来源于Argoverse2和nuScenes数据集。这些数据涵盖了全球各地并且包括具有挑战性的场景，例如白天和夜间、晴天和雨天，以及城市和郊区环境。本文主要在subsetA上评估Topo2Seq，它由每帧7张周围图像组成。训练集包含约27000帧，验证集包含约4800帧。

4.2. 实现细节

本文使用在 ImageNet 上预训练的 ResNet-50 作为图像骨干网络。FPN 用于获得多尺度特征。BEVFormer 将环视图像的多尺度特征编码为 BEV 特征。与最近的工作一致，BEV 感知范围设置为 x 轴 [−50.0m,+50.0m]，y 轴 [−25.0m,+25.0m]。BEV 网格配置为 200×100。车道线段解码器的配置遵循 LaneSegNet 的配置。它由 6 层组成，查询数量设置为 200。该模型实现了 14.7 FPS 的帧率。输入序列和目标序列都由 802 个 tokens 组成，包括 201-token 关键点提示和 601-token 边序列。由于资源限制，本文在 4 个 NVIDIA A100 GPUs 上训练网络，总的 batch size 为 4。本文采用 AdamW 作为优化器。α1、α2、α3、α4、α5 和 α6 的值分别设置为 0.025、1.5、3.0、0.1、5.0 和 1.0。

本文评估了三种训练策略：

策略 1：使用随机排序的 GT 关键点作为关键点提示，对网络进行 24 个周期的训练，以获得稳定的输出，然后再进行 24 个周期的训练，着重于两个解码器之间的交互。

策略 2：仅对两个解码器之间的交互进行 24 个周期的训练。

策略 3：使用随机排序的 GT 关键点作为关键点提示，训练 12 个周期以获得稳定的输出，然后再进行 12 个周期的解码器交互训练。

4.3. 指标

本文在两种类型的任务上评估Topo2Seq：车道线段感知和中心线感知。对于车道线段感知，本文使用mAP、APls、APped和TOPlsls。对于中心线感知，我们使用DETl、TOPll以及DETl和TOPll之间重新定义的OLS。值得注意的是，在OpenLane-V2基准测试中，中心线和车道线段的标签未对齐，并且由于车道线段的数量较多，检测车道线段的标签更具挑战性。

4.4. 主要结果

本文首先在OpenLane-V2基准上比较Topo2Seq与最先进的方法。在OpenLane-V2 subsetA上的结果如表格1所示。

最先进方法的结果主要来自它们各自的论文。当训练24个周期（12个周期实现稳定输出，随后是12个周期的解码器交互训练）时，Topo2Seq在APls和TOPlsls上分别比LaneSegNet高出1.8%和1.5%。通过使用ResNet-50在总共48个周期内进行两阶段训练，Topo2Seq的mAP和TOPlsls分别达到了37.7%和29.9%。在相同的配置下，Topo2Seq在APls和TOPlsls上分别比LaneSegNet高出2.0%和2.6%。

在OpenLane-V2 subsetA上的中心线感知结果如表格2所示。

在相同的24个训练周期下，Topo2Seq在OLS∗上相比于LaneSegNet提高了2.0%，在DET1上提高了2.4%，在TOPll上提高了1.7%。与使用相同48个训练周期的TopoMLP和LaneSegNet相比，Topo2Seq在DET1上比TopoMLP提高了4.2%，在OLS*上比LaneSegNet提高了2.5%，在DET1上提高了2.4%，在TOPll上提高了2.7%。这些结果表明，在训练过程中引入额外的序列解码器交互可以使网络在拓扑推理方面实现显著的改进。

4.5. 消融研究

本文研究了Topo2Seq中的每个重要设计。消融研究如表格3所示。

当将有序的GT关键点提示引入序列学习时，网络仅能学习关键点之间的轨迹，而不能推断它们之间的关系。这解释了为什么索引2的结果优于索引1，在TOPlsls上提高了2.7%。比较索引2和索引3的结果，可以看出，由于车道线段解码器的输出结果不准确且不稳定，过早与拓扑序列解码器交互会导致比使用随机排序的GT关键点作为关键点提示更差的性能。然而，与索引1中的结果相比，该方法在拓扑推理方面仍然略有改进。从索引2和索引4的结果可以看出，当将车道线段解码器的预测关键点引入到关键点提示中以实现两个解码器之间额外24个周期的交互训练时，mAP提高了2.8%，TOP提高了2.1%。这一结果表明，序列学习可以进一步增强车道线段解码器感兴趣区域中BEV特征的提取，特别是增强远距离感知和拓扑推理。

4.6. 定性结果

如图4所示，本文将LaneSegNet和Topo2Seq生成的车道图可视化。

相比之下，Topo2Seq生成了具有端点对齐的高质量车道图，其远距离感知更可靠且拓扑关系更准确。这归功于与序列拓扑交互所继承的优势。

05 总结

本文提出了拓扑序列学习增强的拓扑推理方法Topo2Seq。本文从语言模型中获得灵感，通过序列到序列学习解决了基于DETR的拓扑推理框架中固有的远距离感知和关系建模的局限性。本文通过结合随机顺序的提示到序列学习，增强了拓扑序列解码器和车道线段解码器之间的交互。该方法使Topo2Seq能够生成具有更精确端点对齐和准确拓扑的车道图。在OpenLane-V2数据集上的实验结果表明，Topo2Seq在拓扑推理方面实现了最先进的性能。