大模型与端到端会成为城市自动驾驶新范式吗？

摘要：

最近可以明显看到或者感受到第一梯队的城市自动驾驶量产已经进入快车道，他们背后所依靠的正是当下最热的大模型和端到端的技术。

近期，城市自动驾驶量产在产品和技术上都出现了新的变化。

在产品层面，出现了记性行车或者称为通勤NOA的新形态，首先学习和记忆用户自行驾驶的路线，等到学习成功以后，就可以使用该路线实现城市NOA，大疆、理想等多家公司已经正式官宣该产品。

在技术层面，最近可以明显看到或者感受到第一梯队的城市自动驾驶量产已经进入快车道，他们背后所依靠的正是当下最热的大模型和端到端的技术。从各家发布的技术路线来看，可以归纳出城市NOA的四件套：

1）以BEV大模型为基础的城市道路交通全栈感知大模型；

2）至少上亿公里或者上百万个视频的数据训练；

3）至少上百P的算力平台，用作大模型数据训练；

4）智驾芯片上Transformer的高效部署。

某种程度而言，要真正实现数十个城市的大规模量产，以上四件套缺一不可。

虽然种种迹象表明城市自动驾驶量产呈现快速发展势头，但是我们仍然应该理性认识到在国内数十个城市解决每一个复杂场景和corner case的不确定性、复杂度和难度。四件套是基础，但足不足够我依然会打一个问号，毕竟拥有上述豪华四件套的特斯拉也依然还没有迎来V12版本，依然没有全量推送。

从技术路线上来说，大模型和端到端是继高精度地图路线后的一次冲锋，在chatGPT席卷浪潮之下下可谓是生逢其时，那么他们会是否会成为城市自动驾驶量产的新范式呢？让我们来分析一下各家的武器库。

注：以下素材均来源于网络公开资料，如有侵权，请联系删除。

01 理想：智驾全面拥抱大模型

2023年6月17日，首届理想家庭科技日在理想汽车常州智能制造基地举行，分享会上宣布本月即将开启城市NOA内测，也宣告理想AD智能驾驶进入大模型时代。

其自动驾驶大模型能力体现以下几点：

1.BEV感知大模型

感知采用BEV大模型，不依赖高精地图，能够实时感知和理解环境中的道路结构信息。通过大量的训练，目前理想的BEV大模型已经可以在绝大多数的道路和路口实时生成稳定的道路结构信息。这里的「绝大多数的道路和路口」到底是多少，个人认为还有待验证，毕竟全国道路总里程有1000万公里。

2.路口神经先验网络（NeuralPriorNet）

对于城市中的复杂路口，仅通过BEV大模型来进行感知依然不够稳定。例如在一些跨度较大的路口，通行车辆较多，传感器视野容易被遮挡，导致车端实时感知的结果会丢失局部的信息。

针对这类复杂路口，理想使用自研的神经先验网络（NeuralPriorNet，简称为NPN网络），提前提取和存储路口NPN特征，当车辆再次行驶到该路口时，将之前提取好的NPN特征，与车端感知大模型的BEV特征层进行融合，从而得到完整的感知结果。

NPN特征是一堆神经网络参数，人类无法从这些参数直接理解复杂路口形态，但是大模型可以。相比高精地图，NPN特征的信息量更大、保密性更高。可以理解为，它用网络模型替代了人为规则，进行环境信息的理解和环境信息的使用。

通过NPN特征增强BEV模型的研究论文，发表在AI领域的国际顶级会议CVPR上，论文题目为：Nerual Map Prior for Autonomous Driving。

据业内某专家分析，从他们的模型流程来看：车队的数据训练好之后会被存储，当用户车（offline）走到这里的时候，就会查询当前位置（比如路口）对应的全局NMP，然后用户车端编码器提取到的BEV特征会和当前位置存储好的全局NMP进行一个融合，类似于定位，最后解码器输出一个车端的路口语义地图；如果发现车端观测的特征和全局NMP不一样，又会做一轮融合更新，重新存储到全局的NMP里，相当于用户车只要是走过自动驾驶车队走过的路口，都有图参考。

3.端到端的信号灯意图网络（TrafficIntentionNet）

众所周知，路口红绿灯的通行规则一直是城市道路中的难点。一般需要从高精地图中获取信号灯与道路、车道的绑定关系来确定当前车道所对应的红绿灯。这个规则的建立需要人工提前处理，而理想选择用大模型解决。

训练了一个端到端的信号灯意图网络（TrafficIntentionNet，简称为TIN网络）。不需要人为设定任何规则，甚至不需要识别红绿灯的具体位置。只要将图像视频输入给TIN网络模型，网络就能直接给出车辆现在该怎么走的结果——左右转、直行或停止等待。其核心是通过学习大量人类司机在路口对于信号灯变化的反应，来训练TIN网络模型。

在路口处，TIN网络根据输入的视频图像，实时给出的路口不同通行意图的概率，概率值最大的就是实际使用的意图，这与信号灯的指示一致。

此外，面对道路上可能会出现的通用障碍物，比如施工路障、遗撒物体、卡车后斗伸出的货物等，理想也和特斯拉、华为一样使用Occupancy网络，来精准地识别它们的边界和类型。近几个月，通过“喂”大量训练里程，Occupancy网络识别的内容和准确性又得到了很大的提升。

4.1200P和6亿公里的训练平台

大模型的训练，需要一个强大的基础训练平台，才能完成快速高效的训练和迭代。理想到今天为止已经拥有1200 PFLOPS算力的自动驾驶训练集群。自动驾驶训练里程，已经突破了6亿公里。

在这个平台上，大模型可以进行高度自动化的闭环学习训练。整个训练过程主要包括：样本采集、样本挖掘、样本标注、模型训练和测试验证。

02 小鹏：已量产BEV

截至2023年，小鹏已成功在国内提供一流的自动驾驶解决方案：开发、部署了小鹏的BEV感知架构XNet，直接感知自动驾驶车辆周围的环境，可以处理动态物体、复杂的道路拓扑,乃至交通信号灯的极端长尾情况（例如多类型交通灯一起推理、以及与附近的倒计时计时器或交通标志一起推理）。

1.端到端的BEV

BEV感知可以看作是一个端到端的感知系统，是迈向端到端自动驾驶系统的重要一步。在小鹏自动驾驶总监Patrick看来，端到端自动驾驶系统是完全可微分的管道，它将原始传感器数据作为输入，并生成高级驾驶计划或低级控制动作作为输出。

在传统的自动驾驶堆栈中，2D图像被输入感知模块以生成2D结果。然后利用传感器融合对多个摄像机的2D结果进行推理，并将其提升为3D。生成的3D对象随后被发送到下游组件，例如预测和规划。

然而，传感器融合步骤需要大量手写规则来融合多个摄像机流的感知结果。每个相机仅感知到观察的物体的一部分，因此结合获得的信息需要仔细调整融合逻辑。本质上是通过工程师的头脑进行反向传播。此外，制定和维护这些规则会带来一系列复杂性，导致复杂的城市环境中出现许多问题。

为了克服这一挑战，应用鸟瞰图 (BEV) 感知模型，它使我们能够直接在 BEV 空间中感知环境。BEV 感知堆栈将两个独立的组件组合成一个解决方案，从而消除了脆弱的人为逻辑。BEV感知本质上是一种端到端的感知解决方案。这标志着迈向端到端自动驾驶系统的关键一步。

2.BEV实现原理

Xpeng 的 BEV 感知架构代号为 XNet。

下面的可视化描述了正在运行的车端XNet 感知架构。中间的红色车辆代表自动驾驶车辆在环形交叉路口行驶。周边静态环境完全靠车端感知，不使用高精地图。可以观察到 XNet 准确地检测了车辆周围的各种动态和静态物体。

小鹏AI 团队在两年多前（2021年初）开始试验 XNet 架构，此后经历了多次迭代才达到目前的形式。利用卷积神经网络（CNN）主干来生成图像特征，同时通过交叉注意模块（变压器）将多摄像头特征转置到BEV空间中。

然后，过去几帧的BEV特征与自我姿势（在空间和时间上）融合，以从融合特征中解码动态和静态元素。

以视觉为中心的BEV感知架构提高了大规模部署自动驾驶解决方案的成本效益，减少了对更昂贵的硬件组件的需求。准确的3D检测和速度展现了冗余的新维度，并减少了对LiDAR和雷达的依赖。此外，实时3D感性环境感知减少了对高清地图的依赖。这两种功能都有助于打造更可靠、更具成本效益的自动驾驶解决方案。

3.BEV部署的挑战与方案

将这样的神经网络部署到生产车辆上会带来一些挑战。

首先，训练 XNet 需要数百万个多摄像头视频剪辑。这些剪辑涉及大约10亿个需要注释的对象。按照目前的标注效率，标注大约需要2000人年。从模型训练的角度来看，使用一台机器训练这样的网络需要将近一年的时间。此外，在 NVIDIA Orin 平台上部署这样一个没有任何优化的网络将占用一个芯片 122% 的计算能力。

小鹏通过自动化标注、大规模训练、以及Orin芯片上的高效部署来解决BEV大模型实际落地应用问题。

1）自动化标注

为了提高标注效率，开发了一个高效的自动标注系统。这种离线传感器融合堆栈将效率提高了高达4.5万倍，使小鹏能够在短短17天内完成需要200个人年才能完成的注释任务。

以上是基于激光雷达的自动标签系统，除此之外还开发了一个完全依赖视觉传感器的系统。这让注释从没有激光雷达的客户车队获得的剪辑成为可能。这是数据闭环的关键一环，促进了自我进化的感知系统的发展。

2）大规模训练

关于大规模训练，从以下两个角度优化了 XNet 的训练流程。

首先，应用混合精度训练和算子优化技术，简化了单节点的训练过程，将训练时间缩短了10倍。

然后，通过与阿里云的合作，构建了一个算力为600 PFLOPS的GPU集群，将训练从一台机器扩展到多台机器。这进一步减少了训练时间，这个过程并不简单，因为需要仔细调整训练过程以实现近线性的性能扩展。

3）Orin芯片上高效部署

如果没有任何优化，在Nvidia Orin芯片上运行 XNet 将需要该芯片 122% 的计算能力。在分析开始时显示的分析图上，可以观察到变压器模块消耗了大部分运行时间。

这是可以理解的，因为变压器模块在 Orin 芯片的初始设计阶段并未受到太多关注。因此，需要重新设计Transformer模块和注意力机制以支持Orin平台，从而实现3倍的加速。

为了进一步优化，通过修剪进一步优化了网络，从而使速度提高了2.6倍。最后，在GPU和DLA之间采用工作负载平衡，进一步实现了1.7倍的加速。

通过这些不同的优化技术，将XNet 的GPU利用率从122%降低到仅9%。总体而言，XNet的训练时间从276天减少到仅仅11小时。

03 UniAD：感知决策端到端

2023年6月22日，CVPR 2023最佳论文新鲜出炉，有2篇论文从总量高达9155篇的投稿中脱颖而出，其中一篇就是Planning-oriented Autonomous Driving，即以路径规划为导向的自动驾驶。该论文由上海人工智能实验室、武汉大学及商汤科技联合完成。这是近十年来，计算机视觉三大顶级国际会议（CVPR、ICCV、ECCV）上，第一篇以中国学术机构作为第一单位的最佳论文。