自动驾驶---E2E架构演进

news2026/2/12 4:29:56

1 背景

模型最早应用的自动驾驶模块就是感知层面，随着技术的发展，逐渐开始应用到决策规划等其它模块。端到端自动驾驶架构是一种基于深层神经网络模型和方法的自动驾驶技术模式。目前一段式端到端系统只有在英伟达早期所做的demo中实现，再者就是特斯拉（但特斯拉并没有官方说明是一段式端到端，笔者结合特斯拉的OTA推送说明推测端到端到轨迹层面）。

在目前的量产领域，考虑到系统稳定性和安全性，暂时很少有公司做到一段式端到端，大部分都集中在两段式，甚至三段式。

2 自动驾驶E2E演进

目前，端到端自动驾驶架构的演进可以分为四个主要阶段，分别是感知模型化，决策规划模型化，多模块化下的模型以及one model。

感知“端到端”

这一阶段，整个自动驾驶架构被拆分成了感知和预测决策规划两个主要模块，其中，感知模块已经通过基于多传输器融合的 BEV 或者 OCC 技术实现了模块级别的“ 端到端”。通过引入transformer 以及跨传感器的cross attention 方案，感知输出检测结果的精度及稳定性相对之前的感知方案都有比较大的提升，不过，规划决策模块仍然以Rule-based 为主。

决策规划模型化

这个阶段，整个自动驾驶架构被仍然分为感知和预测决策规划两个主要模块，其中，感知端仍保持上一代的解决方案，但预测决策规划模块的变动比较大—— 从预测到决策到规划的功能模块已经被集成到同一个神经网络当中。值得注意的是，虽然感知和预测规划决策都是通过深度学习实现，但是这两个主要模块之间的接口仍然基于人类的理解定义（如障碍物位置，道路边界等）；另外，在这一阶段，各模块仍然会进行独立训练。

相比于第一阶段Rule-based 的决策方案，第二阶段的决策规划模块化很大程度地提升了决策规划应对复杂外界状况的上限。一方面，基于模型的方案能够最大程度地利用数据提升最终效果；另一方面，当现行模型大小不足以应对当前场景的复杂度时，扩大决策规划模型并重新进行训练在工程实现上也要比持续更新和维护规则库或状态空间模型容易很多。在各功能模块都完成了“ 神经网络模型化” 后，接下来的技术发展方向更多地体现在如何通过改进各功能模块间的互联方式获得更好的效果。而以这个标准来看，第二阶段的方案仍然存在着固有缺陷。一方面，为了进行每个模块的独立训练和验证，接口的设计需统一抽象为人类的理解形式，这种方案在带来训练方便及验证便利性的同时，会不可避免地以信息的损失为代价；另一方面，由于各模块之间无法进行全量有效的梯度传导——对每个模型的训练和优化更多地局限在模块内部，因而，在系统层面看，这更多是一种局部优化而非全局优化的方案。

该阶段可参考笔者之前写的文章《自动驾驶---行泊一体（车位到车位功能）量产》，主要介绍了华为ADS3.0中的方案架构。

模块化端到端

从结构上来讲，这一阶段的结构和上一阶段比较类似，但是在网络结构的细节及训练方案上有很大不同。首先，感知模块不再输出基于人类理解定义的结果，而更多给出的是特征向量。

相应地，预测决策规划模块的综合模型基于特征向量输出运动规划的结果。除了两个模块之间的输出从基于人类可理解的抽象输出变为特征向量，在训练方式上，这个阶段的模型必须支持跨模块的梯度传导—— 两个模块均无法独立进行训练，训练必须通过梯度传导的方式同时进行。

第三阶段的模块化端到端则通过避免对接口信号的过度抽象保证了信息的完整性，而跨模块的梯度传导也保证了对端到端模型的所有训练都有助于最终达到全局优化的效果。但该过程仍然有信息之间的相互传递，也不可避免的存在信息损失。

典型的架构就是UniAD提出的多模块模型架构，其中的感知、地图、决策规划都是模型输出，如下图所示。

还有理想和清华大学共同研究的自动驾驶双系统模型（多模块端到端+VLM），笔者也把该方案归到了这一类中，关于理想汽车智能驾驶双系统的详细内容可以参考笔者之前的博客《自动驾驶---各大车企的端到端之旅》和《自动驾驶---理想汽车智驾进展》。

One Model/ 单一模型端到端

虽然One Model 属于第四阶段的方案，但是这个概念被提出的时间比模块化端到端更早。在自动驾驶产业刚刚开始起步的 2016 年，英伟达在论文《End to End Learning for Self-Driving Cars》中就提出采用单个神经网络（卷积 + 全连的简单架构）来实现端到端的自动驾驶，输入和输出就是最原始的传感器信号、方向盘角度及油门开度。但由于结构设计过于简单，模型的规模也过小，这种方案仅能支持高速或者简单道路状况下的自动驾驶，且仅仅完成了小规模的 demo 验证，与量产需要的可靠性差距较大。

然而，随着 Transformer 网络架构和车端算力（逐步可支持0.1B~1B 级参数量网络运行）的提升，One Model 的端到端方案又重新回到人们的视野中，甚至很可能成为端到端的终局解决方案。相比于模块化方案，One Model 端到端方案虽然在训练以及调试上更为复杂，但在理论上，其最终效果具有更高的天花板。主要原因是，无论是采用基于RL/IL 的学习类架构，还是采用以世界模型作为基底的衍生架构，为了保证能够拥有对世界更全面的理解，One Model 端到端方案的训练过程能够涵盖更广范围的数据，这就使得对真实世界的所有知识和认知都可以完整地应用于自动驾驶，因而模型可以实现更好的泛化效果。

在这一阶段，就不再有感知、决策规划等功能的明确划分。基于实现方案的不同，这一阶段的One Model 可以是基于强化学习（Reinforcement Learning, RL）或模仿学习（Imitation Learning, IL）的端到端模型，也可以通过世界模型这类生成式模型衍生而来。

目前大部分车企（包括特斯拉，华为，理想，小鹏）集中精力在做 one model，当然也包括one model的优化，但 one model模型的输出为轨迹，还并没有到控制层面。

此外，这类架构对于环境以及和其他物体交互的理解具有很强通用性，因此，它就不单单为自动驾驶，也为如机器人等其他领域的应用打好了基础，从而最终实现跨领域模型的统一。