自动驾驶---各大车企的端到端之旅

1 背景

端到端技术的落地速度确实有些超出预料，随着以ChatGPT为代表的AI大模型的快速发展，使得自动驾驶系统也能够像人一样进行“思考”，推动了自动驾驶技术的迭代升级。

特斯拉端到端技术的落地，自动驾驶在这一技术上的变化使得自动驾驶系统能够更加智能地处理复杂场景，提高驾驶的安全性、舒适性以及效率。

2 各家车企的进展

“端到端”自动驾驶技术成为行业热点，该技术通过深度学习模型直接从原始传感器数据中提取信息，实现从感知到控制的无缝连接。特斯拉的FSD V12系统就是这一技术的典型代表，已经在量产车型上得到应用。

在今年（2024年），国内自动驾驶企业纷纷推出面向量产的端到端自动驾驶解决方案，如小鹏、理想等国内企业。这些方案在技术层面上展现出强大的竞争力，并在实际道路表现中证明了其有效性。

截止到目前为止，公布端到端大模型方案且落地的有三家车企：特斯拉，小鹏和理想。下面分别对三家方案作相关介绍。

2.1 特斯拉

2023年8月，特斯拉 FSD V12 版本问世，成为首家成功量产「端到端」架构的车企。2024年2月，特斯拉将基于端到端架构的 FSD V12版本向部分普通用户推送，启动商业化落地。FSD V12 的流畅性、令人惊艳的体验感，初露锋芒，但通过网友们的视频，也不是没有缺点，随着数据量的增大，性能还会持续进化。

特斯拉是笔者最早介绍端到端方案的车企，在之前的博客中已经详细描述过《自动驾驶---Tesla的自动驾驶技术进化史（Perception&Planning）》（博客文章里详尽描述了特斯拉从传统自动驾驶方案如何过渡到端到端方案），这里就不赘述了。

2.2 小鹏

2024年5月，小鹏宣布「端到端」架构上车。下面分别对三个模块（XNet，XBrain，XPlanner）进行描述：

三网合一的深度视觉感知神经网络XNet，通过聚合动态XNet、静态XNet和行业首个量产纯视觉2K占用网络，能够让自动驾驶系统如同裸眼3D。行业首个量产2K纯视觉占用网络，用超过200万个网格重构世界，对现实世界中的可通行空间进行3D高真实度还原，清晰识别静态障碍物的每一个细节，使得感知范围提升2倍，面积可达1.8个足球场大小，能精准识别50+个目标物，让用户如同拥有鹰眼视觉，驾驶时看得更清、更远。

感知之外，小鹏汽车还推出了基于神经网络的规划大模型XPlanner。XPlanner就像人类的小脑，通过海量数据时刻训练，使得驾驶策略不断向拟人进化，拥有“老司机般的脚法”，使得前后顿挫减少50%、违停卡死减少40%、安全接管减少60%，让用户舒适性、安全性体验都再上新台阶。

引入AI大语言模型XBrain架构后，自动驾驶系统拥有了人类大脑般的理解学习能力，处理复杂甚至未知场景的泛化处理能力大幅提升，对真实物理世界的宏观逻辑的推理能力亦是如此。在XBrain的加持下，自动驾驶系统能够认识待转区、潮汐车道、特殊车道、路牌文字，秒懂各种令行禁止、快慢缓急的行为指令，进而做出兼顾安全、性能的拟人驾驶决策。

2.3 理想

理想智驾经历了三代的发展，目前也逐渐成为行业领先的智驾表现。整个自动驾驶方案的迭代过程主要分为以下三个阶段，其实下面这张图也继承了特斯拉的发展路线，估计大部分企业都会走这个方案。

（1）NPN架构

（2）分段式端到端

（3）一体化端到端

此前，理想汽车与清华大学交叉信息研究院一直在进行联合研究，2024年2月，双方团队联合发布了论文《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》。

下面详细介绍理想汽车公布的端到端方案。理想汽车在智驾上类人的设计了两个系统：（1）快系统；（2）慢系统。

快系统

（1）依赖直觉和本能；

（2）无意识，依赖情感，记忆与经验，不费脑力，迅速判断；

（3）保证大部分（95%）场景下的高效率。

慢系统

（1）有意识地分析思考；

（2）慢且专注，逻辑性，耗费脑力，深思熟虑；

（3）解决少数（5%）场景下地高上限。

最终的端到端，其中的一端，是传感器（包括摄像头，激光雷达等），另一端是行驶轨迹，最终会输出：动态障碍物，道路结构，占用网络以及规划轨迹。

3 端到端评估

目前在自动驾驶行业，端到端自动驾驶进行评估大致有两类方法：（1）闭环评估；（2）开环评估。这是每个端到端架构未来都要面对的专项测试。比如下图基本代表了目前仿真数据闭环的一个大致流程。

闭环评估需要接受反馈信号从而形成反馈闭环；开环评估则是分模块进行，并和真实数据作对比。比如，UniAD 基本就是在开环评估中评估验证，没有进行闭环评估。

怎么评价一个模型或者功能的好坏？目前一些自媒体或者车企都以接管次数作为基准，其实还包括舒适性，安全性，效率等等。

何小鹏说，对于端到端大模型的硬指标，最终看接管率。今天高速如果没有续航的问题，可以做到 1000 公里接管一次。在城区，今天所有的城市辅助驾驶，我认为安全接管可能是百公里或者一两百公里。

如果在城区开 100 公里、300 公里、500 公里接管一次，体验完全不一样。可以对比的是，特斯拉应用端到端神经网络架构的 FSD V12 的平均接管历程从此前的 166 英里（约 267 公里）提升到了 333 英里（约 537 公里）。

目前的大模型或者多模态模型仍难以实现对整个世界的理解。模型对时间、空间和物理定律的理解非常重要，这对于人和动物比较简单，但对于多模态模型还是非常糟糕的。具身智能才是实现AGI最有效的途径，因为依靠躯体收集的数据非常重要，因此只有将模型尽快部署到真实的机器人上去，参与到真实的世界，去理解每个人的情绪，才能让数据真正有效。单纯的大脑就像活在梦境里。

4 算力

特斯拉 CEO 马斯克曾自信地对外声称：“特斯拉拥有世界上最好的现实世界模拟和视频生成能力”。特斯拉在大约2022年的时候就能以精确的物理生成真实世界的视频，同时，他也指出：“我们的 FSD 训练算力不足，所以还没有使用其他的视频（所有的训练数据都来自汽车）进行训练，但当然是可行的。今年晚些时候，当我们有空余算力时，就会进行训练。”

实际上，算力难题一直存在。2023 年 8 月，马斯克指出，FSD AI 的实现进程，眼下的限制因素在于训练的算力，而非工程师人力。算力的稀缺，已经成为制约 AI 部署发展的主要因素。

国内后续如果发展端到端，也要考虑算力不足带来的影响。2022 年 8 月，阿里云宣布正式启动张北超级智算中心，当时号称“全球最大的智算中心”，总建设规模为 12EFLOPS（每秒 1200 亿亿次浮点运算）AI 算力，超过谷歌的 9EFLOPS 和特斯拉的 1.8EFLOPS。同年 8 月 2 日，小鹏汽车宣布和阿里云合作在乌兰察布建成当时中国最大的自动驾驶智算中心“扶摇”。“扶摇”算力可达 600PFLOPS（每秒浮点运算 60 亿亿次），将小鹏自动驾驶核心模型的训练速度提升了近 170 倍。

以最新公布的车企与智驾供应商的算力情况（数据来源于网络）：