中国版Wayve决战端到端，等待数据的大力出奇迹

作者 |王博

编辑 |德新

「人工智能的定律只有一个，就是规模定律（Scaling Law），大力出奇迹。端到端是描述方式，更应该去考虑如何去生产更多的自动驾驶合适的数据，来喂养更大更合适的模型，取得更好效果。」

这段话，出自毫末智行CEO顾维灏。

近日，顾在2024未来汽车先行者大会上，提到了他认为的端到端竞争的关键点。

端到端的出现，让自动驾驶今年再获资本热捧。

不久前，自动驾驶圈刚曝出一轮10.5亿美金的融资消息，软银领投，英伟达、微软跟投，获投方是一家名为Wayve的英国自动驾驶公司。

这是软银在自动驾驶领域的最新一笔投资，之前其已在Cruise、Stack AV等公司身上花掉数十亿美金。

Wayve自2017年成立至今，推出的核心产品是GAIA-1、LINGO-2两个自动驾驶大模型，主打端到端大模型。

这一点，和毫末在端到端的布局颇为相像。

毫末已搭建自监督感知大模型、自监督认知大模型，并开始进行端到端训练等，虽然命名方式不同，但与Wayve的思考路径相似。

自动驾驶将大模型引入后，解题思路完全改变。

从以自动驾驶工程师手写规则，指导车辆如何驾驶为主，切换到以AI来答卷，让神经网络大模型决定如何开车，程序员终于可以「少掉头发」。

10亿美金融资，让外人见识到自动驾驶大模型的受关注程度。而其实，在智驾标杆特斯拉和自动驾驶的热土中国公司毫末这里，大模型上车已经初试牛刀，胜出希望寄托在数据的大力出奇迹。

一、换种思路，解决头疼问题

大模型概念兴起于NLP领域，直到ChatGPT出现后，GPT这一全新的训练范式迅速被自动驾驶从业者认同，行业上下如获至宝。

在GPT被引入之前，2004年美国DARPA那场自动驾驶比赛之后的十多年里，研发模式仍与当年的DAPRA如出一辙。

以识别车道线为例，传统操作步骤是，先采集车道线数据，然后进行人工标注，再把标注完的数据训练成一个模型，最后把模型部署上车，再使用规则控制车辆做出决策。

这可以称之为小模型加手工规则。

GPT被引入自动驾驶后，研发模式焕然一新。

在大模型领域一早布局的Wayve，成立于2017年，直接跳过了传统的自动驾驶研发模式，瞄准大模型发力。

只不过，业内最先看到的是特斯拉。

在去年6月举行的CVPR 2023上，特斯拉Autopilot软件总监Ashok Elluswamy透露，团队正在训练一个更通用的世界模型。

特斯拉引入大模型，一部分原因在于，传统的自动驾驶研发模式，在城市场景中遇到了困难。

仍以车道线场景为例，实时预测车道线一度是自动驾驶头疼的问题。“车道是三维数据，会分叉、合并，很难建模。”Ashok Elluswamy解释道。

特斯拉的做法是，基于生成式大模型，采用自回归Transformer，将车道令牌化，一次一个令牌地对车道进行预测，对分叉点、合并点进行预测。

其实，早于Ashok Elluswamy演讲前一天，Wayve已在自家官方博客上发布GAIA-1，一个用于自动驾驶的生成式大模型。

几个月后，这一模型扩展至90亿参数，Wayve开始能够生成逼真的驾驶场景视频，展示自动驾驶“在各种情境的反应”，且可以更好地预测未来事件。

今年4月，在NVDIA GTC的舞台上，Wayve CEO Alex Kendall演讲时表示，「自动驾驶行业花费了太多时间聚焦在复杂解法上，比如手动编码规则和高精地图。」

他列出几个自动驾驶误区，第一个便是，以为解决感知问题就搞定了自动驾驶。

“要想创造一种让人们感到高兴并信任的体验，关键不仅仅是能够看到世界。真正的问题在于决策，多智能体复杂推理，才是自动驾驶问题的核心。”他说。

软银领投的那笔10.5亿美金，也在不久后被官宣，Wayve开始被更多自动驾驶领域的从业者认识和关注。

二、中国版Wayve，入局端到端

将大模型引入自动驾驶，Wayve同行者不止有特斯拉，还有中国的自动驾驶公司。

在国内，大家较早听闻大模型消息的玩家中，其中一家是开头提到的毫末。

毫末发布的DriveGPT这一生成式大模型，可用于自动驾驶的感知、决策任务。

开启GPT时刻之前，毫末最初采用的是encoder+dedocer模型，输入一串图片，模型会输出一串自动驾驶决策动作。

后来，这家公司还采用基于encoder自编码的训练方式，输入感知结果，mask司机的驾驶行为，让系统猜司机的驾驶行为。

ChatGPT出现后，毫末很快发现GPT的高效能力，就此入局。

生成式大模型有一大任务，可以归纳为：“建立了一个神经网络，以过去或其他输入为条件，预测未来。”

不同的是，Wayve和特斯拉输入的是视频序列，也就是一段过去的视频，神经网络会预测未来可能发生的事情，生成一段预测的视频序列。

毫末生成的是BEV序列，向大模型输入一段过去10秒的感知场景，大模型会生成一段未来2 - 3秒的场景。

无论各家输入的是视频还是BEV序列，逻辑是相同的。

这一方式，与人类司机驾驶根据道路状况做出驾驶决的做法颇为相似。它一改传统的手写规则，转而让神经网络决定如何开车，相当于借助大模型短暂预测了未来。

生成式大模型可以用于自动驾驶认知决策，这是一个很好的开始。

同时，毫末也在训练基于自监督的通用感知大模型，并最终希望将感知大模型、认知大模型打通，并引入大语言模型LLM来获得世界知识，实现端到端训练。

发布GAIA-1几个月后，2023年9月，Wayve又在自家官方博客上发文，介绍了LINGO-1，一款开环的Driving Commentator C（自动驾驶评论员），这是一个基于视觉、语言、动作的自动驾驶交互模型，可以用于解释自动驾驶系统的行为逻辑。

今年4月， Wayve推出的LINGO-2，为自动驾驶体验开辟全新的控制和定制维度，也是一个在公共道路上进行测试的视觉语言动作模型（VLAM）。这一多模态大模型被用于增加决策的可解释性。

在Wayve的官方视频中，用户可以和车辆进行对话，对行驶路线等问题进行提问，LINGO-2会给出回应，并能实时解释每一项决策背后的过程。

毫末的做法与之相似。

他们意识到，在构建对真实物理世界的4D感知基础上，通过多模态大模型，实现文、图、视频多模态信息的整合，从而完成4D向量空间到语义空间的对齐，实现跟人类一样的“识别万物”的能力。

与Wavye类似，毫末也尝试引入大语言模型LLM，并利用自动驾驶领域数据finetune后，使得LLM成为一个老司机，通过与LLM交互，能够获取丰富的世界知识，甚至能提出决策规划建议。

三、奔赴端到端，解决后续上车问题

大模型时代，人们见证了初出茅庐ChatGPT 3.0，很快又见识到更强的文生视频Sora，再到最近炸场的GPT-4o。

这些产品所采用的新技术，为自动驾驶持续输送思想的养料。

从Wayve和毫末等公司的实践看，大家都在遵循着大模型的思路，但仍会分阶段地推进，比如会推出解决某个模块任务大模型。

在探索自动驾驶最为积极的中国，玩家们会单独布局面向感知的大模型，然后布局用于驾驶决策的规控大模型。虽然这一过程中，某些地方还会用到CNN卷积神经网络，但整体会以Transformer为主。

所以，Wayve推出GAIA-1也好，LINGO-2也好，这些大模型也会进行统一，成为端到端大模型。

而毫末发布的DriveGPT，同样是将自动驾驶生成式大模型、多模态大模型、LLM等统一起来后的产物。

之后，就是自动驾驶大模型上车，将大模型从云端搬到车端的过程。

鉴于人工智能大模型的竞赛，是涉及算法、数据、算力的挑战，自动驾驶的竞争也会围绕这些维度展开。

进入端到端的大门，仅仅是第一步，紧接着就是数据的比拼。

正如顾维灏所说，自动驾驶经历了硬件驱动、软件驱动，现在正进入数据驱动时代。“数据驱动有一个很典型的特征就是它是大模型的，更多通过模型来实现整个的过程。“

更多的数据，会让自动驾驶玩家们开始比拼算力，囤积成千上万块GPU，从而在云端完成自动驾驶大模型的训练。还要不断进行训练投入，传闻ChatGPT训练一次，需要花费1200万美金。自动驾驶的训练费用自然也不会少。

接下来就是大模型上车。

按照毫末的说法，动辄千亿级参数的大模型，要在保持效果接近的前提下，缩小到亿级才可能上车。

从量产层面看，目前仅有行业标杆特斯拉推出FSD V12，宣布将城市街道驾驶堆栈升级为端到端神经网络，经过数百万个视频训练，取代了30多万行代码，可以视为端到端落地的最新动向。

从一些国内自动驾驶公司的计划看，预计在今年下半年，更多的端到端自动驾驶方案也将量产上车。

资本正在为自动驾驶大模型定价，相信Wayve融资仅是一个开始。在国内，毫末等Wayve的同行者，也许很快会获得资本的押注。毕竟端到端大模型这条路，现在看是最有希望抵达自动驾驶彼岸的方向。

参考文献：

Wayve CEO干货分享：自动驾驶已浪费太多时间

VLAM会是自动驾驶的黑盒解药吗？

Wayve：从源头讲起，如何实现以对象为中心的自监督感知方法？

特斯拉自动驾驶的“通用世界模型”和视频生成技术｜Ashok23年CVPR主题演讲

Scaling GAIA-1: 9-billion parameter generative world model for autonomous driving

Wayve - NeRF 为自动驾驶构建城市规模的神经辐射场

“大模型本质就是两个文件！”特斯拉前AI总监爆火LLM科普

毫末智行自动驾驶公开课（第二期）：数据、大算力、大模型驱动下的自动驾驶