一段式端到端vs两段式端到端，到底哪个好

news2025/4/8 21:22:23

在智能汽车领域，端到端自动驾驶技术正迅速成为行业焦点，不同的玩家实现路径也有差别。目前主流的端到端智驾方案有两类：一段式和两段式，针对这两种方案优缺点的讨论，也从未停止过。

“两段式”端到端和“一段式”端到端具体有哪些区别呢？

一段式端到端：

通往自动驾驶“ChatGPT”时刻的关键路径

ChatGPT输入一个文本，全面理解文本，预测下一个token。OpenAI的首席科学家做过一个比喻，你读了一本推理小说，在书的末尾要预测凶手的名字。要做到这一点，你就需要理解整部书。

一段式端到端采用的是类似ChatGPT的训练方式，2022年底，商汤及其联合实验室提出了行业首个感知决策一体化自动驾驶通用模型——UniAD，采用的就是将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型中，也就是由传感器直接输入外部环境信息，直接输出自车行驶轨迹，实现信息的无损传递，从而做出更精准的决策。相比之下，“两段式”方案信息经过感知模型过滤后，再到规控模型，损失较多，同时还会面临无法全面理解整个复杂场景、泛化能力和解决corner case的能力比较弱等问题。

王晓刚在2024年WAIC大会的发言

上限更高！一段式端到端，全面理解并应对复杂场景

两段式端到端模型由于网络规模小，只能解决特定简化任务，类似于动物擅长某些固定行为，比如：蜜蜂的习性就是特定的简单任务，它一直会干得很好，但是它的大脑相对很简单，无法应对复杂多变的环境。而一段式端到端模型则像人类大脑，具备更高的理解力和进化能力，能够全面理解并应对复杂场景，不断学习和进化，解决当前问题后，逐步提升至新的level，掌握新的工具并应对未曾见过的多样场景。所以，这样的模型不仅解决当前问题，还能适应未来更复杂的挑战。

一段式端到端，开发艰难，但正确

一段式方案要求前端处理大量视频信息，同时输出的决策信号必须极为精准，这对整个网络的训练、数据量以及Pipeline的要求极高。正如王晓刚所言，“‘一段式’方案很难，但一旦模型学出来能力会很强，这才是我们追求的自动驾驶里面的‘ChatGPT’时刻。”

实现「一段式端到端」自动驾驶方案的难度远超两段式。端到端自动驾驶技术的发展面临高昂的成本、巨大的算力资源需求、大量的高质量数据输入以及强大的模型性能支撑等挑战。商汤绝影之所以能够持续在这一领域取得突破，主要依赖于其丰沛的算力资源和高质量数据积累。商汤大装置已经布局全国一体化的智算网络，运营45,000卡GPU，总体算力规模达12,000 PFLOPS。同时，商汤绝影荣获2023年国际计算机视觉与模式识别会议(CVPR)最佳论文。在大模型的轻量化部署和持续迭代方面具备深厚的技术积累，使得绝影能够快速实现一段式端到端自动驾驶方案的车端部署并上路测试，持续引领端到端自动驾驶的前沿潮流。

给端到端装上“多模态大脑”
——DriveAGI

商汤绝影正在研发面向下一代自动驾驶技术——DriveAGI，基于多模态大模型对UniAD进行改进迭代，通过多模态大模型加持端到端方案，打造下一代自动驾驶技术。让车辆像人一样理解复杂的现实世界，洞察各类交通参与者的行为动机，快速学习各种交通规则，掌握瞬息万变的道路信息，还能向用户解释驾驶决策的推理过程。