“毫末DriveGPT发布200天左右的时间,已经完成了亿级公里量产驾驶数据训练,累积高达480万段Clips的高质量测试。”
在2023(第七届)高工智能汽车年会上,毫末智行上海研发中心负责人孙宣峰在发表《自动驾驶 3.0 时代,大模型重塑汽车智能化技术路线》的主题演讲时透露。
自动驾驶3.0时代与2.0时代相比,其开发模式和技术框架都将发生颠覆性的变革。在自动驾驶2.0时代,以小数据、小模型为特征,以Case任务驱动为开发模式。而自动驾驶3.0时代,以大数据、大模型为特征,以数据驱动为开发模式。
相比2.0时代主要采用传统模块化框架,3.0时代的技术框架会发生颠覆性变化。
首先,自动驾驶会在云端实现感知大模型和认知大模型的能力突破,并将车端各类小模型逐步统一为感知模型和认知模型,同时将控制模块也AI模型化。
随后,车端智驾系统的演进路线也是一方面会逐步全链路模型化,另一方面是逐步大模型化,即小模型逐渐统一到大模型内。然后,云端大模型也可以通过剪枝、蒸馏等方式逐步提升车端的感知能力等等。最终在未来车端、云端实现端到端的自动驾驶大模型。
据介绍,毫末自动驾驶生成式大模型DriveGPT(中文名:雪湖·海若)包括感知大模型与认知大模型两大方面。
DriveGPT通过引入多模态大模型与大语言模型,实现文、图、视频多模态信息的整合,获得识别万物的通用感知能力,并持续提升。
“只有识别的范围够广,我们才能从这些识别物中选出对自动驾驶最相关的物体,再基于这些物体来优化驾驶决策。” 孙宣峰指出。
在认知阶段,基于通用语义感知大模型提供的“万物识别”能力,DriveGPT通过构建驾驶语言(Drive Language)来描述驾驶环境和驾驶意图,再结合导航引导信息以及自车历史动作,并借助外部大语言模型LLM的海量知识来辅助给出驾驶决策。
在演讲中,孙宣峰还介绍了毫末基于大模型的应用实践,包括驾驶场景理解、驾驶场景标注、驾驶场景生成、驾驶场景迁移等等。
毫末DriveGPT的驾驶场景理解可以秒级从百亿图库中筛选出任意数据,为大模型挖掘海量高质量训练数据;驾驶场景标注借助大语言模型的能力来实现在开集场景中Zero-Shot的快速精准的自动标注,不仅实现了针对新品类的Zero-Shot快速标注,而且精度还非常高,预标注准召达到80%以上。
对于驾驶场景迁移,基于毫末的感知大模型,以真实的采集图像作为引导,通过文本语言来描述希望生成的目标场景,可高效的实现多目标场景生成。据介绍,基于生成数据,在黑夜、雨天等场景的感知效果提升30%。
另外,毫末与火山引擎联合打造雪湖绿洲(MANA OASIS),是中国自动驾驶行业最大智算中心,每秒浮点运算达67亿亿次,存储带宽每秒2T,通信带宽每秒800G。
综合来看,毫末完成了大模型、大数据、大算力平台的布局,构建了智能驾驶完整新基建,率先冲刺自动驾驶3.0时代。
目前,毫末辅助驾驶产品HPilot已搭载至超过21款车型落地,到目前2023年12月,量产智能驾驶行驶里程突破1亿公里,已经对DriveGPT大模型带来了质变的影响。
同时DriveGPT也在搭建良好的生态,目前已经有生态伙伴17家,“仅在自动化标注方面,DriveGPT就能帮助生态伙伴提效90%以上。”孙宣峰表示。
今年10月,毫末正式发布了第二代HPilot三款极致性价比的智驾产品:HP170 、HP370 和HP570,可足高中低价位车型量产需求,将分别在2023年和2024年先后量产上车。
资料显示, HP170是行业首个能够实现高速、城市快速路上的无图NOH并做到单MCU方案行泊一体的智驾系统;毫末HP370定位为5000元级的“极致性价比”城市记忆行车和记忆泊车一体化的智驾产品。该方案可视作毫末城市NOH的最小集,也是 毫末城市NOH 的强有力补充,仅需一次学习,就可完成 用户日常路线 的记忆;而HP570平台在原本HP550平台的基础上成本可下降三分之二,在性能不打折的前提下实现全场景无图城市NOH,仅通过导航地图 来实现城市全场景覆盖。
“我们的目标是,让中阶智驾便宜更好用,让高阶智驾好用更便宜。”孙宣峰称。
以上也意味着,如毫末城市NOH这类基于大模型、大数据的重感知技术方案,在性能提升的同时却能将价格达到极致低位,才能全面促进高阶智驾的大规模量产。
高工智能汽车研究院最新发布数据显示,2023年1-9月,中国市场(不含进出口)乘用车前装标配(软硬件)NOA交付新车37.73万辆,同比上年同期增长151.20%,预计明年还将保持高速增长。
2024年伴随着整车电子电气架构加速迈入中央计算-区域控制架构阶段,在自动驾驶3.0时代,随着大模型开启在车端的落地应用,高阶智驾逐步进入规模量产期,这不仅将重塑智能驾驶技术架构,也会带来系统开发模式的变革,对产业也将带来巨大影响。
在高工智能汽车研究院看来,大模型加持的高阶智驾规模化开启,还将带来新的市场变量,重塑竞争格局。而高阶智驾的终局比拼,无论是城区NOA,还是L3/L4级自动驾驶,谁能在系统成本最优的前提下,实现规模化落地,将决定谁能留到最后。