作者 | 祥威
编辑 | 德新
4月11日,毫末智行正式发布自动驾驶生成式大模型 DriveGPT,中文名 雪湖·海若,可以提升自动驾驶认知能力,最终提升规控效率。
雪湖·海若的核心,是将各种驾驶场景作为Token输入到模型中,然后输出一连串有可能发生的驾驶场景Token。
翻译成白话就是,让车认知到自己所处的道路环境,并决定下一步怎么开。
雪湖·海若的参数量已经达到1200亿,接近GPT3时期的参数规模。
当然,学习语言和学习开车是不同的,多少参数量可以将自动驾驶训练成“老手司机”也没有一个硬性标准。
但雪湖·海若的出现,意味着国内的自动驾驶玩家找到了提升规控能力的新入口。
拆解“雪湖·海若”,参数量达1200亿
了解雪湖·海若前,先回顾一下ChatGPT,二者颇为相似。
2017年,谷歌首次提出一种新的学习框架——Transformer,可以让机器同时学习大量文字。相比以往的RNN循环神经网络的串联学习,这种新的学习框架更进一步,可以做到并联学习。
2018年,一家叫OpenAI的公司基于Transformer推出了Generative Pre-trained Transformer,简称GPT,中文名为生成式预训练模型,也就是第一代GPT——GPT 1。
在投入更多的数据和算力之后,GPT 1又经历了GPT 2、GPT3、GPT3.5的演进。
直到去年11月,它开始可以更聪明地和人类对话,并在OpenAI的重要资方微软的推动下,一朝成名天下知,成为今天大家热议的超级产品——ChatGPT。
ChatGPT本质上是一个语言大模型,向ChatGPT输入一个单词或文字,模型会给出下一个单词或文字出现的概率。最终可以和人类对话,是因为模型大量学习了人类的语言,可以基于语言知识库和推理逻辑给出一个概率式的结果。
在GPT的进化中,参数量规模的大小很重要,各代产品的参数量从最初的1.2亿,进化到了15亿、1750亿。
进化过程中,为了让对话机器人不胡说八道,Open AI还加入人工反馈机制RLHF,可以理解为由工程师向机器人提出好或者坏的反馈,引导对话机器人变得更加聪明。
如今的ChatGPT,已经可以和人类流畅、自然地对话,回答各个领域的问题了。
这么好用的工具,能不能拿来用在自动驾驶领域?
毫末雪湖·海若成为国内首款自动驾驶生成式大模型产品,与ChatGPT有所区别的是,海若面对的是驾驶语言Drive Language。
大致的运行流程是,向雪湖·海若大模型输入一段前N秒的环境信息,比如车辆自身状态、周围障碍物状态或者道路环境等,雪湖·海若就会生成下一个环境会发生什么样的结果,比如其它道路交通参与者和自身车辆的应对措施等等。
那么,机器是怎么运行的呢?
第一步,转化。
自动驾驶传感器会采集到各种数据,并通过BEV感知架构生成一张平面图的结果。
雪湖·海若会通过网格对BEV的图像感知结果进行整个空间的离散化,通过判断每个网格,来形成一个固定大小的词表作为Token,这一过程结束后,可以把车道线、道路障碍物等现实世界信息转化为机器可以理解的驾驶语言。
第二步,预训练。
关于预训练模型,雪湖·海若稍微有些不同,它从ChatGPT的 encoder+decoder 结构,调整为 Decode-only 结构的 GPT 模 型,通过 4000 万公里的量产车驾驶数据进行训练。
为了让雪湖·海若不乱开车,毫末还引入人类接管数据,用大概 5 万个 Clips 进行反馈模型的训练, 得到一个打分模型,让机器最终可以更好地理解所处环境,并不断学习作出更优秀的自动驾驶决策。
需要指出的是,现在的雪湖·海若是一个云端大模型,雪湖·海若的大模型的成果将首发落地搭载毫末 HPilot3.0 的 新摩卡 DHT-PHEV 上。
如果说ChatGPT是聊天机器人,可以通过聊天互动并给出人类想要的文字答案。雪湖·海若更像是驾驶机器人,更多地让机器和道路环境互动,并给出更优的驾驶决策答案。
沿着这条路径向前走,毫末的自动驾驶系统会更像人类,对道路场景的理解和处理更为成熟,路线的尽头也许正是实现端到端的自动驾驶。
让机器学习人类驾驶,雪湖·海若这种基于GPT大模型的产品问世,将汽车智能化的迭代与人工智能的演进紧紧绑在了一起。
有了雪湖·海若后,自动驾驶的认知能力会得到更好的提升,进而有助于改善规划和控制环节。
目前,毫末给出了雪湖·海若几大 应用领域:
由于能够提高规划和控制能力,所以可以用于开发城市NOH;
可以用于捷径推荐;
由于可以对一些未来会发生的道路场景变化进行路径推演,雪湖·海若还可以担当智能司机教练,帮助车主更好地开车;
可以排除一些驾驶中遇到的困难场景,进行智能救护;
雪湖·海若不仅面向自动驾驶行业,还将对机器人、汽车主机厂、芯片厂商、科研机构等行业进行相应的能力和资源开放。
目前,雪湖·海若已正式对外开放,开启对限量首批客户的合作,北京交通大学计算机与信息技术学院、高通、火山引擎、华为云、京东科技、四维图新、魏牌新能源、英特尔等已经加入。
开放的第一步,是一些数据方面的能力,后续还会陆续开放驾驶行为验证、困难场景脱困等能力。
量产进展迅速,破圈拿下三家车企
发布雪湖·海若之外,量产落地节奏也十分迅速。 根据毫末智行董事长张凯介绍,公司在2023年取得四个方面的进展。
发布雪湖·海若之外,量产落地节奏也十分迅速。根据毫末智行董事长张凯介绍,公司在2023年取得四个方面的进展。
毫末HPilot:
首款搭载毫末HPilot3.0的新摩卡DHT-PHEV即将上市,第二款搭载毫末HPilot3.0的车型魏牌蓝山也将在今年发布。
目前,毫末HPilot整体已搭载近20款车型。用户辅助驾驶行驶里程突破4000万公里,HPilot2.0辅助驾驶日均里程使用率达到了12.6%。
在海外,搭载毫末HPilot的车辆已经向欧盟、以色列等地区和国家的用户进行交付。接下来还将在中东、南非、澳大利亚等市场投放。毫末HPilot还将量产墨西哥版本及俄罗斯版本。
MANA:
到2023年4月,MANA学习时长超56万小时,相当于人类司机6.8万年。
毫末打造的全球首个自动驾驶生成式大模型DriveGPT,已经完成基于4000万公里驾驶数据的训练,参数规模达1200亿。
城市NOH:
毫末城市NOH已在北京、保定、上海等城市开启泛化测试,可以进行大规模量产落地。2024年将有序落地100个城市。
张凯认为,毫末NOH这一采用重感知不依赖高精地图的方案,量产落地要比行业内的玩家快了一年以上。
末端物流自动配送:
毫末的末端物流自动配送车小魔驼已在商超履约、智慧社区、校园配送、餐饮零售、机场巡逻、高校教育、快递自提、智慧园区、大气环评等九个场景开启运营。
今年3月,小魔驼2.0获得北京亦庄无人配送车车辆编码,开启亦庄运营。
毫末也成为《北京智能网联汽车政策先行区无人配送测试规范》升级后,准许在北京市高级别自动驾驶示范区公开道路进行无人配送车测试的首个公司。
现场,张凯还向外界公布了毫末6P开放合作的重要进展,目前已与3家主机厂签署定点合同,相关项目正在交付中。
据HiEV了解,这三家主机厂中,包含长城汽车系之外的主机厂。
与同行相比,毫末的技术迭代和量产节奏相对更快,是Tier 1中最懂自动驾驶技术的,又是自动公司中最懂如何量产的,同时是数据公司中,在量产数据积累的基础上真正实现了数据闭环的玩家。
回顾毫末的发展历程,会发现其野心绝不是成为简单的Tier1,而是一家人工智能公司。
背后的原因,和核心团队、技术架构等均有着密切关系。
以张凯、顾维灏、侯军、甄龙豹为核心的高管团队,本身融合了主机厂、科技公司的基因。从创立之初,这支团队一直坚持着数据驱动的技术路线。
毫末发布了中国首个自动驾驶数据智能体系MANA雪湖,并建设了智算中心MANA OASIS雪湖·绿洲。
基于L2辅助驾驶系统的大规模前装量产,毫末站稳了量产自动驾驶第一名的位置,并形成了数据智能闭环体系,在迭代速度和成本优化上实现良性循环。
经过一年多时间的应用迭代,MANA如今也迎来全面升级,并开始对外赋能行业。
毫末的整个技术演进轨迹,本质上正是一家汽车垂直领域的人工智能公司,不断释放新技术同时快步上车的过程。
如果我们将毫末和特斯拉进行对比,会发现二者存在很大程度的相似,均在自我驱动不断推出新技术。
单就自动驾驶而言,从BEV感知算法,到占用网络Occupancy Network,特斯拉正是通过新技术逐渐进化,让车辆更够更好地感知和理解世界,做出更好的规划控制。
唯一不同的是,毫末的技术不像特斯拉那样只提供给自身,更多用于自有的庞大的汽车队伍,而是面向行业,既服务长城汽车,也在不断拓展长城系之外的车企客户。
毫末这次在主机厂合作的范围突破长城系,给了行业一个重要信号。
当下,智驾领域量产上车的背景是,一方面,华为车BU的发展已经告诉我们,向车企提供智驾方案时限制重重。另一方面,一些芯片公司、智驾公司正在推出低成本的方案比如行泊一体,并且开始获得车企的合作订单。
这些案例告诉我们,智驾方案供应商既面临上车难,同时又有机会与车企合作。
“我们做了三年前装量产,真的是一个辛苦活,量产和Demo是完全不一样的。那些没有做过前装量产的公司突然宣布进入自动驾驶领域,会陷入苦战。”张凯在发布会后这样感慨道。
所以,有量产经验,且可以满足车企的智驾方案需求,如此一来,哪怕是具有某家车企背景的智驾供应商,也是具备存活机会的。
破解规控难题,中国玩家加速进化
在L4级自动驾驶公司声量日益式微的当下,主机厂成了自动驾驶的坚定支持者。
国外有特斯拉,国内则是毫末、蔚小理、华为等自动驾驶领域的重要玩家。
当下,这些玩家正在进入自动驾驶技术的深水区——规划控制。
“现在的问题不是大家做出来一个开法后不知道这个开法好不好,而是不知道怎么开。” 毫末智行技术副总裁艾锐不久前表示。
同样的,在被问题到要让自动驾驶更像老司机,接下来应该解决的核心模块是哪个时,小鹏汽车自动驾驶副总裁吴新宙也提出类似的观点,认为小鹏汽车的感知“到现在整体的状态是不错的,核心和具体的工作量还是在预测和规控上。”
吴新宙本人是特斯拉FSD的深度使用用户,在使用过FSD后,他的感受是在很多地方的处理的细腻程度,CNGP不输于对方。但他不确定的是,对方在中国的复杂场景是否会自如应对,尤其是规控方面。
余承东则更直接地表示,“中国道路非常复杂,像特斯拉FSD在美国和欧洲容易搞定,在中国来可能够他们搞的。”
预测和规控,考验的正是自动驾驶的认知能力。
有多年驾驶经验的老手司机,会基于经验对道路环境进行更为全面预判,迅速作出最优的驾驶操作。
自动驾驶也是如此,不仅要感知道路环境,还要像老手司机一样,知道自己应该怎么开。
特斯拉走在最前,FSD的功能已经在北美城市场景下开启应用。特斯拉的自动驾驶路线做了一个示范,引导着车企向全自动驾驶的宝座前进。
暂且不去管全自动驾驶何时到来,或者能否到来,至少我们看到了一个共识,车企必须投入自动驾驶研发。
尤其是毫末、小鹏、华为这些公司,进行了大规模的自动驾驶技术研发投入。
各家不断发布的新技术,比如雪湖·海若的出现,不仅让我们看到了中国自动驾驶玩家走到了哪里,也让我们看到了车企投入的坚决。
OpenAI给出的ChatGPT这一生成式对话产品,是人类与机器世界更好地互动的一把钥匙,毫末的雪湖·海若同样汽车与道路环境的互动,是提升自动驾驶规控的一把钥匙。
最近有消息称,特斯拉FSD将有大的更新,未来引入国内市场或许已经排上日程。
我们很好奇在中国道路环境中,特斯拉与国内的自动驾驶玩家会呈现何种格局,究竟是处于跟随状态,还是会在规控环节实现技术赶超。