DriveGPT、车企订单背后,为什么毫末每年都能搞出新东西?

news2024/11/15 4:45:32

作者 | 祥威

编辑 | 德新

9e00da9cc6491c10a35cda9751ce8582.jpeg

 

4月11日,毫末智行正式发布自动驾驶生成式大模型 DriveGPT,中文名 雪湖·海若,可以提升自动驾驶认知能力,最终提升规控效率。 

雪湖·海若的核心,是将各种驾驶场景作为Token输入到模型中,然后输出一连串有可能发生的驾驶场景Token。 

翻译成白话就是,让车认知到自己所处的道路环境,并决定下一步怎么开。 

雪湖·海若的参数量已经达到1200亿,接近GPT3时期的参数规模。 

当然,学习语言和学习开车是不同的,多少参数量可以将自动驾驶训练成“老手司机”也没有一个硬性标准。 

但雪湖·海若的出现,意味着国内的自动驾驶玩家找到了提升规控能力的新入口。 

 

拆解“雪湖·海若”,参数量达1200亿

c5379c8877663a7ca0c8572c1abd0b41.jpeg

了解雪湖·海若前,先回顾一下ChatGPT,二者颇为相似。 

2017年,谷歌首次提出一种新的学习框架——Transformer,可以让机器同时学习大量文字。相比以往的RNN循环神经网络的串联学习,这种新的学习框架更进一步,可以做到并联学习。 

2018年,一家叫OpenAI的公司基于Transformer推出了Generative Pre-trained Transformer,简称GPT,中文名为生成式预训练模型,也就是第一代GPT——GPT 1。 

在投入更多的数据和算力之后,GPT 1又经历了GPT 2、GPT3、GPT3.5的演进。 

直到去年11月,它开始可以更聪明地和人类对话,并在OpenAI的重要资方微软的推动下,一朝成名天下知,成为今天大家热议的超级产品——ChatGPT。 

ChatGPT本质上是一个语言大模型,向ChatGPT输入一个单词或文字,模型会给出下一个单词或文字出现的概率。最终可以和人类对话,是因为模型大量学习了人类的语言,可以基于语言知识库和推理逻辑给出一个概率式的结果。 

在GPT的进化中,参数量规模的大小很重要,各代产品的参数量从最初的1.2亿,进化到了15亿、1750亿。 

进化过程中,为了让对话机器人不胡说八道,Open AI还加入人工反馈机制RLHF,可以理解为由工程师向机器人提出好或者坏的反馈,引导对话机器人变得更加聪明。 

如今的ChatGPT,已经可以和人类流畅、自然地对话,回答各个领域的问题了。 

这么好用的工具,能不能拿来用在自动驾驶领域? 

毫末雪湖·海若成为国内首款自动驾驶生成式大模型产品,与ChatGPT有所区别的是,海若面对的是驾驶语言Drive Language。 

497e77ee425beb82cc47a6ab1595e290.jpeg

大致的运行流程是,向雪湖·海若大模型输入一段前N秒的环境信息,比如车辆自身状态、周围障碍物状态或者道路环境等,雪湖·海若就会生成下一个环境会发生什么样的结果,比如其它道路交通参与者和自身车辆的应对措施等等。 

那么,机器是怎么运行的呢? 

第一步,转化。 

b8c3f90076d3639df2912ccd1d46d10e.jpeg

自动驾驶传感器会采集到各种数据,并通过BEV感知架构生成一张平面图的结果。 

雪湖·海若会通过网格对BEV的图像感知结果进行整个空间的离散化,通过判断每个网格,来形成一个固定大小的词表作为Token,这一过程结束后,可以把车道线、道路障碍物等现实世界信息转化为机器可以理解的驾驶语言。 

第二步,预训练。 

30b071c763296b5fdbdb50055539e23c.jpeg

关于预训练模型,雪湖·海若稍微有些不同,它从ChatGPT的 encoder+decoder 结构,调整为 Decode-only 结构的 GPT 模 型,通过 4000 万公里的量产车驾驶数据进行训练。 

为了让雪湖·海若不乱开车,毫末还引入人类接管数据,用大概 5 万个 Clips 进行反馈模型的训练, 得到一个打分模型,让机器最终可以更好地理解所处环境,并不断学习作出更优秀的自动驾驶决策。 

需要指出的是,现在的雪湖·海若是一个云端大模型,雪湖·海若的大模型的成果将首发落地搭载毫末 HPilot3.0 的 新摩卡 DHT-PHEV 上。 

如果说ChatGPT是聊天机器人,可以通过聊天互动并给出人类想要的文字答案。雪湖·海若更像是驾驶机器人,更多地让机器和道路环境互动,并给出更优的驾驶决策答案。 

沿着这条路径向前走,毫末的自动驾驶系统会更像人类,对道路场景的理解和处理更为成熟,路线的尽头也许正是实现端到端的自动驾驶。 

让机器学习人类驾驶,雪湖·海若这种基于GPT大模型的产品问世,将汽车智能化的迭代与人工智能的演进紧紧绑在了一起。 

有了雪湖·海若后,自动驾驶的认知能力会得到更好的提升,进而有助于改善规划和控制环节。 

目前,毫末给出了雪湖·海若几大 应用领域: 

由于能够提高规划和控制能力,所以可以用于开发城市NOH;

可以用于捷径推荐;

由于可以对一些未来会发生的道路场景变化进行路径推演,雪湖·海若还可以担当智能司机教练,帮助车主更好地开车;

可以排除一些驾驶中遇到的困难场景,进行智能救护;

雪湖·海若不仅面向自动驾驶行业,还将对机器人、汽车主机厂、芯片厂商、科研机构等行业进行相应的能力和资源开放。 

ac5b19776456bf31ca890324668bf044.jpeg

目前,雪湖·海若已正式对外开放,开启对限量首批客户的合作,北京交通大学计算机与信息技术学院、高通、火山引擎、华为云、京东科技、四维图新、魏牌新能源、英特尔等已经加入。 

开放的第一步,是一些数据方面的能力,后续还会陆续开放驾驶行为验证、困难场景脱困等能力。 

 

量产进展迅速,破圈拿下三家车企

84abf819dda564dd68ef7d7871cb392f.jpeg

发布雪湖·海若之外,量产落地节奏也十分迅速。 根据毫末智行董事长张凯介绍,公司在2023年取得四个方面的进展。 

发布雪湖·海若之外,量产落地节奏也十分迅速。根据毫末智行董事长张凯介绍,公司在2023年取得四个方面的进展。 

毫末HPilot:

首款搭载毫末HPilot3.0的新摩卡DHT-PHEV即将上市,第二款搭载毫末HPilot3.0的车型魏牌蓝山也将在今年发布。 

目前,毫末HPilot整体已搭载近20款车型。用户辅助驾驶行驶里程突破4000万公里,HPilot2.0辅助驾驶日均里程使用率达到了12.6%。 

在海外,搭载毫末HPilot的车辆已经向欧盟、以色列等地区和国家的用户进行交付。接下来还将在中东、南非、澳大利亚等市场投放。毫末HPilot还将量产墨西哥版本及俄罗斯版本。 

MANA:

到2023年4月,MANA学习时长超56万小时,相当于人类司机6.8万年。 

毫末打造的全球首个自动驾驶生成式大模型DriveGPT,已经完成基于4000万公里驾驶数据的训练,参数规模达1200亿。 

城市NOH:

毫末城市NOH已在北京、保定、上海等城市开启泛化测试,可以进行大规模量产落地。2024年将有序落地100个城市。

张凯认为,毫末NOH这一采用重感知不依赖高精地图的方案,量产落地要比行业内的玩家快了一年以上。 

末端物流自动配送:

毫末的末端物流自动配送车小魔驼已在商超履约、智慧社区、校园配送、餐饮零售、机场巡逻、高校教育、快递自提、智慧园区、大气环评等九个场景开启运营。 

今年3月,小魔驼2.0获得北京亦庄无人配送车车辆编码,开启亦庄运营。 

毫末也成为《北京智能网联汽车政策先行区无人配送测试规范》升级后,准许在北京市高级别自动驾驶示范区公开道路进行无人配送车测试的首个公司。 

现场,张凯还向外界公布了毫末6P开放合作的重要进展,目前已与3家主机厂签署定点合同,相关项目正在交付中。 

据HiEV了解,这三家主机厂中,包含长城汽车系之外的主机厂。 

与同行相比,毫末的技术迭代和量产节奏相对更快,是Tier 1中最懂自动驾驶技术的,又是自动公司中最懂如何量产的,同时是数据公司中,在量产数据积累的基础上真正实现了数据闭环的玩家。 

回顾毫末的发展历程,会发现其野心绝不是成为简单的Tier1,而是一家人工智能公司。 

背后的原因,和核心团队、技术架构等均有着密切关系。 

以张凯、顾维灏、侯军、甄龙豹为核心的高管团队,本身融合了主机厂、科技公司的基因。从创立之初,这支团队一直坚持着数据驱动的技术路线。 

毫末发布了中国首个自动驾驶数据智能体系MANA雪湖,并建设了智算中心MANA OASIS雪湖·绿洲。 

基于L2辅助驾驶系统的大规模前装量产,毫末站稳了量产自动驾驶第一名的位置,并形成了数据智能闭环体系,在迭代速度和成本优化上实现良性循环。 

经过一年多时间的应用迭代,MANA如今也迎来全面升级,并开始对外赋能行业。 

6f797620e49f92b7d9a972bdcbb8c445.jpeg

毫末的整个技术演进轨迹,本质上正是一家汽车垂直领域的人工智能公司,不断释放新技术同时快步上车的过程。 

如果我们将毫末和特斯拉进行对比,会发现二者存在很大程度的相似,均在自我驱动不断推出新技术。 

单就自动驾驶而言,从BEV感知算法,到占用网络Occupancy Network,特斯拉正是通过新技术逐渐进化,让车辆更够更好地感知和理解世界,做出更好的规划控制。 

唯一不同的是,毫末的技术不像特斯拉那样只提供给自身,更多用于自有的庞大的汽车队伍,而是面向行业,既服务长城汽车,也在不断拓展长城系之外的车企客户。 

毫末这次在主机厂合作的范围突破长城系,给了行业一个重要信号。 

当下,智驾领域量产上车的背景是,一方面,华为车BU的发展已经告诉我们,向车企提供智驾方案时限制重重。另一方面,一些芯片公司、智驾公司正在推出低成本的方案比如行泊一体,并且开始获得车企的合作订单。 

这些案例告诉我们,智驾方案供应商既面临上车难,同时又有机会与车企合作。 

“我们做了三年前装量产,真的是一个辛苦活,量产和Demo是完全不一样的。那些没有做过前装量产的公司突然宣布进入自动驾驶领域,会陷入苦战。”张凯在发布会后这样感慨道。 

所以,有量产经验,且可以满足车企的智驾方案需求,如此一来,哪怕是具有某家车企背景的智驾供应商,也是具备存活机会的。 

 

破解规控难题,中国玩家加速进化

在L4级自动驾驶公司声量日益式微的当下,主机厂成了自动驾驶的坚定支持者。 

国外有特斯拉,国内则是毫末、蔚小理、华为等自动驾驶领域的重要玩家。 

当下,这些玩家正在进入自动驾驶技术的深水区——规划控制。 

“现在的问题不是大家做出来一个开法后不知道这个开法好不好,而是不知道怎么开。” 毫末智行技术副总裁艾锐不久前表示。 

同样的,在被问题到要让自动驾驶更像老司机,接下来应该解决的核心模块是哪个时,小鹏汽车自动驾驶副总裁吴新宙也提出类似的观点,认为小鹏汽车的感知“到现在整体的状态是不错的,核心和具体的工作量还是在预测和规控上。” 

吴新宙本人是特斯拉FSD的深度使用用户,在使用过FSD后,他的感受是在很多地方的处理的细腻程度,CNGP不输于对方。但他不确定的是,对方在中国的复杂场景是否会自如应对,尤其是规控方面。 

余承东则更直接地表示,“中国道路非常复杂,像特斯拉FSD在美国和欧洲容易搞定,在中国来可能够他们搞的。” 

预测和规控,考验的正是自动驾驶的认知能力。 

有多年驾驶经验的老手司机,会基于经验对道路环境进行更为全面预判,迅速作出最优的驾驶操作。 

自动驾驶也是如此,不仅要感知道路环境,还要像老手司机一样,知道自己应该怎么开。 

特斯拉走在最前,FSD的功能已经在北美城市场景下开启应用。特斯拉的自动驾驶路线做了一个示范,引导着车企向全自动驾驶的宝座前进。 

暂且不去管全自动驾驶何时到来,或者能否到来,至少我们看到了一个共识,车企必须投入自动驾驶研发。 

尤其是毫末、小鹏、华为这些公司,进行了大规模的自动驾驶技术研发投入。 

各家不断发布的新技术,比如雪湖·海若的出现,不仅让我们看到了中国自动驾驶玩家走到了哪里,也让我们看到了车企投入的坚决。 

OpenAI给出的ChatGPT这一生成式对话产品,是人类与机器世界更好地互动的一把钥匙,毫末的雪湖·海若同样汽车与道路环境的互动,是提升自动驾驶规控的一把钥匙。 

最近有消息称,特斯拉FSD将有大的更新,未来引入国内市场或许已经排上日程。 

我们很好奇在中国道路环境中,特斯拉与国内的自动驾驶玩家会呈现何种格局,究竟是处于跟随状态,还是会在规控环节实现技术赶超。 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/431191.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《Netty》从零开始学netty源码(三十九)之PoolSubPage的内存分配

目录 PoolSubPage.allocategetNextAvail方法toHandle方法removeFromPool方法 PoolSubPage.allocate 上一篇我们介绍了PoolSubPage的简单知识,当我们需要PoolSubPage的内存时可调用allocate方法查找可分配二进制的位置,具体的源码过程如下: …

ctfshow web入门命令执行web74-118

1.web74 还是先扫目录 payload: c$anew DirectoryIterator(glob:///*);foreach($a as $f){echo($f->__toString()." ");}exit(0); #扫描根目录有什么文件 c$anew DirectoryIterator(glob:///*);foreach($a as $f){echo($f->getFilename()." ");} …

N32G430学习笔记20--- spi外设单工模式下spi1中断发送和spi2中断数据接收

基本知识 spi主模式下使用硬件NSS(3个条件缺一不可): 设置硬件NSS模式设置NSS电平为低电平使能NSS输出spi主模式下使用软件NSS: 设置软件NSS模式 使能NSS输出 SPI_SS_Output_Enable(SPI1);//NSS 使能 SPI接线方式(MISO 和MOSI反着接) SPI1->SLCK=PB3 <–> SPI2-…

在SPRO为定制表创建节点

确定透明表已创建&#xff0c;允许维护&#xff0c;并且生成维护视图。保证SM30可以正常维护。 2.在已有的节点增加还是新增&#xff0c;如果在以有的节点增加&#xff0c;需要查看已有节点的Enhancement ID 。 查看方法具体请点击。 举个例子&#xff1a;我们想在Z-business C…

每日学术速递4.17

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion 标题&#xff1a;DreamPose&#xff1a;通过稳定扩散实现时尚图像到视频合成 作者&#xff1a;Johanna Karr…

无聊写个 chatgpt 玩玩!这不得试一试 openai 的聊天和绘画功能

chatgpt 最近很火。使用 chatgpt 问一些问题还是很有用的。比如面试题&#xff0c;面试题的答案。简直不要太爽。 不过闲来无事&#xff0c;也使用 openai 提供的api &#xff0c;写了几个小页面&#xff0c;可以进行聊天&#xff0c;和绘画。 项目放在 github 上了&#xff…

cmake和cmake install学习

cmake 设置cmake的C/C编译标准 set(CMAKE_CXX_STANDARD 17) set(CMAKE_C_STANDARD 11)add_library生成的默认是静态库还是动态库 https://blog.csdn.net/HandsomeHong/article/details/122401900 add_library()命令生成的默认库类型取决于第二个参数。如果第二个参数是STATI…

python-day3

第003天 函数和模块的使用 定义函数 在python中可以使用def关键字来定义函数&#xff0c;和变量一样每个函数也有一个名字&#xff0c;而且命名规则和变量的命名规则是一致的。在函数名后面的圆括号中可以放置传递给函数的参数&#xff0c;程序中函数的参数就是相当于数学上…

企业级信息系统开发学习笔记05 初探Spring AOP

文章目录 一、学习目标二、Spring AOP&#xff08;一&#xff09;AOP基本含义&#xff08;二&#xff09;AOP基本作用&#xff08;三&#xff09;AOP和OOP对比&#xff08;四&#xff09;AOP使用方式&#xff08;五&#xff09;AOP基本概念 三、采用配置方法使用AOP&#xff08…

STM32实验-高级定时器输出指定个数PWM

STM32F103ZET6中有TIM1,TIM8两个高级定时器&#xff0c;每一定时器都有 1、一个16位向上、向下、向上/下自动装载计数器 2、一个16位预分频器和四个独立从输入输出通道 3、每一个通道都可用于输入捕获、输出比较、PWM和单脉冲模式&#xff08;除了基本定时器&#xff0c;高级定…

Cesium-源码修改-gltf增加纹理贴图改变3dtiles外观

一、需求 Cesium支持加载gltf和3dtiles等三维数据模型&#xff0c;实现了很好的封装&#xff0c;往往只需要给一个uri就能加载模型文件&#xff0c;并实现贴图渲染等。但是好的封装带来的问题是如果开发者想要自定义贴图&#xff0c;那该怎么办&#xff1f;不得不从源码入手。 …

条码控件Aspose.BarCode入门教程(6):如何在C# 中生成GS1-128 条码

Aspose.BarCode for .NET 是一个功能强大的API&#xff0c;可以从任意角度生成和识别多种图像类型的一维和二维条形码。开发人员可以轻松添加条形码生成和识别功能&#xff0c;以及在.NET应用程序中将生成的条形码导出为高质量的图像格式。 Aspose API支持流行文件格式处理&am…

三、Golang环境搭建及打包和工具链

一、环境搭建 从https://golang.google.cn/dl/下载安装即可 新建GO_HOME 系统环境变量&#xff0c;指向go的安装目录 在终端输入go dev即可测试有无安装成功 二、包 所有Go程序的程序都会组织成若干组文件&#xff0c;每组文件被称为一个包。每个包的代码都可以作为很小的复用…

webpack 5 实战(1)

一、为什么使用webpack 个人将前端开发分为三个阶段&#xff1a; 1.1 Web1.0 Web1.0前端主要工作&#xff1a; 前端主要编写静态页面对于JavaScript的使用&#xff0c;主要是进行表单验证和动画效果制作 1.2 Web2.0之AJAX 伴随着AJAX的诞生&#xff0c;前端的工作模式也发…

什么牌子的蓝牙耳机音质最好?盘点2023音质最好的蓝牙耳机

近几年&#xff0c;蓝牙耳机在日常生活中的出现频率越来越高&#xff0c;不管是运动、听歌、追剧、玩游戏等等都能看到蓝牙耳机的身影。接下来&#xff0c;我来给大家盘点几款音质好的蓝牙耳机&#xff0c;感兴趣的朋友可以了解一下。 一、南卡小音舱Lite2蓝牙耳机 参考价&…

使用 WSL 在 Windows 上安装 Linux提示无法解析服务器的名称或地址及0x80370114问题解决

开发人员可以通过WSL在windows电脑上安装Linux发行版&#xff0c;并可以直接在电脑上使用Linux应用程序、实用程序和Bash命令行工具等。 先决条件 必须运行 Windows 10 版本 2004 及更高版本&#xff08;内部版本 19041 及更高版本&#xff09;或 Windows 11 才能使用以下命令…

结合企业实践来规范你的Git commit(含插件使用指南)

&#x1f3c6; 文章目标&#xff1a;了解通用的Git commit规范&#xff0c;并在企业的团队内部进行实践。 &#x1f340; 如何规范你的Git commit&#xff08;理论结合企业的实践&#xff09; ✅ 创作者&#xff1a;Jay… &#x1f389; 个人主页&#xff1a;Jay的个人主页 &am…

论文学习——数据挖掘技术在水文数据分析中的应用

文章目录0 引言1 数据挖掘技术及工具1.1 什么是数据挖掘&#xff1f;1.2 数据挖掘的过程&#xff1f;1.3 常用的数据挖掘技术1.4 ODM2 水文数据分析系统功能设计3 系统实现与应用3.1 数据获取与清理3.2 模型建立4 结语2012年12月 计算机工程与设计 0 引言 洪水是现实生活中频发…

数据结构_第十三关(3):归并排序

目录 归并排序 1.基本思想&#xff1a; 2.原理图&#xff1a; 1&#xff09;分解合并 2&#xff09;数组比较和归并方法&#xff1a; 3.代码实现&#xff08;递归方式&#xff09;&#xff1a; 归并排序的非递归方式 原理&#xff1a; 情况1&#xff1a; 情况2&#…

《剑指大前端全栈工程师》--大前端时代全站式开发,直指大厂P7技术专家

【内容提要】 实力打造大前端时代&#xff0c;走在时代的钱端&#xff01;   实战驱动教学&#xff0c;探索前端黑科技。紧跟企业实际技术选型&#xff0c;追求技术的实用性与前瞻性完美结合&#xff01;   本书对大前端技术栈进行了全面的讲解&#xff0c;内容涉及HTML5CS…