中国版Wayve决战端到端,等待数据的大力出奇迹

news2024/11/21 0:24:44

作者 |王博

编辑 |德新

53d9e5d4a63181ee848126f175ecbb41.jpeg

「人工智能的定律只有一个,就是规模定律(Scaling Law),大力出奇迹。端到端是描述方式,更应该去考虑如何去生产更多的自动驾驶合适的数据,来喂养更大更合适的模型,取得更好效果。」

这段话,出自毫末智行CEO顾维灏。

近日,顾在2024未来汽车先行者大会上,提到了他认为的端到端竞争的关键点。

端到端的出现,让自动驾驶今年再获资本热捧。

不久前,自动驾驶圈刚曝出一轮10.5亿美金的融资消息,软银领投,英伟达、微软跟投,获投方是一家名为Wayve的英国自动驾驶公司。

这是软银在自动驾驶领域的最新一笔投资,之前其已在Cruise、Stack AV等公司身上花掉数十亿美金。

Wayve自2017年成立至今,推出的核心产品是GAIA-1、LINGO-2两个自动驾驶大模型,主打端到端大模型。

这一点,和毫末在端到端的布局颇为相像。

5898a1f8b118f223cc845bd733f5ca8d.jpeg

毫末已搭建自监督感知大模型、自监督认知大模型,并开始进行端到端训练等,虽然命名方式不同,但与Wayve的思考路径相似。

自动驾驶将大模型引入后,解题思路完全改变。

从以自动驾驶工程师手写规则,指导车辆如何驾驶为主,切换到以AI来答卷,让神经网络大模型决定如何开车,程序员终于可以「少掉头发」。

10亿美金融资,让外人见识到自动驾驶大模型的受关注程度。而其实,在智驾标杆特斯拉和自动驾驶的热土中国公司毫末这里,大模型上车已经初试牛刀,胜出希望寄托在数据的大力出奇迹。

一、换种思路,解决头疼问题

大模型概念兴起于NLP领域,直到ChatGPT出现后,GPT这一全新的训练范式迅速被自动驾驶从业者认同,行业上下如获至宝。

在GPT被引入之前,2004年美国DARPA那场自动驾驶比赛之后的十多年里,研发模式仍与当年的DAPRA如出一辙。

以识别车道线为例,传统操作步骤是,先采集车道线数据,然后进行人工标注,再把标注完的数据训练成一个模型,最后把模型部署上车,再使用规则控制车辆做出决策。

这可以称之为小模型加手工规则。

GPT被引入自动驾驶后,研发模式焕然一新

在大模型领域一早布局的Wayve,成立于2017年,直接跳过了传统的自动驾驶研发模式,瞄准大模型发力。

只不过,业内最先看到的是特斯拉。

在去年6月举行的CVPR 2023上,特斯拉Autopilot软件总监Ashok Elluswamy透露,团队正在训练一个更通用的世界模型。

特斯拉引入大模型,一部分原因在于,传统的自动驾驶研发模式,在城市场景中遇到了困难。

仍以车道线场景为例,实时预测车道线一度是自动驾驶头疼的问题。“车道是三维数据,会分叉、合并,很难建模。”Ashok Elluswamy解释道。

特斯拉的做法是,基于生成式大模型,采用自回归Transformer,将车道令牌化,一次一个令牌地对车道进行预测,对分叉点、合并点进行预测。

其实,早于Ashok Elluswamy演讲前一天,Wayve已在自家官方博客上发布GAIA-1,一个用于自动驾驶的生成式大模型。

aed727ef3fbcf1bec845b117f941ad96.jpeg

几个月后,这一模型扩展至90亿参数,Wayve开始能够生成逼真的驾驶场景视频,展示自动驾驶“在各种情境的反应”,且可以更好地预测未来事件。

今年4月,在NVDIA GTC的舞台上,Wayve CEO Alex Kendall演讲时表示,「自动驾驶行业花费了太多时间聚焦在复杂解法上,比如手动编码规则和高精地图。」

他列出几个自动驾驶误区,第一个便是,以为解决感知问题就搞定了自动驾驶。

“要想创造一种让人们感到高兴并信任的体验,关键不仅仅是能够看到世界。真正的问题在于决策,多智能体复杂推理,才是自动驾驶问题的核心。”他说。

软银领投的那笔10.5亿美金,也在不久后被官宣,Wayve开始被更多自动驾驶领域的从业者认识和关注。

二、中国版Wayve,入局端到端

将大模型引入自动驾驶,Wayve同行者不止有特斯拉,还有中国的自动驾驶公司。

在国内,大家较早听闻大模型消息的玩家中,其中一家是开头提到的毫末。

毫末发布的DriveGPT这一生成式大模型,可用于自动驾驶的感知、决策任务。

开启GPT时刻之前,毫末最初采用的是encoder+dedocer模型,输入一串图片,模型会输出一串自动驾驶决策动作。

后来,这家公司还采用基于encoder自编码的训练方式,输入感知结果,mask司机的驾驶行为,让系统猜司机的驾驶行为。

ChatGPT出现后,毫末很快发现GPT的高效能力,就此入局。

生成式大模型有一大任务,可以归纳为:“建立了一个神经网络,以过去或其他输入为条件,预测未来。”

不同的是,Wayve和特斯拉输入的是视频序列,也就是一段过去的视频,神经网络会预测未来可能发生的事情,生成一段预测的视频序列。

毫末生成的是BEV序列,向大模型输入一段过去10秒的感知场景,大模型会生成一段未来2 - 3秒的场景。

无论各家输入的是视频还是BEV序列,逻辑是相同的。

这一方式,与人类司机驾驶根据道路状况做出驾驶决的做法颇为相似。它一改传统的手写规则,转而让神经网络决定如何开车,相当于借助大模型短暂预测了未来。

生成式大模型可以用于自动驾驶认知决策,这是一个很好的开始。

同时,毫末也在训练基于自监督的通用感知大模型,并最终希望将感知大模型、认知大模型打通,并引入大语言模型LLM来获得世界知识,实现端到端训练。

发布GAIA-1几个月后,2023年9月,Wayve又在自家官方博客上发文,介绍了LINGO-1,一款开环的Driving Commentator C(自动驾驶评论员),这是一个基于视觉、语言、动作的自动驾驶交互模型,可以用于解释自动驾驶系统的行为逻辑。

今年4月, Wayve推出的LINGO-2,为自动驾驶体验开辟全新的控制和定制维度,也是一个在公共道路上进行测试的视觉语言动作模型(VLAM)。这一多模态大模型被用于增加决策的可解释性。

在Wayve的官方视频中,用户可以和车辆进行对话,对行驶路线等问题进行提问,LINGO-2会给出回应,并能实时解释每一项决策背后的过程。

毫末的做法与之相似。

他们意识到,在构建对真实物理世界的4D感知基础上,通过多模态大模型,实现文、图、视频多模态信息的整合,从而完成4D向量空间到语义空间的对齐,实现跟人类一样的“识别万物”的能力。

与Wavye类似,毫末也尝试引入大语言模型LLM,并利用自动驾驶领域数据finetune后,使得LLM成为一个老司机,通过与LLM交互,能够获取丰富的世界知识,甚至能提出决策规划建议。

三、奔赴端到端,解决后续上车问题

大模型时代,人们见证了初出茅庐ChatGPT 3.0,很快又见识到更强的文生视频Sora,再到最近炸场的GPT-4o。

这些产品所采用的新技术,为自动驾驶持续输送思想的养料。

从Wayve和毫末等公司的实践看,大家都在遵循着大模型的思路,但仍会分阶段地推进,比如会推出解决某个模块任务大模型。

在探索自动驾驶最为积极的中国,玩家们会单独布局面向感知的大模型,然后布局用于驾驶决策的规控大模型。虽然这一过程中,某些地方还会用到CNN卷积神经网络,但整体会以Transformer为主。

所以,Wayve推出GAIA-1也好,LINGO-2也好,这些大模型也会进行统一,成为端到端大模型。

而毫末发布的DriveGPT,同样是将自动驾驶生成式大模型、多模态大模型、LLM等统一起来后的产物。

之后,就是 自动驾驶大模型上车,将大模型从云端搬到车端的过程

鉴于人工智能大模型的竞赛,是涉及算法、数据、算力的挑战,自动驾驶的竞争也会围绕这些维度展开。

进入端到端的大门,仅仅是第一步,紧接着就是数据的比拼

正如顾维灏所说,自动驾驶经历了硬件驱动、软件驱动,现在正进入数据驱动时代。“数据驱动有一个很典型的特征就是它是大模型的,更多通过模型来实现整个的过程。“

更多的数据,会让自动驾驶玩家们开始比拼算力,囤积成千上万块GPU,从而在云端完成自动驾驶大模型的训练。还要不断进行训练投入,传闻ChatGPT训练一次,需要花费1200万美金。自动驾驶的训练费用自然也不会少。

接下来就是大模型上车。

按照毫末的说法,动辄千亿级参数的大模型,要在保持效果接近的前提下,缩小到亿级才可能上车。

从量产层面看,目前仅有行业标杆特斯拉推出FSD V12,宣布将城市街道驾驶堆栈升级为端到端神经网络,经过数百万个视频训练,取代了30多万行代码,可以视为端到端落地的最新动向。

从一些国内自动驾驶公司的计划看,预计在今年下半年,更多的端到端自动驾驶方案也将量产上车。

资本正在为自动驾驶大模型定价,相信Wayve融资仅是一个开始。在国内,毫末等Wayve的同行者,也许很快会获得资本的押注。毕竟端到端大模型这条路,现在看是最有希望抵达自动驾驶彼岸的方向。


参考文献:
Wayve CEO干货分享:自动驾驶已浪费太多时间
VLAM会是自动驾驶的黑盒解药吗?
Wayve:从源头讲起,如何实现以对象为中心的自监督感知方法?
特斯拉自动驾驶的“通用世界模型”和视频生成技术|Ashok23年CVPR主题演讲
Scaling GAIA-1: 9-billion parameter generative world model for autonomous driving
Wayve - NeRF 为自动驾驶构建城市规模的神经辐射场
“大模型本质就是两个文件!”特斯拉前AI总监爆火LLM科普
毫末智行自动驾驶公开课(第二期):数据、大算力、大模型驱动下的自动驾驶

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1798609.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

django ORM model update常规用法

Django ORM(对象关系映射)提供了一种强大而直观的方式,通过Python类和方法与数据库交互。在Django模型中更新记录是一个常见的任务,可以通过多种方式完成。以下是一些常见的更新记录的方法: 1. 更新单条记录 使用 sa…

Python实现日志的记录

1 日志 1、介绍 日志(Log)是一个记录事件或系统活动的文件或数据集,日志是系统管理员和开发者用于诊断问题、监视系统性能、以及追踪用户活动的关键工具。包含以下: 系统日志:记录操作系统、应用程序、硬件组件等的事…

【工具】windows下VMware17解锁mac安装选项(使用unlocker427)

目录 0.简介 1.环境 2.安装前后对比 3.详细安装过程 3.1 下载unlocker427 1)下载地址 2)下载unlocker427.zip 3)解压之后是这样的 4)复制iso中的两个文件到你本地的VMware的安装目录下 5)复制windows下的所有…

GWT 与 Python App Engine 集成

将 Google Web Toolkit (GWT) 与 Python App Engine 集成可以实现强大的 Web 应用程序开发。这种集成允许你使用 GWT 的 Java 客户端技术构建丰富的用户界面,并将其与 Python 后端结合在一起,后端可以运行在 Google App Engine 上。 1、问题背景 在 Pyt…

科普|大数据风险检测对申贷人有哪些好处?

大数据风险检测可以极大地提高金融机构在用户肖像、反欺诈和信用评级等方面的效率和风险控制能力,这是金融企业发展过程中必须结合的一种科技技术。大数据风险检测覆盖信贷领域的所有流程,从客户获取到身份验证,再到信贷中和信贷后。因此&…

MeiliSearch-轻量级且美丽的搜索引擎

MeiliSearch-轻量级且美丽的搜索引擎 MeiliSearch 是一个功能强大、快速、开源、易于使用和部署的搜索引擎。它具有以下特点: 支持中文搜索:MeiliSearch 对中文有良好的支持,不需要额外的配置。高度可定制:搜索和索引都可以高度…

dataphin是什么及其简单使用示例

1.1dataphin是什么? Dataphin是由阿里研发的智能大数据建设平台,提供一站式数据中台(大数据平台)建设服务。Dataphin通过沙箱(项目)实现业务及作业资源隔离,运行更快,且数据同步到D…

【QT5】<总览一> QT环境搭建、快捷键及编程规范

文章目录 前言 一、简单介绍QT 二、安装QT Creator 三、第一个QT项目 四、常用快捷键 五、QT中的编程规范 前言 在嵌入式Linux应用层开发时,经常使用QT作为图形化界面显示工具。为学习Linux下的QT编程,在Ubuntu和开发板中搭建QT开发环境&#xff…

推荐系统三十六式学习笔记:原理篇.近邻推荐07|人以群分,你是什么人就看到什么世界

目录 协同过滤基于用户的协同过滤背后的思想原理实践1、构造矩阵2、相似度计算3、推荐计算4、一些改进 应用场景:总结 谈及推荐系统,不得不说大名鼎鼎的协同过滤。协同过滤的重点在于协同,所谓协同,也就是群体互帮互助&#xff0c…

图解通用网络IO底层原理、Socket、epoll、用户态内核态······

LInux 操作系统中断 什么是系统中断 这个没啥可说的,大家都知道; CPU 在执行任务途中接收到中断请求,需要保存现场后去处理中断请求!保存现场称为中断处理程序!处理中断请求也就是唤醒对应的任务进程来持有CPU进行需要…

Mac 使用Docker安装Elasticsearch、Kibana 、ik分词器、head

安装ElasticSearch 通过docker安装es docker pull elasticsearch:7.8.1 在本地创建elasticsearch.yml文件 mkdir /Users/ky/Documents/learn/es/elasticsearch.yml 编辑yml文件内容 http: host: 0.0.0.0 xpack.security.enabled: false xpack.security.enrollment.enabled: t…

减调食谱攻略:美味低卡又健康

早餐主要求质,也就是求营养,更确切的说是“均衡的营养,多重的营养元素”确保每天早餐不重样就差不多了。 早餐主食:蛋羹、糖心水煮蛋,皮蛋瘦肉粥、南瓜粥、小米粥,蒸煮玉米、南瓜、芋头、红薯,…

深度神经网络——什么是深度强化学习?

除了无监督机器学习和监督学习之外,人工智能创造的另一种常见形式是强化学习。除了常规的强化学习之外, 深度强化学习 由于它结合了深度学习和强化学习的最佳方面,因此可以带来令人惊讶的令人印象深刻的结果。让我们具体看看深度强化学习是如…

李廉洋:6.6黄金原油怎么看?今日行情分析及最新策略。

黄金消息面分析:美指走强未能抑制金价升势。黄金价格大幅上涨,在美国公布喜忧参半的经济数据后,金价与周二的走势发生180度大转弯,这些数据可能保证美联储设定的借贷成本降低。美国10年期基准国债收益率下跌3个基点,至…

项目进度管理必备:15款最佳项目进度跟踪工具推荐

15好用的款主流项目进度管理软件:PingCode、Worktile、Trello、Tower、Asana、Smartsheet、Teambition、ClickUp、Wrike、Monday.com、Notion、禅道、飞书、云效、蓝凌。 严格的进度管理有助于更好地控制项目进展,提升团队效率,最终实现项目成…

Android音频进阶之1.0到14.0音频焦点变化(七十六)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒体系统工程师系列【原创干货持续更新中……】🚀 优质视频课程:AAOS车载系统+AOSP…

小白学linux | 使用正则表达式审计ssh登录ip地址

Ubuntu /var/log/auth.log记录了所有与身份验证相关的事件,包括SSH登录尝试 grep -i "failed password" /var/log/auth.log | \awk {if($11 ~/^[0-9]\.[0-9]\.[0-9]\.[0-9]$/)print $11 ; else print $13} | \uniq -c | sort -nr -k1 RedHat系发行版 /va…

MK米客方德 SD NAND与文件系统:技术解析与应用指南

随着数字存储技术的飞速发展,SD NAND(贴片式T卡)已成为我们日常生活中不可或缺的存储工具。我们将深入探讨SD NAND的文件系统,特别是SD 3.0协议支持的文件系统类型,以及它们在实际应用中的作用和用户可能遇到的问题。 MK米客方德的…

微前端之旅:探索Qiankun的实践经验

theme: devui-blue 什么是微前端? 微前端是一种前端架构方法,它借鉴了微服务的架构理念,将一个庞大的前端应用拆分为多个独立灵活的小型应用,每个应用都可以独立开发、独立运行、独立部署,再将这些小型应用联合为一个完…