自动驾驶---各大车企的端到端之旅

news2024/11/15 5:08:14

1 背景

        端到端技术的落地速度确实有些超出预料,随着以ChatGPT为代表的AI大模型的快速发展,使得自动驾驶系统也能够像人一样进行“思考”,推动了自动驾驶技术的迭代升级。

        特斯拉端到端技术的落地,自动驾驶在这一技术上的变化使得自动驾驶系统能够更加智能地处理复杂场景,提高驾驶的安全性、舒适性以及效率。

2 各家车企的进展

         “端到端”自动驾驶技术成为行业热点,该技术通过深度学习模型直接从原始传感器数据中提取信息,实现从感知到控制的无缝连接。特斯拉的FSD V12系统就是这一技术的典型代表,已经在量产车型上得到应用。

        在今年(2024年),国内自动驾驶企业纷纷推出面向量产的端到端自动驾驶解决方案,如小鹏、理想等国内企业。这些方案在技术层面上展现出强大的竞争力,并在实际道路表现中证明了其有效性。

        截止到目前为止,公布端到端大模型方案且落地的有三家车企:特斯拉,小鹏和理想。下面分别对三家方案作相关介绍。

2.1 特斯拉

        2023年8月,特斯拉 FSD V12 版本问世,成为首家成功量产「端到端」架构的车企。2024年2月,特斯拉将基于端到端架构的 FSD V12版本向部分普通用户推送,启动商业化落地。FSD V12 的流畅性、令人惊艳的体验感,初露锋芒,但通过网友们的视频,也不是没有缺点,随着数据量的增大,性能还会持续进化。

        特斯拉是笔者最早介绍端到端方案的车企,在之前的博客中已经详细描述过《自动驾驶---Tesla的自动驾驶技术进化史(Perception&Planning)》(博客文章里详尽描述了特斯拉从传统自动驾驶方案如何过渡到端到端方案),这里就不赘述了。

2.2 小鹏

        2024年5月,小鹏宣布「端到端」架构上车。下面分别对三个模块(XNet,XBrain,XPlanner)进行描述:

        三网合一的深度视觉感知神经网络XNet,通过聚合动态XNet、静态XNet和行业首个量产纯视觉2K占用网络,能够让自动驾驶系统如同裸眼3D。行业首个量产2K纯视觉占用网络,用超过200万个网格重构世界,对现实世界中的可通行空间进行3D高真实度还原,清晰识别静态障碍物的每一个细节,使得感知范围提升2倍,面积可达1.8个足球场大小,能精准识别50+个目标物,让用户如同拥有鹰眼视觉,驾驶时看得更清、更远。

        感知之外,小鹏汽车还推出了基于神经网络的规划大模型XPlanner。XPlanner就像人类的小脑,通过海量数据时刻训练,使得驾驶策略不断向拟人进化,拥有“老司机般的脚法”,使得前后顿挫减少50%、违停卡死减少40%、安全接管减少60%,让用户舒适性、安全性体验都再上新台阶。

        引入AI大语言模型XBrain架构后,自动驾驶系统拥有了人类大脑般的理解学习能力,处理复杂甚至未知场景的泛化处理能力大幅提升,对真实物理世界的宏观逻辑的推理能力亦是如此。在XBrain的加持下,自动驾驶系统能够认识待转区、潮汐车道、特殊车道、路牌文字,秒懂各种令行禁止、快慢缓急的行为指令,进而做出兼顾安全、性能的拟人驾驶决策。

2.3 理想

        理想智驾经历了三代的发展,目前也逐渐成为行业领先的智驾表现。整个自动驾驶方案的迭代过程主要分为以下三个阶段,其实下面这张图也继承了特斯拉的发展路线,估计大部分企业都会走这个方案。

        (1)NPN架构

        (2)分段式端到端

        (3)一体化端到端

        此前,理想汽车与清华大学交叉信息研究院一直在进行联合研究,2024年2月,双方团队联合发布了论文《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》。

        下面详细介绍理想汽车公布的端到端方案。理想汽车在智驾上类人的设计了两个系统:(1)快系统;(2)慢系统。

  • 快系统

(1)依赖直觉和本能;

(2)无意识,依赖情感,记忆与经验,不费脑力,迅速判断;

(3)保证大部分(95%)场景下的高效率。

  • 慢系统

(1)有意识地分析思考;

(2)慢且专注,逻辑性,耗费脑力,深思熟虑;

(3)解决少数(5%)场景下地高上限。

        最终的端到端,其中的一端,是传感器(包括摄像头,激光雷达等),另一端是行驶轨迹,最终会输出:动态障碍物,道路结构,占用网络以及规划轨迹。

3 端到端评估

        目前在自动驾驶行业,端到端自动驾驶进行评估大致有两类方法:(1)闭环评估;(2)开环评估。这是每个端到端架构未来都要面对的专项测试。比如下图基本代表了目前仿真数据闭环的一个大致流程。

        闭环评估需要接受反馈信号从而形成反馈闭环;开环评估则是分模块进行,并和真实数据作对比。比如,UniAD 基本就是在开环评估中评估验证,没有进行闭环评估。

        怎么评价一个模型或者功能的好坏?目前一些自媒体或者车企都以接管次数作为基准,其实还包括舒适性,安全性,效率等等。

        何小鹏说,对于端到端大模型的硬指标,最终看接管率。今天高速如果没有续航的问题,可以做到 1000 公里接管一次。在城区,今天所有的城市辅助驾驶,我认为安全接管可能是百公里或者一两百公里。

        如果在城区开 100 公里、300 公里、500 公里接管一次,体验完全不一样。可以对比的是,特斯拉应用端到端神经网络架构的 FSD V12 的平均接管历程从此前的 166 英里(约 267 公里)提升到了 333 英里(约 537 公里)。

        目前的大模型或者多模态模型仍难以实现对整个世界的理解。模型对时间、空间和物理定律的理解非常重要,这对于人和动物比较简单,但对于多模态模型还是非常糟糕的。具身智能才是实现AGI最有效的途径,因为依靠躯体收集的数据非常重要,因此只有将模型尽快部署到真实的机器人上去,参与到真实的世界,去理解每个人的情绪,才能让数据真正有效。单纯的大脑就像活在梦境里

4 算力

        特斯拉 CEO 马斯克曾自信地对外声称:“特斯拉拥有世界上最好的现实世界模拟和视频生成能力”。特斯拉在大约2022年的时候就能以精确的物理生成真实世界的视频,同时,他也指出:“我们的 FSD 训练算力不足,所以还没有使用其他的视频(所有的训练数据都来自汽车)进行训练,但当然是可行的。今年晚些时候,当我们有空余算力时,就会进行训练。”

        实际上,算力难题一直存在。2023 年 8 月,马斯克指出,FSD AI 的实现进程,眼下的限制因素在于训练的算力,而非工程师人力。算力的稀缺,已经成为制约 AI 部署发展的主要因素

        国内后续如果发展端到端,也要考虑算力不足带来的影响。2022 年 8 月,阿里云宣布正式启动张北超级智算中心,当时号称“全球最大的智算中心”,总建设规模为 12EFLOPS(每秒 1200 亿亿次浮点运算)AI 算力,超过谷歌的 9EFLOPS 和特斯拉的 1.8EFLOPS。同年 8 月 2 日,小鹏汽车宣布和阿里云合作在乌兰察布建成当时中国最大的自动驾驶智算中心“扶摇”。“扶摇”算力可达 600PFLOPS(每秒浮点运算 60 亿亿次),将小鹏自动驾驶核心模型的训练速度提升了近 170 倍。

        以最新公布的车企与智驾供应商的算力情况(数据来源于网络):

  • 特斯拉:截至 2023 年 8 月,算力达到 10 EFLOPS(预计 2024 年 10 月,Dojo 智算中心算力可达 100EFLOPS)。

  • 理想:截止 6 月,训练平台算力达 2.4EFLOPS。

  • 长安:1.42EFLOPS。

  • 蔚来:2023 年 9 月,智算集群总算力规模为 1.4EFLOPS。

  • 极越:2 月最新数据显示,其算力在 1.8-2.2EFLOPS 范围之内。

  • 吉利:2 月和阿里云成立星睿智算中心,计算能力达到 810PFLOPS。

  • 长城:1 月毫末智行和火山引擎合作雪湖·绿洲智算中心,称其算力达 670PFLOPS。

  • 小鹏:600PFLOPS。

  • 华为:3.5EFLOPS。

  • 商汤绝影:12EFLOPS(2024 年底将达到 18EFLOPS)。

        2023年2月,特斯拉新增 5 亿美元用于投资在超算中心Dojo,并且从官方的信息可以了解到,特斯拉的人形机器人业务 Optimus 也会使用Dojo进行训练。2023年6月4日,马斯克发推特表示,特斯拉买了10万片卡,在德州的工厂上扩展了一个数据中心,并且放了 5 万片卡进去。

        数据、算力、算法,可以认为是人工智能发展的三个必要条件。

5 总结

        随着AI的进一步发展以及自动驾驶技术的进化,大模型会逐渐替代掉现有自动驾驶的传统方案:感知---预测---规划---控制的范式。目前落地的端到端大模型只有特斯拉,小鹏,理想三家,后面将会有更多的企业落地端到端的方案,这也是未来一段时间自动驾驶技术的主流方案。

        另一个值得思考的是,既然自动驾驶系统中可以应用端到端技术,那么其它机器人领域是不是同样可以使用呢?它的应用可以是多方面的,比如,月球车,人形机器人等等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2070940.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

<C++> 二叉搜索树

目录 二叉搜索树 1. 概念 2. 二叉搜索树操作 2.1 基础结构 2.2 非递归版 1. 查找 2. 插入 3. 删除 2.3 递归版 1. 查找 2. 插入 3. 删除 2.4 拷贝构造函数 2.5 赋值运算符重载 2.6 析构函数 2.7 完整代码 3. 二叉搜索树的应用 4. 二叉搜索树的性能 二叉搜索树 1. 概念 二叉搜索…

机器学习算法那些事 | 这是我见过最通俗易懂的SVD(奇异值分解)算法介绍

本文来源公众号“机器学习算法那些事”,仅用于学术分享,侵权删,干货满满。 原文链接:这是我见过最通俗易懂的SVD(奇异值分解)算法介绍 线性代数是机器学习领域的基础,其中一个最重要的概念是奇…

手机号归属地查询如何用Java进行调用

一、什么是手机号归属地查询接口? 手机号归属地查询接口又叫手机号归属地、手机号信息查询、手机号查询,通过手机号查询归属地信息、是否虚拟运营商等。该接口可支持三大运营商,移动、电信、联通等。 二、手机号归属地查询接口适用场景有哪…

OpenCV+Python识别机读卡

背景介绍 正常机读卡是通过读卡机读取识别结果的,目前OpenCV已经这么强大了,尝试着用OpenCVPython来识别机读卡。要识别的机读卡长这样: 我们做以下操作: 1.识别答题卡中每题选中项结果。 不做以下操作: 1.不识别准…

【数据分析:RFM客户价值度模型】

前言: 💞💞大家好,我是书生♡,本阶段和大家一起分享和探索大数据技术RFM客户价值度模型,本篇文章主要讲述了:RFM客户价值度模型等等。欢迎大家一起探索讨论!!&#xff01…

大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…

GATK ReadsPathDataSource类介绍

GATK(Genome Analysis Toolkit)是一个广泛使用的基因组分析工具包,它的核心库之一是htsjdk,用于处理高通量测序数据。在GATK中,ReadsPathDataSource类是负责管理和提供读取高通量测序数据文件(如BAM、SAM、CRAM)的类。 常见使用场景 数据加载:在GATK的基因组分析工具链…

MySQL的MRR(Multi-Range Read)优化原理详解

❃博主首页 &#xff1a; 「码到三十五」 &#xff0c;同名公众号 :「码到三十五」&#xff0c;wx号 : 「liwu0213」 ☠博主专栏 &#xff1a; <mysql高手> <elasticsearch高手> <源码解读> <java核心> <面试攻关> ♝博主的话 &#xff1a…

LeetCode:反转区间内的链表

&#x1f4df;作者主页&#xff1a;慢热的陕西人 &#x1f334;专栏链接&#xff1a;力扣刷题日记 &#x1f4e3;欢迎各位大佬&#x1f44d;点赞&#x1f525;关注&#x1f693;收藏&#xff0c;&#x1f349;留言 文章目录 反转区间内的链表题目链接方法一&#xff1a;拆开反转…

【TB作品】PIC16F1719单片机,EEPROM,PFM,读写

对于PIC16F1719单片机&#xff0c;没有直接的EEPROM&#xff0c;而是使用高耐久度的程序闪存&#xff08;PFM&#xff09;作为非易失性数据存储区域。这个区域特别适合存储那些需要频繁更新的数据。读写这个内存区域需要操作一些特殊功能寄存器&#xff0c;比如用于地址的PMADR…

2.K8s集群搭建

K8s搭建 搭建方案kubeadm搭建系统初始化操作k8s Master节点初始化将node节点加入集群安装网络插件Calico集群测试 搭建方案 minikube&#xff1a;轻量化的Kubernetes集群&#xff0c;为了能够更好学习和体验k8s功能而推出的&#xff0c;借助个人PC的虚拟化环境就可以实现Kuber…

如何使用ssm实现基于java web的网上书城系统的设计与实现+vue

TOC ssm123基于java web的网上书城系统的设计与实现vue JAVA简介 Java主要采用CORBA技术和安全模型&#xff0c;可以在互联网应用的数据保护。它还提供了对EJB&#xff08;Enterprise JavaBeans&#xff09;的全面支持&#xff0c;java servlet API&#xff0c;JSP&#xff…

【Redis】Redis客户端——Jedis(Java)

Redis Java使用案例 环境配置引入依赖配置端⼝转发连接 Redis Server Java基础代码操作Redisset 和 getexsits 和 del 环境配置 引入依赖 Java 操作 redis 的客⼾端有很多. 其中最知名的是 jedis. 创建 maven 项⽬, 把 jedis 的依赖拷⻉到 pom.xml 中. <!-- https://mvnr…

ssrf--web-ssrfme例题

将web-ssrfme.zip解压缩在Ubuntu下 Docker-compose up -d 更新后的镜像重新启动容器 可以看到已经拉取成功ssrfme镜像 我们使用端口访问文件&#xff0c;可以看到有一个过滤条件&#xff0c;它限制了file&#xff0c;dict协议&#xff0c;127.0.0.1和localhost 也不能用&…

【55-90】结构型模式

目录 一.结构型模式概述 二.代理模式 2.1 概述 2.2 结构 2.3 静态代理 2.4 JDK动态代理 2.5 CGLIB动态代理 2.6 三种代理的对比 2.7 优缺点 三.适配器模式 3.1 概述 3.2 结构 3.3 类适配器模式 3.4 对象适配器模式 3.5 应用场景 四.装饰者模式 4.1 概述 4.2 结…

从并发20到并发120之laravel性能优化

调优成果 遇到问题 单台服务并发20&#xff0c;平均响应时间1124ms&#xff0c;通过htop观察&#xff0c;发现cpu占用率达到100%&#xff08;包括sleep的进程&#xff09;&#xff0c;内存几乎没怎么用。 调优后 单机最大吞吐量达到120 响应时长不超过1000ms 硬件信息 …

数学建模----线性回归分析(引入热力图的绘制方法)

目录 0.直击重点 1.一元线性回归分析 1.1散点图的绘制 1.2相关性的分类 1.3计算相关系数 1.4模型的检验 1.5模型的预测 2.多重线性回归分析&#xff08;上&#xff09; 2.1多重线性的概念 2.2散点图的分类 2.3热力图的绘制 2.4根据结果确定新的变量 3.多重线性…

【开端】 如何判断手机号码属于哪个国家(手机号判断正则)汇总

import org.apache.commons.lang3.StringUtils; /** * 手机号判断正则 */ public enum MobileRegularExp { /** * 国家 正则 */ CN("中国", 86, "^(\\?0?86\\-?)?1[3456789]\\d{9}$"), TW("中国台湾", 886, "…

第七节 循环结构;goto语句

目录 7.1 while循环 7.1.1 if 和 while的对⽐ 7.1.2 while的执行流程 7.1.3 while的练习 7.2 for循环 7.2.1 语法形式 7.2.2 for循环的执⾏流程 7.2.3 for 循环的练习 7.3 while 和 for 循环的对比 7.4 do while 循环 7.4.1 do while 的语法形式 7.4.2 do while循…

Jamba前生今世:1.5开源来袭

AI21服务于企业&#xff0c;为企业构建基础模型和AI系统以加速GenAI在生产中的使用。AI21 成立于2017年&#xff0c;已从NVIDIA、Intel、Google等公司共筹集了3.36亿美元。它是最早将生成式AI推向大众的公司之一&#xff0c;借助AI21平台&#xff0c;企业可以构建自己的生成式A…