盘点自动驾驶的技术发展趋势

news2024/12/28 19:53:31

自动驾驶技术在不断发展变快,我们之前提过算法岗如今越来越卷,从今年的就业局势看,前年还属于蓝海行业的自动驾驶,今年就已经满满关上了招揽之门——呈红海之势。作为在这个行业中摸爬滚打的一以子,我们到底该如何纵观大局来解决个人困境呢?

1. AI技术发展规律:总分总的回溯

自动驾驶及AI领域的老玩家都知道,当下这些前沿技术领域的落地,翻来覆去无非是三个关键点——「场景」「数据」「算力」

「 场景」顾名思义就是指技术所要应用到的地方,有资历的工程师想必都深知:哪怕是同样的一套技术架构,在应用到不同场景时,由于侧重点或需求的不同,会导致硬件软件以及相关运营方面都会产生非常不同的效果。

就像西红柿有各种不同的做法,炒、煮、生食……不同的目的都会有不同的口感。

场景是我们在进行技术架构设计上时必备的最底层基础。

在此基础之上,就有了「数据」的概念。

由于目前的算法几乎都是以大算力的方式来进行推演,因此我们不难发现,现行的所有方法几乎都在逐步向「数据驱动」的标准靠拢。一旦某个技术在数据上升时依然能维持一个良好甚至更好的表现,那么就说明这个算法在行业里的发展一片光明,反之则堪忧。

庞大的数据库需要强大的算力支撑,何为「算力」?

如果技术升级有修炼阶梯,那「算力」就是其中的「宗师」元素。算力,具体来说就是「计算能力」(Computing Power),是通过对信息数据进行处理,实现目标结果输出的计算能力。

前不久召开的GTC大会上,英伟达CEO黄仁勋就向全球展示了他们所构建的强盛算力王国。但也有不少资深大佬觉得对「算力」和「芯片」的期待逐渐演变成了“华尔街式的炒作”。

当下的「芯片」顶尖资源基本都被英伟达等极少数顶尖企业垄断,依笔者酌减,其发展依旧是迷雾重重。

纵观技术的整体发展趋势,我们会发现其前进逻辑都是按照专项技术→通用技术→专用技术来走。这一理论从工业革命时代到如今的AI与自动驾驶领域都适用。

在这里插入图片描述
▲图1|「场景」「数据」「算力」三者发展相互制约相互成就©️【深蓝AI】

如图1所示,当一个算法拥有极小的数据或算力时,按理来说它不会有比较好的场景应用,但如果该算法处于专项设计阶段,那由于它针对性的设计思路,在场景上面就能得到一个不错的体现。因此当我们早期「算力」与「数据」的资源严重贫瘠的时候,像图1中A这种专项型设计必然是一个不二选择。

但是随着整个硬件技术的迅速迭代,我们会发现:虽然算法在「数据」和「算力」上有了明显的增强,但是可以看到A曲线后期增长已十分乏力,也就是说它在「场景」表现上近乎止步不前。

这时就应该走向「通用」的设计阶段,也就是B曲线。B模型要处理的是通用场景,所以大多时候它面对的是一个通用的问题,处理的也是通用的数据集。同时因为其模型设计往往也更大,也就是数据流量池更大,它自然会应用到更多的数据和算力的资源。正如B曲线所展示的,在与A同样算力的情况下,这项技术可以获得场景上面的快速增长。

而当B架构也慢慢达到了它所能获得的数据和算力的顶峰之后,又会陷入瓶颈——此时,我们又重新回到小数据+小算力的专用场景的状态。但是不同于早先的A曲线,这时我们的标准变成了C曲线。由于之前 B阶段的基础,这时算法已经蕴含了大数据+大算力带来的优势,但设定专用式的小模型,又可以更好地运用小数据和小算力,以提升场景应用。

我们通过不断地进行A到B到C的这种迭代,就可以看到技术整体呈向上发展的趋势。

以机器人领域的发展为例,在人形机器人概念提出之前,机器人已经有了各种各样不同的形态:工业方面有机械臂,运输方面有四足及轮式机器人……我们针对不同场景的任务进行相应的设计,但相应的,这种设计也只有在特定的领域上才能获得效果,很难处理通用的复杂问题。比如我们可以专门做一个切面条的机器人,也可以做一个这个拧螺丝的机器人,但我们一直没能产出一个做完整家务的机器人。「居家」这一场景包含着成百上千种细节的场景,而针对每一个细节场景进行相应机器人的制作设计,不用思考这都是不可能且不实际的。

而人形机器人的出现就是为了解决这一难题,顾名思义我们对这种机器人的期待更全面更类人,我们期望它能解决通用的所有问题,完成多种复杂任务。最开始它拥有的数据量可能很少,但是当我们将其任务数量扩展到类似「居家」场景的成千上百种,甚至拓展到「户外」场景中,那么针对这庞大的任务量,数据集自然就会丰富起来。而基于目前领域内算力蓬勃发展的趋势,人形机器人必然将会走向通用的曙光。

当然这只是一个概念的畅想,距离其落地还有很长的一段距离。但刚才的假设正是映证了上面的技术发展脉络。GPT与自动驾驶领域的技术发展也遵循此种规律。

2. 自动驾驶技术到底在卷什么?

自动驾驶领域的总体技术发展可以概括为Transformer、端到端和世界模型这三大阶段。

■2.1 Transformer里程碑

在这里插入图片描述
▲图2|Transformer在自动驾驶领域中的发展历程©️【深蓝AI】

首先以Transformer为讨论点,以2017年作为分界线,我们将其发展阶段分别称作前Transformer时期和后Transformer时期。前Transformer时期关心更多的是attention机制,2014~2017年的这段时间里的工作更多是基于这种注意力机制,来让我们所生成的模型在CV识别过程得到更好的效果。到2017年之后,尤其是2020年Doso提出了ViT(Vision Transformer)之后,业界逐渐产生了这样的共识——Transformer这样暴力解决问题的方法,在CV领域是完全可行的。因而,也就逐渐出现了许多诸如BEV+Transformer一类的延展工作。这其中最值得注意的就是ViT和BEV+Transformer了。

ViT堪称是Transformer的一项开创性工作。当然ViT同样也十分简单粗暴,它直接将图像进行分块以后,按序列直接进行排列就可以。接着,将排列好的图像输入进Transformer Encoder架构中继续分类。最后得出一个效果非常不错的输出。

值得注意的是,这一过程体现了NLP与CV领域处理问题的一大不同:是否通用。CV领域处理问题时更偏向「专用型设计」,而NLP的处理方式就更加大包大揽,甚至可以说有点粗暴,但其结果依旧令人满意。另外一点值得注意的是,ViT在处理图像的过程中用的是encoder而不是decoder,原因在于Transformer的输入是定长的,encoder处理定长的信息相对比较合适一些。

而BEV+Transformer处理问题的思想也并不复杂,总的来说就是引入了几个Attention的相关量: 中间层的Spatial Cross-Attention、下层的History BEV和BEV Queries。

我们可以通过Spatial Cross-Attention来获得多个传感器各自对应的不同位置,及其之间的相关性,从而得到一个好的映射效果。此外,History BEV能获得一个“穿越时间”的attention概念,BEV Queries则是针对当前BEV结合历史BEV获得一个Querie。基于此,我们就可以获得某一物体在不同图像上的相关性,以及在时间次序上的相关性,达到跟踪定位的目的。

■2.2 端到端的里程碑

在这里插入图片描述
▲图3|端到端发展历程©️【深蓝AI】

端到端可以说是现在时下最火热的一个话题,其产业和学术两方面的发展都十分可观。无论是特斯拉汽车端到端技术的超强交互,还是获得CVPR2023 最佳paper的UniAD ,都印证了端到端的产学“两开花”,是整个行业中的一个新宠儿。

但端到端的概念并不是最近才提出的,早在1988年神经网络一经提出,许多学者就曾基于图像进行过相应的车辆控制的工作。但由于各种因素,后来自动驾驶领域相对比较落寞,同时神经网络很长时间也没有十分突出的进展,一直到了如今才被业界热议。

■2.3 行业新星:世界模型

在这里插入图片描述
▲图4|世界模型发展历程©️【深蓝AI】

开年爆火的Sora让「世界模型」这一概念走入了我们的视线,不过需要注意,在不同领域,其意义也就不同——自动驾驶领域的世界模型与 NLP领域的世界模型主要关注点有明显的差异,甚至可以说是两种不同的世界模型。

自动驾驶领域更关注的是通过前续状态能够对后续有一个可靠的预测,这个可靠的预测涵盖了一定的物理规则、人性交互及心理博弈;而NLP领域强调的更多是这个世界模型如何理解这个世界。

世界模型通过感知获取环境中的数据,并将其转化为可理解的形式。这些数据可以包括图像、声音、文本等多种形式,通过数据处理和分析,世界模型能够更好地理解环境中的实体和事件;在感知数据的基础上,世界模型通过机器学习和深度学习等技术对数据进行建模和学习。模型通过大量数据训练以掌握环境中的规律和模式,并逐渐形成对世界的认知和理解;基于学习到的模型,世界模型可以生成对未来环境的预测和仿真。通过模拟不同场景和行为的结果,它能够帮助决策者做出准确的判断和预测。

和「端到端」一样,其实「世界模型」的概念也不是空穴来风,早在2018年,LSTM被提出的同时,该工作的研究者也带出了word model(世界模型)的雏形构思。

英国自动驾驶著名企业Wayve所研究的世界模型包含了Transformer的多项延伸,预测一系列token,继而获得一系列video model,其中也涉及到扩散模型的一些相关原理。

3. 自动驾驶玩转市场了吗?

当下自动驾驶的工程化落地主要分为两方面:通用场景与特定场景下的应用。

通用场景的应用方面,如今做得最成熟的企业当属“地大华魔”(也就是地平线、大疆、华为和Momenta)。这几家公司几乎都采用了一个当下比较火热的概念来进行研发——“软硬合一”,也就是软硬件耦合,更具体来讲就是工程软件与芯片层面的耦合。目前看来,这已是自动驾驶算法领域的大势所趋。

或许未来随着产业的进一步发展,也会更细致地分化出独立的软件公司与硬件公司,但至少目前「软硬合一」已久是智驾企业的统一理念。因为目前全球市面上可用的智驾芯片并不多,前面也提到几乎被英伟达垄断,那么如果想开辟自己的硬件道路,资源技术等资源短时间内很难得到创新,那自然就没有企业竞争力。这就是行业目前的生态。

如今,特定场景方面的落地速度比预期的快了许多:主要为矿山、无人配送、港口、园区这四大应用场景。

2023年应该是智驾在矿山赛道投入最多的一年,无论是在政策方面的驱动还是其本身属于能源行业的天然优势,都成就了矿山在智驾的「龙头」地位。此外,矿山场景的场景控制力比其他几个场景都要强,其中大部分的作业状况都可以被精细化地小区快管理到。

第二阶梯就是无人配送了,这一赛道最大的特点就是极致的性价比要求。无人配送的一大目的就是要替代目前电三轮完成更高效率的运输配送作业,但这些工具的成本极低,那无人配送就必须也要把成本压到极致,才能让技术发挥最大的价值。而如BEV一类的技术恰好可以达到降本增效的目的。无人配送目前的另外两个况是敏感度低、上下游适配需求高。这个不难理解,因为「配送」是一项需要快速且强调各环节高度配合的工作,需要流程熟悉所以敏感度不必太高,保证每一环节不出问题最终送达目的地。

技术发展影响着产业的落地,而产业的实际应用也与行业的经济走向紧密相关。

自动驾驶企业从2015年如雨后春笋般逐渐出现以来,到目前为止,在技术创新方面其实整个领域已经逐渐进入一个瓶颈期,取而代之的是对成本的控制,关注的重点变成了怎么完成一个更高质量的交付。

如今的自动驾驶技术都面临着一个难点:效率陷阱。在任何事情的运行效率达到60%-80%的时候,会陷入一个两难的状态:我们还确保是否能100%做到替换旧的体系或者概念,但另一方面,目前效率还不错,我们又觉得按照这个思路进行下去是没问题的,如果不投入量产,担心会错过时机。

想拥有更好的效益,势必会放弃一部分东西,不论是技术上的通用或专用性,还是人员上的配比。此外,政策的驱动对于市场的影响也是重中之重,当然这是时代发展的必然因素,也包含一些“玄学”,如果某个大力推动行业发展的政策突然上线,那就是“忽如一夜春风来”,必然会乘风而上。

纵观这一路的科技变革,或许在近几年现实环境的紧逼下,我们还是很难从中找出自己的突破口,但是前段时间的车展的爆火,及特斯拉与中国的潜在合作,无不向我们昭示着:自动驾驶是还在活跃着的红海领域。顺应局势走,一定能顺利起飞。

笔者|Los

移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1663170.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Goland GC

Goland GC 引用Go 1.3 mark and sweep 标记法Go 1.5 三色标记法屏障机制插入屏障删除写屏障总结 Go 1.8 混合写屏障(hybrid write barrier)机制总结 引用 https://zhuanlan.zhihu.com/p/675127867 Garbage Collection,缩写为GC,一种内存管理回收的机制…

ABAP 直连sqlserver或oracle数据库

1、事务码DBCO,配置链接 2、测试链接:sm38 执行ADBC_TEST_CONNECTION 3、运行时会报驱动找不到的错误,解决方法: S4 HANA连接其他数据库(oracle,sqlserver)

代码审计平台sonarqube的安装及使用

docker搭建代码审计平台sonarqube 一、代码审计关注的质量指标二、静态分析技术分类三、使用sonarqube的目的四、sonarqube流程五、docker快速搭建sonarqube六、sonarqube scanner的安装和使用七、sonarqube对maven项目进行分析八、sonarqube分析报告解析九、代码扫描规则定制十…

mysql--join

Join 两个表都有一个主键索引 id 和一个索引 a,字段 b 上无索引,表 t2 里插入了 1000 行数据,在表 t1 里插入的是 100 行数据 CREATE TABLE t2 (id int(11) NOT NULL,a int(11) DEFAULT NULL,b int(11) DEFAULT NULL,PRIMARY KEY (id),KEY …

图机器学习入门:基本概念介绍

图机器学习(Graph Machine Learning,简称Graph ML)是机器学习的一个分支,专注于利用图形结构的数据。在图形结构中,数据以图的形式表示,其中的节点(或顶点)表示实体,边&a…

【LeetCode算法】28. 找出字符串中第一个匹配项的下标

提示:此文章仅作为本人记录日常学习使用,若有存在错误或者不严谨得地方欢迎指正。 文章目录 一、题目二、思路三、解决方案四、JAVA截取字符串的常用方法4.1 通过subString()截取字符串* 一、题目 给你两个字符串 haystack 和 needle ,请你在…

某大型央企主数据项目实战,上线前后深度对比与解析

数据已成为数字化转型的核心,如何将数据转化为战略资产,是当今企业迫切需要解决的问题。其中主数据作为企业的“黄金数据”,是数据资产管理实践方式的重要切入方法之一。某大型央企成功实施了主数据管理项目,实现了从数据孤岛到一…

寻找最大价值的矿堆 - 矩阵

系列文章目录 文章目录 系列文章目录前言一、题目描述二、输入描述三、输出描述四、Java代码五、测试用例 前言 本人最近再练习算法,所以会发布一些解题思路,希望大家多指教 一、题目描述 给你一个由’0’(空地)、‘1’(银矿)、‘2’(金矿)组成的地图…

揭秘自行车对人体的神奇力量

想象一下,如果有一种魔法,能让你每施展一次就多一个小时的寿命,你会心动吗?这种魔法确实存在,它就是——骑自行车。没错,你没有听错,根据最新的研究数据,“骑行一小时,长…

vue布局设置——使用 el-drawer 打造个性化 Admin 后台布局设置

在前端开发中,我们常常需要为 admin 后台构建灵活且个性化的布局设置。今天,我要分享的是如何利用 el-drawer 来实现这样一个有趣的功能。 首先,我们来看一下主要的设置参数: 1. theme: 用于定义主题,可以根据需求切换…

政安晨:【Keras机器学习示例演绎】(四十二)—— 使用 KerasNLP 和 tf.distribute 进行数据并行训练

目录 简介 导入 基本批量大小和学习率 计算按比例分配的批量大小和学习率 政安晨的个人主页:政安晨 欢迎 👍点赞✍评论⭐收藏 收录专栏: TensorFlow与Keras机器学习实战 希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在…

电脑文件找回恢复软件分享,3款软件助力数据恢复!

使用电脑时一不小心就删除了重要文件?想找回数据却不知道应该怎么操作?众所周知,电脑的使用已经成为我们工作、学习和生活中不可或缺的工具,但是在操作时误删文件是令很多用户都头疼的问题。 怎么恢复电脑里被删除的文件呢&#…

LabVIEW天然气压缩因子软件设计

LabVIEW天然气压缩因子软件设计 项目背景 天然气作为一种重要的能源,其压缩因子的准确计算对于流量的计量和输送过程的优化具有关键意义。传统的计算方法不仅步骤繁琐,而且难以满足现场快速响应的需求。因此,开发一款既能保证计算精度又便于…

一个开源即时通讯源码

一个开源即时通讯源码 目前已经含服务端、PC、移动端即时通讯解决方案,主要包含以下内容。 服务端简介 不要被客户端迷惑了,真正值钱的是服务端, 服务是采用Java语言开发,基于spring cloud微服务体系开发的一套即时通讯服务端。…

【XR806开发板试用】试用SWD+Jlink调试

XR806开发板,只能使用编写代码,然后通过UART下载,没法在线debug, 效率会差很多,官方没有提供这一方面的资料。 先查CPU, 官方介绍是arm-china的MC1,通过armv8 Architecture refenence manual资料…

linux打包流程

因为linux有俩个python版本,我们需要切换到python3这个版本,默认是python 2.7 alias pythonpython3 切换到python3 再次执行:python -V 显示出python的版本了,然后查看pip的配置,我们打包里面需要的第三方需要放到pip…

使用IDA自带python patch的一道例题

首先看见就是迷宫 迷宫解出的路径,放在zip的文件可以得到一个硬编码 然后在原程序中,有一处很离谱 这个debugbreak就是IDA分析错误导致的 我们点进去发现里面全是nop 然后我们把我们得到的硬编码放在010里面,再用IDA打开 重新编译看汇编 你…

高性能运营级流媒体服务框架:支持多协议互转 | 开源日报 No.250

ZLMediaKit/ZLMediaKit Stars: 12.6k License: NOASSERTION ZLMediaKit 是一个基于 C11 的高性能运营级流媒体服务框架。 使用 C11 开发,避免裸指针,代码稳定可靠,性能优越。支持多种协议 (RTSP/RTMP/HLS/HTTP-FLV/WebSocket-FLV/GB28181 等…

JavaEE之线程(3)_线程的开始、中断、等待、休眠线程、线程的状态

前言 在本栏的上一节(https://blog.csdn.net/2301_80653026/article/details/138500558),我们重点讲解了五种不同的创建线程的方式,我们还介绍了Tread类的常见构造方法和常见属性,在这一节中我们将会继续介绍Tread类。…

5/11后面部分:+顺序排序+元素交换+计算每门课程的各种成绩+存放规律的数据 注意:一味的复制肯定要出问题,第2个的最后一部分有修改,注意观察

目录 第一个已经输出过一次: 第二个: 编程实现:程序功能是用起泡法对数组中n个元素按从大到小的顺序进行排序。 ​编辑的确出现了一些问题哦: ​编辑目前是可以运行,但AI不给我们通过: 最后还是我的代码获胜&#x…