盘点自动驾驶的技术发展趋势

自动驾驶技术在不断发展变快，我们之前提过算法岗如今越来越卷，从今年的就业局势看，前年还属于蓝海行业的自动驾驶，今年就已经满满关上了招揽之门——呈红海之势。作为在这个行业中摸爬滚打的一以子，我们到底该如何纵观大局来解决个人困境呢？

1. AI技术发展规律：总分总的回溯

自动驾驶及AI领域的老玩家都知道，当下这些前沿技术领域的落地，翻来覆去无非是三个关键点——「场景」「数据」「算力」。

「场景」顾名思义就是指技术所要应用到的地方，有资历的工程师想必都深知：哪怕是同样的一套技术架构，在应用到不同场景时，由于侧重点或需求的不同，会导致硬件软件以及相关运营方面都会产生非常不同的效果。

就像西红柿有各种不同的做法，炒、煮、生食……不同的目的都会有不同的口感。

场景是我们在进行技术架构设计上时必备的最底层基础。

在此基础之上，就有了「数据」的概念。

由于目前的算法几乎都是以大算力的方式来进行推演，因此我们不难发现，现行的所有方法几乎都在逐步向「数据驱动」的标准靠拢。一旦某个技术在数据上升时依然能维持一个良好甚至更好的表现，那么就说明这个算法在行业里的发展一片光明，反之则堪忧。

庞大的数据库需要强大的算力支撑，何为「算力」？

如果技术升级有修炼阶梯，那「算力」就是其中的「宗师」元素。算力，具体来说就是「计算能力」（Computing Power），是通过对信息数据进行处理，实现目标结果输出的计算能力。

前不久召开的GTC大会上，英伟达CEO黄仁勋就向全球展示了他们所构建的强盛算力王国。但也有不少资深大佬觉得对「算力」和「芯片」的期待逐渐演变成了“华尔街式的炒作”。

当下的「芯片」顶尖资源基本都被英伟达等极少数顶尖企业垄断，依笔者酌减，其发展依旧是迷雾重重。

纵观技术的整体发展趋势，我们会发现其前进逻辑都是按照专项技术→通用技术→专用技术来走。这一理论从工业革命时代到如今的AI与自动驾驶领域都适用。

在这里插入图片描述
▲图1｜「场景」「数据」「算力」三者发展相互制约相互成就©️【深蓝AI】

如图1所示，当一个算法拥有极小的数据或算力时，按理来说它不会有比较好的场景应用，但如果该算法处于专项设计阶段，那由于它针对性的设计思路，在场景上面就能得到一个不错的体现。因此当我们早期「算力」与「数据」的资源严重贫瘠的时候，像图1中A这种专项型设计必然是一个不二选择。

但是随着整个硬件技术的迅速迭代，我们会发现：虽然算法在「数据」和「算力」上有了明显的增强，但是可以看到A曲线后期增长已十分乏力，也就是说它在「场景」表现上近乎止步不前。

这时就应该走向「通用」的设计阶段，也就是B曲线。B模型要处理的是通用场景，所以大多时候它面对的是一个通用的问题，处理的也是通用的数据集。同时因为其模型设计往往也更大，也就是数据流量池更大，它自然会应用到更多的数据和算力的资源。正如B曲线所展示的，在与A同样算力的情况下，这项技术可以获得场景上面的快速增长。

而当B架构也慢慢达到了它所能获得的数据和算力的顶峰之后，又会陷入瓶颈——此时，我们又重新回到小数据+小算力的专用场景的状态。但是不同于早先的A曲线，这时我们的标准变成了C曲线。由于之前 B阶段的基础，这时算法已经蕴含了大数据+大算力带来的优势，但设定专用式的小模型，又可以更好地运用小数据和小算力，以提升场景应用。

我们通过不断地进行A到B到C的这种迭代，就可以看到技术整体呈向上发展的趋势。

以机器人领域的发展为例，在人形机器人概念提出之前，机器人已经有了各种各样不同的形态：工业方面有机械臂，运输方面有四足及轮式机器人……我们针对不同场景的任务进行相应的设计，但相应的，这种设计也只有在特定的领域上才能获得效果，很难处理通用的复杂问题。比如我们可以专门做一个切面条的机器人，也可以做一个这个拧螺丝的机器人，但我们一直没能产出一个做完整家务的机器人。「居家」这一场景包含着成百上千种细节的场景，而针对每一个细节场景进行相应机器人的制作设计，不用思考这都是不可能且不实际的。

而人形机器人的出现就是为了解决这一难题，顾名思义我们对这种机器人的期待更全面更类人，我们期望它能解决通用的所有问题，完成多种复杂任务。最开始它拥有的数据量可能很少，但是当我们将其任务数量扩展到类似「居家」场景的成千上百种，甚至拓展到「户外」场景中，那么针对这庞大的任务量，数据集自然就会丰富起来。而基于目前领域内算力蓬勃发展的趋势，人形机器人必然将会走向通用的曙光。

当然这只是一个概念的畅想，距离其落地还有很长的一段距离。但刚才的假设正是映证了上面的技术发展脉络。GPT与自动驾驶领域的技术发展也遵循此种规律。

2. 自动驾驶技术到底在卷什么？

自动驾驶领域的总体技术发展可以概括为Transformer、端到端和世界模型这三大阶段。

■2.1 Transformer里程碑

在这里插入图片描述
▲图2｜Transformer在自动驾驶领域中的发展历程©️【深蓝AI】

首先以Transformer为讨论点，以2017年作为分界线，我们将其发展阶段分别称作前Transformer时期和后Transformer时期。前Transformer时期关心更多的是attention机制，2014～2017年的这段时间里的工作更多是基于这种注意力机制，来让我们所生成的模型在CV识别过程得到更好的效果。到2017年之后，尤其是2020年Doso提出了ViT（Vision Transformer）之后，业界逐渐产生了这样的共识——Transformer这样暴力解决问题的方法，在CV领域是完全可行的。因而，也就逐渐出现了许多诸如BEV+Transformer一类的延展工作。这其中最值得注意的就是ViT和BEV+Transformer了。

ViT堪称是Transformer的一项开创性工作。当然ViT同样也十分简单粗暴，它直接将图像进行分块以后，按序列直接进行排列就可以。接着，将排列好的图像输入进Transformer Encoder架构中继续分类。最后得出一个效果非常不错的输出。

值得注意的是，这一过程体现了NLP与CV领域处理问题的一大不同：是否通用。CV领域处理问题时更偏向「专用型设计」，而NLP的处理方式就更加大包大揽，甚至可以说有点粗暴，但其结果依旧令人满意。另外一点值得注意的是，ViT在处理图像的过程中用的是encoder而不是decoder，原因在于Transformer的输入是定长的，encoder处理定长的信息相对比较合适一些。

而BEV+Transformer处理问题的思想也并不复杂，总的来说就是引入了几个Attention的相关量： 中间层的Spatial Cross-Attention、下层的History BEV和BEV Queries。

我们可以通过Spatial Cross-Attention来获得多个传感器各自对应的不同位置，及其之间的相关性，从而得到一个好的映射效果。此外，History BEV能获得一个“穿越时间”的attention概念，BEV Queries则是针对当前BEV结合历史BEV获得一个Querie。基于此，我们就可以获得某一物体在不同图像上的相关性，以及在时间次序上的相关性，达到跟踪定位的目的。

■2.2 端到端的里程碑

在这里插入图片描述
▲图3｜端到端发展历程©️【深蓝AI】

端到端可以说是现在时下最火热的一个话题，其产业和学术两方面的发展都十分可观。无论是特斯拉汽车端到端技术的超强交互，还是获得CVPR2023 最佳paper的UniAD ，都印证了端到端的产学“两开花”，是整个行业中的一个新宠儿。

但端到端的概念并不是最近才提出的，早在1988年神经网络一经提出，许多学者就曾基于图像进行过相应的车辆控制的工作。但由于各种因素，后来自动驾驶领域相对比较落寞，同时神经网络很长时间也没有十分突出的进展，一直到了如今才被业界热议。

■2.3 行业新星：世界模型

在这里插入图片描述
▲图4｜世界模型发展历程©️【深蓝AI】

开年爆火的Sora让「世界模型」这一概念走入了我们的视线，不过需要注意，在不同领域，其意义也就不同——自动驾驶领域的世界模型与 NLP领域的世界模型主要关注点有明显的差异，甚至可以说是两种不同的世界模型。

自动驾驶领域更关注的是通过前续状态能够对后续有一个可靠的预测，这个可靠的预测涵盖了一定的物理规则、人性交互及心理博弈；而NLP领域强调的更多是这个世界模型如何理解这个世界。

世界模型通过感知获取环境中的数据，并将其转化为可理解的形式。这些数据可以包括图像、声音、文本等多种形式，通过数据处理和分析，世界模型能够更好地理解环境中的实体和事件；在感知数据的基础上，世界模型通过机器学习和深度学习等技术对数据进行建模和学习。模型通过大量数据训练以掌握环境中的规律和模式，并逐渐形成对世界的认知和理解；基于学习到的模型，世界模型可以生成对未来环境的预测和仿真。通过模拟不同场景和行为的结果，它能够帮助决策者做出准确的判断和预测。

和「端到端」一样，其实「世界模型」的概念也不是空穴来风，早在2018年，LSTM被提出的同时，该工作的研究者也带出了word model（世界模型）的雏形构思。

英国自动驾驶著名企业Wayve所研究的世界模型包含了Transformer的多项延伸，预测一系列token，继而获得一系列video model，其中也涉及到扩散模型的一些相关原理。

3. 自动驾驶玩转市场了吗？

当下自动驾驶的工程化落地主要分为两方面：通用场景与特定场景下的应用。

通用场景的应用方面，如今做得最成熟的企业当属“地大华魔”（也就是地平线、大疆、华为和Momenta）。这几家公司几乎都采用了一个当下比较火热的概念来进行研发——“软硬合一”，也就是软硬件耦合，更具体来讲就是工程软件与芯片层面的耦合。目前看来，这已是自动驾驶算法领域的大势所趋。

或许未来随着产业的进一步发展，也会更细致地分化出独立的软件公司与硬件公司，但至少目前「软硬合一」已久是智驾企业的统一理念。因为目前全球市面上可用的智驾芯片并不多，前面也提到几乎被英伟达垄断，那么如果想开辟自己的硬件道路，资源技术等资源短时间内很难得到创新，那自然就没有企业竞争力。这就是行业目前的生态。

如今，特定场景方面的落地速度比预期的快了许多：主要为矿山、无人配送、港口、园区这四大应用场景。

2023年应该是智驾在矿山赛道投入最多的一年，无论是在政策方面的驱动还是其本身属于能源行业的天然优势，都成就了矿山在智驾的「龙头」地位。此外，矿山场景的场景控制力比其他几个场景都要强，其中大部分的作业状况都可以被精细化地小区快管理到。

第二阶梯就是无人配送了，这一赛道最大的特点就是极致的性价比要求。无人配送的一大目的就是要替代目前电三轮完成更高效率的运输配送作业，但这些工具的成本极低，那无人配送就必须也要把成本压到极致，才能让技术发挥最大的价值。而如BEV一类的技术恰好可以达到降本增效的目的。无人配送目前的另外两个况是敏感度低、上下游适配需求高。这个不难理解，因为「配送」是一项需要快速且强调各环节高度配合的工作，需要流程熟悉所以敏感度不必太高，保证每一环节不出问题最终送达目的地。

技术发展影响着产业的落地，而产业的实际应用也与行业的经济走向紧密相关。

自动驾驶企业从2015年如雨后春笋般逐渐出现以来，到目前为止，在技术创新方面其实整个领域已经逐渐进入一个瓶颈期，取而代之的是对成本的控制，关注的重点变成了怎么完成一个更高质量的交付。

如今的自动驾驶技术都面临着一个难点：效率陷阱。在任何事情的运行效率达到60%-80%的时候，会陷入一个两难的状态：我们还确保是否能100%做到替换旧的体系或者概念，但另一方面，目前效率还不错，我们又觉得按照这个思路进行下去是没问题的，如果不投入量产，担心会错过时机。

想拥有更好的效益，势必会放弃一部分东西，不论是技术上的通用或专用性，还是人员上的配比。此外，政策的驱动对于市场的影响也是重中之重，当然这是时代发展的必然因素，也包含一些“玄学”，如果某个大力推动行业发展的政策突然上线，那就是“忽如一夜春风来”，必然会乘风而上。

纵观这一路的科技变革，或许在近几年现实环境的紧逼下，我们还是很难从中找出自己的突破口，但是前段时间的车展的爆火，及特斯拉与中国的潜在合作，无不向我们昭示着：自动驾驶是还在活跃着的红海领域。顺应局势走，一定能顺利起飞。

笔者｜Los

移步公众号【深蓝AI】，第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。