【大模型】人工智能大模型在自动驾驶领域的应用

news2025/4/28 5:11:11

在这里插入图片描述

随着ChatGPT的火爆，大模型受到的关注度越来越高，大模型展现出的能力令人惊叹。

第一个问题：怎样的模型可以称之为大模型呢？
- 一般来说，我们认为参数量过亿的模型都可以称之为“大模型”。而在自动驾驶领域，大模型主要有两种含义：一种是参数量过亿的模型；另一种是由多个小模型叠加在一起组成的模型，虽然参数量不过亿，但也被称为“大模型”。
第二个问题：大模型的应用有什么条件？
- 大数据和大算力是大模型应用的重要前置条件。
- 数据方面，根据毫末智行 CEO 顾潍颢在毫末 AI DAY 上表示，训练出一个能输出高精度和准确度的自动驾驶大模型，自动驾驶测试里程数据需至少达到 1 亿公里；
- 算力方面：超算中心成为自动驾驶厂商重要的基础设施，特斯拉Al计算中心Dojo总计使用了1.4万个英伟达的GPU 来训练AI模型，网络训练速度提升30%。国内厂商中小鹏与阿里联合出资打造自动驾驶AI智算中心“扶摇”，将自动驾驶算法的模型训练时间提速170倍。

在这里插入图片描述

1. 大模型在云端的应用

1.1 数据自动标注

采用大模型预训练的方式可以实现自动标注，自动标注工具可大幅提升数据处理速度。模型的标注精度相对越高，对人的替代程度相应也越高。
一般来说，大家对标注任务的期望主要包括标注过程的效率高、标注结果的精确程度高以及一致性高。效率高和精确度高都很容易理解，一致性高是指什么呢？在3D识别的BEV算法中，工程师要采用激光雷达加视觉的联合标注，需要联合处理点云和图像数据。在这种处理环节里面，工程师可能还会需要在时序层面上做一些标注，那么前后帧的结果就不能区别太大。
小鹏推出的全自动标注系统将效率提升近 45,000 倍，以前 2,000 人年的标注量，现在 16.7 天可以完成。毫末智行在 AI Day 中表示毫末基于视觉自监督大模型，实现 4D Clip 的 100%自动标注，原先依靠的人工标注成本则降低 98%。
2018 年至今，特斯拉数据标注经历了 4 个发展阶段：1）第 1 阶段(2018 年之前)：只有纯人工的 2 维的图像标注，效率较低；2）第 2 阶段(2019)：人工进行3D 固定框的图像标注；3）第 3 阶段(2020)：采用 BEV 空间进行标注；4）第 4 阶段(2021)：首先对场景进行重建后在 4D 空间中进行标注，精度、效率都得到大幅提升。特斯拉自动标注系统可以取代 500 万小时的人工作业量，人工仅需要检查补漏。

1.2 数据挖掘

大模型有较强的泛化性，适合用于对长尾数据的挖掘。城市场景下道路及路况复杂（红绿灯路口）、交通参与者多（行人、低速两轮车）、场景异质性强（不同城市甚至不同路段路况差异性大），自动驾驶遇到的 Corner case 大幅提升。
假如采用传统的基于标签的方式来挖掘长尾场景，模型一般只能分辨已知的图像类别。2021年，OpenAI发布了CLIP模型（一种文字——图像多模态模型，可以在无监督预训练之后将文本和图像对应，从而基于文本对图片进行分类，而非只能依赖于图片的标签），我们也可以采用这样的文字-图像多模态模型，用文字描述来检索行驶过程中的图像数据。例如，‘拖着货物的工程车辆’、‘两个灯泡同时亮着的红绿灯’等长尾场景。

1.3 用知识蒸馏的方式“教”小模型

大模型还可以采用知识蒸馏的方式“教”小模型。
何为知识蒸馏呢？用最通俗的话来解释，就是大模型先从数据中学到一些知识，或者说提取到一些信息，然后再用学到的知识“教”小模型。在实践中，可以先把需要打标签的图片给大模型学习，大模型可以给这些图片打好标签，如此一来，我们就有了标注好的图片，将这些图片拿来训练小模型，就是一种最简单的知识蒸馏方式。当然了，我们也可以采用更复杂的方式，如先用大模型从海量数据中提取特征，这些提取出来的特征可以用来训练小模型。

1.5 自动驾驶场景的重建和数据生成

除了真实场景数据外，仿真场景是弥补训练大模型数据不足问题的重要解决方式。仿真场景通常由虚拟引擎构建，通过把构建的场景导出为虚拟标注数据集，并且在数据集中加入传感器噪声及增加雨雪等恶劣天气干扰因素后，可以用于感知训练数据增强，极大的丰富了训练数。
图森中国借助近两年来迅猛发展的神经渲染（Neural Rendering）技术，试图全部从真实的路测数据中重建世界与车辆，并按需修改我们关心的其他车辆的行为。这样能够最大限度保障模型在实际部署与仿真测试之间的一致性。我们可以通过改变视角、改变光照、改变纹理材质的方法来生成各种高真实感数据，例如通过视角变化可以模拟变道、绕行、调头等各种主车行为，甚至模拟一些即将碰撞的高危险性场景数据。
链接: 基于神经渲染的下一代真实感仿真
生成式 AI 有望推动仿真场景大幅提升泛化能力，帮助主机厂提升仿真场景数据的应用比例，从而提高自动驾驶模型的迭代速度、缩短开发周期。当前仿真场景对实际路测中所遇到的边缘案例主要通过人工进行泛化，如量产车在影子模式下遇到某一个 corner case 并进行数据回传后，在虚拟引擎中进行场景重建，再通过人为添加要素，如增添雨雾环境、增加交通参与人数等方式对原始场景进行梯度泛化。但对场景的泛化能力依赖于工程师对于场景的理解，且存在经由手动添加元素后的场景与真实场景的拟合度不高的问题。生成式 AI有望在针对真实场景中的 corner case 进行场景泛化的过程中取代人工，可以迅速泛化出大量的、与真实世界高拟合度的虚拟场景，进而提高自动驾驶模型的迭代速度。
下一篇我们来讲 大模型在车端的应用。