背景
首先定一个调,自动驾驶方向统一的大模型不是一般的公司就能做的,没几十张A100训练都训练死你,这批观后感旨在学习UniAD的思想,拓展一下眼界
UniAD将检测,跟踪,建图,轨迹预测这四个任务统一在一起
四种结构
a)最常见的模型结构,感知、对行、规划等因素都是独立完成的,优点是跨团队开发的难度较低,只要车载芯片算力够,就还好。潜在的弊端是,由于自动驾驶的各个因素是高度相关耦合的,可能导致一步错步步错(错误积累)、任务不对齐、跨模块信息的丢失。
还有一个问题是根本性的:各个模块的优化目标并不是以驾驶为最终目标
b)更优雅的设计是将一系列任务融入到多任务学习(MTL)范式中,通过将几个任务特定的头部插入到一个共享的特征提取器中。特斯拉和小鹏是这样做的,只是节约了计算开销,但引入了多任务间特征表达冲突,因为虽然各个任务的特征提取网络是一致的,但是他们的修正方向不是一致的。
在端到端方面有几个实现方法:
1.隐式的端到端和显式的端到端。其中隐式端到端是以传感器数据作为输入,直接输出规划或者控制指令。这种范式的好处是较为简洁,缺点是缺乏可解释性,难以调式及迭代。
2.显式端到端则是将多个模块囊括在端到端模型之中,每个模块有各自的输出,并且会将提取到的特征传递到下游任务。
UniAD用的是:
知识点补充:
BEV特征是指在自动驾驶领域中使用的一种特征表示方法,全称为Bird’s Eye View(鸟瞰图)特征。BEV特征是通过将车辆周围的环境信息投影到一张俯视图中来表示。
它可以提供车辆周围的全局环境信息,包括道路、障碍物、行人和其他车辆等,并以二维的方式进行表示。这种表示方法能够更直观地展示出车辆所处位置和周围环境的几何结构,方便进行感知、规划和决策等任务。在BEV特征中,通常使用栅格化(grid-based)的方式将环境划分为一个个小区域,并将每个小区域内的信息编码为不同的特征值。
例如,可以使用高度值表示障碍物的高度信息,使用颜色表示不同类型的物体,使用二进制值表示某个区域是否被占据等。通过对整个环境进行栅格化表示,并将各个栅格内的特征信息整合起来,就可以得到一张完整的BEV特征图。BEV特征在自动驾驶系统中广泛应用,能够提供全局的环境感知,并为路径规划、障碍物检测、行为预测等任务提供重要的输入。