德国汽车行业杂志HANSERautomotive就浪潮信息算法团队在自动驾驶领域所取得的核心突破，进行专题署名报道

近日，德国专业汽车行业杂志HANSERautomotive就浪潮信息算法团队在自动驾驶领域所取得的核心突破，进行专题署名文章报道“Wahrnehmungssysteme und 3D-Objekterkennung Alles im Blick ”(《感知系统和三维物体识别，一切尽收眼底》)。针对AI感知技术对于自动驾驶产业化落地的变革式意义，《HANSERautomotive》文章指出，“3D目标检测作为自动驾驶领域至关重要的核心任务，面向强大的环境感知，先进的AI算法及融合架构感知技术，为实现高鲁棒、高精度的目标检测提供了至关重要的信息输入，平台算力和感知算法的效率提升与创新突破，也成为了车企发展自动驾驶能力的关键技术。”

目前，在全球权威的自动驾驶nuScenes竞赛最新评测中，浪潮信息算法团队所提交的“IEI-BEVFusion++”算法模型在关键性指标nuScenes Detection Score（NDS）得到77.6%的高分，创造了3D目标检测全赛道迄今最高成绩。

【HANSERautomotive作为德国Top级汽车电子行业媒体，旨在持续赋能汽车电子开发、项目、应用和测试领域的工程师，为全球汽车领域的行业高管与最重要的利益相关者，提供产品、系统、趋势和时事，在电信/数据通信、消费和工业等行业领域做出更好的决策。】

附《HANSERautomotive》详细报道（原文译释）：

自动驾驶将从头开始改变移动行业，是汽车制造商和人工智能公司关注的重点领域。自动驾驶技术的核心是基于算法的 3D 物体识别，它被认为是自动驾驶汽车环境感知的核心。至关重要的是，车辆使用各种传感器来估计其环境中人、车辆和物体在三维空间中的距离。以下文章解释了不同传感器的工作原理以及它们之间的交互方式。

自动驾驶核心感知任务——3D目标检测

从自动驾驶分类来看，目前的自动驾驶技术有两大类。一种是以直接达到Level 4（高度驾驶自动化）为目标的激进派，另一种是从Level 2（辅助驾驶）逐步提升自动驾驶等级的渐进派。但无论是Level 2还是Level 4，从整体架构来看，大致可以分为感知、决策和控制三个部分。感知是自动驾驶汽车的眼睛，犹如人类的眼睛为大脑提供 70% 以上的信息类似，感知系统也为自动驾驶汽车的外部环境提供信息。自动驾驶的感知依赖于各种传感器的信息，包括摄像头、雷达、激光雷达等，其中最核心的就是相机和激光雷达。

自动驾驶面对的是一个3维的环境空间，甚至我们可以这么说，因为自动驾驶车辆要在环境空间中移动，且环境空间中其他的行人、车辆也会移动，可见自动驾驶面临的是一个4D时空系统（3D空间+1D时间）。自动驾驶汽车需要在三维空间中判断周围人、车、物之间的距离。在此基础上，还需要判断它们是静态的还是动态的，以及移动的方向和速度等信息，我们一般称之为3D目标检测任务。 3D物体检测任务可以看作是自动驾驶中的最核心感知任务。当然，除此之外，其他感知任务还包括识别红绿灯、交通标志、车道、斑马线等道路信息。

（图注：3D 目标检测图。 3D目标定义为一个盒子，(x,y,z)为盒子的中心坐标，(l,w,h)为长宽高，θ为航向角。 Class 是 3D 目标的类别。 Vx 和 vy 描述了地面上 3D 目标沿 x 和 y 轴的速度。）

传感器：激光雷达

长期以来，激光雷达一直被认为是自动驾驶汽车不可或缺的部件之一，因为激光雷达可以提供车辆周围环境最准确的3D感知。激光雷达采集到的点云信息天然就存储着3D空间信息，因此对于基于点云信息的3D目标检测来说，算法设计就简单很多，也诞生了一系列的经典模型，如PointPillar、SECOND、SSSD等。然而，激光雷达的成本也成为了自动驾驶落地的最大瓶颈，激光雷达比汽车贵的问题，成为其上车和量产的最大障碍。虽然这些年激光雷达的价格随着技术的进步有了明显的下降，但是能够满足L4需求的激光雷达的价格还是偏高。

传感器：相机

摄像头是自动驾驶汽车的另一个非常重要的传感器。由于激光雷达采集的点云信息没有颜色和纹理，无法识别红绿灯、交通标志、车道、斑马线等人类容易识别的道路信息。因此，仍然需要摄像头作为辅助传感器。但是，这会导致多模态的信息融合问题。简而言之，激光雷达主要擅长对车辆和行人的3D信息的感知，而摄像头擅长于对红绿灯、车道线等具有丰富视觉纹理特征的信息的感知。此外，相机在量产成本和价格方面也具有无可比拟的优势。例如，特斯拉搭载的单个单目摄像头成本仅为25美元，整车8个摄像头的价格仅为200美元。仅使用相机传感器，借助强大的人工智能算法，可以实现精确的3D物体检测任务，这意味着不使用激光雷达传感器的自动驾驶成为可能。

基于图像的3D目标检测算法

在计算机视觉领域，近年来涌现了大量的分类、检测、分割模型，如ResNet、YOLO、Mask RCNN等，这些AI模型已广泛应用于安防、交通、和自动驾驶。然而，核心问题之一是这些模型是为 2D 图像设计的，不能直接应用于 3D 对象检测任务。基于图像的3D物体检测的核心问题是如何准确估计图像中物体的深度。由于相机拍摄的照片和视频将3D空间投影到2D平面，丢失了深度信息，如何恢复深度信息是一个“病态问题”。也就是说，问题的解决方案可能不是唯一的。因此，长期以来，基于图像的3D目标检测算法的性能一直远低于基于激光雷达的3D目标检测算法。

自从特斯拉仅使用摄像头的FSD驾驶系统取得了一定的成功后，基于视觉的自动驾驶感知方案就越来越受到业界的关注。同时，随着数据、算法、算力等方面的进步，纯视觉自动驾驶感知方案在3D目标检测任务中的性能较去年的激光雷达有明显提升。

NuScenes 数据集

自动驾驶数据集的出现时间更长，传感器更多，采集时间更长。 NuScenes 数据集由 Motive 于 2019 年开发并发布，采集于波士顿和新加坡街头。为了获取有意义的场景数据，我们收集了大约 15 小时的驾驶数据，并精心选择了涵盖不同场景的驾驶路线。采集车搭载传感器，包括6个摄像头、1个激光雷达、5个毫米波雷达、GPS、IMU，具有360°视场感知。

（图注：安装在 NuScenes 数据集采集车上的传感器放置位置图。它配备了6个摄像头、1个激光雷达和5个毫米波雷达。）

NuScenes 数据集提供了几个评估任务，包括 3D 对象检测、3D 对象跟踪、预测轨迹、激光雷达分割、全景分割和跟踪。 3D 物体检测任务的目标是检测 NuScenes 数据集中的 10 种不同类型的检测物体，包括汽车、卡车、自行车和行人。检测信息除了物体的三维位置外，还包括物体的大小、方向和速度。 NuScenes提出了一个综合的NDS指标，即NuScenes Detection Score（NDS），它由平均准确度（mAP）、平均平移误差（ATE）、平均尺度误差（ASE）、平均方向误差（AOE）、平均速度误差组成(AVE) 和平均属性误差(AAE)。

（图注：NuScenes 数据集中六个摄像头采集的图像示意图。）

除了NuScenes，业界还有Waymo、ONCE等开源数据集。然而，NuScenes 是目前使用最多的数据集。自发布以来，NuScenes 数据集已被 2000 多篇研究论文引用。 NuScenes Challenge也成为测试感知算法在自动驾驶相关任务中表现的试金石。它吸引了来自世界各地的研究团队提交的 220 多份论文。近期，PhiGent Robotics、纵目科技、ECARX等车企的研发团队也出现在了NuScenes的名单中。

NuScenes提供了一个常年更新的榜单，目前一共有50余次提交，其中大多数的提交发生在2022年。目前全榜单排名第一的则是浪潮信息算法团队所提交的“IEI-BEVFusion++”算法模型，关键性指标nuScenes Detection Score（NDS）0.776的高分，创造了3D目标检测全赛道迄今最高成绩。

另外，在纯视觉赛道，算法团队在2022年所提交的“DABNet4D”模型，综合检测精度NDS 0.624的检测效果也一举登顶届时该赛道的榜首。相比之下，2022年初排名第一的BEV3D算法的NDS精度是0.474，也就是说在不到一年的时间内，NuScenes 纯视觉3D目标检测的NDS指标提升了15个点。基于纯视觉算法和激光雷达算法的精度差距也从年初的45%缩小到17%，而这些，均得益于纯视觉3D检测算法优化带来的性能提升。

展望未来

在自动驾驶落地的产业化进程中，感知技术作为自动驾驶的核心技术模块，既是起点也是基石。而未来，面向自动驾驶感知算法的研发，也将会投入更为强大的人工智能计算平台予以支撑。从NuScenes榜单技术的快速迭代来看，我们有理由相信，随着算力、算法的持续型突破，自动驾驶产业化落地进程也将多一层“腾飞动力之源”。