Abstract
随着计算机视觉的最新进展,自动驾驶迟早成为现代社会的一部分,然而,仍有大量的问题需要解决。尽管现代计算机视觉技术展现了优越的性能,他们倾向于将精度优先于效率,这是实时应用的一个重要方面。大型目标检测模型通常需要更高的计算能力,这是通过使用更复杂的机载硬件来实现的,对于自动驾驶来说,这些要求转化为燃料成本的增加,并最终导致里程的减少,此外,尽管有计算需求,但现有的目标检测器还远远不能满足实时性的要求。在本研究中,我们评估了我们先前提出的高效行人检测器LSFM在成熟的自动驾驶基准上的鲁棒性,包括不同的天气状况和夜间场景。我们将LSFM模型扩展到一般的目标检测,以实现交通场景中的实时目标检测。我们在交通目标检测数据集上评估了其性能、低延迟性和可推广性。进一步地,我们讨论了当前自动驾驶背景下目标检测系统所采用的关键性能指标的不足,并提出了一种更适合的、包含实时性要求的替代方案。
Introduction
自动驾驶旨在通过替代人类驾驶员来改善道路安全性、舒适性、交通拥堵和油耗等问题。自动驾驶的承诺是革命性的,但也伴随着诸多挑战。自动驾驶系统的管道由众多模块组成,感知是第一位的。感知系统的主要功能是从自车周围环境中获取至关重要的信息,并以易于消费的格式传输给自主系统。计算成本直接影响自动驾驶车辆的行驶里程,因为它直接转化为燃料成本并增加了硬件需求。一个合理的设置和一个强大的GPU可以单独花费大量的里程,而现有的目标检测方法远远没有达到实时的( 30F P S)。除目标检测外,感知模块还具有多个感知子程序,进一步收紧了约束。因此,需要一种具有优越精度、最小硬件占用和计算效率的轻量级目标检测器。
行人是自动驾驶感知的重要交通目标,并且,由于他们不太的衣服和体型,导致行人检测非常困难。在研究领域中,使用复杂的目标检测架构进行行人检测是一种普遍的做法。然而,如果一个架构在附加约束的行人检测中表现良好,那么当扩展到其他交通对象时,它应该表现良好。最近提出的LSFM在行人检测上取得了最佳的性能。它对运动模糊具有鲁棒性,推理时间较短,效果良好,特别是在小遮挡和严重遮挡的情况下。在这篇工作中,我们扩展了LSFM到多类目标检测并且证明了在交通目标检测的泛化性。我们还评估了其在合成数据集上,以及在恶劣天气和光照条件下(包括夜间)的泛化能力。
主要工作如下:
1、我们评估了LSFM [ 15 ]在夜晚场景中的可推广性,并在KITTI [ 16 ]排行榜上进行了比较。
2、我们通过结合多类目标检测来扩展LSFM [ 15 ],以方便交通目标检测。
3、我们提出了一种新的实时目标检测的关键性能指标。
4、我们使用传统的和实时的评价指标,在公认的自动驾驶基准上评估LSFM [ 15 ]用于交通目标检测的性能。
Efficient traffic object detection
LSFM是一个有效的行人检测器。由于行人是最具挑战性的交通对象,一个高效、高性能的行人检测架构应该能够很好地推广到其他交通对象。
3.1 Localized Semantic Feature Mixers
LSFM把RAW images作为输入,使用ConvMLPPin backbone去提取高级语义特征。这些特征然后送入SP3,将其分割成不同大小的patch,使得每个阶段的特征图产生等数量的patch。除此之外,把空间相似度高的patch对齐、展平,然后凭借从单一的1D向量。它们通过一个单一的全连接层,以局部化(localized)的方式进行过滤和富集。此外,DFDN通过MLPMixer块混合这些局部语义特征来检测目标;因此,命名为"局部语义特征混合器"(Localized Semantic Feature Mixers)
3.2 Extension for Traffic Object Detection
LSFM 使用了行人的高层语义特征表示,即中心、尺度和偏移表示。在检测头中制定了3个目标,每个目标都用一个专用的子网络进行优化。使用有Fcoal loss的二元交叉熵损失去进行中心预测,以使训练对严重的前后背景不平衡更鲁棒。具体来说,使用焦点损失的α变体[ 19 ],其中α是高斯基惩罚减少项,以减轻中心学习。为了扩展行人检测模型并实现多类目标检测,需要改变检测头部以进行多类分类。此外,尺度和偏移预测分支可以不受影响,因为这些属性可以以类不可知的方式进行学习。对于行人检测,该损失通过对象实例的数量进行归一化,这允许在训练期间对拥挤和更简单的场景进行统一的关注。然而,如果简单地将所有类的损失累加并与实例总数进行归一化处理,则优化结果会偏向于密度较高的类。为了解决这个问题,我们将每个类别的中心损失分别用批次中出现的次数进行归一化。则多目标最终的中心损失方程为:C是类别数量,Kc是一个类的实例数量,和是惩罚因子和焦点损失,但针对某一类。
3.3 Real-Time Objective Performance
由于自动驾驶需要时间关键的感知,因此目标检测等感知任务需要实时工作,虽然不同领域对实时性的定义不同,但30F P S是自动驾驶情况下可接受的阈值。平均精度( mean average precision,mAP )是目标检测的一个著名的关键性能指标;然而,它与推理时间无关,因此不适合自动驾驶等实时系统。为此,我们提出了实时目标性能( Real-Time Objective Performance,简称mAP ),它是由实时系统的mAP衍生出来的一个关键性能指标。下面的方程表示RTOP与性能p和FPS的关系。p是性能评估,mAP是基本单元,T为实时帧率,b是调整缩放的权重,设置T=30,b=2。
Results
首先验证了在LSFM在变化光照条件下的性能。
4.1 Evaluation on KITTI Pedestrian Benchmark
为了确保公平的比较,KITTI数据集[ 16 ]的测试集在官方服务器上被保留,这些数据集的评估只能通过在官方服务器上的请求来实现。 LSFM [ 15 ]比现有的基于相机的方法有显著的优势,表现出对严重遮挡的鲁棒性。
4.2 Performance at the night Time
运动模糊是造成目标检测器定位不准确的主要因素之一,由于运动模糊是由于相机快门打开时场景的变化引起的。为了评估LSFM [ 15 ]在极端低照度条件下(夜晚)的性能,以及它对强化运动模糊的鲁棒性,我们在Euro City Persons [ 23 ]夜晚数据集上进行了测试。LSFm在夜间合理且较小的情况下性能优于SPNet,但是LSFM和SPNEt在夜间的性能差距小于白天的,这蒸馏了LSFM对强烈运动模型具有鲁棒性