基于深度学习的3D目标检测与跟踪

news2025/1/15 6:24:32

图片

目标检测和跟踪对于自动驾驶来说是至关重要和基础的任务,旨在从场景中识别和定位出那些预定义类别的对象。在所有形式的自动驾驶数据中,3D点云学习引起了越来越多的关注。目前,有许多用于3D目标检测的深度学习方法。然而,鉴于点云数据的独特特性,点云的目标检测和跟踪任务仍需要深入研究。

为了帮助对当前的研究者有一个良好的掌握,本文展示了近年来用于3D目标检测和跟踪的深度学习方法的最新进展。

综述 | 基于深度学习的3D目标检测与跟踪icon-default.png?t=N7T8https://mp.weixin.qq.com/s/u89SrRjGFK3ybL7TCWeI1g

01  介绍

目标检测一直在计算机视觉领域中占据重要地位。作为图像理解的基石,目标检测广泛应用于诸多领域,例如自动驾驶和机器人视觉。目标检测使得自动驾驶系统能够清晰地看到驾驶环境,并像人类驾驶员一样理解环境中的物体。

随着深度学习的快速发展,深度学习模型可以更轻松地学习复杂、细微和抽象的特征,而无需像传统方法那样进行手动特征提取。鉴于深度学习处理数据的出色能力,目标检测的研究取得了重大进展。

针对2D目标检测的研究已经取得了很大的发展。解决2D目标检测问题的算法的准确性和效率已经达到了很高的水平,并且这些方法在工程实践中起着重要作用。在深度学习技术结合之前,基于滑动窗口的传统检测策略在相当长的时间内一直是主流。在尚未应用深度学习于检测的阶段,上述提到的目标检测方法的流程通常可以分为三个部分:i)候选区域生成;ii)特征向量提取;iii)区域分类。候选区域生成的主要任务是搜索整个图像,找到可能包含目标物体的位置。这些位置被称为感兴趣区域(ROI)。滑动窗口技术是一种直观的思想,用于扫描输入图像并找出ROI。在第二阶段,算法将从图像的每个目标位置提取一个固定长度的特征向量。直方图梯度(HOG)是由Navneet Dalal和Bill Triggs提出的最流行的特征提取方法之一。通常情况下,线性支持向量机与HOG一起使用,实现区域分类。

通过这些传统的检测器,目标检测虽然取得了很大的成功,但仍存在一些局限性。基于滑动窗口的方法的巨大搜索空间和昂贵的计算促使我们寻求更好的解决方案。此外,一个不容忽视的缺点是,设计和优化检测器的过程是分离的。这可能导致系统的局部最优解。

自从深度学习技术在这个领域出现以来,目标检测方面变得更加强大。这些使用深度学习技术的目标检测系统相较过去能够更加方便快捷地处理问题。我们可以观察到从2012年开始,随着Krizhevsky等人对于图像分类中的深度卷积神经网络(DCNN)的研究,基于深度学习的方法不断涌现出来。

目前,目标检测算法的主流可以分为两种类型:

1)两段式方法,例如基于区域的卷积神经网络(R-CNN)及其变种;

2)单阶段方法,例如You Only Look Once(YOLO)及其变种。

两段式方法是一种基于区域候选的方法,首先提出一些可能包含目标的区域,然后分别从这些区域中提取特征向量。而单阶段方法则直接在特征图的位置上预测目标的类别,省略了区域分类的步骤。

不同类型的方法具有各自的优点。Fast-RCNN减少了以前网络的处理时间,然而,计算成本相当大成为一个困扰。直到Faster-RCNN的出现,这个问题才得到解决。在本文中,2D目标检测不是重点,但为了对3D目标检测方法进行全面的回顾和介绍,我们也提到了这些方法。在图1中,我们展示了2D目标检测技术的主要进展和里程碑。

图片
图1 目标检测技术的主要发展和里程碑。在2012年出现了一个转折点,标志着传统的和基于深度学习的目标检测方法之间的界限。

然而,随着新的应用场景(如机器人视觉和自动驾驶)的提出,2D目标检测的实现远远不够。相机捕捉的图像是将3D空间投影到2D视图中,这导致了3D空间信息的丢失,无法满足人们的需求。我们需要考虑更多的3D空间信息。随着许多3D技术的快速发展,越来越多的3D传感器,如LiDARs,3D扫描仪和RGB-D相机变得越来越可用和实惠。

在本综述中,我们主要分析使用LiDAR获取的点云。作为一种常见的格式,每个点为我们提供了有用的几何位置信息,其中一些可能包含RGB信息。在自动驾驶方面,对于3D目标检测和跟踪有着急切的需求。在自动驾驶的研究中,准确的环境感知和精确的定位是自动驾驶系统在复杂和动态环境中实现可靠导航、信息决策和安全驾驶的关键。与受到照明影响的图像数据质量不同,点云对于不同的光照条件具有鲁棒性。因此,点云数据被广泛应用于这个领域。

在2D目标检测的基础上,目标检测的问题和要求发生了变化。对于点云的稀疏性和不规则性,不可能将2D目标检测方法应用于3D点云。因此,需要改变2D目标检测方法,以确保这些方法可以扩展到3D情况。与应用于图像中的目标检测方法类似,这些3D目标检测方法仍然可以分为两种类型:两段式方法和单阶段方法。图2根据深度学习技术对最近主流的3D目标检测方法进行了简单分类。本文的后续第3节将详细介绍这些3D检测方法的更多细节。

图片
图2 基于深度学习的主要3D目标检测方法总结

在本文中,我们主要关注基于点云的3D目标检测的最新方法。本综述的其余部分如下所述。相关背景,包括问题识别、问题描述、主要挑战以及本综述的动机,将在第2部分中说明。在本文的第3部分,我们将详细介绍当前用于3D目标检测的方法,包括它们的优缺点。第4部分总结了点云深度学习方法的最新发展。此外,我们指出了一些仍未解决的困难问题,并提供了一些可能有意义的研究方向。

02  相关背景

为了帮助理解现代深度学习技术如何应用于解决3D目标检测问题,本节将介绍研究对象和数据的一些简单概念。

2.1 问题

3D目标检测问题与2D检测类似,可以如下定义:给定一些点云数据,3D检测器需要确定是否存在预定义类别的实例,如果存在,则需要确定它们的位置。首先需要考虑的是这些预定义的类别,这取决于具体的问题。以自动驾驶为例,研究者门更关注交通参与者(如自行车、汽车和行人)。一般来说,像天空和云这样的非结构化场景通常不是我们的研究对象。

一般情况下,使用3D边界框来表示3D物体的位置。它是一个放置在3D空间中的矩形立方体,通常有三种表示方法,如轴对齐的3D中心偏移法(3D centre offset method)[17]、8个角点法(8-corners method)[18]和4个角点2个高度法(4-corner-2-height method)[19]。一般来说,3D目标检测的最终结果是使用3D边界框来标记3D物体,如图3所示。

图片
图3 边界框

2.2 主要挑战

通用目标检测方法旨在识别和定位感兴趣的物体类别。在大多数计算机视觉问题中,人们主要关注准确性和效率。目标检测也不例外。

从LiDAR、深度相机和双目相机获取的点云数据可以用于三维目标检测。然而,随着物体和摄像机之间距离的增加,点云密度会突然下降,发生巨大变化。此外,由于遮挡的存在,一些物体的部分可能会变得不可见,这导致相同物体的点云分布存在较大滞后。总之,点云的表示方式非常不同,对于目标检测器来说很难进行准确检测。

另一个需要注意的问题是点云的稀疏性和不规则性。同一个物体的点的顺序受不同采集设备和不同坐标系的影响。这些不规则的点云使得端到端模型很难处理。此外,与大规模场景相比,LiDAR采样点的覆盖范围非常稀疏。众所周知,随着人工智能的快速发展,深度神经网络在自动驾驶的大多数任务中被广泛使用,因为它们具有高准确性和强鲁棒性。在二维目标检测领域中使用的深度神经网络[20, 21]的性能要比其他类型的算法好得多。然而,正如我们刚刚提到的点云的特性,导致这些深度学习方法失去了效果。这就是为什么基于深度学习的三维目标检测研究进展缓慢的原因。因此,在数据预处理阶段,如何更好地表示稀疏点云数据值得深入研究。

尽管点云具有深度和空间信息等有用信息,但有时候同时利用图像数据会表现得更好。因此,许多将LiDAR点云和图像结合的方法得到了很好的发展。在这篇论文中,我们主要讨论点云的深度学习方法。为了使论文更完整,还将包括一些同时使用2D图像的融合方法。

2.3 本文动机

这篇论文根据算法的执行过程,将相关方法进行了组织。换句话说,我们主要关注的是一个检测器是否首先生成提议。本文旨在调查关于点云三维目标检测的最新研究,并对这些方法进行分类,提供了基于深度学习技术在点云领域的最新进展的全面总结。它还涵盖了不同方法的比较优势和劣势,并观察到一些尚未解决的问题,以激发更多未来可能的研究方向。

03  方法

3.1 两段式方法

两段式检测器首先检测出一些可能包含物体的区域,也称为提议(Proposals),然后对提取的特征进行预测。根据文献[22]的介绍,我们进一步将这些两段式方法分为三种:i)基于多视图的方法;ii)基于分割的方法;iii)基于截锥体的方法。

多视图方法。需要意识到,对于类别判别来说,纹理信息是很重要的,但在点云中并不包含这些信息。相反,单目图像不能为我们提供准确的三维定位和尺寸估计的深度信息。因此,多视图方法尝试使用不同的模态来提高性能。深度融合结合了来自多视图(例如鸟瞰图(BEV)、激光雷达正视图(FV)和图像)的区域特征,并得到定向的三维包围盒,如图4a所示。

Chen等人[18]的一个显著贡献是他们的多视图三维目标检测网络(MV3D)。针对现有基于激光雷达的三维方法的计算代价较高、当前基于图像的方法的缺点以及现有多模态融合方法的局限性,该研究试图提出一种方法来克服这些缺点,促进三维目标检测的发展。MV3D由两个子网络组成:一个是3D提议网络用于生成三维提议,另一个是深度融合网络,其主要功能是尝试融合多视图的特征提议。他们使用3D提议并将其投影到三个视图上。从理论上讲,将3D提议投影到3D空间中的任何视图都是非常有用的。在他们的实验证明中,基于激光雷达的方法在KITTI验证集上的IOU(Intersection-over-Union)为0.5时,平均精度达到了87.65%,比VeloFCN[23]高30%。此外,作者阐述了BEV的构建过程并说明了BEV的三个优点,为他们寻找鸟瞰图提供了启示,并对未来的研究具有一定的参考价值。然而,这个模型并不完美,因为检测的整个过程太慢,无法应用于实际场景。此外,这个区域提议网络(RPN)不适用于BEV中的小物体实例。小物体在特征图中只占据了一小部分像素,导致提取特征的数据不足。因此,已经做出了许多努力来改进MV3D模型。

图片
图4 典型的三维目标检测方法网络

有关信息融合效率的几种尝试是通过应用不同的模态来实现的。Ku等人[19]提出了一种综合视图目标检测网络(AVOD),该网络同时使用了激光雷达点云和RGB图像。与MV3D不同的是,它将ROI特征融合扩展到了提议生成阶段。他们的RPN具有一种新颖的架构,能够在高分辨率特征图上完成多模态特征融合,从而方便为场景中的小物体生成准确的区域提议。此外,他们在KITTI目标检测基准[24]上测试了AVOD的性能,结果显示AVOD能够实时运行且内存消耗低。然而,ROI特征融合局限于高级特征图。此外,只有从选定的目标区域提取的特征才会被融合。ContFuse[25]是为了克服这些缺点而开发的。他们通过连续卷积来融合不同分辨率的特征图。通过将激光雷达点云图像投影和BEV空间相对应,也就是说,BEV空间中每个点都可以提取相应的图像特征,并且将图像特征投影到BEV平面可以获得密集的BEV特征图。然而,极其稀疏的点云限制了这种融合的效果。Liang等人[26]提出了一种多任务目标检测网络(例如3D目标检测、地面估计和深度补全)的多传感器方法。这篇论文利用了点对点和ROI特征融合的优点。具体而言,多任务的实现有助于整个网络学习更好的表示。因此,使用了KITTI和TOR4D数据集对该方法进行了验证,证明在检测问题上取得了显著的改进,并且在之前的最新方法中表现优异。

另一个改进方向是探索如何提取鲁棒的输入表示。提出了一种新颖的空间通道注意力网络(SCANet)[27],旨在实现高精度的三维目标检测。在这篇论文中,他们提出了一个全新的空间通道注意力(SCA)模块和一个扩展空间上采样(ESU)模块,用于3D区域提议。前者可以聚焦于场景中的全局和多尺度上下文,并捕捉那些有区别性的特征。后者结合了不同尺度的低层次特征,并产生可靠的3D区域提议。此外,一种更好地融合这些特征的方法是应用一种新的多级融合方案,允许它们之间进行更多的交互。最后,实验结果表明,他们的方法在11.1 FPS的速度下比MV3D快5倍。

基于分割的方法。这种方法通常对语义分割进行初步处理[28],也就是说利用语义分割技术将背景点剔除,可以帮助从前景点生成高质量的提议。图4b展示了一个典型的基于分割的网络。此外,与上述多视角方法相比,基于分割的方法在召回率方面得分更高,并且适用于具有大量遮挡和拥挤对象的复杂场景。

首先介绍的方法是在文献[29]中提出的。这种名为IPOD的方法首先对图像进行语义分割,然后生成基于点的提议。在这些正样本点上生成的提议仍然具有高保真度。此外,该论文还考虑了一些可能的问题,如提议的冗余性和歧义性。为了解决这些问题,该论文提出了一种名为PointsIoU的新标准。实验结果明确表明,该模型比许多三维检测方法更好,特别是对于那些具有高度遮挡的场景。

我们回顾的另一种经典的基于分割的网络是由Shi等人在文献[30]中提出的PointRCNN。该网络通过分割技术在第一阶段生成3D提议,并在第二阶段对这些提议进行细化以获得最终的检测结果。与IPOD不同,PointRCNN直接对点云进行分割以生成高质量的提议,而不是应用2D目标分割。该网络的一个重要模块是基于bin的3D边界框生成,这些边界框是从前景点进行回归得到的。该模块不使用L1或L2损失进行回归,而是采用基于bin的方法。也就是说,他们首先将每个前景点分割成不同的bins,然后在每个bin中进行边界框回归。这项工作在3D空间中实现了一个RPN。根据PointRCNN的RPN阶段的经验,Jesus等人提出了一种基于图的3D检测Pipeline,名为PointRGCN [31],它利用了GCN的进展,包括两个子网络R-GCN和C-GCN。R-GCN是一个残差GCN,通过使用提议中的所有点实现了预提议特征聚合。C-GCN是一个上下文GCN,其主要功能是通过不同提议之间的共享上下文信息来细化提议。Sourabh等人提出了PointPainting [32],其通过将激光雷达点投影到基于图像的语义分割网络的输出上,并将类别分数附加到每个点上来工作。这些附加点可以输入到任何现有的仅使用激光雷达的检测器,例如前面提到的PointRCNN。他们的工作可以填补综合信息对于基于融合的方法是有利的这一空白,但是主要基准数据集上的实验结果表明,在大多数情况下,仅使用激光雷达的方法优于基于融合的方法。

基于视锥体(Frustum)的方法。这些方法利用成熟的2D目标检测器和先进的3D深度学习技术进行物体定位。它们首先生成2D物体区域提议,然后通过将2D边界框提升到一个视锥体来生成3D视锥体提议,该视锥体包含了物体的3D搜索空间。视锥体方法的一个具体流程可以在图4c中看到。当然,值得注意的是,虽然这些方法在提出可能的3D物体区域方面效率很高,但是这种逐步的Pipeline过程极大地依赖于2D图像检测器。

Qi等人在这个方向上做出了开创性的工作。他们提出了一种基于RGB-D数据的新颖框架,称为Frustum PointNets [33],用于3D目标检测。在他们的工作中,模型首先将RGB图像输入到卷积神经网络中以获得2D提议,然后结合深度信息将区域投影到视锥体中。这是获取视锥体提议的过程。对于视锥体中包含的点,将执行3D实例分割。基于分割的结果,一个轻量级的回归PointNet尝试通过平移调整这些点,使其质心接近非模态框的中心。最后,一个3D框估计网络估计那些3D非模态边界框。令人惊讶的是,F-PointNets能够只使用少量点预测出正确的非模态3D框。然而,它仍然存在一些问题,比如在同一类别的多个实例情况下无法正确工作。在F-PointNets的工作之后,Zhao等人提出了一种名为SIFRNet [34]的新网络架构,该架构依赖于前视图图像和视锥体点云来预测3D检测结果。整个网络主要由三个部分组成:i) 3D实例分割网络(Point-UNet);ii) T-Net;iii) 3D框估计网络(Point-SENet)。它们有助于改善3D分割的性能和3D边界框预测的效率。PointSIFT [35]模块被集成到他们的网络中,捕捉点云的方向信息,并对形状缩放具有很强的鲁棒性。一系列实验证明,与F-PointNets相比,这种方法在KITTI数据集和SUN-RGBD数据集 [36]上取得了更好的性能。

Xu等人提出了一种名为PointFusion [37]的通用3D目标检测方法。为了处理各种RGB图像和点云数据的组合挑战,先前的方法通常将点云数据的形式进行转换,例如通过2D图像或体素来表示点云数据。这种方法很方便,但会导致丢失点云中包含的一些信息。相反,这种方法直接利用ResNet [38]和PointNet [39]处理图像和3D点云。所获得的2D图像区域及其相关的视锥点被用于精确回归3D框。他们提出了一个全局融合网络,直接获得3D框的角点位置。同时,还提出了一种新的密集融合网络,用于预测空间偏移并选择具有最高分数的最终预测结果。

值得注意的是,Wang等人提出了一种新颖的方法,名为Frustum ConvNet [40],它首先为每个提议生成一系列的视锥,并利用所获得的视锥来对这些点进行分组。我们上面提到的F-PointNet也直接在原始点云上进行操作,但由于其T-Net对齐的限制,它并没有被设计成一个端到端的Pipeline。这个方法考虑了这一因素,并设计了将前述方法的一些优点结合起来的方式。已经证明,这种全新的端到端式的F-ConvNet方法在KITTI数据集上实现了2D检测器中最先进的性能,并且对于自动驾驶等大量应用具有帮助。

两段式方法在目标检测方面具有高精度等优势。然而,由于包含预定义目标的区域生成的过程,这种目标检测过程的速度会降低。

3.2 单阶段方法

在我们的讨论中,单阶段等同于直接预测类别概率和回归边界框的意思。这些方法不需要区域建议网络(RPN)和后处理。因此,它们的速度比两段式方法更快,主要应用于实时系统。我们将单阶段方法按照输入数据的形式进行分类,包括基于BEV的方法、基于离散化的方法和基于点云的方法。

基于BEV的方法。从这种方法的名称中可以明显看出,基于BEV的方法使用BEV表示作为输入。如文献[18]中所提到的,与前视或图像平面相比,在3D目标检测中,BEV地图具有几个显著优点。首先,在BEV地图中,物体的物理尺寸与原始尺寸相同,从而减小了前视/图像平面的尺寸误差。其次,由于BEV中的物体位于不同的位置,几乎不可能遇到遮挡问题。最后,对于自动驾驶应用来说,这些交通参与者通常位于地面平面上,并且在垂直方向上存在小的方差。因此,当获取3D边界框时,BEV位置非常重要。

Yang等人提出了一种名为PIXOR [41]的无需候选框的单阶段方法,它使用了Bird's Eye View(BEV)的原始3D数据表示。我们可以从图5中看到PIXOR的网络架构。这里选择BEV表示是因为它的计算效率较高。在细化输入表示的阶段,他们首先对感兴趣场景中的3D点进行分辨,每个单元的分辨率为d_L\times d_W \times d_H,然后对每个单元的值进行编码,以得到占用张量。最后,他们将2D反射图像和3D占用张量进行组合。在设计网络架构时,采用了全卷积网络进行稠密的3D目标检测。PIXOR由骨干网络和头网络组成。前者提取输入的普通表示,后者用于进行特定任务的预测。根据实验结果,得出了这样的结论:在以10FPS运行时,PIXOR在平均精度(AP)方面超过了大多数单阶段方法。

图片
图5 基于点云的鸟瞰图(BEV)的提议的3D目标检测器的综合视图

随后,Yang等人[42]展示了高清地图(HD)具有强大的先验知识,有助于改善3D目标检测的性能和鲁棒性。为了实现这一目标,他们开发了一种在Bird's Eye View(BEV)中工作并融合LiDAR信息的单阶段检测器。具体而言,他们从高清地图中获取地面点的坐标,然后将BEV表示中的绝对距离替换为相对于地面的距离,以修复平移方差。考虑到高清地图并非随处可得,他们提出了一种实用的解决方案,即利用在线地图预测模块,根据LiDAR点云数据估计地图先验。在他们的实验中,基准是一个没有地图的PIXOR++检测器。结果表明,这个具备HD地图感知的模型在TOR4D和KITTI上明显优于基准模型。然而,仍然存在一个问题,即对具有不同密度的点云数据的泛化性能较差。为了解决这个问题,Beltran等人提出了一种名为BirdNet的新的网络架构[43]。他们为BEV开发了一种新的编码方法,该方法对于距离和LiDAR设备上的差异具有不变性。提出的密度归一化方法使得可以在那些流行的高分辨率激光数据集上训练模型。

基于离散化的方法。通过其名称,很容易理解这种方法。这些方法通常将原始点云数据转换为规则的离散格式(例如,2D地图),然后使用深度神经网络预测物体的类别概率和3D边界框。

第一种使用FCN进行3D目标检测的方法是由Li等人提出的。由于卷积网络技术的快速发展,他们提出了一种将FCN技术移植到3D数据目标检测中的新想法[23]。在这种方法中,点云数据被转换成2D点图,并且使用FCN同时预测这些目标的置信度和边界框。这是首次尝试将FCN技术引入到基于范围扫描数据的目标检测中,生成了一种有序和端到端的框架进行检测。然而,该论文只分析了来自Velogyne 64E的3D范围扫描方法。因此,在他们的后续工作中,他们将点云离散化为一个具有长度、宽度、高度和通道维度的4D张量[44]。在这项工作中,他们还将基于FCN的前者2D检测方法扩展到3D领域的3D目标检测。我们可以在图6中观察到检测结果。根据他们的实验结果,他们与2D检测工作中的FCN进行了比较,发现准确度提高了20%以上。

图片
图6 3D FCN检测过程的直接结果显示。(a) 高目标可信度的边界框聚合,并将其绘制为绿色边界框。将预测的边界框显示为绿色边界框。(b) 将这些边界框与经过聚类的蓝色原始点云进行绘制。(c) 在鸟瞰图中可视化(a)和(b)的检测结果。

尽管基于3D FCN的方法相对于之前的工作取得了一些进展,但仍然存在一些可能的问题。回顾这个过程,很容易发现由于3D卷积和数据的稀疏性,这种方法具有巨大的计算开销。Engelcke等人提出了一个计算效率高的方法,名为Vote3Deep,用于对3D点云进行目标检测[45]。Vote3Deep是一个以特征为中心的投票框架,旨在提高计算效率。一方面,通过利用投票框架来构建一个高效的卷积层非常有用。另一方面,为了利用整个CNN堆叠的稀疏卷积层,他们利用了修改的线性单元和稀疏惩罚项。Li等人提出了一个从原始数据中学习3D特征的3D骨干网络[46]。该网络旨在解决缺乏强大的3D特征提取方法的问题。因此,这种方法获得了丰富的3D特征,并不会带来巨大的计算负担。

图片
图7 VoxelNet直接在原始点云上进行处理,无需进行特征工程,并使用单个可端到端训练的网络来预测3D检测结果。

Zhou等人提出了一种名为VoxelNet的端到端网络用于3D目标检测[47]。图7展示了VoxelNet的工作原理。他们将点云投影到等距离的体素中,并通过新提出的体素特征编码(VFE)层将每个体素中的一些点转换为集中的特征表示。使用体素来表示点云的方法具有很高的性能。基于体素的方法有时旨在增强在处理点云数据时信息的保留。然而,由于体素的稀疏性和3D卷积计算,模型处理速度仍然非常缓慢。在Zhou的工作之后,Yan等人研究了如何增加训练和预测的速度,并提出了一种改进的稀疏卷积方法[48]。此外,为了解决在0到π之间求解正弦函数时的模糊问题,他们提出了一个正弦误差角度损失。Sindagi等人也尝试对VoxelNet进行了一点改进,即在不同阶段融合图像和点云特征[49]。具体而言,PointFusion和VoxelFusion是[49]中提到的两种独特技术。前者在点云数据可以投影到图像平面的早期阶段起作用。后者用于将这些3D体素投影到图像中。与VoxelNet相比,这个具有新技术的网络具有利用多模态信息的能力,并且可以减少误判和漏检。

考虑到现有的单阶段方法在降采样特征图的过程中不可避免地丢失了一些点云的空间信息,He等人提出了一种SA-SSD网络,利用细粒度的结构信息来提高定位精度[50]。它的特殊之处在于,他们首先将点云数据转换为张量,并将其放入主干模型中提取多个阶段的特征。此外,他们设计了一个具有点级监督的附加网络,可以指导这些特征学习点云的结构。令人惊讶的是,他们的实验结果表明,SA-SSD在KITTI BEV检测基准的Car类别上排名第一。

基于点的方法。这些方法不会转换原始输入的格式,会直接将点云输入到网络中。Yang等人做了一项开创性的工作,提出了一个名为3DSSD的网络[51]。这是第一个轻量级高效的基于点云的3D单阶段目标检测器。在这个新模型中,他们提出了距离最远优先采样(D-FPS)和特征最远优先采样(F-FPS)相结合的采样策略。此外,他们生成了一个详细的边界框预测网络,以最佳方式利用代表点,利用候选生成层(CG),无锚回归头和3D中心分配策略。最后,实验结果表明,3DSSD在25 fps的速度下超过了基于点的方法PointRCNN。

其他方法。还有一些其他的单阶段目标检测方法在本文中没有被归类为任何类型的方法。Meyer等人提出了LaserNet,这是一个高效的概率化3D目标检测模型[52]。值得一提的是,他们使用了一个小而密集的距离视图数据作为输入,而不是鸟瞰图数据。因此,他们的模型更加高效。此外,据我们所知,这是第一种以建模边界框角点分布的方式获得检测不确定性的方法。

与两段式方法相比,单阶段方法可能无法达到如此高的检测精度。但是单阶段方法具有更快速检测目标的能力,适用于实时检测。

04  总结

3D目标检测对于计算机理解场景是一个巨大的助力,是许多实际应用(如自动驾驶)的关键技术。在本综述中,我们列举了一些典型的最新的3D目标检测方法,并将它们分为两段式方法和单阶段方法。

前者首先需要生成一系列的候选框,然后预测或回归提取的特征。单阶段方法跳过了候选框生成的过程,直接预测类别概率和回归边界框。为了直观地理解这两种类型的方法是如何实现目标检测的,图8给出了一个简单的描述。

图片
图8 两段式和单阶段方法的不同目标检测过程

我们还说明了点云数据在目标检测中的优势,并列举了点云的一些公认的缺点。目前,当前流行的方法尝试引入不同类型的输入数据,如激光雷达点云和相机数据。图像提供了更密集的信息,但会丢失3D空间信息。激光雷达点云由于具有几何位置信息和深度信息,适用于3D目标检测。点云的稀疏性和不规则性促使人们研究以利用图像和激光雷达数据的优势的新方法。

根据对各种现有方法的分析,以下问题需要进一步研究:

· 首先,由于数据的规则表示,那些成熟的2D图像处理网络可以广泛应用于基于投影和离散化的技术。然而,在将3D数据投影到2D格式的过程中,不可避免地会丢失一些有用的信息,这对基于投影的方法来说是一个很大的限制。对于基于离散化的方法,分辨率增加引起的计算量指数级增长和巨大的内存开销仍然是一个主要的瓶颈。鉴于上述问题,基于索引架构构建稀疏卷积层可能是这些问题的可行解决方案,值得进一步研究。

· 目前,基于点云的模型是人们关注最多的流行方法。然而,由于点云的稀疏性和不规则性,点表示通常缺乏明确的邻域信息。许多现有的基于点云的方法使用成本很高的最近邻搜索技术,例如在[53]中使用的KNN。这些方法的效率较低,需要更高效的方法。最近的一种点-体素组合表示方法[54]可能是进一步研究的一个方向。

· 大多数现有的3D点云目标检测方法都适用于小规模的点云数据。然而,由于数据采集过程连续,通过激光雷达获取的点云数据异常庞大和大规模。因此,亟需进一步研究解决处理大规模点云数据的问题。

· 大量的研究人员[55, 56]已经开始从动态点云中学习时空信息。期望这种时空信息能够帮助提高许多后续任务的性能,如3D目标分割、目标识别和补全。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1635270.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL数据库——事务操作-begin-commit-rollback

schooldb库——utf8字符集——utf8_general_ci排序规则 先创建库,再去使用下列的DDL语句。 DDL CREATE TABLE student (id int(11) NOT NULL AUTO_INCREMENT COMMENT 学号,createDate datetime DEFAULT NULL COMMENT 创建时间,modifyDate datetime DEFAULT NULL …

stm32单片机开发一、中断之外部中断实验

stm32单片机的外部中断和定时器中断、ADC中断等都由stm32的内核中的NVIC模块控制,stm32的中断有很多中,比如供电不足中断,当供电不足时,会产生的一种中断,这么多中断如果都接在CPU上,或者说CPU去处理&#…

【LAMMPS学习】八、基础知识(5.2)粒度模型

8. 基础知识 此部分描述了如何使用 LAMMPS 为用户和开发人员执行各种任务。术语表页面还列出了 MD 术语,以及相应 LAMMPS 手册页的链接。 LAMMPS 源代码分发的 examples 目录中包含的示例输入脚本以及示例脚本页面上突出显示的示例输入脚本还展示了如何设置和运行各…

蓝网科技临床浏览系统 deleteStudy SQL注入漏洞复现(CVE-2024-4257)

0x01 产品简介 蓝网科技临床浏览系统是一个专门用于医疗行业的软件系统,主要用于医生、护士和其他医疗专业人员在临床工作中进行信息浏览、查询和管理。 0x02 漏洞概述 蓝网科技临床浏览系统 deleteStudy接口处SQL注入漏洞,未经身份验证的恶意攻击者利用 SQL 注入漏洞获取…

AI大模型探索之路-训练篇8:大语言模型Transformer库-预训练流程编码体验

系列篇章💥 AI大模型探索之路-训练篇1:大语言模型微调基础认知 AI大模型探索之路-训练篇2:大语言模型预训练基础认知 AI大模型探索之路-训练篇3:大语言模型全景解读 AI大模型探索之路-训练篇4:大语言模型训练数据集概…

Codigger数据篇(下):数据安全的全方位保障

在数字化浪潮中,数据已成为现代企业的核心财富。Codigger作为领先的数据服务平台,深知数据安全对于用户的重要性,因此在深挖数据价值的同时,我们始终坚守数据安全防线。 一、双重加密技术保障 Codigger平台运用先进的加密通信和…

【C/C++】动态内存管理(C:malloc,realloc,calloc,free || C++:new,delete)

🔥个人主页: Forcible Bug Maker 🔥专栏: C | | C语言 目录 前言C/C内存分布C语言中的动态内存管理:malloc/realloc/realloc/freemallocrealloccallocfree C中的动态内存管理:new/deletenew和delete操作内…

android studio 编译一直显示Download maven-metadata.xml

今天打开之前的项目的时候遇到这个问题:android studio 编译一直显示Download maven-metadata.xml, AI 查询 报错问题:"android studio 编译一直显示Download maven-metadata.xml" 解释: 这个错误通常表示Android Studio在尝试从Maven仓库…

用Python Turtle画一个中国结

中国结,作为中华民族传统文化的象征之一,以其独特的编织技艺和深厚的文化内涵,深受人们喜爱。今天,我们就来用Python的turtle模块,尝试绘制一个充满韵味的中国结。 我们先来看看整个中国结生成的过程: 中国…

机器学习 | 准确率、召回率、精准率、特异度傻傻分不清?ROC曲线怎么看?一篇文章帮你搞定

一、真正类、假负类、假正类与真负类 二、准确率、召回率、精准率、特异度与假正率 1. 准确率 (Accuracy) 准确率表明成功预测(预测为负或为正)的结果占总样本的百分比。 准确率 , 2. 召回率/查全率/灵敏度/真正率(Recall&a…

C语言进阶|双链表

✈链表的分类 链表的结构非常多样,以下情况组合起来就有8种(2x22)链表结构: 虽然有这么多的链表的结构,但是我们实际中最常用还是两种结构:单链表和双向带头循环链表 1.无头单向非循环链表:结构简单&…

springboot基于SpringBoot的网上订餐系统开题报告+1w字文档+ppt

项目演示视频: 【源码免费送】基于SpringBoot的网上订餐系统录像 摘 要 随着我国经济的飞速发展,人们的生活速度明显加快,在餐厅吃饭排队的情况到处可见,近年来由于新兴IT行业的空前发展,它与传统餐饮行业也进行了新旧的结合&…

实验八智能手机互联网程序设计(微信程序方向)实验报告

请在上一次实验的基础之上完成“手机快速注册”页面、“企业用户注册”页面,并实现点击手机快速注册和企业用户注册后转跳至该页面在“手机快速注册”页面,输入框内输入内容并失去焦点后,下方的按钮会变化 在企业用户注册页面,用户…

Anomalib:用于异常检测的深度学习库!

大家好,今天给大家介绍了一个用于无监督异常检测和定位的新型库:anomalib,Github链接:https://github.com/openvinotoolkit/anomalib 简介 考虑到可重复性和模块化,这个开源库提供了文献中的算法和一组工具,以通过即插即用的方法设计自定义异常检测算法。 Anomalib 包…

# 从浅入深 学习 SpringCloud 微服务架构(七)Hystrix(1)

从浅入深 学习 SpringCloud 微服务架构(七)Hystrix(1) 一、Hystrix:基于 RestTemplate 的熔断配置 1、Hystrix 介绍: 1)Hystrix 是由 Netflix 开源的一个延迟和容错库, 用于隔离访…

Web3的可持续性:构建环境友好的去中心化系统

引言 随着全球对可持续发展和环境问题的日益关注,Web3技术作为一种新型的互联网模式,也开始受到社区和开发者的关注。但很少有人关注到Web3对环境可持续性的潜在影响。本文将探讨Web3如何构建一个环境友好的去中心化系统,以及这如何促进一个…

Shopee怎么选品成功率高达80%?请学

电商圈内流传着一句话:三分靠运营,七分靠选品。 选品在电商项目中至关重要,也是一个非常考验技巧和经验的环节。选品选择得好,后续的每一步都会变得相对轻松。 那么要怎么在众多商品中脱颖而出,提高在Shopee平台上选…

第三节课,功能2:开发后端用户的管理接口5min(用户的查询/状态更改)【4】【9开始--本人】

一、代码任务 【录个屏】 二、写代码 2.1 代码文件位置 2.2 代码如下: 2.3 官方文档: 网址: 逻辑删除 | MyBatis-Plus (baomidou.com) 三、代码有bug,没有鉴权,表里添加一个字段。role 管理员 3.1 判断操作的人&am…

了解 Postman:这个 API 工具的功能和用途是什么?

在软件开发中,经常听到 Postman 这个软件名。但其实很多新手开发者只知道这是软件开发常用的软件,并不知道实际是一个什么样工具,不知道具体的作用是什么。那今天就跟大家好好唠唠 Postman 这个软件。想要学习更多关于 Postman 的知识&#x…

call、apply、bind能用来干点啥(接上文)

上文我们了解了call、apply、bind的使用规则,学以致用,我们要在平时的搬砖中怎么使用呢? 其实好些人平时也用不到这三货,但是在框架底层,这三货可是经常被用到的啊,现在我们来了解了解吧 1、处理伪数组 假使,在html页面中有多个名为“c-container”的容器,现在我们来获取他…