VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

news2025/1/11 1:21:23

VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

Abstract

摘要部分,作者首先指出了3D点云中目标检测的重要性,在自动驾驶导航、家政机器人以及增强现实和虚拟现实等多个领域有重要的作用。然后,提到了现有方法的局限性,这些方法大多依赖于手工设计的特征表示,例如通过鸟瞰图投影高度稀疏的LiDAR点云与区域提议网络(RPN)进行接口。

为了克服这些限制,提出了VoxelNet,是一个无需手动特征工程的通用3D检测网络。VoxelNet将特征提取边界框预测集成到一个单一的、端到端可训练的深度学习网络中。通过将点云分割成等间距的3D体素,并在每个体素内通过新引入的体素特征编码(VFE)层将一组点转换为统一的特征表示,从而将点云编码为描述性的体积表示。

接下来,提到了VoxelNet与RPN的连接,用于生成检测结果。作者展示了在KITTI汽车检测基准测试中,VoxelNet在性能上大幅度超越了现有的基于LiDAR的3D检测方法。此外,VoxelNet在3D检测行人和骑行者的检测中也取得了较好的结果。

Introduction

作者首先阐述了3D目标检测在自动驾驶导航、家政机器人以及增强现实和虚拟现实等众多应用中的核心作用。特别指出,与传统的基于图像的检测方法相比,LiDAR技术能够提供更为可靠的深度信息。然而,LiDAR点云数据的稀疏性和点密度的不均匀性,包括3D空间的非均匀采样、传感器的有效范围、遮挡以及相对姿态等,为3D目标检测带来了挑战。

现有的方法尝试通过手工设计的特征表示来优化点云数据的处理,例如通过透视图投影或将点云映射到3D体素网格中,并为每个体素编码手工设计的特征。这些方法在在适应更复杂的形状和场景、从数据中学习所需的不变性方面存在局限性。

然后,作者进一步讨论了图像在提供详细纹理信息方面的优势,并指出许多算法尝试从2D图像中推断3D边界框。然而,基于图像的3D检测方法的准确性受到深度估计准确性的限制。此外,一些基于LiDAR的3D目标检测技术使用体素网格表示,并采用不同的统计量来编码每个非空体素。还有研究将点云投影到透视图上,然后使用基于图像的特征编码方案。此外,还有一些多模态融合方法,通过结合图像和LiDAR数据来提高检测精度,尤其是在检测行人、骑自行车者等小目标或远距离目标时。本文的工作仅使用关于LiDAR的检测方法。

Related Work

作者详细介绍了与VoxelNet相关的研究工作,这些工作主要集中在3D点云中的目标检测和定位。首先回顾了一些早期的方法,这些方法使用手工设计的特征表示。早期方法在3D形状信息丰富且详细的情况下能够取得令人满意的结果,但它们不能很好地适应更复杂的形状和场景,并且难以从数据中学习所需的不变性。

随后,作者提到了一些利用图像提供详细纹理信息的算法,这些算法从2D图像中推断出3D边界框。然而,基于图像的3D检测方法的准确性受到深度估计准确性的限制。此外,还有几项基于LiDAR的3D目标检测技术使用体素网格表示,并采用不同的统计量来编码每个非空体素,这些方法将每个非空体素与6个统计量一起编码,这些统计量是从体素内包含的所有点中派生出来的。

作者还提到了一些将点云投影到透视图上,然后使用基于图像的特征编码方案的方法。此外,还有几项研究采用了多模态融合方法,通过结合图像和LiDAR数据来提高检测精度。在这项工作中,作者专注于仅使用LiDAR的检测方法,并提出了VoxelNet,用于基于点云的3D检测,直接在稀疏的3D点上操作,避免手动特征工程引入的信息瓶颈。

Contributions

提出了一种新的基于点云的3D检测的端到端可训练深度架构,VoxelNet,直接操作在稀疏的3D点上,避免了人工特征工程带来的信息瓶颈。

提出了一种有效的实现VoxelNet的方法,该方法既受益于稀疏的点结构,又受益于对体素网格的高效并行处理。

在KITTI基准上进行了实验,并表明VoxelNet在基于lidar的汽车、行人和骑行者检测基准中产生了最先进的结果。

VoxelNet

VoxelNet Architecture

这一部分详细介绍了VoxelNet的架构,包括其三个主要功能模块:特征学习网络、卷积中间层和区域提议网络(RPN)。

VoxelNet的架构

特征学习网络是VoxelNet架构的第一部分,负责将输入的点云分割成等间距的3D体素,并在每个体素内通过体素特征编码(VFE)层将点转换为特征表示。这个过程包括体素划分、点的分组、随机采样和堆叠的VFE层。VFE层通过结合点特征和局部聚合特征来实现体素内点的交互,从而编码出能够描述局部3D形状信息的特征。

VFE层

卷积中间层:在特征学习网络之后,卷积中间层使用3D卷积、批量归一化(BN)和ReLU激活函数来处理由VFE层输出的稀疏4D张量。这些层逐步扩展感受野,将局部体素特征聚合成更广泛的空间上下文,从而为形状描述添加更多信息。

RPN网络

区域提议网络(RPN):最后,卷积中间层的输出被送入RPN,该网络负责生成3D检测结果。RPN利用修改后的架构,包括全卷积层、上采样和特征映射的连接,最终输出概率得分图和回归图。

Loss Function

作者介绍了VoxelNet的损失函数以及如何通过这个损失函数来训练网络。

作者定义了一个损失函数,由分类损失和回归损失组成。分类损失用于区分正负锚点,而回归损失则用于精细调整预测的边界框。

损失函数L由几项组成,包括正锚点的分类损失、负锚点的分类损失和所有正锚点的回归损失。分类损失使用二元交叉熵损失函数,而回归损失则使用Smooth L1函数。

作者引入了平衡常数α和β来调整分类损失和回归损失在总损失中的相对重要性。

通过这个损失函数,VoxelNet能够在训练过程中同时学习到如何正确分类目标和如何精确地预测目标的3D边界框。

Efficient Implementation

作者阐述了VoxelNet的高效实现方法,主要解决GPU对密集张量结构优化而点云数据本身稀疏的矛盾。作者提出了一种策略,将稀疏的点云数据转换成可以高效处理的密集张量结构。

首先,介绍了使用稀疏4D张量来表示非空体素的特征。然后,描述了一种预处理步骤,通过初始化一个多维张量结构来存储点云中每个体素的特征,并通过哈希表快速检查和插入点,确保处理过程的时间效率。

还采用了随机化和采样技术,对点云中的点进行随机化处理,并在点多的体素中进行固定数量的随机采样,以减少计算负担并避免因点数不平衡带来的偏差。

接下来,解释了如何通过堆叠的VFE层进行点级别和体素级别的密集操作,这些操作可以在GPU上并行执行,从而加快处理速度。在计算完体素特征后,提出了一种方法来重新组织这些稀疏特征,将其映射回密集的体素网格中,使得后续的卷积操作和RPN能够在GPU上高效执行。

最后,作者提供了实验设置的详细信息,包括网络的具体配置和用于不同检测任务(如汽车、行人和自行车检测)的参数选择。通过这些方法,VoxelNet能够在保持高精度的同时,有效地处理大规模的3D点云数据。

Training Details

这一部分主要就是讲一下训练的细节

Network Details

作者详细说明了VoxelNet的网络细节和训练过程。

首先,基于KITTI数据集的LiDAR规格,设定了汽车检测任务的点云处理范围,并移除了超出图像边界的点。接着,选择了体素的大小,并设定了每个非空体素中随机采样的最大点数。使用两层VFE层,第一层将输入特征从7维转换到32维,第二层进一步将特征从32维转换到128维。最终,通过一个全连接网络层将VFE层的输出映射到128维的特征空间,生成了一个形状为128×10×400×352的稀疏张量。

为了聚合体素级别的特征,作者采用了三个卷积中间层,这些层通过3D卷积、批量归一化和ReLU激活函数逐步扩展感受野,增强了形状描述的上下文信息。输入到RPN的是一个经过重塑的特征图,其尺寸为128×400×352,对应于通道、高度和宽度。

作者还提到了在RPN中使用的锚点尺寸和旋转角度,以及锚点匹配的标准。使用了一种特定的标准来确定锚点是正样本、负样本还是不关心的样本,并为损失函数中的分类损失和回归损失设置了平衡系数。

在行人和自行车检测任务中,作者使用了与汽车检测相同的体素大小和网络配置,调整了输入范围和采样的最大点数,以更好地捕获这些小目标的形状信息。对于RPN,对第一个块中的步长进行了修改,以实现更细粒度的锚点匹配。

在训练过程中,使用了随机梯度下降(SGD)优化器,并在前150个周期使用0.01的学习率,在最后的10个周期将学习率降低到0.001。每批训练使用了16个点云。

最后,作者提到了在训练中使用的损失函数,它结合了分类损失和回归损失,使用了Smooth L1函数来优化3D边界框的预测。

Data Augmentation

这一部分作者介绍了对VoxelNet进行数据增强的方法。

由于KITTI数据集中训练点云的数量不到4000个,从头开始训练网络可能会遇到严重的过拟合问题。作者采用了三种不同的数据增强技术。

第一种数据增强是对每个真实边界框及其内的点云进行独立扰动。具体来说,围绕Z轴对边界框以及其中的点云进行随机旋转,旋转角度是从-π/10到+π/10的均匀分布随机变量。然后,对边界框的XYZ分量以及框内每个点的XYZ坐标添加高斯分布的随机平移,其中均值为0,标准差为1.0。为了确保物理上的合理性,作者在扰动后进行了碰撞检测,如果检测到碰撞,则恢复到原始状态。

第二种数据增强是全局尺度缩放。作者将所有真实边界框的XYZ坐标和尺寸以及整个点云的XYZ坐标乘以一个从0.95到1.05的均匀分布随机变量,从而增强了网络对不同大小和距离物体的检测鲁棒性。

第三种数据增强是全局旋转。作者对所有真实边界框和整个点云应用沿Z轴的全局旋转,旋转角度是从-π/4到+π/4的均匀分布随机变量。这种旋转模拟了车辆转弯的情况。

通过这三种数据增强方法,VoxelNet能够学习到更多的变化,从而提高了模型在看不见的数据上的泛化能力,并减少了过拟合的风险。

Experiments

详细描述了对VoxelNet进行的实验评估过程。

作者首先介绍了实验的评估标准和所用数据集。使用了KITTI 3D对象检测基准测试,该测试包含7481个训练图像/点云和7518个测试图像/点云,涵盖了汽车、行人和骑自行车者三个类别。每个类别的检测结果根据对象大小、遮挡状态和截断水平分为简单、中等和困难三个难度级别。

为了全面评估VoxelNet,作者遵循了之前描述的协议,并将训练数据细分为训练集和验证集,以避免同一序列的样本同时出现在训练集和验证集中。训练集包含3712个样本,验证集包含3769个样本。作者没有访问测试集的真实数据,因此使用KITTI服务器的协议进行了评估。

接下来,作者比较了VoxelNet与其他几种顶尖算法的性能,包括基于单目图像的方法(Mono3D  和 3DOP )、基于LiDAR的方法(VeloFCN  和 3D-FCN )以及多模态方法(MV )。尽管其他一些领先的方法在KITTI基准测试中使用了RGB图像和LiDAR点云的组合,但VoxelNet仅使用了KITTI数据集中提供的LiDAR数据。

作者实现了一个强基线模型以分析端到端学习的重要性,称为手工制作基线(HC-baseline),该模型从VoxelNet架构派生而来,但使用手工制作的特征代替了所提出的特征学习网络。HC-baseline使用了在中描述的鸟瞰图特征,并增加了高度通道的数量以捕获更详细的形状信息。

最后,作者在KITTI验证集上进行了评估,并使用平均精度(AP)作为比较指标。他们遵循官方KITTI评估协议,对汽车类别使用0.7的IoU阈值,对行人和骑自行车者类别使用0.5的IoU阈值。

Evaluation on KITTI Validation Set

描述了在KITTI验证集上对VoxelNet进行评估的结果。

首先按照官方KITTI评估协议,使用交并比(IoU)阈值来评估检测性能。对于汽车类别,IoU阈值设为0.7,而对于行人和骑自行车者类别,IoU阈值则设为0.5。使用了平均精度(AP)作为主要的度量指标。

在鸟瞰图(Bird's Eye View)检测任务中,VoxelNet在所有难度级别上均展现出优于其他竞争方法的性能。具体来说,VoxelNet在简单、中等和困难级别上的AP分别为89.60%、84.81%和78.57%。与此同时,作者还将VoxelNet与手工特征基线(HC-baseline)进行了比较,发现VoxelNet在行人和骑自行车者的检测任务上取得了显著更高的AP,表明端到端学习对于点云基础的检测至关重要。

在3D检测任务中,VoxelNet同样在所有难度级别上表现出色,AP分别为81.97%、65.46%和62.85%。与HC-baseline相比,VoxelNet在3D检测上的性能提升更为明显。

作者还指出,尽管VoxelNet仅使用了LiDAR数据,但其性能却显著优于一些使用了LiDAR和RGB图像组合的现有方法。此外,作者还提到了VoxelNet在KITTI测试集上的表现,通过向官方服务器提交检测结果进行了评估,并发现VoxelNet在所有任务中均优于之前发布的最先进方法。

最后,作者展示了一些定性的检测结果,将使用LiDAR检测到的3D边界框投影到RGB图像上,以便更直观地展示VoxelNet检测的准确性。

Evaluation on KITTI Test Set

讨论了VoxelNet在KITTI测试集上的性能评估。

作者在KITTI测试集上对VoxelNet进行了评估,并将结果提交给了KITTI官方服务器。评估涵盖了汽车、行人和骑自行车者三个类别的3D检测任务,包括鸟瞰图和全3D检测两种模式。

具体来说,在3D汽车检测的简单、中等和困难级别上,VoxelNet分别达到了77.47%、65.11%和57.73%的性能。在鸟瞰图检测模式下,这些数字分别为89.35%、79.26%和77.39%。对于行人检测,3D检测的AP分别为39.48%、33.69%和31.51%,鸟瞰图检测的AP分别为46.13%、40.74%和38.11%。对于骑自行车者,3D检测的AP分别为61.22%、48.36%和44.37%,鸟瞰图检测的AP分别为66.70%、54.76%和50.55%。

结果证明了VoxelNet在不同类别和难度级别上的有效性,而且也显示了其在仅使用LiDAR数据的情况下,相较于其他多模态方法的优势。作者还提到了VoxelNet的推理时间,指出在TitanX GPU和1.7GHz CPU上,网络的总运行时间为33毫秒。

Conclusion

大多数现有的基于激光雷达的3D检测方法依赖于手工制作的特征表示,例如鸟瞰投影。本文消除了人工特征工程的瓶颈,提出了VoxelNet,是一种新颖的端到端可训练的基于点云的三维检测深度架构。可以直接在稀疏的三维点上操作,有效地捕获三维形状信息。还提出了一种有效的VoxelNet实现,它受益于点云稀疏性和体素网格上的并行处理。

在KITTI汽车检测任务上的实验表明,VoxelNet在很大程度上优于最先进的基于LiDAR的3D检测方法。在更具挑战性的任务中,例如行人和骑自行车的人的3D检测,VoxelNet也展示了令人鼓舞的结果,表明它提供了更好的3D表示。

未来的工作包括扩展VoxelNet,用于联合激光雷达和基于图像的端到端3D检测,以进一步提高检测和定位精度

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2042359.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言实现多种快速排序

目录 1.概念 2.快速排序hoare版本 2.1基本思想 2.2解释相遇处的值为何一定小于key 2.3hoare版本快速排序的实现 3.快速排序挖坑法 3.1基本思想 3.2挖坑法快速排序的实现 4. 快速排序前后指针版本 4.1基本思想 4.2快速排序前后指针版本实现 5.快速排序非递归版本 …

Linux下如何使用Curl进行网络请求

在Linux系统上,Curl是一个非常强大的网络请求工具,可以用于发送各种类型的HTTP请求,并获取响应结果。它支持常见的HTTP方法,如GET、POST、PUT、DELETE等,还支持HTTPS、FTP等不同协议。Curl提供了丰富的参数选项&#x…

多智能体新进展||斯坦福大学提出新模型‘Hypothetical Minds‘,让AI更懂人类思维

AI论文解读轻松掌握AI前沿技术进展,实时追踪AI动态,互动交流,共同成长进步 标题:Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models 作者:Logan Cross, Violet Xia…

[数据集][图像分类]超声波肾脏结石分类数据集9416张2类别

数据集类型:图像分类用,不可用于目标检测无标注文件 数据集格式:仅仅包含jpg图片,每个类别文件夹下面存放着对应图片 图片数量(jpg文件个数):9416 分类类别数:2 类别名称:["normal","stone&…

链表(哈希表,有序表)环形链表确定节点的方式

UnOrderedMap UnSortedMap --> C 哈希表(无序组织) 哈希表如果只有key 没有 value 是HashSet 哈希表如果有key 有 value 是HashMap 哈希表在使用的过程中所有的增删改查都是常数时间(比较大) 如果存放的是基础类型&#xf…

【网络】套接字(socket)编程——TCP版

接着上一篇文章:http://t.csdnimg.cn/GZDlI 在上一篇文章中,我们实现的是UDP协议的,今天我们就要来实现一下TCP版本的 接下来接下来实现一批基于 TCP 协议的网络程序,本节只介绍基于IPv4的socket网络编程 基于 TCP 的网络编程开…

Java基础入门15:算法、正则表达式、异常

算法(选择排序、冒泡排序、二分查找) 选择排序 每轮选择当前位置,开始找出后面的较小值与该位置交换。 选择排序的关键: 确定总共需要选择几轮:数组的长度-1。 控制每轮从以前位置为基准,与后面元素选择…

一招搞定异构联邦学习难题:FedKTL的超高效策略!

【联邦学习】在近年来的深度学习领域中备受关注,它通过在保证数据隐私的前提下,协同多个分散的设备或服务器进行模型训练。联邦学习技术能够在不集中数据的情况下,实现数据共享和模型优化,在医疗、金融和智能设备等领域取得了显著…

Linux|centos7|奇怪的知识|perf命令,系统运行瓶颈分析工具

前言: Linux perf 是 Linux 2.6 后内置于内核源码树中的性能剖析(profiling)工具,它基于事件采样,以性能事件为基础,针对 CPU 相关性能指标与操作系统相关性能指标进行性能剖析,可用于性能瓶颈查找与热点代…

http/sse/websocket 三大协议演化历史以及 sse协议下 node.js express 服务实现打字机案例 负载均衡下的广播实现机制

背景 自从2022年底chatgpt上线后,sse就进入了大众的视野,之前是谁知道这玩意是什么?但是打字机的效果看起来是真的很不错,一度吸引了很多人的趋之若鹜,当然了这个东西的确挺好用,而且实现很简单&#xff0…

Linux环境本地搭建开发工具箱It-Tools并实现公网环境远程使用

文章目录 前言1. 安装Docker2.本地安装部署it-tools3. it-tools工具箱功能—生成docker-compose文件4. 安装cpolar内网穿透5. 固定it-tools公网地址 前言 本篇文章,我们将以Docker方式将IT-Tools部署至本地Linux系统个人服务器,并且结合cpolar内网穿透工…

【无标题】mysql读写分离架构+MyCAT实现读写分离

1、读写分离的目的 数据库负载均衡: 当数据库请求增多时,单例数据库不能够满足业务 需求。需要进行数据库实例的扩容。多台数据库同时相 应请求。也就是说需要对数据库的请求,进行负载均衡 但是由于数据库服务特殊原因,数据库…

安卓用户专属福利:OfficeSuite中文高级版,让你的工作更轻松!

OfficeSuite – 世界顶级移动办公软件!Google Play商店下载最多的办公软件应用,迄今为止,智能手机平台上,功能最强大、兼容性最好的移动Office办公套件。创建,查看和编辑Word,Excel和PowerPoint文档&#x…

mysql主从数据库(5.7版本)与python的交互及mycat

mysql数据库基本操作: [rootm ~]# tar -xf mysql-5.7.44-linux-glibc2.12-x86_64.tar.gz 解压压缩包 [rootm ~]# ls anaconda-ks.cfg mysql-5.7.44-linux-glibc2.12-x86_64 mysql-5.7.44-linux-glibc2.12-x86_64.tar.gz [rootm ~]# cp -r mysql-5.7.44-linu…

Ubuntu 批量杀死进程

ps -ef|grep python|grep server|grep -v grep|cut -c 9-16|xargs kill -9这个命令序列是一个在Linux或类Unix系统中使用的脚本片段,用于批量终止(强制杀死)所有与特定条件(这里是包含"python"和"wanghao"的&…

推荐浏览器爬虫插件:Instant Data Scraper 无需写一行代码

✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨ 🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢,在这里我会分享我的知识和经验。&am…

云计算29-------mysql主从数据库(5.7版本)与python的交互及mycat

mysql数据库基本操作: [rootm ~]# tar -xf mysql-5.7.44-linux-glibc2.12-x86_64.tar.gz 解压压缩包 [rootm ~]# ls anaconda-ks.cfg mysql-5.7.44-linux-glibc2.12-x86_64 mysql-5.7.44-linux-glibc2.12-x86_64.tar.gz [rootm ~]# cp -r mysql-5.7.44-lin…

如何判断树上一个点是否在直径上

# 旅游规划 ## 题目描述 W市的交通规划出现了重大问题,市政府下定决心在全市各大交通路口安排疏导员来疏导密集的车流。但由于人员不足,W市市长决定只在最需要安排人员的路口安排人员。 具体来说,W市的交通网络十分简单,由n个…

【Android Git】Mac配置支持 Gitlab、Gitee和阿里云效多平台

前言 在开发过程中,会遇到多平台项目管理问题,需要进行配置支持,常用的平台有Gitlab、Gitee、阿里云效等,本篇文章记录下使用同一邮箱配置支持的过程。 说明 首先认识下id_ras,一个用于SSH(安全外壳协议)…

java判断字符串某字符是否为大写/小写/数字?

Character类提供了很多静态方法,用于处理Unicode字符,如下: 也可以将字符转化成小写字母或大写字母。运用如下: 1是数字返回true a不是大写返回false a是小写返回true a转化成大写字母后为A A转化成小写字母后为a