《论文阅读13》Efficient Urban-scale Point Clouds Segmentationwith BEV Projection

news2025/1/16 16:57:41

一、论文

  • 研究领域: 城市级3D语义分割
  • 论文:Efficient Urban-scale Point Clouds Segmentationwith BEV Projection
  • 论文链接

注: BEV: Bird's Eye View

BEV投影是指鸟瞰视角(Bird's Eye View,简称BEV)的一种从上方观看对象或场景的视角,就像鸟在空中俯视地面一样。在自动驾驶和机器人领域,通过传感器(如LiDAR和摄像头)获取的数据通常会被转换成BEV表示,以便更好地进行物体检测、路径规划等 。

二、论文概要

 与其他已发表方法的比较结果。我们使用ResNet-34和HRNet实现了我们的模型,这两个模型都在SensatUrban数据集上实现了具有竞争力的平均IoU和整体准确性。 请注意,由于无法访问测试集标签,我们的结果是在验证集上计算的,而其他模型的结果由数据集发布者提供,并使用测试数据进行评估。

 图二.3D-2D任务转移过程概述。

1、城市规模的点云地图被预先划分成边长小于400米的网格。

2、我们进一步生成了25× 25 m2的正方形,放大倍数为20倍。

3、2D分割输出将根据其x/y坐标重新映射到大型3D标测图。

 空间重叠率统计结果。x轴表示滑动窗口(1m×1m)的点数排名,前0%表示点数最多的窗口。y轴指示投影到BEV图像上的点的重叠比。

三、论文全文

基于BEV投影的城市尺度点云高效分割

摘要:近年来,点云分析已经吸引了研究人员的目光,而3D语义分割仍然是一个问题。大多数深度点云模型直接在3D点云上进行学习,这将受到城市规模数据严重稀疏和极端数据处理负载的影响。为了解决这一挑战,我们建议将三维点云转移到密集的鸟瞰图投影。在这种情况下,由于类不平衡减少和利用各种2D分割方法的可行性,分割任务被简化。我们进一步设计了一个基于注意力的融合网络,可以对投影图像进行多模态学习。最后,2D输出被重新映射以生成3D语义分割结果。为了证明我们的方法的好处,我们在SensatUrban数据集上进行了各种实验,其中我们的模型呈现出竞争力的评估结果(61.17% mIoU和91.37% OverallAccuracy)。我们希望我们的工作可以启发进一步探索点云分析。

  • 介绍

3D语义分割是点云学习的关键技术,其目的是为每个单独的点数据分配语义标签,已广泛应用于自动驾驶[1],虚拟现实[2],3D重建[3]等。虽然深度学习在2D语义分割任务中表现突出,但它无法直接处理不规则,无序和非结构化的点数据[4]。因此,目前有几种方法[5]-[11]将非结构化点转换为某些有效的中间表示,例如体素[7],[12]和多视图[10],[13],[14],以利用经典CNN模型处理点云。随着对三维场景理解需求的不断增加,提出了越来越多的三维点云数据集。从室内数据集(例如,S3DIS [15]和ScanNet [16])到道路级数据集(例如,SemanticKITTI [17]),数据集的空间大小也更大。最近的工作[3],[18]提出了城市级数据集,为大规模数据集的语义分割带来了一些新的挑战。

  • 室内数据集(例如,S3DIS [15]和ScanNet [16])
  • 道路级数据集(例如,SemanticKITTI [17]),数据集的空间大小也更大
  • [3],[18]提出了城市级数据集

与基于LiDAR的数据集不同,这些城市规模的点云大多是从无人机摄影测量中获得的,这可能导致数据集中的以下特征。首先,无人机摄影测量的扫描不均匀,扫描区域不集中,捕获的图像边缘有散乱的区域。其次,重建的点云部分缺失。我们在SensatUrban [3]数据集中观察到这种现象,一个典型的例子是,在对点云进行可视化后,屋顶下没有对应的墙点,这使得屋顶似乎悬浮在空中。有趣的是,我们发现基于无人机的点云中垂直点的类别重叠率较低,例如,SensatUrban为2.3%,这意味着鸟瞰图是一种合适的投影方法,它更简单,更有效,并且能够最大限度地保留点细节。

此外,对于投影图像,具有更丰富标记的2D像素级数据集可以用于预训练。因此,在本文中,我们提出了一个BEV投影分割方法来处理城市规模的三维分割问题。

我们的主要贡献是:

1)对城市规模的点云进行点级分析;

2)提出了一种基于BEV投影算法的多模态融合分割模型;

3)我们在SensatUrban数据集上对我们的方法进行了评估,我们的竞争结果证明了我们设计的有效性。

  • 相关工作

A.语义分割

通常,根据输入网络的点云数据的形式,现有的大多数3D语义分割方法可以分为三类:基于点、基于3D表示和基于投影。

基于点的方法直接处理原始点云,其代表方法是PointNet,计算开销大。虽然[19],[20]对PointNet进行了一些有益的改进,但由于这些方法直接处理sprase数据,因此仍然难以加速。最近的RandLA-Net [2]引入了随机采样和轻型网络架构,大大加快了模型的速度。然而,如[21]中所提到的,基于点的方法中不可忽视的问题是,由低效的随机存储器访问引起的处理sprase数据的大量时间浪费(80%),这意味着实际上只有少量的时间用于提取特征。此外,大的存储器开销也是一个严重的问题。

基于3D表示的方法将原始点云数据变换成某些3D表示(例如,体素和晶格),然后利用3D卷积[5]-[8]。然而,很难平衡分辨率和内存之间的关系[21],[22]。分辨率越低,同一网格中的点融合在一起,导致点云信息丢失越严重。分辨率越高,计算开销和内存使用量越大。此外,预处理和后处理步骤需要大量时间[23]。

  • 分辨率越低,同一网格中的点融合在一起,导致点云信息丢失越严重。
  • 分辨率越高,计算开销和内存使用量越大

基于投影的方法利用成熟的2D卷积模型来处理从3D点云投影的图像,而不是直接处理点。基于投影的方法包括几个特定的类别,如多视图,基于球面的方法。多视图方法[10],[13],[14]将点云投影到多个虚拟相机视图中。例如,[10]利用多流CNN来处理从每个视图生成的图像,然后融合每个点的不同图像的预测分数,[13]定义了旋转相机并提出了Katz投影来选择每个相机角度中的点,[14]在不同的相机位置生成深度图像和RGB图像。[24]利用球面投影方法将三维点云转换为图像,利用SqueezeSeg网络进行分割,并应用条件随机场(CRF)对分割结果进行优化。[11]提出了基于SqueezeSeg的上下文聚合模块(CAM)来扩展感受野,并且[4]引入了空间自适应卷积(SAC)来进一步提高分割精度。

基于投影的方法包括几个特定的类别:

  • 多视图方法[10],[13],[14]将点云投影到多个虚拟相机视图中。
  • 利用球面投影方法将三维点云转换为图像

 B 大规模场景的语义分割

在最近的工作中,已经提出了几个由无人机拍摄的城市尺度3D点云数据集[3],[18],[25],其中最大的是SensatUrban [3]数据集,其覆盖面积为7.64×106 m2,具有30亿个注释点。然而,这些大而密集的数据集给语义分割带来了新的挑战。

城市尺度3D点云数据集: 

  • 最大的是SensatUrban

首先,面对海量数据,预处理方法的选择,例如,数据分区、下采样等。意义重大。其次,城市规模点云存在类分布不均衡的问题。第三,基于无人机的数据集和基于激光雷达的数据集之间的一个显着差异是,前者包含RGB特征。对于大规模数据集,是否将RGB特征纳入网络以及如何有效地利用RGB特征值得考虑。最近的工作,例如RandLA-Net [2]和BAAF-Net [23]利用RGB颜色并取得了积极的分割结果。对于BEV投影生成的图像,我们设计了一个基于注意力的多模型融合网络,有效地融合了RGB和几何细节。与单模态网络相比,分割效果取得了一定的提高,进一步验证了RGB颜色对分割的意义。


海量数据预处理方法:

  • 数据分区
  • 下采样等

近年来,已经提出了几种针对大型数据集的语义分割算法[2],[9],[26],[27]。例如,RandLA-Net [2]引入了随机采样以提高计算和内存的效率,TagentConv [9]利用基于切线卷积的U型网络进行大型和密集数据集的语义分割,SPGraph [27]提出了一种新的点云表示(SPG),能够捕获3D点的上下文结构。需要提出更多的大规模点云分割算法。

  • 方法:

A 问题陈述

3D点云语义分割的目的是为每个单独的点分配语义标签,而2D分割是为每个像素分配特定的标签。在某种程度上,这两种类型的任务具有相似的目的和解决方案。根据我们上面的陈述,可以将3D点云语义分割任务转移到2D鸟瞰图分割问题。主要过程包括鸟瞰图映射和2D多模态分割。

B 鸟瞰投影为什么合理

当我们将一个任务转移到另一个任务时,它要求输入数据和预期输出的一致性。为了评估我们的想法,我们在构建模型之前进行点级分析。我们首先将3D点投影到BEV图上(将在下文中详细描述)并计算重叠率。在投影中以0.04m为单位进行坐标缩放时,约有25.44%的点会丢失。对于那些点密集的地方,比例将提高到50%或更多。然而,我们发现大多数重叠点属于与顶部点相同的类别。类重叠率低于2.3%,mIoU可达93.7%。在这种情况下,可以将3D分割任务转移到2D BEV分割。我们的目标是在BEV图像上进行精确识别

C 鸟瞰图

为了优化这种大型点云的数据处理负载,我们将整个工作分为三个部分:3D到BEV投影、稀疏BEV图像完成和BEV到3D重新映射。 前两个部分的处理在下面的算法1中被呈现为伪代码。我们设置一个滑动窗口来处理点并生成BEV图像。在投影之前,我们需要初始化参数gscale,gscale,gscale,它控制滑动窗口的缩放,大小和移动步骤。对于每个滑动步骤,我们通过x/y坐标对点进行排序,并从当前BEV投影窗口开始/结束坐标中查询点,之后将删除处理过的点以减少后续数据处理量。为了获得最佳的参数,我们测试了不同的投影尺度从0.01到0.04的空间重叠率,如图3所示。当我们将点云的尺度设置在[0.01,0.03]时,会导致点云不同部分的重叠分布非常接近,即城市尺度点云中的点的最小间距在[0.03,0.05](m)以内。此外,根据我们的投影图像数量估计,合适的窗口长度在[20,50](m)以内。因此,我们将参数设置为gscale = 0.05,gsize = gstep = 25。然而,我们也建议多尺度,多尺寸和多步采样,以便在未来的工作或其他类似的任务中更好地训练。

对于单个滑动窗口中的点,我们通过积分x/y坐标将点映射到像素。这将不可避免地带来值量化的损失,但是,如果我们在3D重映射中进行相同的过程,它不会影响标签检索过程。BEV图使用顶部的点进行更新,生成具有颜色和z坐标值的RGB和海拔(Alt)图像。考虑到BEV图像上投影点云的显著稀疏性,这将在标记和模型学习中引入严重的噪声,因此有必要对投影进行像素级完成,特别是对于不同类点周围的内部区域和边缘。在我们的实验中,我们迭代地对每个图像中的每个通道进行三次2D最大池化。标签的渐进变化如图4所示。

 

 完工测试。对于从左到右,我们呈现原始BEV标签和具有一次/两次/三次最大池化完成的标签。

对于3D重映射,我们存储每个投影窗口的绝对x/y坐标,并使用主题查询原始大规模点云中的提取位置以获得2D分割输出。对应于相同像素的点将被赋值为与像素相同的类。之后,我们能够评估3D语义分割性能。

D.最大值多模态分割

通过BEV投影的高度和RGB图像,我们可以利用多模态网络从数据的不同方面进行学习。为了快速开发一个合适的模型,我们考虑一个编码器-解码器网络UNet作为我们的基线,不仅因为它的流行模型架构,而且因为它在修改,训练和推理方面的效率。它包括编码器中的4个块和解码器中的5个块,其中两个是ResNet-34块,最后四层使用转置卷积,其余是卷积块。所有卷积块都有一个批量归一化层和一个ReLU层,所有内核大小都是3x 3。编码器中的每个块都用虚线链接到解码器中的相应块,该虚线将它们的输出连接起来以检索低级特征。

通常,多模态融合依赖于各层中的特征通信。在此基础上,提出了一种灵活的多级融合网络,支持不同时间、不同地点的多管道数据融合。熔合层包括若干恒定形状的熔合块。每个块接受来自两个管道的两个相等形状的张量,并采用注意力层从连接的特征图中选择关键通道。以这种方式,熔合块倾向于丢弃不相关的特征,并且熔合在随后的层中容易被激活的那些特征。对于注意力块,我们参考我们以前的工作??,提出了一种用于语义分割的跨通道多模态融合注意块。之后,我们添加1x1卷积以降低维度,并针对图像特征和融合特征、海拔特征和融合特征重复这样的融合块。重要的是外块保持特征图的恒定形状,这意味着我们可以根据需要堆叠具有各种网络形状的无限块。

  • 实验

 A setup 

数据集:SensatUrban [3]在英国3个大城市采集,包含2847M个点,覆盖真实的世界7.64× 106m2的面积,是目前最大的3D点云数据集。在获得无人机拍摄的区域图像序列后,从这些图像重建SensatUrban点云数据集。它包含13个语义类,包括地面、建筑物、交通道路等大类和自行车、铁路、桥梁等小类。在实验中,37个点云用于训练,6个点云用于测试。每个点包含三维坐标、RGB颜色和语义类的特征。请注意,由于缺乏测试集标签,我们将训练集随机分为4:1,使用80%的数据进行训练,使用20%的数据进行测试。所有测试数据都不用于训练。

度量:我们将我们的模型与几个使用不同方法(例如,基于点的方法、基于投影的方法等)并且最近出版。选择平均IoU(mIoU)和总体准确度(OA)作为评价指标。

实施情况:我们在训练中使用交叉熵作为损失函数。考虑到不同类间的不平衡性,我们使用对数倒数权值来调整学习中的损失。我们将批处理大小设置为8,将输入大小设置为投影大小500 x500。我们的模型在两个GPU上训练,RTX 3090具有24 G RAM和E5- 2678 v3 CPU。此外,我们使用以下软件设置:Ubuntu 16.04 64位操作系统,Python 3.6,gcc5.4.0,PyTorch 1.7与CUDA 11.0硬件加速。

B. Results

我们使用三个主干实现了我们的模型,UNet和ResNet34,Deeplabv3和ResNet101,OCRNet和HRNet。最后两个模型被训练以探索在我们的BEV分割框架下的潜在性能。我们在表I中展示了分割结果(重新映射到3D点云并在3D中进行评估)。与现有的模型相比,我们的模型可以实现相当有竞争力的结果,在大多数classed和整体performancee在OA,mAcc,和mIoU。缺点是我们的BEV分割仍然无法识别一些小物体,如自行车,因为它们在投影图像中占用的像素也非常有限。在未来的工作中,融合3D和我们的BEV模型可能会解决这个问题。可视化如图5所示。

  • CONCLUSION

针对大规模无人机点云数据稀疏、处理负担重的问题,设计了一种大规模无人机点云数据预处理方法,即将三维点云投影到密集的鸟瞰图上。此外,我们还提出了一种基于注意力的多模态融合网络来分割生成的二维图像,充分利用RGB颜色和几何信息。我们在SensatUrban数据集上获得了61.17%的mIoU和91.37%的OverallAccuracy测试结果。我们希望我们的工作可以启发大规模的点云语义分割任务。

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/843735.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【JavaEE】Spring Boot - 配置文件

【JavaEE】Spring Boot 开发要点总结(2) 文章目录 【JavaEE】Spring Boot 开发要点总结(2)1. 配置文件的两种格式2. .properties 文件2.1 基本语法2.2 注释2.3 配置项2.4 主动读取配置文件的键值2.5 数据库的连接时的需要的信息配…

面试热题(字符串相加)

给定两个字符串形式的非负整数 num1 和num2 ,计算它们的和并同样以字符串形式返回。 你不能使用任何內建的用于处理大整数的库(比如 BigInteger), 也不能直接将输入的字符串转换为整数形式。 输入:num1 "11"…

Mermaid系列之FlowChart流程图

一.欢迎来到我的酒馆 介绍mermaid下,Flowchat流程图语法。 目录 一.欢迎来到我的酒馆二.什么是mermiad工具三.在vs code中使用mermaid四.基本语法 二.什么是mermiad工具 2.1 mermaid可以让你使用代码来创建图表和可视化效果。mermaid是一款基于javascript语言的图表…

排序进行曲-v4.0

文章目录 小程一言快速排序步骤详细解释具体步骤 举例总结 复杂度分析时间复杂度分析:空间复杂度分析:注意 应用场景总结 实际举例结果总结 代码实现结果解释 小程一言 这篇文章是在排序进行曲3.0之后的续讲, 这篇文章主要是对快速排序进行细…

二、框架篇

框架篇 Spring 1. 基础核心技术 第1章-Spring的模块与应用场景 第2章-Spring基于XML配置的容器 第3章-Spring基于注解配置的容器 第4章-Spring基于Java配置的容器 第5章-Spring三种配置方式的混合和迁移 第6章-Spring同类型多个Bean的注入 第7章-Spring的Bean生命周期…

Mybatis案例-商品的增删改查

文章目录 1. aim2.环境准备3.查询3.1 查所有3.2 查看详情3.3 条件查询3.3.1 Mybatics如何接收参数?3.3.2 多条件查询3.3.3 动态条件查询3.3.4 单条件查询 4.添加主键返回 5.修改5.1 修改全部字段5.2 修改动态字段 6.删除6.1 删除1个6.2 批量删除 JDBC完成&#xff1…

【0804作业】顺序执行2个线程 (完成逆置打印、拷贝文件) (实现类似cat打印到终端)

作业1: 要求定义一个全局变量 char buf[] "1234567",创建两个线程,不考虑退出条件 要求定义一个全局变量 char buf[] "1234567",创建两个线程,不考虑退出条件,另: A线程循…

前端食堂技术周刊第 93 期:7 月登陆 Web 平台的新功能、Node.js 工具箱、Nuxt3 开发技巧、MF 重构方案

美味值:🌟🌟🌟🌟🌟 口味:橙橙冰萃美式 食堂技术周刊仓库地址:https://github.com/Geekhyt/weekly 大家好,我是童欧巴。欢迎来到前端食堂技术周刊,我们先来…

第二天 什么是JWT ?

✅作者简介:大家好,我是Cisyam,热爱Java后端开发者,一个想要与大家共同进步的男人😉😉 🍎个人主页:Cisyam-Shark的博客 💞当前专栏: 每天一个知识点 ✨特色专…

RocketMQ 主备自动切换模式部署

目录 主备自动切换模式部署 Controller 部署​ Controller 嵌入 NameServer 部署​ Controller 独立部署​ Broker 部署​ 兼容性​ 升级注意事项​ 主备自动切换模式部署 该文档主要介绍如何部署支持自动主从切换的 RocketMQ 集群,其架构如上图所示&#xff…

c++实现Qt信号和槽机制

文章目录 简介信号槽信号与槽的连接 特点观察者模式定义观察者模式结构图 实现简单的信号和槽 简介 信号槽机制与Windows下消息机制类似,消息机制是基于回调函数,Qt中用信号与槽来代替函数指针,使程序更安全简洁。  信号和槽机制是 Qt 的核心…

Scratch 之 大地图引擎怎么做?

引子 简单的介绍一下,一些游戏引擎是有一个隐形小地图存在的,这个隐形小地图通常用来侦测碰碰撞和移动。那么,一个大地图引擎的背景肯定是很大的(一般来说大小都超过200),如果我们要做出一个枪战作品,那就迟早会发现一…

Spring源码解析(七):bean后置处理器AutowiredAnnotationBeanPostProcessor

Spring源码系列文章 Spring源码解析(一):环境搭建 Spring源码解析(二):bean容器的创建、默认后置处理器、扫描包路径bean Spring源码解析(三):bean容器的刷新 Spring源码解析(四):单例bean的创建流程 Spring源码解析(五)&…

IBM HR Analytics 员工流失 EDA 和可视化绩效分析

IBM HR Analytics 员工流失与绩效分析 背景导入库输出前五行数据清洗检查空值删除不必要的列 可视化商务旅行直方图离家的距离箱形图教育与数字公司的关系年龄和月收入散点图按教育领域和工作角色划分的工作满意度相关矩阵的交互式热图 背景 揭示导致员工流失的因素&#xff0…

陪诊小程序开发|陪诊系统定制|数字化医疗改善就医条件

健康问题这几年成为人们关注的焦点之一,然而看病却是一个非常麻烦的过程,特别是对于那些身处陌生城市或者不熟悉就医流程的人来说。幸运的是现在有了陪诊小程序下,为您提供便捷的助医服务,使得就医过程得更加简单和轻松。 陪诊系统…

国联易安网页防篡改保护系统“渠道招募”启动啦!

作为业内专注于保密与非密领域的分级保护、等级保护、业务连续性安全和大数据安全的领军企业,国联易安网页防篡改保护系统基于“高效同步”、“安全传输”两项技术,具备了独特的“五重防护”新特性,支持网页的全自动发布、网页监控、报警和自…

webpack基础知识十:与webpack类似的工具还有哪些?区别?

一、模块化工具 模块化是一种处理复杂系统分解为更好的可管理模块的方式 可以用来分割,组织和打包应用。每个模块完成一个特定的子功能,所有的模块按某种方法组装起来,成为一个整体(bundle) 在前端领域中,并非只有webpack这一款…

c51单片机16个按键密码锁源代码(富proteus电路图)

注意了:这个代码你是没法直接运行的,但是如果你看得懂,随便改一改不超过1分钟就可以用 #include "reg51.h" #include "myheader.h" void displayNumber(unsigned char num) {if(num1){P10XFF;P10P11P14P15P160;}else if…

js修改img的src属性显示变换图片到前端页面,img的src属性显示java后台读取返回的本地图片

文章目录 前言一、HTML 图像- 图像标签&#xff08; <img>&#xff09;1.1图像标签的源属性&#xff08;Src&#xff09;1.2图像标签源属性&#xff08;Src&#xff09;显示项目中图片1.3图像标签源属性&#xff08;Src&#xff09;显示网络图片 二、图像标签&#xff08…