CVPR 2023 | 香港理工提出GrowSP:3D场景的无监督语义分割

news2024/11/25 0:23:00

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【目标检测和Transformer】交流群

3ab03bc3ebc9eb03829ece7cdbe9e463.png

GrowSP: Unsupervised Semantic Segmentation of 3D Point Clouds

论文链接:https://arxiv.org/abs/2305.16404

代码:https://github.com/vLAR-group/GrowSP

Overall Pipeline:      7e0e4a30a7ac76c11b63336770bf8ad2.png

图1: GrowSP整体流程

1. Introduction

近年来,三维点云处理在计算机视觉和机器学习领域引起了广泛的关注。然而,现有的点云分割方法通常需要大量标注好的训练数据,这在实践中限制了它们的应用范围。针对这一问题,我们在最新的CVPR论文中提出了一种全新的无监督三维点云语义分割方法 GrowSP。我们的方法利用superpoints以及渐进式扩张superpoints的方式实现了在3D场景中自动发掘语义信息。实验结果表明,我们的方法在多个三维点云数据集上取得了令人印象深刻的性能,且无需任何人工监督信号或者预训练模型等。

我们相信,这项研究对于解决三维点云处理中的监督学习问题具有里程碑意义,并且将在实际应用中产生广泛的影响。我们的贡献主要包括以下三点:

  • 针对真实世界点云,首次提出了一个完全无监督的3D语义分割框架,无需人工标注或任何预训练;

  • 引入了一种简单的superpoints扩张策略,引导网络逐渐学习高级语义信息;

  • 在多个真实3D场景数据集上展示出了有前景的语义分割效果,显著地优于将2D适配到3D的方法和3D自监督预训练方法。

3. Method

3.1 Overview

本文将无监督3D语义分割作为一个3D特征学习和聚类的问题来处理。如图2所示,首先将点云输入backbone提取逐点feature;然后依靠几何构建initial superpoints,获取superpoint features;superpoints会进一步合并成为语义基元,根据语义基元产生pseudo labels用于训练backbone。在此过程中,随着训练的进行,backbone输出的特征具备的语义信息会越来越丰富,依照输出features的相似性对superpoints进行合并,实现superpoints growing。

3d952ddece042f10689f4e6e8117b41a.png

图2: GrowSP框架结构

GrowSP框架包括以下三个核心部分:

1) Superpoints Constructor:构建初始的superpoints,将几何,空间位置或RGB (if available) 相似的点组合成superpoints;

2) Superpoints Growing:随着神经网络的不断训练,其输出特征逐渐具有high-level信息,依靠特征相似度,对单个3D场景进行superpoints扩张,逐步涵盖语义相近的区域;

3) Semantic Primitive Clustering:数据集种包含的superpoints会进一步合并为一些简单的语义元素或基。

3.2 Superpoints Constructor

该模块的目的是构建initial superpoints, 提供一些语义信息的先验,主要用于在训练初期引导网络的学习。对于数据集中每个3D场景,该模块会将场景点云划分为多个空间上连通的区域,这些区域内的几何形状和RGB是一致的。本文结合了两种手工设计的superpoints划分方法:VCCS和Region Growing,划分得到的superpoints如图3所示。

de277ccba43f4268f6ce356f1d60c98e.png

图3: Superpoint样例图

3.3 Superpoints Growing

该模块是GrowSP框架的主要部分。初始构建的superpoints基于几何,位置和RGB等信息约束神经网络在后续步骤对这些low-level一致的点输出一致的特征,这可以促使网络学习语义,这一约束在训练的初期非常有效。

进一步地,为了使其学习到更加high-level的语义,我们依照特征相似度,对每一个3D场景进行superpoints growing。Growing的过程是在单个场景中进行的,将每个initial superpoints包含的per-point features平均,作为superpoint features。对单个场景内的superpoints依照features相似度聚类,实现superpoints的扩张,如图4所示。

3dd753cfa397de558afde9f9de4914ef.png

图4: Superpoints Growing

3.4 Semantic Primitive Clustering

以上两个步骤只是构建和增强superpoints,并未产生语义类别。在这一步,我们对整个数据集的superpoint features (在网络训练初期是initial superpoints,后期是growing后的superpoints) 进行聚类。实验发现,当聚类数多于最终类别数可以避免错误地将不同类的superpoints聚集在一起,并且会带来performance提升。于是我们将superpoints聚合为多个基础的语义单元,同时产生pseudo labels用于训练backbone。训练结束后再将语义基元聚合成类别,聚合方法是简单地K-means。

由于本文以完全无监督的方式进行语义分割,所产生的类别标签只能用于区分不同的类,而和ground truth的标签序号不一致,所以在测试时会使用Hungarian matching修正标签序号。

4. Experiments

为了验证算法可行性,本文在两个常用的室内数据集S3DIS,ScanNet和一个室外数据集SemanticKITTI上评估了算法性能。

4.1 Evaluation on S3DIS

本文首先在S3DIS上与baselines进行了比较,选择了适配2D无监督语义分割算法PICIE[2]和IIC[5]到3D,以及对原始点云信息(xyzrgb) 进行K-means聚类三种作为baselines。从表1&2可以看出,本文方法都要优于上述baselines,并且在Area5上取得了非常接近全监督训练的PointNet的效果。

14e7876d5cb64396efd44b07fc995c1a.png

表1: S3DIS-Area5数值结果对比

858a3a01faee5794992963dccec7d2bc.png

表2: S3DIS 6-fold交叉验证

图5是在S3DIS数据集上可视化的对比,并且图6&7展示了Training和inference的一组demo video。

3291b0d7f08fd99ba22ac1454e644d8f.png

图5: S3DIS可视化对比

图6: S3DIS training demo

图7: S3DIS inference demo

4.2 Evaluation on ScanNet

其次,本文也评估了在ScanNet数据集上的表现。如表3&4所示,ScanNet上也大幅超越baselines。图8展示了ScanNet上的可视化效果,同样图9&10是ScanNet上一组demo。

eb030488ea545e25d5da09d08b56c833.png

表3:ScanNet验证集数值结果对比

ea64192dfb452caf179908d0cf7680f8.png

表4:ScanNet在线测试集数值结果对比

96de2aa8555d8efd6bb9377db5879eaa.png

图8: ScanNet可视化对比

图9: ScanNet training demo

图10: S3DIS inference demo

4.3 Evaluation on SemanticKITTI

接下来,我们评估GrowSP在室外数据集SemanticKITTI上的表现,由于LiDAR数据的疏密不均问题,构建superpoints会比室内困难,最终我们还是取得了接近全监督PointNet的结果。

bf842b8d93f543176401891b576a21f3.png

表5: SemanticKITTI验证集数值对比

8a009bdc470657c96d3877f845a14aae.png

表6:SemanticKITTI在线测试集数值对比

图11&12展示了SemanticKITTI数据集的Training和inference的一组demo video。

图11: SemanticKITTI training demo

图12: SemanticKITTI inference demo

5. Conclusion

最后总结一下,我们提出了首个3D场景上的无监督语义分割框架。主要利用superpoints的逐步扩张来学习高级语义,以及语义基元聚合来避免训练初期不同类别的错误聚合,训练后可以直接用于分割点云,在室内室外多个数据集上都展示出了很有前景的效果,同时也留有大量提升空间和可拓展性。

Reference

[1] Mathilde Caron, Hugo Touvron, Ishan Misra, Herve Jegou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. CVPR, 2021

[2] Jang Hyun Cho, Utkarsh Mall, Kavita Bala, and Bharath Hariharan. PiCIE: Unsupervised Semantic Segmentation using Invariance and Equivariance in Clustering. CVPR, 2021.

[3] Saining Xie, Jiatao Gu, Demi Guo, Charles R Qi, Leonidas Guibas, and Or Litany. Pointcontrast: Unsupervised pretraining for 3d point cloud understanding. ECCV, 2020.

[4] Ji Hou, Benjamin Graham, Matthias Nießner, and Saining Xie. Exploring data-efficient 3d scene understanding with contrastive scene contexts. CVPR, 2021.

[5] Xu Ji, Andrea Vedaldi, and Joao Henriques. Invariant information clustering for unsupervised image classification and segmentation. ICCV, 2019.

点击进入—>【目标检测和Transformer】交流群

最新CVPR 2023论文和代码下载

 
 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者ransformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看404b487210c0c8d7afbcc909b449fa62.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/648352.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023/6/11总结

CSS Less嵌套 子元素的选择器可以直接写在父元素里面。 如果不是它的后代元素,比如你想写伪类选择器、交集选择器,需要在前面加&号。 Less运算: 加减乘除都可以,运算符必须用空格隔开。如果俩个元素都有单位&#xff0…

binfmt_misc

一:binfmt_misc是什么 binfmt_misc是内核中的一个功能,它能将非本机的二进制文件与特定的解析器自动匹配起来,进行二进制解析。 例如,在x86上解析arm64架构的二进制。 通过binfmt_misc可以注册解析器来处理指定二进制文件格式的请…

Qt|QDialog的创建及使用

文章目录 创建一个新的类继承QDialog设置标题去掉问号,只保留关闭使窗口在屏幕中心显示设置窗口大小QDialog没有任务栏窗口图标问题将窗口永远置于上层可见 不会被遮盖阻塞除当前窗口之外的所有窗口添加closeEvent hideEvent同理调用dialog类接收dialog返回状态&…

华为OD机试真题 JavaScript 实现【跳房子II】【2023 B卷 100分】,附详细解题思路

一、题目描述 跳房子,也叫跳飞机,是一种世界性的儿童游戏。 游戏参与者需要分多个回合按顺序跳到第1格直到房子的最后一格,然后获得一次选房子的机会,直到所有房子都被选完,房子最多的人获胜。 跳房子的过程中&…

XGBoost超参数调优指南

本文将详细解释XGBoost中十个最常用超参数的介绍,功能和值范围,及如何使用Optuna进行超参数调优。 对于XGBoost来说,默认的超参数是可以正常运行的,但是如果你想获得最佳的效果,那么就需要自行调整一些超参数来匹配你的…

jupyter lab升级或者安装插件后编译失败

错误回显 报错提示:please run ‘jupyter lab build’ on the server for full output,那么就进入prompt执行一下jupyter lab build 继续接着报错 If you dont already have a jupyter_config.py file, you can create one by adding a blank file of th…

线下实体衰落,真是电商惹祸?实是贪婪以及服务理念落后所致

网上时不时就有人指责电商的兴起导致了线下实体衰落,然而如果各位比较了线下实体与电商的差异,就会明白导致如此结果完全是咎由自取,因为线下实体太贪婪以及服务理念落后于时代。 笔者最近就购买了某款国产手机,在该国产手机品牌的…

集显独显并存,ubuntu安装显卡驱动的坑

一、安装和启动黑屏卡死 1、怎么办?显示器先接集显,完成驱动安装。 (1)屏蔽nouveau驱动 只要是安装过NVIDIA显卡驱动的,nouveau一般都被禁止了。可以通过命令: lsmod | grep nouveau 查看。如果没有任…

实现设备的延时控制

1. 引言 当搭建IoT管理后台后,APP、设备、云端三端就可以实现交互;当点击APP中的控制按钮,其控制指令就可以经过云端转发到设备执行,当设备执行后将设备的状态上报到云端,APP通过轮训可以取到设备此时的状态&#xff0…

Spring Boot 优雅集成 Spring Security 5.7(安全框架)

Spring Boot 集成 Spring Security (安全框架) 本章节将介绍 Spring Boot 集成 Spring Security 5.7(安全框架)。 🤖 Spring Boot 2.x 实践案例(代码仓库) 介绍 Spring Security 是一个能够为基…

为行业变革注入新动能,行易道入选“高工智能汽车智驾榜单”

6月8日到9日,2023高工智能汽车开发者大会在上海成功举行。与会期间,北京行易道科技有限公司(以下简称“行易道”)营销副总裁袁泽雁带来了以“车载毫米波雷达进入成像时代”主题演讲,为大家分享了4D毫米波雷达如何以“新…

Java网络开发(Tomcat异步分页+增删改查)——从同步到异步 从jsp 到 js + axios + vue 实现 数据分页显示 数据增删改查

目录 引出一些固定的东西1.固定的响应格式2.name 变成 v-model 进行双向绑定3.下拉框选中--:value"type.id" v-model"companyDb.typeId"4.vue导包固定写法5.script固定写法6.axios的get请求7.axios的post请求---let params new URLSearchParams()8.前端美…

MYSQL 在优化器缺陷在次验证,与MYSQL 熄火了 还是 成熟了??

开头还是介绍一下群,如果感兴趣polardb ,mongodb ,mysql ,postgresql ,redis 等有问题,有需求都可以加群群内有各大数据库行业大咖,CTO,可以解决你的问题。加群请联系 liuaustin3 ,在新加的朋友会分到2群(共…

聊聊我做 NeRF-3D重建性能优化经历

我们新推出大淘宝技术年度特刊《长期主义,往往从一些小事开始——工程师成长总结专题》,专题收录多位工程师真诚的心路历程与经验思考,覆盖终端、服务端、数据算法、技术质量等7大技术领域,欢迎一起沟通交流。 本文为此系列第四篇…

飞桨携手第二届GitLink开源夏令营,邀你参与顶尖开源项目!

想参与顶尖开源项目开发? 想熟悉开源社区参与流程? 想获得资深导师指导和丰厚现金奖励? 机会来啦! 2016年9月,飞桨框架正式开源,其兼备易用性、高效性、灵活性和可扩展性等特点。如今,百度飞桨在…

软件工程:说透软件5种常见的部署策略

hi,我是熵减,见字如面。 在软件工程中,最终的价值交付,都是要通过软件的部署上线来完成的。 那如何将新的或改进的软件功能交付给用户,同时还要确保高质量、稳定性和用户体验,选择适当的部署策略变得至关重…

数字中国,开鸿见日

讲个小故事,《晋书乐广传》记载,西晋名士乐广,请大文学家潘岳替自己写一篇文章。潘岳让乐广把意思完完整整告诉他,再由他来动笔,最终写成了名扬当时的《呈太尉辞河南尹表》。时人看过这篇文章,评价乐广是“…

WPF开发txt阅读器5:书籍管理系统,文件夹对话框

文章目录 书柜类文件夹对话框验证 txt阅读器系列: 需求分析和文件读写目录提取类💎列表控件与目录字体控件绑定 书柜类 任何小说阅读器,都免不了要有一个书架功能,而所谓书架,其实就是一个文件夹,通过对…

postgre查询今天,昨天的数据

昨天数据 SELECT* FROMsys_device WHERE age(current_date,to_timestamp(substring(update_time FROM 1 FOR 10),yyyy-MM-dd)) 1 days; 今天数据 SELECT* FROMsys_device WHERE to_char(update_time:: DATE, yyyy-MM-DD hh 24: mi :s) to_char(CURRENT_DATE:: DATE, …