论文阅读:Segment Any Point Cloud Sequences by Distilling Vision Foundation Models

news2025/1/25 4:40:30

论文地址:[2306.09347] Segment Any Point Cloud Sequences by Distilling Vision Foundation Models (arxiv.org)

代码地址:GitHub - youquanl/Segment-Any-Point-Cloud: [NeurIPS'23 Spotlight] Segment Any Point Cloud Sequences by Distilling Vision Foundation Models

概要

  视觉基础模型 (VFMs) 的最新进展为通用且高效的视觉感知开辟了新的可能性。在这项工作中,论文中介绍了 一个新颖的框架Seal,利用 VFM 来分割不同的汽车点云序列。Seal 表现出三个吸引人的特性:

  1. 可扩展性:VFMs 直接提炼成点云,消除了在预训练期间 2D 或 3D 中的注释需求;
  2. 一致性:空间和时间关系在相机到激光雷达和点到段阶段都强制执行,促进了跨模态表示学习;
  3. 通用性:Seal 能够将知识转移以现成的方式转移到涉及不同点云的下游任务,包括来自真实/合成、低/高分辨率、大/小规模和干净/损坏的数据集的任务。

    在实现以下目标的同时,能够学习有用的特征:

  1. 利用原始点云作为输入,从而消除对半或弱标签的需要,并降低标注成本。
  2. 利用驾驶场景中固有的空间和时间线索来增强表示学习。
  3. 确保可推广到不同的下游点云,超出预训练阶段使用的点云。

从跨模态表征学习的最新进展中获得灵感,并以VFMs的成功为基础,从VFMs中提取语义丰富的知识,以支持具有挑战性的汽车点云上的自监督表示学习。该论文的核心思想是利用LiDAR和相机传感器之间的2D-3D对应,构建高质量的对比样本进行跨模态表征学习

Motivation

  1. 现有的点云分割模型严重依赖于用于训练的大型带注释的数据集,即点云标记的劳动密集型性质;
  2. 不同传感器之间存在显著的配置差异(如波束数、摄像机角度、发射速率),这种局限性不可避免地阻碍了点云分割的可扩展性;
  3. LiDAR与摄像机之间往往很难实现完美的校准。

整体架构流程

  Seal通过超像素驱动的对比学习,从VFMs到点云在摄像机视图上蒸馏语义感知。[第1行]由SLIC和VFMs生成的语义超像素(Semantic superpixels),其中每个颜色代表一个“语义块”(segment)。[第2行]语义超点(Semantic superpoints)通过camera-LiDAR对应将超像素投影到3D进行聚合。[第3行]由SLIC和不同的VFMs驱动的框架的 linear probing 结果的可视化。

技术细节

    语义超点时间一致性依赖于来自点云的精确几何信息,并利用实例跨不同时间戳的不同视图来学习时间一致的表示。考虑到最坏的情况,LiDAR和相机传感器之间的2D-3D对应变得不可靠,这种几何约束仍然可以有效地缓解在不准确的交叉传感器校准和同步中出现的潜在误差。此外,本文的point-to-segment正则化机制可以对空间信息进行聚合,从而在lidar获取的场景中起到更好的区分实例的作用,例如“car”和“truck”。正如本文将在下面的章节中展示的,本文的实验结果能够验证提出的一致性正则化目标的有效性和优越性。

    使用MinkUNet作为3D骨干,以0.10m大小的圆柱体素(cylindrical voxels)作为输入。2D骨干是用MoCoV2预训练的ResNet-50。使用带动量的SGD和余弦退火scheduler,在32 batch size的两个GPUs上对分割网络进行50个epochs的预训练。为了进行微调,在nuScenes和SemanticKITTI上采用了与SLidR完全相同的数据分割、扩展和验证协议,并在其他数据集上采用了类似的过程。训练目标是最小化交叉熵损失和Lovasz-Softmax损失的组合。

小结

    本文提出了Seal,是利用二维视觉基础模型在大规模3D点云上进行自监督表示学习的首次尝试。这是一个可伸缩的、一致的、可泛化的框架,旨在捕获语义感知的空间和时间一致性,从而能够从汽车点云序列中提取信息特征。

    在11个不同的点云数据集上进行的大量实验证明了Seal的有效性和优越性。Seal在线性探测后在nuScenes上实现了显著的45.0% mIoU,超过了随机初始化36.9% mIoU,比现有技术高出6.1% mIoU。此外,Seal 在所有 11 个测试点云数据集上的 20 个不同的小样本微调任务中显示出比现有方法显着的性能提升。跨11个不同数据配置的点云数据集对下游任务的linear probing和微调方面明显优于以前的最先进的(SoTA)方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1094446.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计网第六章(应用层)(二)(域名系统DNS)

一、基本概述 域名和IP地址:在1983年,因特网就开始采用层次结构的命名树作为主机的名字,即域名。因为域名比IP地址更加方便人们记忆,人们可以通过域名更加方便地访问互联网。但实际上网络识别的仍然是IP地址,所以就有…

文件操作(打开关闭文件、文件顺序以及随机读写)

文章目录 写在前面1. 文件的打开与关闭1.1 文件指针1.2 文件的打开(fopen)与关闭(fclose)1.2.1 fopen函数1.2.2 fclose函数 2. 文件的顺序读写2.1. fgetc 和 fputc函数2.1.1 fputc函数2.1.2 fgetc函数 2.2 fgets 和 fputs函数2.2.1 fputs函数2.2.2 fgets函数 2.3 fscanf和fprin…

密码学技术总结

前言 本文内容主要摘抄网络规划设计师的教材和腾讯-SUMMER课堂,主要对网络安全进行简单梳理和总结 对称密码体制 密码分为私钥和公钥密码两种,而介于私钥和公钥只见密码成为混合密码。 私钥密码又称为对称密码,该体制的特点是加密和解密…

软件开发项目文档系列之二如何撰写项目建设方案

目录 前言1 项目概况2 需求分析3 建设目标4 建设内容4.1 建设原则4.2 设计依据4.3 总体框架4.4 建设任务4.5 技术方案 5 实施保障措施6 验收和考核指标7 投资预算7.1 资金来源7.2 预算表7.3 预算编制说明 结语 前言 建设方案或解决方案是在任何新项目或计划启动之前&#xff0…

程序员如何运营好博客平台

shigen坚持日更的博客写手,擅长Java、python、vue、shell等编程语言和各种应用程序、脚本的开发。坚持记录和分享从业两年以来的技术积累和思考,不断沉淀和成长。 不知不觉间,我发现从我的日更博客和公众号目标确定到现在,我已经坚…

数据库实验一:学生信息管理系统数据库结构搭建和表的创建

实验项目名称:学生信息管理系统数据库结构搭建和表的创建 实验目的与要求实验原理与内容1. 数据库的组织结构2. 数据库的分离和附加3. 数据库表的创建,修改和删除 实验过程与结果1. 根据学生信息管理系统创建相关的数据库2. 数据库表初步设计及实现3. 实…

【算法训练-排序算法 二】【手撕排序】快速排序、堆排序、归并排序

废话不多说,喊一句号子鼓励自己:程序员永不失业,程序员走向架构!本篇Blog的主题是【手撕排序系列】,使用【数组】这个基本的数据结构来实现,这个高频题的站点是:CodeTop,筛选条件为&…

ffmpeg+安卓+yolo+RK3399部署

一次满足多项需求. 首先, 思路是, 使用ffmpeg解码本地mp4文件, 在无需任何其他改动的情况下, 就可以直接播放rtsp流, 这个是使用ffmpeg的好处. ffmpeg本身是c语言的, 所以需要编译成jni的库, https://note.youdao.com/s/6XeYftc 具体过程在这里, 用windows/macOS, Ubuntu应该都…

Python 字典

目录 1 字典介绍2 字典的创建3 字典元素的访问4 字典元素添加、修改、删除5 序列解包6 表格数据使用字典和列表存储,并实现访问7 字典核心底层原理(重要)7.1 将一个键值对放进字典的底层过程7.2 扩容7.3 根据键查找“键值对”的底层过程7.4 用法总结: 声…

【多媒体技术与实践】使用OpenCV处理图像(实验三.上)

1:图像直方图 将原彩色图像转成灰度图像,得到该灰度图像的灰度直方图,并对灰度直方图进行直方图均衡化,将原图、灰度图、直方图及均衡化后的直方图一起拼接为一张图片 import cv2 import numpy as np import matplotlib.pyp…

数据结构与算法 | 第一章:概论

本文参考网课为 数据结构与算法 1 第一章概论,主讲人 张铭 、王腾蛟 、赵海燕 、宋国杰 、邹磊 、黄群。 本文使用IDE为 Clion,开发环境 C14。 更新:2023 / 10 / 15 数据结构与算法 | 第一章:概论 数据结构概念逻辑存储运算抽象…

Java基础--阳光总在风雨后,请相信彩虹

1、今日任务 JAVA SE-韩顺平视频教程–30p以上(今天得50p以上因为是基础)计算机基础八股记忆总结刷题(两题)可以先用python 1、SSM ssm->Spring(轻量级的文本开发框架)/SpringMVC(分层的w…

【string题解 C++】翻转字符串II:区间部分翻转 | 验证回文串

翻转字符串II:区间部分翻转 力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 难度:简单 给定一个字符串 s 和一个整数 k,从字符串开头算起,每计数至 2k 个字符,就反转这 2k 字符中的前 k 个…

【Mybatis】基于TypeHandler实现敏感数据加密

一、介绍 业务场景中经常会遇到诸如用户手机号,身份证号,银行卡号,邮箱,地址,密码等等信息,属于敏感信息,需要保存在数据库中。而很多公司会会要求对数据库中的此类数据进行加密存储。 敏感数据…

【JY】求?减隔震元件的滞回面积~

写在前文 为了求解等效阻尼比,通常我们需要求解滞回圈的面积,由于形状不是常见规整可直接套用长乘宽的形状,因此大多数人经常无从下手,或者分割分割再分割,一顿操作猛如虎,然后再得出结果。 计算方法 不论是…

私仓库Nexus

私仓库Nexus搭建 没有命令提示符tab键无效 #安装Linux命令补全工具 yum -y install bash-completion #执行bash或者reboot重启系统 bash#如果上述的命令执行了有问题可以执行功能下面的命令 yum install epel-release -y yum install bash-completion bash-completion-extras…

[资源推荐]langchain、LLM相关

之前很多次逛github或者去B站看东西或者说各种浏览资讯的情况,都会先看两眼然后收藏然后就吃灰的情况,那既然这样,不如多看几眼,看看是否真的能用得上,能用在哪,然后用几句话总结出来,分享出来&…

rsync 备份工具(附rsync+inotify 实时同步部署实例)

rsync 备份工具(附rsyncinotify 实时同步部署实例) 1、rsync概述1.1关于rsync1.2rsync 的特点1.3工作原理 2、rsync相关命令2.1基本格式和常用选项2.2启动和关闭rsync服务2.3下行同步基本格式2.4上行同步基本格式2.5免交互2.5.1指定密码文件2.5.2rsync-daemon方式2.…

推荐《Blue prison》

电视动画片《蓝色监狱》改编自金城宗幸原作、野村优介作画的同名漫画作品,于2021年7月31日宣布电视动画化的消息 [1]。该片由8Bit负责动画制作,于2022年10月9日起播出 [2],全24集。 该作评为Anime Corner 2022年年度体育动画 [24]&#xff0…

【MongoDB】MongoDB 的介绍和使用

1. 关系型与非关系型数据库 关系型数据库(RDBMS)和非关系型数据库(NoSQL)是两种不同类型的数据库管理系统。 关系型数据库是基于关系模型的数据库。它使用表(关系)来保存数据,并且通过事先定义…