SAM2POINT：以zero-shot且快速的方式将任何 3D 视频分割为视频

SAM2POINT：以zero-shot且快速的方式将任何 3D 视频分割为视频

news2026/2/18 15:47:00

摘要

我们介绍 SAM2POINT，这是一种采用 Segment Anything Model 2 (SAM 2) 进行零样本和快速 3D 分割的初步探索。 SAM2POINT 将任何 3D 数据解释为一系列多向视频，并利用 SAM 2 进行 3D 空间分割，无需进一步训练或 2D-3D 投影。我们的框架支持各种提示类型，包括 3D 点、框和掩模，并且可以泛化到不同的场景，例如 3D 对象、室内场景、室外场景和原始 LiDAR。对多个 3D 数据集（例如 Objaverse、S3DIS、ScanNet、Semantic3D 和 KITTI）的演示凸显了 SAM2POINT 强大的泛化能力。据我们所知，我们提出了 3D 中 SAM 最忠实的实现，这可以作为未来快速 3D 分割研究的起点。

1 INTRODUCTION

在之前的工作中发现了三个主要问题，这些问题阻碍了他们充分利用 SAM 的优势：

2D-3D 投影效率低下。大多数现有作品将 3D 数据表示为其 2D 数据，作为 SAM 的输入，并将分割结果反投影到 3D 空间。
三维空间信息的退化。对 2D 投影的依赖会导致细粒度 3D 几何和语义的丢失，因为多视图数据通常无法保留空间关系。此外，2D 图像无法充分捕获 3D 物体的内部结构，从而严重限制了分割精度。
失去prompting灵活性。SAM 的一个引人注目的优势在于其通过各种提示选项进行交互的能力。不幸的是，这些功能在当前方法中大多被忽视，因为用户很难使用 2D 表示来指定精确的 3D 位置。
有限的域名可转移性。

概述SAM2POINT的三个功能：

Segmenting Any 3D as Videos. 用体素化来模拟视频。（体素化（Voxelization）：这是一种将三维物体或场景转换为体素（voxel）网格的技术。体素是三维空间中的像素（pixel），类似于二维图像中的像素。体素化可以将复杂的三维物体或场景简化为由体素组成的网格，便于计算机处理和渲染。）体素化3D的数据是这样的维度：w×h×l×3（这通常指的是一个三维图像数据的格式，其中 w 代表宽度（width），h 代表高度（height），l 可能代表深度（length）或者层数（layers），3 通常表示颜色通道数，比如 RGB（红绿蓝）。很像视频的格式w×h×t×3：这通常指的是视频数据的格式，其中 w 同样代表宽度，h 代表高度，t 代表时间（time），也就是视频的帧数，3 同样表示颜色通道数。
支持多种3Dprompts。3D points, bounding boxes, and masks。
可推广到各种场景。可以有效地分割单个对象、室内场景、室外场景和原始 LiDAR，突出了其跨不同领域的卓越可转移性。

2 SAM2POINT

2.1 3D DATA AS VIDEOS

我们的目标是将P转换为一种数据格式，一方面SAM 2可以以零样本的方式直接处理，另一方面可以很好地保留细粒度的空间几何形状。为此，我们采用3D体素化技术,体素化是在 3D 空间中有效执行的，从而避免了信息退化和繁琐的后处理。

如何将三维输入的体素化表示转换为可以被特定系统（SAM 2）处理的视频格式？

与视频格式的相似性：
- 体素化表示的格式与视频数据的格式 w×h×t×3非常相似，其中 t 代表时间帧数。
- 这种相似性使得体素化数据可以被视频处理系统直接处理

2.2 PROMPTABLE SEGMENTATION

1、3D Point Prompt

使用3D Point Prompt来辅助三维体素分割的过程。

①定义一个三维点提示 pp=(xp,yp,zp)，这个点在三维空间中作为一个锚点（anchor point）。

②定义三个正交的二维截面：以 pp 为锚点，定义三个相互垂直的二维截面。这些截面在三维空间中分别对应于三个不同的平面。

③分割三维体素：从这些二维截面开始，将三维体素沿着六个空间方向分割成六个子部分，分别是：前面、后面、左面、右面、上面和下面。

④将子部分视为不同的视频：将每个分割得到的子部分视为一个独立的视频，其中二维截面作为视频的第一帧，而 pp被投影为二维点prompt。

⑤应用 SAM 2 进行并行分割：使用 SAM 2 系统对这六个“视频”进行并行的分割处理。SAM 2 系统能够同时处理多个视频流，并对每个视频流进行分割。

⑥整合分割结果：将六个视频的分割结果整合起来，形成最终的三维掩码（mask）预测。这个掩码预测代表了三维空间中目标对象的分割结果。

2、3D Box Prompt

使用3D Box Prompt来辅助三维体素分割的过程。

①3D Box Prompt：定义一个三维盒子提示 bp=(xp,yp,zp,wp,hp,lp)其中 (xp,yp,zp)表示三维空间中的几何中心坐标，(wp,hp,lp) 表示盒子的宽度、高度和长度。

②使用几何中心作为锚点：将三维盒子的几何中心作为锚点，用于定义三维空间中的分割。

③表示三维体素为六个不同的视频：如前所述，将三维体素沿着六个空间方向分割成六个子部分，每个子部分被视为一个独立的视频。

④投影三维盒子到二维截面：对于每个方向的视频，将三维盒子 bp投影到相应的二维截面上，这个投影的盒子用作分割的二维提示点（box point）

⑤支持带有旋转角度的三维盒子：支持三维盒子带有旋转角度，例如 (αp,βp,γp)，这些角度分别代表绕 x、y、z 轴的旋转。对于带有旋转的三维盒子，采用投影后的盒子的边界矩形（bounding rectangle）作为二维提示。

⑥分割过程：在每个方向的视频上，使用投影得到的二维提示（无论是单个点还是边界矩形）来辅助分割过程。应用分割算法（如 SAM 2）对每个视频进行处理，以识别和分割出目标对象。

⑦整合分割结果：将六个方向的视频分割结果整合起来，形成最终的三维掩码（mask）预测。

3、3D Mask Prompt

①三维掩码提示（3D Mask Prompt）：定义一个三维掩码提示 Mp∈Rn×1Mp∈Rn×1，其中 nn 表示点的数量。每个点的值是 1 或 0，1 表示被掩码（masked）的区域，0 表示未被掩码（unmasked）的区域。

②使用质心作为锚点：将三维掩码提示的质心（center of gravity）作为锚点。质心是所有掩码区域点的加权平均位置，可以认为是掩码区域的几何中心。

③分割三维空间为六个视频：与之前的方法类似，将三维空间沿着六个空间方向分割成六个子部分，每个子部分被视为一个独立的视频。

④利用掩码提示与截面的交集：对于每个方向的视频，计算三维掩码提示与相应二维截面的交集，这个交集用作二维掩码提示（2D mask prompt）来辅助分割。

⑤分割过程：使用二维掩码提示来辅助分割算法（如 SAM 2）对每个视频进行处理，以识别和分割出目标对象。

⑥后处理步骤：这种类型的提示可以作为后处理步骤，用于提高之前预测的三维掩码的准确性。通过比较预测的掩码与掩码提示的交集，可以对预测结果进行微调，修正错误或不精确的部分。

⑦整合分割结果：将六个方向的视频分割结果整合起来，形成最终的三维掩码（mask）预测。

未完待续~~~

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2116634.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

ML19_GMM高斯混合模型详解

ML19_GMM高斯混合模型详解

1. 中心极限定理中心极限定理（Central Limit Theorem, CLT）是概率论中的一个重要定理，它描述了在一定条件下，独立同分布的随机变量序列的标准化和的分布趋向于正态分布的性质。这个定理在统计学中有着广泛的应用，尤其…

阅读更多...

算法篇_C语言实现霍夫曼编码算法

算法篇_C语言实现霍夫曼编码算法

一、前言霍夫曼编码（Huffman Coding）是一种广泛使用的数据压缩算法，特别适用于无损数据压缩。它是由David A. Huffman在1952年提出的，并且通常用于文件压缩和传输中减少数据量。霍夫曼编码的核心思想是使用变长编码表对源数据进…

阅读更多...

提升效率必备！学习awk命令，轻松搞定数据

提升效率必备！学习awk命令，轻松搞定数据

在日常的工作中，无论是数据处理、日志分析，还是格式化输出，AWK命令都是不可或缺的利器。AWK是一种强大的文本处理工具，能让你轻松处理复杂的数据，提升工作效率。本文将为你介绍AWK的基本功能及一些实用场景&#xff0c…

阅读更多...

树 --- 二叉树

树 --- 二叉树

树的物理结构和逻辑结构上都是树形结构。树形结构：由一个根和若干个子节点组成的集合。最外围的为叶子节点：只有前驱而没有后继。 （一）树的性质 • ⼦树是不相交的 • 除了根结点外，每个结点有且仅有⼀个⽗结点 •…

阅读更多...

每天五分钟玩转深度学习框架PyTorch：将nn的神经网络层连接起来

每天五分钟玩转深度学习框架PyTorch：将nn的神经网络层连接起来

本文重点前面我们学习pytorch中已经封装好的神经网络层，有全连接层，激活层，卷积层等等，我们可以直接使用。如代码所示我们直接使用了两个nn.Linear（），这两个linear之间并没有组合在一起，所以forward的之后，分别调用了，在实际使用中我们常常将几个神经层组合在一起…

阅读更多...

【EI会议征稿通知】第十一届机械工程、材料和自动化技术国际会议（MMEAT 2025）

【EI会议征稿通知】第十一届机械工程、材料和自动化技术国际会议（MMEAT 2025）

第十一届机械工程、材料和自动化技术国际会议（MMEAT 2025） 2025 11th International Conference on Mechanical Engineering, Materials and Automation Technology 本次大会旨在汇聚全球机械工程、材料科学及自动化技术的创新学者和行业专家&#xff0…

阅读更多...

使用 BentoML快速实现Llama-3推理服务

使用 BentoML快速实现Llama-3推理服务

介绍近年来，开源大模型如雨后春笋般涌现，为自然语言处理领域带来了革命性的变化。从文本生成到代码编写，从机器翻译到问答系统，开源大模型展现出惊人的能力，吸引了越来越多的开发者和企业投身其中。然而&#xff0…

阅读更多...

Subclass-balancing Contrastive Learning for Long-tailed Recognition

Subclass-balancing Contrastive Learning for Long-tailed Recognition

文章目录 SCL(supervised contrastive learning)1. 监督对比学习（SCL）的基本概念2. SCL的损失函数3. 长尾数据集的问题4. k-正样本对比学习（KCL）的引入5. 总结 SBCL举例说明：狗的分类关键点：划分为多个子类…

阅读更多...

4-1.Android Camera 之 CameraInfo 编码模板（前后置摄像头理解、摄像头图像的自然方向理解）

4-1.Android Camera 之 CameraInfo 编码模板（前后置摄像头理解、摄像头图像的自然方向理解）

一、Camera.CameraInfo Camera.CameraInfo 是用于获取设备上摄像头信息的一个类，它提供摄像头的各种详细信息，例如，摄像头的方向、是否支持闪光灯等，以下是它的常用属性 static int CAMERA_FACING_BACK：表示设备的后置…

阅读更多...

Protobuf库的使用

Protobuf库的使用

文章目录 Protobuf是什么Protobuf使⽤流程介绍ProtoBuf的使用创建.proto⽂件指定proto3语法package声明符定义消息（message）编译contacts.proto⽂件命令如下：序列化与反序列化的使⽤ Protobuf是什么 ProtoBuf（全称ProtocolBuffer…

阅读更多...

数字 FPV 革命 – DJI、Leadcore 和 Artosyn 的三角关系。

数字 FPV 革命 – DJI、Leadcore 和 Artosyn 的三角关系。

人们对 DJI、Caddx FPV 以及 HDZero 等公司最近推出的数字 FPV 系统的起源进行了大量的猜测和推测。随着 Avatar 系统的发布，也有许多人认为它要么使用与 DJI 相同的芯片组，要么是复制品或克隆品。在本文中，我将尝试揭开这一切的神秘面纱&…

阅读更多...

python spider novel

python spider novel

python msedgedriver 获取小说声明：只为学习/练习技术 from lxml import etree from selenium import webdriver from selenium.webdriver.edge.service import Service from selenium.webdriver.edge.options import Optionsimport time# 初始化EdgeOptions, 以…

阅读更多...

【系统规划与管理师】【案例分析】【考点】【答案篇】第4章 IT服务规划设计

【系统规划与管理师】【案例分析】【考点】【答案篇】第4章 IT服务规划设计

【问题篇】☞【系统规划与管理师】【案例分析】【考点】【问题篇】第4章 IT服务规划设计【移动端浏览】☞【系统规划与管理师】【案例分析】【模拟考题】章节考题汇总（第4章）（答案篇）（共38个知识点） 第4章…

阅读更多...

《数字信号处理》学习05-单位冲击响应与系统响应

《数字信号处理》学习05-单位冲击响应与系统响应

目录一，单位冲激响应二，LTI系统对任意序列的系统响应三，LTI系统的性质通过上一篇文章《数字信号处理》学习04-离散时间系统中的线性时不变系统-CSDN博客的学习，我已经知道了离散时间线性时不变系统（LTI&#x…

阅读更多...

基于 jenkins 的持续测试方案

基于 jenkins 的持续测试方案

CI/CD Continuous Integration; Continuous Deployment; 持续集成，将新代码和旧代码一起打包、构建；持续部署，将新构建的包进行部署；持续测试，将新代码、新单元测试一起测试；方案： 公有云DevO…

阅读更多...

Python 控制Chrome浏览器使用Selenium4操作点击百度搜索

Python 控制Chrome浏览器使用Selenium4操作点击百度搜索

前面我们讲到如何安装Selenium和ChromeDriver来驱动打开网页,现在我们有一个目的就是使用python来控制chrome浏览器打开百度并搜索直接先上调试好的代码 from time import sleepfrom selenium import webdriver from selenium.webdriver.common.keys import Keys from selen…

阅读更多...

2-88 基于matlab的四叉树加权聚焦多聚焦图像融合

2-88 基于matlab的四叉树加权聚焦多聚焦图像融合

基于matlab的四叉树加权聚焦多聚焦图像融合，的四叉树分解策略将源图像被分解成四叉树结构中具有最佳尺寸的块。在这个树形结构中，使用一种新的加权焦点测量方法（名为加权修正拉普拉斯之和）来检测焦点区域。可以很好地从源图像中提…

阅读更多...

1934. 数字游戏（number）

1934. 数字游戏（number）

代码 #include<bits/stdc.h> using namespace std; int main() {int ans0,i;string s;cin>>s;for(i0;i<7;i)if(s[i]1)ans;cout<<ans;return 0; } 记得点赞关注收藏！！！谢谢！！！

阅读更多...

基于huffman树的文件压缩项目以及相关测试

基于huffman树的文件压缩项目以及相关测试

前言项目采用Huffman编码的方式进行文件压缩与解压缩。主要原理是通过Huffman编码来表示字符，出现次数多的编码短，出现次数少的编码长，这样整体而言，所需要的bit位是减少的，就实现了文件压缩功能。读取文件中的字符出…

阅读更多...

基于大语言模型智能体的自主机器学习

基于大语言模型智能体的自主机器学习

文章介绍了MLR-Copilot框架，这是一种利用大型语言模型（LLMs）来自动化机器学习研究中创意生成、实验设计和实施过程的方法。该框架分为三个阶段： 首先通过阅读现有研究文献，使用LLM驱动的IdeaAgent来生成研究假设和实验…

阅读更多...

推荐文章

最新文章