3D 生成重建016-SA3D从nerf中分割一切

news2025/1/11 12:52:38

3D 生成重建016-SA3D从nerf中分割一切


文章目录

    • 0 论文工作
    • 1 方法介绍
    • 2 实验结果

0 论文工作

1 SAM的背景和目标:
SAM 是一种强大的二维视觉基础模型,能够在 2D 图像中进行任意物体的分割。传统上,SAM 在二维空间表现出色,但其无法直接应用于三维物体分割。
本文的目标是将 SAM 的能力扩展到 3D 物体分割,避免了 3D 数据采集和标注的昂贵过程。为了实现这一目标,SA3D 利用 Neural Radiance Field (NeRF) 作为桥梁,将 2D 图像和 3D 空间进行连接。
2. 关键技术和创新:
NeRF 作为先验:
本文提出的方法通过利用 NeRF 学到的密度分布,将 SAM 得到的二维掩膜从一个视角映射到三维空间。NeRF 提供了从多视角图像到三维场景的连接,因此可以为不同视角之间的物体分割提供一致的指导。通过在 NeRF 中学习的视角一致的特征,可以在不同的视角中重建物体的三维掩膜。
掩膜反向渲染:首先从一个视角使用 SAM 对目标物体进行分割,得到一个二维掩膜。然后,通过反向渲染,将二维掩膜投影到 3D 空间,构建三维物体的体素掩膜。在这个过程中,NeRF 提供了密度信息来指导如何将二维掩膜有效地映射到三维空间。
自我提示:在完成当前视角的掩膜渲染后,SA3D 自动从 NeRF 渲染出的二维掩膜中提取有效的提示信息,并将其作为输入传递给 SAM,进行下一视角的分割。这个过程是交替进行的,直到通过多个视角生成完整的三维掩膜。
自我提示在简单场景中是一个可行的方法。但是场景比较复杂的话,比图说每个视图上有多个同类型的物体,在跨视图进行逆映射的时候,就会出现不一致。后面会有一些论文去优化这个问题。
paper
github

1 方法介绍

在 SA3D (Segment Anything in 3D) 方法中,自我提示(Self-Prompting) 是一种关键的技术,用来通过多视角的迭代过程生成三维掩膜。具体来说,自我提示的实现过程可以分为以下几个步骤:
初始二维掩膜生成:
1、给定一个视角中的目标物体,用户提供一个手动的粗略分割提示(例如一些粗略的点或框)。使用 SAM(Segment Anything Model)对这个视角中的物体进行分割,生成一个二维掩膜(mask)。
2、掩膜反向渲染。在生成了二维掩膜后,使用 NeRF(神经辐射场)技术将该掩膜投影到三维空间中。这一步是通过 反向渲染(inverse rendering)来完成的,即根据二维掩膜的密度分布信息,估计物体在三维空间中的分布。具体来说,NeRF 学习了一个三维场景的密度和颜色分布,通过这些信息可以将二维掩膜“反向映射”到三维空间中的体素网格,从而得到目标物体的三维掩膜。
3、跨视角自我提示:反向渲染得到三维掩膜后,SA3D 会自动生成用于下一视角的提示信息。这一步就是 自我提示 的关键。从 NeRF 渲染出的三维掩膜,通过与当前视角的关系,提取可靠的提示。具体来说,NeRF 渲染出的三维掩膜会被转换为该视角的二维图像,并与其他视角进行对比,寻找在其他视角中可能可靠的目标物体区域。这个过程类似于“从一视角生成另一视角的分割提示”。通过将已经生成的三维掩膜投影到新的视角,自动生成的提示信息可以帮助 SAM 在新的视角中进行物体分割。
4、循环迭代:自我提示的过程是 交替迭代 的。在每一轮迭代中,首先利用当前视角的二维掩膜通过 NeRF 渲染到三维空间,再利用三维掩膜在不同视角中生成新的二维分割提示,然后传递给 SAM 进行分割。随着迭代次数的增加,目标物体的三维掩膜逐渐变得更加精确和完整,因为每次迭代都会利用来自不同视角的信息进行完善。
自动生成提示:通过利用 NeRF 渲染出的三维掩膜,SA3D 自动提取出下一视角的分割提示,而无需人工干预。这意味着整个分割过程可以在没有更多人工输入的情况下继续进行。
跨视角信息利用:通过在不同视角间的交替提示,系统能够在多视角下自我调整并优化三维分割结果。
总结:自我提示的实现本质上是一种通过 NeRF 渲染的三维掩膜来生成可靠提示的过程,并通过跨视角的反馈和迭代逐步完善目标物体的三维分割结果。这使得 SA3D 能够在多视角间利用信息自我引导,快速生成高质量的三维物体分割,而无需人工提供多个视角的详细标注。
在这里插入图片描述

2 实验结果

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2254832.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Leetcode—374. 猜数字大小【简单】

2024每日刷题(202) Leetcode—374. 猜数字大小 C实现代码 /** * Forward declaration of guess API.* param num your guess* return -1 if num is higher than the picked number* 1 if num is lower than the picked number* …

数字孪生与大型模型强强联合,共塑工业制造崭新前景

随着新一代信息技术与实体经济的加速融合,工业领域的数字化、智能化转型趋势愈发显著,孕育出一系列制造业数字化转型的新模式与新业态。在此背景下,数字孪生技术作为关键支撑力量,正在全球范围内迅速崛起并得到广泛应用&#xff0…

vue+mars3d点击图层展示炫酷的popup弹窗

展示效果 目录 一:叠加数据图层到地图上,此时需要使用bindPopup绑定popup 二、封装自定义的popup,样式可以自行调整 一:叠加数据图层到地图上,此时需要使用bindPopup绑定popup 这里我根据数据不同,展示的…

springboot利用easypoi实现简单导出Excel

vue springboot利用easypoi实现简单导出 前言一、easypoi是什么?二、使用步骤 1.传送门2.前端vue3.后端springboot 3.1编写实体类(我这里是dto,也一样)3.2控制层结尾 前言 今天玩了一下springboot利用easypoi实现excel的导出,以前…

Milvus attu - docker 使用 及 版本兼容

文章目录 版本查看attu 和 milvus 的兼容性Docker 加载attu docker 合并到 Milvus文件管理使用 docker compose 挂在 Milvus,登录 attu 出现报错: Error: Failed to connect to Milvus: Error: 1 CANCELLED: Call cancelled 于是检查兼容问题 版本查看 Milvus 版本发布: htt…

洛谷 P1957 口算练习题 C语言

题目: https://www.luogu.com.cn/problem/P1957 题目描述 王老师正在教简单算术运算。细心的王老师收集了 ii 道学生经常做错的口算题,并且想整理编写成一份练习。 编排这些题目是一件繁琐的事情,为此他想用计算机程序来提高工作效率。王老…

el-select 修改样式

这样漂亮的页面,搭配的却是一个白色风格的下拉框 ,这也过于刺眼。。。 调整后样式为: 灯红酒绿总有人看着眼杂,但将风格统一终究是上上选择。下面来处理这个问题。 分为两部分。 第一部分:是修改触发框的样式 第二部…

Proteus中添加新元件库

手上村:本来打算在Proteus中设计充电电路,发现软件自带的元器件库中没有我想要充电芯片。因此,看了其他大神的导入新的元器件步骤,建立自己的元器件库!自己也来记录一波!话不多说,赶紧上菜&…

数字IC前端学习笔记:脉动阵列的设计方法学(以串行FIR滤波器为例)

相关阅读数字IC前端_日晨难再的博客-CSDN博客https://blog.csdn.net/weixin_45791458/category_12173698.html?spm1001.2014.3001.5482 引言 脉动结构(也称为脉动阵列)表示一种有节奏地计算并通过系统传输数据的处理单元(PEs)网络。这些处理单元有规律地…

springboot mvn 打包,jar和资源文件分离打包

默认打包方式如下&#xff1a; <build><finalName>${project.artifactId}</finalName><plugins><plugin><groupId>org.springframework.boot</groupId><artifactId>spring-boot-maven-plugin</artifactId><execution…

5G CPE核心器件-基带处理器(三)

5G CPE 核心器件 -5G基带芯片 基带芯片简介基带芯片组成与结构技术特点与发展趋势5G基带芯片是5G CPE中最核心的组件,负责接入5G网络,并进行上下行数据业务传输。移动通信从1G发展到5G,终端形态产生了极大的变化,在集成度、功耗、性能等方面都取得巨大的提升。 基带芯片简…

【JavaWeb后端学习笔记】SpringBoot框架下Http请求参数接收

Http请求参数接收 1、简单参数2、实体参数3、数组参数4、集合参数5、日期参数6、Json格式参数&#xff08;常用&#xff09;7、路径参数&#xff08;常用&#xff09;8、接收请求参数常用的几个注解 Http请求能携带各种格式的请求参数。因此也就需要不同的接收方式。 1、简单参…

在 MacOS 上为 LM Studio 更换镜像源

在 MacOS 之中使用 LM Studio 部署本地 LLM时&#xff0c;用户可能会遇到无法下载模型的问题。 一般的解决方法是在 huggingface.co 或者国内的镜像站 hf-mirror.com 的项目介绍卡页面下载模型后拖入 LM Studio 的模型文件夹。这样无法利用 LM Studio 本身的搜索功能。 本文将…

Vue工程化开发中各文件的作用

1.main.js文件 main.js文件的主要作用&#xff1a;导入App.vue&#xff0c;基于App.vue创建结构渲染index.html。

Grule前端表单post后端执行grule引擎规则

Grule前端表单post后端执行grule引擎规则 编写前端表单和后端接口 编写test.go执行grule引擎规则 示例都是 go test 执行的测试代码&#xff0c;所以将里面的测试代码去除 由于之前 NumberExponentExample_test.go 已经验证可运行, 所以将 err 的异常处理去除 package mai…

Android hid 数据传输(device 端 )

最近一直在处理hid 数据需求&#xff0c;简而言之就是两台设备直接可以通过usb 线互相传递数据。 项目架构 为什么Device 端要采用HID&#xff08;人机接口设备&#xff09;的方式发送和接收数据呢&#xff1f; 主要是速度快&#xff0c;举个例子&#xff0c;就是鼠标移动&am…

【Unity基础】Unity中Transform.forward的详解与应用

在Unity中&#xff0c;Transform.forward 是一个常用属性&#xff0c;它表示物体的“前方”方向&#xff0c;即物体本地坐标系中 Z 轴&#xff08;蓝色轴&#xff09;在世界坐标系中的方向。它动态反映物体的旋转情况&#xff0c;非常适合用于移动、检测、方向控制等场景。 什么…

基于 RWKV 的视觉语言模型 VisualRWKV 被 COLING 2025 接收!

基于 RWKV 的视觉语言模型 VisualRWKV 被 COLING 2025 接收&#xff01; COLING&#xff0c;国际计算语言学会议&#xff08;International Conference on Computational Linguistics&#xff09;&#xff0c;是自然语言处理和计算语言学领域的顶级国际会议&#xff08;CCF 推…

如何加强游戏安全,防止定制外挂影响游戏公平性

在现如今的游戏环境中&#xff0c;外挂始终是一个困扰玩家和开发者的问题。尤其是定制挂&#xff08;Customized Cheats&#xff09;&#xff0c;它不仅复杂且隐蔽&#xff0c;更能针对性地绕过传统的反作弊系统&#xff0c;对游戏安全带来极大威胁。定制挂通常是根据玩家的需求…

斯坦福李飞飞《AI Agent:多模态交互前沿调查》论文

多模态AI系统很可能会在我们的日常生活中无处不在。将这些系统具身化为物理和虚拟环境中的代理是一种有前途的方式&#xff0c;以使其更加互动化。目前&#xff0c;这些系统利用现有的基础模型作为构建具身代理的基本构件。将代理嵌入这样的环境中&#xff0c;有助于模型处理和…