OR-NeRF论文笔记

news2025/1/11 11:14:21

OR-NeRF论文笔记

文章目录

  • OR-NeRF论文笔记
  • 论文概述
  • Abstract
  • 1 Introduction
  • 2 Related Work
  • 3 Background
  • 4 Method
    • 4.1 Multiview Segmentation
    • 4.2 Scene Object Removal
  • 5 Experiments
    • Datasets
    • Metrics
    • Multiview Segmentation
    • Scene Object Removal
  • 6 Conclusion

论文概述

目的:与RO-NeRF的任务一致,均为3d object removal任务。但他支持单个视图上通过用户给的点或文本提示移除3D物体。

方法:通过三维几何和稀疏对应关系将用户注释扩散到所有视图,从而确保了三维一致性并减轻了处理负担。然后,应用最新的二维分割模型 Segment-Anything (SAM) 来预测mask,并使用二维内绘模型(LaMa)来生成颜色监督。最后,我们的算法应用了深度监督和感知损失,以保持对象移除后几何和外观的一致性。

Abstract

用于新视图合成的神经辐射场(Neural Radiance Fields,NeRF)的出现提高了人们对三维场景编辑的兴趣。编辑的一项基本任务是从场景中移除目标,同时确保视觉合理性和多视图一致性。然而,当前的方法面临着一些挑战,如耗时的对象标记、移除特定目标的能力有限以及移除后的渲染质量受到影响。本文提出了一种名为 ORNeRF 的新型物体移除pipeline,它能在单个视图上通过用户给出的点或文本提示移除三维场景中的物体,与之前的作品相比,能在更短的时间内实现更好的性能。我们的方法通过三维几何和稀疏对应关系将用户注释扩散到所有视图,从而确保了三维一致性并减轻了处理负担。然后,应用最新的二维分割模型 Segment-Anything (SAM) 来预测mask,并使用二维内绘模型(lama)来生成颜色监督。最后,我们的算法应用了深度监督和感知损失,以保持对象移除后几何和外观的一致性。实验结果表明,与之前的研究相比,我们的方法能在更短的时间内实现更好的编辑质量,同时兼顾质量和数量。

1 Introduction

NeRF在重建三维场景方面取得重大成果,最近研究将其功能扩展到三维场景编辑方面,其中一项重要的编辑操作是从三维场景中移除物体。这项任务的实际应用面临一些挑战,主要障碍在于如何准确定位不需要的物体,我们往往很容易对一张图片识别出不需要的物体,但要求用户对每个视图都进行标注是不切实际的。此外,删除后的多视图一致性和内容的合理性也是一个难题。

一些工作尝试解决上述问题,但结果并不令人满意。例如Object-NeRF 和 ObjectSDF对NeRF训练 分解成background和object,从而实现对特定的object进行渲染,然而,由于缺失对移除部分的监督,从而无法确保完成一个合理移除区域。NeRF-Object-Removal(RO-NeRF)和SPIn-NeRF使用了LaMa生成color和depth的先验知识,然后根据这些先验直接进行重建NeRF。虽然这两个方法对编辑质量得到提升,但是,RO-NeRF需要所有视角下的mask作为输入;而SPIn-NeRF使用一系列分割预处理,甚至涉及到网络训练,花大量时间为每个场景生成masks。DFFs应用了预训练的语言模型支持text-prompt编辑,通过从语言模型中提取出的向量特征在训练NeRF中对齐,可以消除对masks的依赖。但是,如果预训练的目标检测器效果不好,它将无法定位移除的区域。

我们提出了一个新的pipeline叫OR-NeRF,支持对单个图像的点和文本prompt,从3D场景中提出物体。优点在于多视角分割任务耗时更少,移除物体任务的效果优于以往方法。具体方法如下:

  1. Points prompt on a single view to other views: a point projection strategy by using COLMAP sparse reconstruction to find correspondences from 2D points to 3D sparse point cloud, and further projects 3D points to all 2D images with camera parameters.
  2. Use SAM to predict masks.
  3. Use 2D inppainting model LaMa to get color priors for the removal area.
  4. Scene object removal algorithm using TensoRF(backbone) with depth supervision and perceptual loss.

TensoRF is a SOTA model for improving rendering quality considering time and performace trade-off.

Time consuming: Generated at approximately two frames per second on an RTX 3090 GPU.

我们在多样的数据集上测试了多视角分割场景物体移除的效果。

Contributions:

  1. A novel pipeline for efficient object removal from 3D scenes, allowing for both points and text prompts on a single image.
  2. Experimental results demonstrate that our method achieves better editing quality and requires less time for multiview segmentation than previous methods, as evidenced by both quality and quantity analyses.

在这里插入图片描述

2 Related Work

  1. Multiview Segmentation

2D分割被研究的很透彻,但3D场景下的分割往往被忽视,尽管它像3D编辑这样的下游任务有着关键作用。

  • 有几个自监督方法被提出,但他们常常产生不准确的masks,很难应对复杂场景。
  • 为了应对这些挑战,半监督策略仅需部分标注,或用户提供一些合理的prompt。
  • Semantic NeRF传播这部分labels给稠密语义分割,利用一些in-place就地标注,预测语义label并渲染。
  • NeRF和SPIn-NeRF进一步创建了一个完整的pipeline,利用一张图上的points prompt在所有视角生成Masks。它们利用了one-shot分割去预测一个初始的mask,再根据video分割去生成所有视角的masks,通过视图像序列为一个video。最后,他们利用semantic NeRF对masks进行refine。
  • 然而,以上提到的方法需要训练网络,消耗过多资源,无法保证一个准确的mask,复杂的框架往往会积累错误
  1. Scene Object Removal

NeRF有很多3D场景编辑的任务,往往聚焦在多种多样的编辑类型,包括了纹理编辑、几何编辑、物体-中心编辑,如移除物体、甚至是多种操纵方式。

  • Object-NeRF和ObjSDF
    • 分解了NeRF training为背景和物体两个分支,支持对特定的物体进行渲染(通过设定物体ID)。
    • 但是他们会在移除区域生成黑色空洞,因为在训练过程中没有对删除部分的监督/先验知识。
  • NeRF-In [37], NeRF-ObjectRemoval [9], and SPIn-NeRF
    • 利用了2D inpainting方法LaMa获取移除部分的先验知识,在删除物体后直接由这些先验知识重建场景。
    • 虽然实现了更好的渲染效果,但这些方法需要较高的preconditions,例如标注/生成所有视角的masks,这需要依赖昂贵的时间和硬件资源。
  • Combine pre-trained language models
    • 支持text-prompt的编辑方式,因此不对masks有需求。
    • 但是,移除区域的渲染效果很差,因为没有算法学习删除后的pixel value。

3 Background

  1. NeRF
  2. SPIn-NeRF
    1. 用户对一个视角标注一组点。
    2. 结合一系列系列分割方法获得所有视角下的masks。
    3. 使用2D inpainting model LaMa进行mask生成color和depth的先验。
    4. 删除物体后的场景将由改进后的NeRF(depth监督+感知loss)与这些先验直接对其重建。

4 Method

4.1 Multiview Segmentation

[通俗易懂]

在这里插入图片描述

4.2 Scene Object Removal

在这里插入图片描述

  • Color Loss
    • 在这里插入图片描述

    • R表示训练的批量大小。两个C (r) 分别是GT和rendered的RGB图像的pixels。

  • Depth Loss(geometric consistency
    • 在这里插入图片描述

    • 在这里插入图片描述

    • z表示从当前3D位置到相机位置的距离。

  • Perceptual Loss(exhibit inconsistency)
    • 在这里插入图片描述

    • 聚焦于masked区域的perceptual loss。

5 Experiments

Datasets

  • 从不同的3D重建数据集中选择12个场景,包括了NeRF LLFF data, IBRNet data [51], and LLFF real-world data。场景选择时包含了不同类型的场景和不同的移除操作类型(例如slogans的灵活度很高)。
  • 由于3D重建数据集中不包含物体masks的GT,我们将SPIn-NeRF数据集合并,它包含了人工打标的物体masks以及物体移除后的场景。
  • 对于多视角分割的评估,利用了SPIn-NeRF数据集中所有的10个场景。
  • 对于场景物体移除的评估,利用了SPIn-NeRF数据集中的8个场景(删除两个重复场景,确保物体的布局多样化)

Metrics

  1. 多视图分割任务的指标
    1. Acc(pixel-wise accuracy):预测类别正确的像素数占总像素数的比例。
    2. IoU(intersection over union):交并比。
  2. 3D场景物体移除任务的指标(与移除后的GT对比)
    1. PSNR(peak signalto-noise ratio):峰值信噪比
    2. LPIPS(learned perceptual image patch similarity):感知图像块相似性
    3. FID(Frechet inception distance):FID 分数

Multiview Segmentation

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Scene Object Removal

  • dir:直接用LaMa先验训练NeRF
  • dp:部分深度
  • da:全部深度
  • lpips:全部深度+使用感知损失
    在这里插入图片描述
    在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

6 Conclusion

  1. 针对3D场景下的物体移除任务,提出了一个新的pipeline OR-NeRF,支持对单个视角的点/文本prompt。
  2. 强调了方法在渲染质量和时间消耗上的优势。
  3. 缺点是inpainting model的能力,更鲁棒的2D图像修复技术,例如基于diffusion的方法能够实现更合理的物体修复结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1343025.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

resnet18

ResNet18的基本含义是,网络的基本架构是ResNet,网络的深度是18层。但是这里的网络深度指的是网络的权重层,也就是包括池化,激活,线性层。而不包括批量化归一层,池化层。 transforms.RandomCrop(32, pa…

悔不该用中文作为Windows的用户名啊~

前言 汉字在中华文明已经有了几千年的历史,小伙伴们所使用名字更是伴随了自己一生。所以小白们在拿到自己的新电脑,总会想着把自己的中文名字设置为电脑的用户名,这样更能显示出那是自己的专属电脑! 一开始小白也是这么想的&…

Unity中Shader裁剪空间推导(在Shader中使用)

文章目录 前言一、在Shader中使用转化矩阵1、在顶点着色器中定义转化矩阵2、用 UNITY_NEAR_CLIP_VALUE 区分平台矩阵3、定义一个枚举用于区分当前是处于什么相机 二、我们在DirectX平台下,看看效果1、正交相机下2、透视相机下3、最终代码 前言 在上一篇文章中&…

迁移Ubuntu报错问题

问题描述: 使用LxRunOffline-v3.5.0-mingw迁移Ubuntu至非系统盘时,出现如下报错 ‘Couldn’t set the case sensitive attribute of the directory “\?\C:\Users\xxx\AppData\Local\Packages\CanonicalGroupLimited.UbuntuonWindows_79rhkp1fndgsc\Loc…

基于策略模式和简单工厂模式实现zip、tar、rar、7z四种压缩文件格式的解压

推荐语 这篇技术文章深入探讨了基于策略模式和简单工厂模式实现四种常见压缩文件格式的解压方法。通过阅读该文章,你将了解到如何利用这两种设计模式来实现灵活、可扩展的解压功能,同时适应不同的压缩文件格式。如果你对设计模式和文件处理感兴趣或刚好…

【ES】es介绍,使用spring-boot-starter-data-elasticsearch整合的ES来进行操作Es

文章目录 倒排索引(Inverted Index)和正排索引(Forward Index)es和MySQL对比IK分词器的总结mapping映射使用springboot整合的ES来进行操作Es1. 实体类中添加注解2. 编写Repository层3. 通过Repository进行增删改查 倒排索引&#…

学习Vue的key作用和原理

今天主要学习了列表渲染和key的作用和原理,先来说说列表渲染,顾名思义想要渲染列表最快的方式就是使用for循环,我们要学习的就是Vue中对标签实现for循环的语法,它和我们传统的js语法有些不同,它是先要有Vue实例中data的…

力扣热题100道-双指针篇

文章目录 双指针283.移动零11.盛最多水的容器15.三数之和42.接雨水 双指针 283.移动零 给定一个数组 nums,编写一个函数将所有 0 移动到数组的末尾,同时保持非零元素的相对顺序。 请注意 ,必须在不复制数组的情况下原地对数组进行操作。 …

C语言 volatile关键字

volatile关键字介绍 volatile 是一个关键字,用于修饰变量,表示该变量是易变的,即可能在任何时候被意外地改变。在多线程编程中,当多个线程同时访问同一个变量时,由于线程之间的交互和优化,可能会导致变量的…

亚信安慧AntDB数据库——通信运营商核心系统的全面演进

AntDB数据库源自通信运营商核心系统,经过15年的平稳运行和不断演进,成功跟随通信技术的升级步伐,逐步迈向5G时代,并且在这期间完成了8次大版本的迭代,为行业树立了技术领先的典范。其独特之处在于具备超融合架构&#…

vue本地缓存搜索记录(最多4条)

核心代码 //保存到搜索历史,最多存四个 item.name和item.code格式为:塞力斯000001var history uni.getStorageSync(history) || [];console.log("history", history)var index history.findIndex((items) > {return item.name items.nam…

通过nginx配置防御web漏洞

一、常见web漏洞 二、nginx防御策略: 要使用Nginx配置防御Web漏洞,可以采取以下措施: 禁用不必要的HTTP方法:Nginx默认启用了许多HTTP方法,如PUT、DELETE等。可以通过在Nginx配置中禁用不必要的HTTP方法来减少潜在的安…

Vue - 使用Element UI Upload / importExcelJs进行文件导入

1 情景一 需求背景:后端配合,点击"导入"按钮,弹出“导入”弹窗,将电脑本地Excel表格数据导入到页面中表格位置(需要调用后端接口),而页面中表格通过后端接口获取最新数据。 实现思路…

学python一定要下载python吗,学python都需要什么软件

大家好,本文将围绕想学python都要下载什么软件展开说明,初学python需要安装什么软件是一个很多人都想弄明白的事情,想搞清楚学python一定要下载python吗需要先了解以下几个事情。 工欲善其事必先利其器。初学者在学Python的时候,往…

雷军称小米汽车不可能卖 9 万 9;杭州破获重大勒索病毒案丨 RTE 开发者日报 Vol.116

开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE (Real Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文…

thinkphp+vue_mysql汽车租赁管理系统1ma2x

运行环境:phpstudy/wamp/xammp等 开发语言:php 后端框架:Thinkphp5 前端框架:vue.js 服务器:apache 数据库:mysql 数据库工具:Navicat/phpmyadmin 课题主要分为三大模块:即管理员模块、用户模块…

优维携手深职大共建“中国高校‘双碳’技能仿真操作系统”!

优维“双碳”战略合作高校 优维科技与深圳职业技术大学碳中和技术研究院(深职碳研院)签署战略合作协议,深化产学研,聚力创新“双碳”发展。在“双碳”目标大背景下,优维科技和深职碳研院将携手共同开发中国高校“双碳…

Django(四)

1.数据库操作 MySQL数据库 pymysql import pymysql# 1.连接MySQL conn pymysql.connect(host"127.0.0.1", port3306, userroot, passwd"root123", charsetutf8, dbunicom) cursor conn.cursor(cursorpymysql.cursors.DictCursor)# 2.发送指令 cursor.…

{MySQL} 数据库约束 表的关系 新增删除 修改 查询

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、数据库约束1.1约束类型:1.2 NULL约束1.3unique 唯一约束1.4 DEFAULT:默认值约束1.5 PRIMARY KEY:主键约束1.6 FOREIGN K…

Flowable中6种部署方式

1. addClasspathResource src/main/resources/processes/LeaveProcess.bpmn20.xml Deployment deploy repositoryService.createDeployment().name("请假审批").addClasspathResource("processes/LeaveProcess.bpmn20.xml").deploy();2. addInputStream…