用神经辐射场在大场景中漫游

news2025/1/11 5:41:41

目录

前言

介绍

背景

改进 NeRF 以编码大型场景

在训练数据中获得足够的观点

动态对象移除

应用

结论

参考


前言

最近一直在做NeRF相关工作,偶然看到台湾智慧实验室一篇文章(Hovering Around a Large Scene with Neural Radiance Field Taiwan AILabs),和我们设计方案比较相似,正好进行翻译,与大家共享。

视频一:用神经辐射场盘旋阿里山

https://youtu.be/CcnWuGi2Gh0

介绍

自 2020 年以来,神经辐射场 (NeRF) [1] 一直是计算机视觉领域的热门话题。通过使用神经网络对体积场景函数进行建模,NeRF 实现了新视图合成的最先进结果。

虽然与 NeRF 相关的方法在学术界很受欢迎,但它们尚未在产品上广泛实施以提供用户体验。本文旨在演示如何使用 Neural Radiance Field 为徘徊在大型景点周围的用户创造身临其境的体验。

背景

神经辐射场 [1] 是一种从现有图像预测新视图的前卫方法。传统的 3D 重建方法使用网格或网格来估计场景的 3D 表示,而 NeRF 将神经网络过度拟合到单个场景,并确定每个 3D 点从该场景中的新视点看起来如何。通过光线追踪和 L2 图像构建损失,该模型试图从具有已知相机姿势的场景的多个训练图像中预测场景中每个点的颜色和体积密度。

自 NeRF 发表以来,已有多项后续研究。通过渲染锥形截头体而不是射线,Mip-NeRF [2] 无需超级采样即可消除混叠。通过以不同于近景的方式对远景进行建模,Mip-NeRF 360 [3] 和 NeRF++ [4] 在“背景场景”中获得了更好的视觉效果。通过在局部场景中存储特征,Instant-NGP [5] 和 Point-NeRF [6] 允许模型对大场景进行编码并在训练期间快速收敛。通过组合多个神经辐射场,Block-NeRF [7] 允许模型编码更大的场景,例如旧金山的整个社区。

改进 NeRF 以编码大型场景

在神经辐射场中编码大型景点的第一步是选择适合我们用例的模型结构。尽管 NeRF 在小型 360 度场景上表现出色,但由于其简单的 MLP 编码方法,在 NeRF 中编码大型复杂场景并不可行。此外,Mip-NeRF 360 和 NeRF++ 不允许用户在场景周围悬停太远,因为远景的编码方式与近景不同。最后,虽然 Block-NeRF 能够很好地对大场景进行建模,但它也需要相当多的时间和计算能力来训练。另一方面,通过将可训练的局部特征存储在哈希表中,并以相同的方式处理场景的近处和远方部分,Instant-NeRF 可以创建一个大的神经辐射场,用户可以在其中自由悬停。因此,在这个项目中,我们将利用 Instant-NGP 在场景中存储局部特征的方法。此外,我们利用 COLMAP [8] 来计算输入图像的相机姿态。然而,要编码一个景点站点并让用户徘徊,我们仍然需要在训练数据中获得足够的视点并删除动态对象。

在训练数据中获得足够的观点

视频 2:Instant-NeRF 在从看不见的角度推断颜色时效果不佳

https://youtu.be/gUkcSBVq-Wo

视频 3:我们的方法从多个角度提高了图像质量

https://youtu.be/_Q--G20K0W8

与传统的 3D 重建方法不同,神经辐射场允许物体从不同角度以不同颜色出现。然而,Instant-NeRF 在从看不见的角度推断颜色方面效果不佳(参见视频 2)。因此,要在 Instant-NeRF 中对场景进行编码,我们需要一种拍摄策略,使我们的模型能够从多个角度进行观察。

传统上,Instant-NeRF 假设所有训练图像都指向一个共同的焦点。然而,我们发现这种拍摄策略最适合编码对象,而不是大场景。在拍摄大型场景时,我们可能并不总是在图像之间有一个可见的共同焦点。此外,我们可能需要更灵活的技术来对大型复杂场景进行编码,因为它们通常包含更复杂的对象和遮挡区域。

为了获得足够多的不同角度,我们开发了一种新的拍摄透视输入图像的拍摄方法。为了详细说明,我们都围绕场景拍摄 360° 内部视频和不同高度的电影,以便模型有足够的信息来预测不同角度的颜色。然后我们以每秒 2 帧的速度对视频进行采样,以确保 COLMAP 获得足够的通用特征来计算相机姿势。

此外,我们的系统支持360°视频的输入。传统上,Instant-NeRF 和 COLMAP 仅支持透视输入数据。据我们所知,我们是第一个使用 360° 视频训练 Instant-NeRF 的公司。一般来说,人们不会考虑适合 Instant-NeRF 训练的前向行走 360° 视频,因为即使没有遮挡空间,它们也缺乏共同的焦点。然而,我们发现 360° 视频可以为大场景编码带来很好的结果,因为它满足两个条件:COLMAP 具有足够的通用特征来匹配帧,Instant-NeRF 具有用于插值颜色的各种训练数据对于空间中的每个点。在使用来自 Taiwan Traveler 的 360° 视频时,我们首先将采样的全景视图转换为透视图像。一种常见的方法是将球形 360° 图像投影到六面立方体贴图上。我们发现 COLMAP 可以准确估计立方体贴图图像的相机位姿。因此,我们可以将等距柱状图像转换为 Instant-NeRF 支持的格式并产生高质量的结果。此外,我们提供了在室外场景中转储垂直图像的选项,因为它们通常包含很少的场景信息,并且可能会因误导相机姿势而破坏模型。对于 360° 视频,我们发现使用更简单的拍摄技术可以获得更好的效果。

图 1:将 360° 等距柱状图像(左)转换为立方体贴图(右)。立方体贴图中的垂直图像(上下图像)通常包含较少的场景信息

图2:透视(左)和360°(右)拍摄方式,绿色金字塔为相机位置

动态对象移除

在对热门网站进行编码时,场景中很可能会有很多人或汽车在四处走动。移动对象对 Instant-NeRF 和 COLMAP 来说可能是一个挑战,因为它们都假设输入数据是静态的。

为了解决这个问题,我们利用预训练的图像分割模型 DeeplabV3 [9] 来掩盖流行的移动物体,例如人和汽车。根据我们之前的工作 [10],我们还可以获得摄影师的面具。然后,在训练 Instant-NeRF 期间提取用于计算相机姿势的特征和光线追踪时,我们忽略了那些被遮盖的对象。

图 3:使用 DeeplabV3 屏蔽流行的动态对象

应用

由于能够在拍摄视频后编辑摄像机路径,导演现在可以仅基于一组训练图像创建许多具有不同摄像机路径的新颖视频。我们集成了开源 WebGL 点云查看器 Potree[11] 和 Instant-NeRF 来开发一个允许创作者编辑所需相机运动的工作室。具体来说,在对整个旅游景点进行编码后,Potree 将 COLMAP 输出的稀疏点可视化,以便创作者可以分配相机路径并使用工作室制作身临其境的悬停视频。

https://youtu.be/ZrQiJOXWdDQ

https://youtu.be/EtnGwrjsHJ8

视频 6、7:在 Potree 中分配相机路径(上),然后渲染具有新奇视角的视频(下)

为了实现 Instant-NeRF 以获得实时的交互式体验,我们在具有高 GPU 内存的本地设备上部署了 Instant-NeRF。此外,我们可以通过结合人体姿态估计让用户身临其境地在场景中飞行。

结论

在这篇文章中,我们演示了如何在神经辐射场中对大型场景进行编码,并让用户随后编辑相机路径或以交互方式绕场飞行。我们通过开发一个管道来实现它,该管道可以将 360 度和透视视频转换为具有新颖路径的新视频。我们还提供了有关编码大场景的拍摄技术的指南,并解决了在现场实施神经辐射场时遇到的常见问题,例如路径分配和动态对象移除。

https://youtu.be/soZG65RNRXI

https://youtu.be/tj-_r8oxejM

https://youtu.be/saqYu1DhQbc

https://youtu.be/4B5Q-AfUmQE

视频8~11:用Instant-NeRF 盘旋台湾著名旅游景点。从上到下分别是高雄驳二艺术特区、香山游客中心、台北车站、日月潭

参考

  1. Ben Mildenhall and Pratul P. Srinivasan and Matthew Tancik and Jonathan T. Barron and Ravi Ramamoorthi and Ren Ng. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV 2020
  2. Jonathan T. Barron, Ben Mildenhall, Matthew Tancik, Peter Hedman, Ricardo Martin-Brualla, and Pratul P. Srinivasan. (2021). Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields. CVPR 2021
  3. Jonathan T. Barron and Ben Mildenhall and Dor Verbin and Pratul P. Srinivasan and Peter Hedman (2022). Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields. CVPR 2022
  4. Kai Zhang, Gernot Riegler, Noah Snavely, Vladlen Koltun (2021). NeRF ++: Analyzing and Improving Neural Radiance Fields. arXiv:2010.07492
  5. Thomas Muller, Alex Evans, Christoph Schied, and Alexander Keller (2022). Instant Neural Graphics Primitives with a Multiresolution Hash Encoding. ACM Trans. Graph. July 2022
  6. Qiangeng Xu, Zexiang Xu, Julien Philip, Sai Bi, Zhixin Shu, Kalyan Sunkavalli, Ulrich Neumann (2022). Point-NeRF: Point-based Neural Radiance Fields. CVPR 2022
  7. Matthew Tancik, Vincent Casser, Xinchen Yan, Sabeek Pradhan, Ben Mildenhall, Pratul P. Srinivasan, Jonathan T. Barron, Henrik Kretzschmar (2022). Block-NeRF: Scalable Large Scene Neural View Synthesis. CVPR 2022
  8. Schonberger, Johannes Lutz and Frahm, Jan-Michael. (2016) Structure-from-Motion Revisited. CVPR 2016
  9. Liang-Chieh Chen and Yukun Zhu and George Papandreou and Florian Schroff and Hartwig Adam. (2018) Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation. ECCV 2018
  10. Taiwan AI Labs. The Magic to Disappear Cameraman: Removing Object from 8K 360° Videos (2021)
  11. Potree, WebGL point cloud viewer for large datasets, at potree.org

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/359424.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

系列三、docker相关指令

一、docker指令 1.1、查看docker详细信息 docker info 1.2、查看docker版本 docker version 1.3、帮助命令 docker --help 二、images指令 2.1、查看本地仓库中有哪些镜像 docker images 2.2、下载新的镜像 # 语法 docker pull 镜像名:版本号# 案例 docker pull mysql…

详解CanNM配置-CanNmPnEnabled参数有什么用?

总目录链接==>> AutoSAR入门和实战系列总目录 @学前问答: CanNmPnEnabled是什么含义? CanNmPnEnabled会对接收NM PDU 有什么影响 CanNmAllNmMessagesKeepAwake是干嘛的? 文章目录 1 CanNmPnEnable配置解析2 答疑解析1 CanNmPnEnable配置解析 CanNmPnEnable配置的参…

camera 硬件基本知识

参考博客:1.【Camera专题】Qcom-你应该掌握的Camera调试技巧2_c枫_撸码的日子的博客-CSDN博客_outputpixelclock 2.浩瀚之水_csdn的博客_CSDN博客-深度学习,嵌入式Linux相关知识汇总,Caffe框架领域博主 3.一个早起的程序员的博客_CSDN博客-FPGA,PCIe应用实战,PCI-E…

windows 系统 同时安装启动 多个版本的 MySQL

目录一 安装MySQL8.01.0 下载MySQL8.0版本1.1 配置配置文件1.2 注册服务1.3 修改密码二 安装MySQL5.72.0 下载MySQL5.7版本2.1 配置配置文件2.2 注册服务2.3 启动服务并修改密码在同一台 windows 上安装不同版本的MySQL, 这里表示环境干净未安装MySQL的教程.如安装过请先百度搜…

jvm监控进程内存分布

线上经常内存爆满,导致设备掉线,进行排查14894 进程ip Pidjstat -gcutil 14894 1000 -1 jvm 内存分布%jmap -histo:live 14894 | head -50 jvm 存活的实例对象 前50个jmap -histo:live 14894 >> heap.txt jvm 存活的实例对象 输出成文件jmap -dump…

操作系统线程

进程那一章,我们留下了一个问题 第一个cpu调用进程,进程调用i/o设备,主动进入ready 队列 第二个cpu将程序执行时间平均分时,进程执行时间到 第三个fork函数,我们上一章的lab有实践,可以看出是父进程主动条用…

数字化转型下的园区运营如何才能智慧起来?推荐快鲸智慧园区系统

在数字化转型深入推动的背景下,“大数据”、“互联网”等技术不断推动着传统产业,园区运营所产生的业务数据与日俱增。数据作为数字化转型的核心要素,如果不对其进行分析整理,从中提取有价值的信息,数据的价值便无法得…

CS144-Lab1

实验架构 TCP实施中模块和数据流的排列 : [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pmRfy6Va-1676857163260)(null)] 字节流是Lab0。TCP的工作是通过不可靠的数据报网络传输两个字节流(每个方向一个),以便写入连接一侧套接字的字…

在superset中快速制作报表或仪表盘

在中小型企业,当下需要快速迭代、快速了解运营效果的业务,急需一款开源、好用、能快速迭代生产的报表系统。 老板很关心,BI工程师很关心,同时系统开发人员也同样关心,一个好的技术选型往往能够帮助公司减少很多成本&a…

软件持续测试的未来题】

测试是软件开发生命周期(SDLC)的重要组成部分。SDLC 的每个阶段都应包含测试,以获得更快的反馈并提高产品质量。如果以有效的方式实施和使用测试自动化,那么它可以为您带来出色的结果,而持续测试是正确的方法.。预计在2018-2023 年的预测期内…

CCNP350-401学习笔记(251-300题)

251、 Which IPv6 OSPF network type is applied to interface Fa0/0 of R2 by default? A. multipointB. broadcast C. Ethernet D. point-to-point 252、Which EIGRP feature allows the use of leak maps? A. neighborB. Stub C. offset-list D. address-family 253、W…

IMS应用领域|IMS连接器系统使自动驾驶成为可能

IMS连接器系统使自动驾驶成为可能极高的创新力和绝对的产品质量:作为高频接插件接口的创新性开发合伙人,我们的产品满足汽车工业对信息娱乐、娱乐、远程信息处理技术、车载电脑和智能汽车天线等不同产品解决方案的多种要求。我们为确保系统的可靠性做出了…

【学习笔记】Docker(一)

Docker为什么会出现?问题:环境配置最初开发上线都需要配置,并且非常麻烦。每一个机器都需要部署环境——费时费力、我在我的电脑上可以运行、版本更新,导致服务不可用传统:开发打包jar包交给运维来做现在:开…

面试经常被问悲观锁和乐观锁?什么是cas?来我花3分钟时间告诉你

锁大家都知道吧,多线程访问资源会存在竞争,那么就需要加锁进而让多个线程一个一个访问。 比如有一个房间,一次只能进一个人,现在有十个人都想进去怎么办? 对,加锁。拿一把钥匙,谁抢到钥匙谁就…

5.4 BGP地址聚合

5.3.1配置BGP地址聚合 1. 实验目的 熟悉BGP地址聚合的应用场景掌握BGP地址聚合的配置方法2. 实验拓扑 实验拓扑如图5-4所示: 图5-4:配置BGP地址聚合 3. 实验步骤 (1)配置IP地址 R1的配置 <Huawe…

skywalking window版使用

文章目录 目录 文章目录 前言 一、skywalking 二、使用步骤 2.1 使用mysql持久化监控数据 2.2 接入到idea的单个微服务和多个微服务 2.3 自定义skywalking的链路追踪 总结 前言 skywalking是一个国产开源框架&#xff0c;是分布式系统的应用程序性能监视工具&#xff0c;专为…

python基于django电影院购票系统(含选座功能

可定制框架:ssm/Springboot/vue/python/PHP/小程序/安卓均可开发 目录 1 绪论 1 1.1课题背景 1 1.2课题研究现状 1 1.3初步设计方法与实施方案 2 1.4本文研究内容 2 2 系统开发环境 4 2.项目介绍影城管理系统的主要使用者分为管理员和用户&#xff0c;实现功能包括管理员&…

UVM实战--加法器

前言 这里以UVM实战&#xff08;张强&#xff09;第二章为基础修改原有的DUT&#xff0c;将DUT修改为加法器&#xff0c;从而修改代码以使得更加深入的了解各个组件的类型和使用。 一. 组件的基本框架 和第二章的平台的主要区别点 &#xff08;1&#xff09;有两个transactio…

全15万字丨PyTorch 深度学习实践、基础知识体系全集;忘记时,请时常回顾。

✨ ✨我们抬头便看到星光&#xff0c;星星却穿越了万年. ✨ ✨ &#x1f3af;作者主页&#xff1a;追光者♂ &#x1f338;个人简介&#xff1a;在读计算机专业硕士研究生、CSDN-人工智能领域新星创作者&#x1f3c6;、2022年度博客之星人工智能领域TOP4&#x1f31f;、阿里云…

国产哪种蓝牙耳机最好?口碑最好的国产蓝牙耳机推荐

随着近几年蓝牙耳机的飞速发展&#xff0c;国产蓝牙耳机也逐渐突破技术壁垒&#xff0c;被更多用户熟知、认可。但&#xff0c;国产蓝牙耳机品牌的多样化&#xff0c;也为人们的选择增添了不少困难。那么&#xff0c;国产哪种蓝牙耳机最好&#xff1f;下面&#xff0c;我来给大…