NeRF室内重建对比:Nerfstudio vs. Luma AI vs. Instant-NGP

news2024/10/7 20:36:09

十年前,Matterport 改变了房地产业,让房地产买家可以进行数字旅游。 买家可以在房产内从一个点移动到另一个点并环顾四周。 与 2D 照片库相比,这是一个巨大的改进。 然而,买家仍然被房产内的一系列问题所困扰。

在这里插入图片描述

推荐:用 NSDT设计器 快速搭建可编程3D场景。

如今,神经辐射场 (NeRF) 是房地产可视化现实捕获的下一代发展。 这项新技术将使购房者能够在房间内走动,观察光线如何在空间中移动,并获得更加身临其境的空间感觉。

我决定测试目前可用的前 3 个 NeRF 软件包,看看哪一个最适合捕捉房间内部情况。 我测试了 Luma AI、Nerfstudio 和 Instant-NGP(Instant-NeRF)。 我保持测试简单,只是 NeRFed 我的厨房/餐厅区域。 我比较了易用性和输出质量。

1、测试方法

任何好的测试都是从有计划的方法开始的。 我尽力保持所有三个软件包之间的变量一致。 为了清楚起见,我将测试方法分为几个主要部分:

  • 图像采集
  • 图像预处理
  • 训练
  • 视频渲染
  • NeRF 质量比较

2、图像采集

我使用 iPhone 14 Pro 超广角镜头,设置为 4K/30fps。 我以垂直视频格式拍摄,以最大限度地增加在房间内每次经过时捕捉到的地板或天花板的数量。 空间有限,在一个更开放的房间里我会使用我的主摄像头。

超广角相机的一个缺点是它不具备光学稳定性。 我计划使用 DJI OM5 云台重新拍摄片段,以便在将来的比较中稍微稳定片段。 我在我的镜头中添加了一张示例图像,你可以在其中看到过度的模糊。 这对所有三个 NeRF 结果都有影响。
在这里插入图片描述

源视频图像模糊

最后,我以不同的高度和倾斜角度绕着房间走了多个圈,试图捕捉整个天花板和地板。

作为参考,你可以在此处观看源视频。

3、图像预处理

我使用 FFMPEG 在 PC 上执行图像提取。 Nerfstudio 和 Luma AI 都有自己的提取管道,但目标是将每个平台与完全相同的输入图像进行比较。 我每秒提取 4 帧,并将图像下采样到 1920x1080 — 结果是 503 个图像。 我进行了降采样以避免在 NeRF 训练期间耗尽 RTX 3090ti 上的 VRAM。 然而,这并不理想,本文的结论部分将对此进行详细介绍。

我将 COLMAP 用于 Instant-NGP 和 Nerfstudio。 我将处理模式设置为顺序来确定相机姿势。
在这里插入图片描述

在 Instant-NGP 中可视化视频漫游中的摄像机位置
Luma AI 有自己的相机姿态估计管道。 我将所有源图像压缩到一个文件夹中并将它们上传到 Luma AI。 由于大多数非科学家很难理解 COLMAP,因此该工作流程在预处理简便性方面显然是赢家。

此外,还可以上传高达 5GB 的视频或压缩的图像文件夹,让生活变得极其轻松。 你甚至可以在 Luma AI iPhone 应用程序中上传视频,而无需使用 PC。

Nerfstudio 通过自动决定从视频中提取多少图像,在消除你的猜测工作方面做得非常出色。 它会对图像进行降采样,因此无需将 4K 视频转换为 1080p。 我没有使用 Nerfstudio 管道进行此测试,以确保源数据与所有三个软件平台一致。

Instant-NeRF 使用我的批处理文件与 Nerfstudio 一样简单。 我只需将视频拖放到批处理文件中即可。 然而,我仍然需要将视频从 iPhone 传输到 PC,这很麻烦。 另外,如果没有我的批处理文件,Instant-NGP 是最糟糕的选择。

3、训练

我对每个平台的培训流程进行了细分:

Instant-NGP:数据经过 35,000 个步骤的训练。 我减少了近距离以确保整个场景都得到训练。 这可能引入了一些飞蚊症。 我不确定训练需要多长时间,它是在我做晚餐玉米饼时运行的。

Nerfstudio:使用 nerfacto 方法将数据训练到默认完成步骤。 我忘了实际的完成步骤是什么,我相信大约是20k。 我没有更改任何默认参数。 再说一次,我没有记录这花了多长时间……比吃我准备晚餐的炸玉米饼所花的时间还要短。

Luma AI:这个平台不给你任何训练选项,这使得它非常适合那些想要制作 NeRF 而不想摆弄参数的人。 这可能是好是坏,具体取决于你的最终用途。 对于创作者和非科学家来说,这是一件很棒的事情! 训练 NeRF 所花费的时间比我清理晚餐做的炸玉米饼所花费的时间还要少。

4、渲染

我尽力在每个相机编辑器中重新创建相同的场景飞行。 我制作了一个 1 分钟的宽视场视频。 输出素材为 1080p/30fps。

Luma AI 的相机设置与其他两个软件包不同。 我将Luma AI的相机镜头设置为16mm。 Instant-NeRF 和 Nerfstudio 只允许我设置 FOV 值。 我选择了 70,现在回想起来,它比 16 毫米窄。

以下是我对每个平台的渲染过程的想法:

Instant-NGP:他们的相机路径编辑器是我的最爱。 可能是因为我用得最多。 我喜欢使用 DLSS 实时渲染 NeRF,并在创建相机轨迹时了解最终渲染的样子。 缺点是我无法控制关键帧之间的时间。 NVIDIA,如果你正在阅读本文,请添加关键帧计时!

在我的 RTX 3090ti 上渲染最终输出花了 38 分钟。 我在 GUI 中渲染了视频。 如果我离线渲染,时间会更快。

在这里插入图片描述

在 Instant-NGP 中创建相机动画

Nerfstudio:哦,我多么希望这个软件有 DLSS! 相机路径编辑器马马虎虎。 当源图像位置打开时,很难看到场景。 场景被严重降低采样。 渲染速度很快——大约花了 30 分钟。

Luma AI:我对场编辑器没有太多经验,但是,他们提供预制轨道和振荡路径,这很好。 另外,AR录音机也很有趣。 我发现创建我的路径很简单,而且他们有最好的用户界面。 与 Instant-NGP 或 Nerfstudio 相比,在这个编辑器上查看我的路径要容易得多。

在这里插入图片描述

在 Luma AI 中创建相机动画

5、NeRF 质量比较

在你深入阅读本节之前,我在结论中添加了额外的比较注释。 如果你期望一款软件比其他两款好几倍,那么你会失望的。 但等一下,显然有一个是赢家!

从远处看,这三个场景看起来都不错,但如果你仔细观察,你就会发现差异。 白色的凳子和椅子在 Nerfstudio 的输出中显得模糊。 Instant-NGP 钉住了凳子,但椅子腿仍然很模糊。

在这里插入图片描述

Nerfstudio 远景
在这里插入图片描述

Instant-NeRF 远景
在这里插入图片描述

Luma AI远景

细节差异在特写时变得更加明显。 Luma AI 的结果中,台面边缘的瓷砖细节最为清晰。 你还可以在柜台顶部看到更多细节。 Luma AI 结果中的生日气球是最清晰的,并且保留了闪亮的品质。

在这里插入图片描述

Nerfstudio 特写
在这里插入图片描述

Instant-NeRF特写
在这里插入图片描述

Luma AI特写

最后一个场景不是竞争。 不管用什么方法,这张桌子的结果都不好。 我将此归咎于我不稳定的镜头。 花朵质量与 Instant-NeRF 和 Luma AI 相关。 花瓶与 Luma AI 搭配效果最佳。

最显着的区别是 Luma AI 更好地再现了窗户反射和墙壁。

在这里插入图片描述

Nerfstudio用餐区
在这里插入图片描述

Instant-NeRF用餐区
在这里插入图片描述

Luma AI用餐区

6、结束语

显然,Luma AI 在易用性和输出质量比较方面均胜出。 这不应该令人震惊,因为他们的产品背后有一家专门的公司。 Instant-NGP 是一个 NVIDIA 研究项目,Nerfstudio 是一个由伯克利分校的学生小组运行的项目。

  • 实时查看

Instant-NGP 是我唯一可以实时运行 NeRF 并具有良好视觉效果的软件。 Nerfstudio 实时运行,但质量对于“虚拟游览”或类似用例来说不够好。 如果我的目标是创建一个实时运行 NeRF 的房产游览,那么 Instant-NGP 会胜出。

  • 虚拟现实

Instant-NeRF 有一个简单的 VR 查看器,还可以让我清理 NeRF 中的漂浮物。 这是一个巨大的优势! 从技术上讲,你可以通过 Nerfstudio 和 Luma AI 的虚幻引擎集成之一在 VR 中可视化。 我认为 VR 地产之旅的市场很小。

  • 第三方集成

Nerfstudio 既有 Blender 插件,也能通过 Volinga beta 在虚幻引擎中实时渲染 NeRF。 我认为他们正朝着正确的方向前进。 这两种集成对于构建房产参观体验至关重要。

Luma AI 也正在运行虚幻引擎集成测试版。 我对这种集成有个人经验,并且它可以通过蓝图轻松开箱即用。 将此与他们的 SDK 访问权限配对,你可以从技术上构建端到端 NeRF 房产游览体验。

  • 网格输出

Luma AI 对于较小的物体具有出色的网格输出。 如果你想要对大型无人机扫描进行网格划分,此时一切都会崩溃。

Nerfstudio 具有出色的网格和点云输出选项,但其质量无法与摄影测量获得的任何东西相媲美。 对于房间网格,SDFStudio 集成值得研究。

  • 其他问题

源图像远非理想。 运动模糊是影响 NeRF 渲染质量的一个重要因素。 Luma AI 显然是处理模糊的最佳软件。 这让我想到一个问题:使用更清晰的源图像会得到相同的结果吗?

我也没有使用 Nerfstudio 最新的 nerfacto 方法。 他们发布了 nerfacto-big,它的训练速度较慢,但可能会产生更好的结果。 如果采用新的训练模式,我会有不同的获胜者吗?

在撰写本文时,Zip-NeRF 已发布,它将内部 NeRF 的细节提升到一个新的水平。 目前的 NeRF 软件选项是否可以与 Zip-NeRF 的质量竞争?


原文链接:NeRF室内重建对比 — BimAnt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/846288.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

程序员必读 | 《业务架构解构与实践》

之前看书大多"不求甚解", 意会即可,但是找一本新书看是可遇而不可求的。回过头来,摘抄研究一下已经看过的,也是别有一番风味的。本文就是对之前一本书的摘录。 文章中各种暗淡不一的图片,其实是在各种环境下&#xff0c…

Java中Date方法详解

先进行专栏介绍 本专栏是自己学Java的旅途,纯手敲的代码,自己跟着黑马课程学习的,并加入一些自己的理解,对代码和笔记 进行适当修改。希望能对大家能有所帮助,同时也是请大家对我进行监督,对我写的代码进行…

耗时6个月,我做了一款干净、免费、开源的AI数据库

一、Chat2DB简介 在消失的这段时间,我做了一款集成了AI的数据库管理工具Chat2DB。 他是数据库也集成了AIGC的能力,能够将自然语言转换为SQL,也可以将SQL转换为自然语言,还可以给出SQL的优化建议,可以极大提升效率。 …

使用RecyclerView构建灵活的列表界面

使用RecyclerView构建灵活的列表界面 1. 引言 在现代移动应用中,列表界面是最常见的用户界面之一,它能够展示大量的数据,让用户可以浏览和操作。无论是社交媒体的动态流、商品展示、新闻列表还是任务清单,列表界面都扮演着不可或…

智慧城市规划新引擎:探秘数字孪生中的二维与三维GIS技术差异

智慧城市作为人类社会发展的新阶段,正日益引领着我们迈向数字化未来的时代。在智慧城市的建设过程中,地理信息系统(GIS)扮演着举足轻重的角色。而在GIS的发展中,二维和三维GIS作为两大核心技术,在城市规划与…

LeetCode 周赛 340,质数 / 前缀和 / 极大化最小值 / 最短路 / 平衡二叉树

今天讲 LeetCode 单周赛第 340 场,今天状态不好,掉了一波大分。 2614. 对角线上的质数(Easy) 这道题是最近第 2 次出现质数问题,注意 1 不是质数! 质数判断:$O(n\sqrt(U))$ 2615. 等值距离和…

程序员吐槽培训班简历造假,经验包装竟拿到阿里外包26k的offer

关于程序员速成培训班的传言和八卦很多,近日,又有一个程序员发帖吐槽培训班简历造假,两个大四学生报了个培训班,竟然给包装成有三年工作经验的人,更离谱的是,竟然还拿到了阿里外包26k的offer…… 许多网友表…

数据结构---查找

🌞欢迎来到数据结构的世界 🌈博客主页:卿云阁 💌欢迎关注🎉点赞👍收藏⭐️留言📝 🌟本文由卿云阁原创! 🙏作者水平很有限,如果发现错误&#xff…

axios在请求错误时获取不到err.response响应问题

一般来说: axios.request({...// 请求config }).then(res > console.log(success,res),err > console.log(err,err) )稍微拓展一下: import axios,{ AxiosRequestConfig, AxiosError, AxiosResponse } from "axios"; import { getToke…

​​五、驱动 - ​声卡构成(ASOC)

文章目录 1. 硬件结构2. 数据传输流向3. ASOC结构组成4. Linux alsa音频系统框架1. 硬件结构 codec:音频编解码器,负责处理音频信息,包括 ADC、DAC、Mixer、DSP,输入输出以及音量控制等所有与音频相关的功能; 对PCM音频数据进行D/A转换:将数字信号转换为模拟信号;对Mic、…

Effective Java笔记(27)消除非受检的警告

用泛型编程时会遇到讲多编译器警告 : 非受检转换警告( unchecked cast warning )、非受检方法调用警告、非受检参数化可变参数类型警告( unchecked parameterized vararg type warning),以及非受检转换警告…

在linux系统上安装Nginx

1、关闭防火墙 systemctl disable firewalld.service 2、上传压缩包并解压到目标文件 cd /usr/local tar -zxvf nginx-1.22.0.tar.gz 3、安装Nginx相关依赖 yum install -y gcc-c zlib zlib-developenssl openssl-devel pcre pcre-devel 4、安装完毕后,进入ng…

Spring Boot集成Mybatis-Plus

Spring Boot集成Mybatis-Plus 1. pom.xml导包 <!--lombok--><dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId></dependency><!--mysql驱动--><dependency><groupId>mysql<…

FastAPI 构建 API 高性能的 web 框架(一)

如果要部署一些大模型一般langchainfastapi&#xff0c;或者fastchat&#xff0c; 先大概了解一下fastapi,本篇主要就是贴几个实际例子。 官方文档地址&#xff1a; https://fastapi.tiangolo.com/zh/ 1 案例1:复旦MOSS大模型fastapi接口服务 来源&#xff1a;大语言模型工程…

大厂容器云实践之路(二)

3-网易蜂巢的DOCKER实践之路 面临问题 场景分析 如何解决 功能性需求&#xff08;基础&#xff09; 第一步 技术支撑公有化 开发流程 场景分析 功能性需求&#xff08;基础&#xff09; 非功能性需求&#xff08;SLA&#xff09; 第二步 产品技术云端化 开发流程 场景分析…

易基因:m5C RNA甲基转移酶及其在癌症中的潜在作用机制|深度综述

大家好&#xff0c;这里是专注表观组学十余年&#xff0c;领跑多组学科研服务的易基因。 近年来&#xff0c;5-甲基胞嘧啶&#xff08;m5C&#xff09;RNA修饰已成为通过编码和非编码RNA调控RNA代谢和功能的关键参与者。越来越多的证据表明&#xff0c;m5C可以调控RNA稳定性、…

MOSFET(四):区别JFET

一、JFET及工作原理 N沟道JFET是一种三极结构的半导体器件&#xff0c;包含源极&#xff08;S&#xff09;、漏极&#xff08;D&#xff09;、栅极&#xff08;G&#xff09;工作原理是通过栅源电压控制反型沟道的导电特性。 当栅极-源极电压为零或正电压时&#xff0c;沟道关…

【ChatGLM】大模型之 ChatGLM 部署

目录 1. 资源下载 2. 部署启动 1. 资源下载 HuggingFace 模型权重下载 # install git-lfs git lfs install # download checkpoint # clone the repo git clone https://huggingface.co/THUDM/chatglm-6b 手动模型权重下载 # download checkpoint # clone the repo, ski…

途乐证券|基金重仓股被“撞了一下腰”

中兴通讯昨上演放量长阴走势。 8月7日&#xff0c;A股全天低开低走&#xff0c;创业板领跌。到收盘&#xff0c;沪指跌0.59%&#xff0c;创业板指跌1%。值得一提的是&#xff0c;当天有多只获得基金要点持仓的白马龙头股大跌&#xff0c;其间&#xff0c;在本年二季度颇受基金追…

转载:本地项目上传至git码云步骤(超详细,附图文)

版权声明&#xff1a;本文为博主原创文章&#xff0c;遵循 CC 4.0 BY-SA 版权协议&#xff0c;转载请附上原文出处链接和本声明。 本文链接&#xff1a;https://blog.csdn.net/stange1/article/details/123877364 文章目录 1、首先在码云上新建一个项目&#xff0c;如下图所示…