实验笔记之——基于windows复现Instant-NGP

news2024/10/7 4:32:55

之前博客对NeRF-SLAM进行了调研,本博文先复现一下Intant-NGP。

学习笔记之——NeRF SLAM(基于神经辐射场的SLAM)-CSDN博客文章浏览阅读851次,点赞22次,收藏21次。NeRF 所做的任务是 Novel View Synthesis(新视角合成),即在若干已知视角下对场景进行一系列的观测(相机内外参、图像、Pose 等),合成任意新视角下的图像。传统方法中,通常这一任务采用三维重建再渲染的方式实现,NeRF 希望不进行显式的三维重建过程,仅根据内外参直接得到新视角渲染的图像。为了实现这一目的,NeRF 使用用神经网络作为一个 3D 场景的隐式表达,代替传统的点云、网格、体素、TSDF 等方式,通过这样的网络可以直接渲染任意角度任意位置的投影图像。https://blog.csdn.net/gwplovekimi/article/details/135083274?spm=1001.2014.3001.5501Intant-NGP论文链接:https://dl.acm.org/doi/pdf/10.1145/3528223.3530127

代码链接:https://github.com/NVlabs/instant-ngp

原理解读部分在调研博客里面已经写了,此处就不再详述。本博文仅仅记录配置实验过程。本博文部分资料来源于网络,仅供本人学习记录用~

首先看看电脑的gpu信息。点击“此电脑-管理-设备管理器-显示适配器”。

电脑的GPU是3090,那么应该就是属于下面第一个类别的了

  • RTX 3000 & 4000 series, RTX A4000–A6000, and other Ampere & Ada cards
  • RTX 2000 series, Titan RTX, Quadro RTX 4000–8000, and other Turing cards
  • GTX 1000 series, Titan Xp, Quadro P1000–P6000, and other Pascal cards

解压后打开exe文件即可。

它的UI长这样:

GUI包括以下部分:

  • 全面控制以交互方式探索神经图形基元
  • 通过虚拟现实头戴设备查看神经图形基元的VR模式
  •  保存和加载“快照”,以便在互联网上分享您的图形基元
  • 相机路径编辑器用于创建视频,
  • NeRF->Mesh和SDF->Mesh转换,
  • 相机位置和镜头优化,

然后把data里nerf的fox拖进去就可以,如下面视频所示

Instant NGP testing fox

GUI按键各个功能如下:

Instant NGP testing GUI

通过下图中所示的按键也可以可视化相机的位置

fox里面一共115张图片,确实是瞬间就渲染出比较好的纹理效果~

对于fox文件里面还有一共transform.json文件,里面记录的就是相机的内参和外参(pose)了。

再测试一下用其他序列的效果,从视频可以看到,这个算法确实是挺不错的,再这些序列下都可以出来不错的效果~

Instant NGP testing different dataset

接下来看看用SDF作为输入的效果

Instant NGP testing SDF as input

好了~测试完作者给出的gui后,接下来看看用自己的采集数据测试的效果。作者提供了三个不同的script来处理数据,使得可以用inatant-ngp作为输入

  • COLMAP to create a dataset from a set of photos or a video you took
  • Record3D to create a dataset with an iPhone 12 Pro or newer (based on ARKit)
  • NeRFCapture to create a dataset or stream posed images directly to instant-ngp with an iOS device.

首先作者建议用python3.7以上的版本来处理。先安装Anaconda(Free Download | Anaconda) 

然后打开Anaconda Promp,并创建虚拟环境( nerf-ngp)

conda create -n nerf-ngp python=3.8

然后切换到虚拟环境下

conda activate nerf-ngp

再把下面的依赖包安装一下

pip install commentjson imageio numpy opencv-python-headless pybind11 pyquaternion scipy tqdm

应该都安装齐全了~

由于我的手机正好是iphone 12 pro,因此采用Record3D来测试。Record3D是一个IOS的app,可以用ARKit来估算camera的pose。

首先安装这个app(Record3D — 3D Videos and Point Cloud (RGBD) Streaming for iOS)。

然后,录制一段视频。如下所示,应该就是利用了iphone12的lidar测深度?

Record3D in Iphone 12 pro

然后用“Shareable/Internal format (.r3d)”格式导出,将文件传到电脑。然后将.r3d变为.zip文件,并且解压如下

然后执行下面命令

python record3d2nerf.py --scene ..\data\mydesk

如果采用横向方位捕捉视频,就添加-- rotate

就成功生成了pose与image序列~

然后用instant-NGP测试,结果报错如下

是因为序列太多了?那改一下用少点的序列看看~

还是不行~应该是由于图片太大?,占满了gpu的内存导致的?

但是看了一下图片的尺寸只是1140*1920(但一共有1573张图片,好像确实有点多,因此改一下帧率,让图像少些吧~)

结果要付费了。。。cao,为了科研,冲!

测试了几次,需要有足够的激励的~如下所示

Instant NGP testing self collect dataset

对于实际的场景,如果大大的超出了cube(如上视频所示),需要将将transforms.json中的参数aabb_scale设置为2的整数次方,最大为128(即1、2、4、8、...、128)(目前上面的视频展示为16,修改成4,截图如下)

这个值变小了后,场景就集中于这个杯子上了。那如果变为64呢?恢复的场景会大些,但是效果看上去是差不多的~感觉这个工作还是要继续深入了解一下,看看这些参数背后的意义~

至于渲染的效果好像都差不多没有太大的提升

根据作者给出的tips

NeRF模型在展示最佳效果时,需要50至150张图像,这些图像表现出最小的场景移动、运动模糊或其他模糊的伪影。重建的质量取决于先前的脚本能够从图像中提取准确的相机参数。请查看前面的部分,了解如何验证这一点的信息。

colmap2nerf.py 和 record3d2nerf.py 脚本假设训练图像大致指向一个共同的兴趣点,并将其放置在原点。该点是通过计算所有训练图像对中心像素射线的最近交点的加权平均值找到的。在实践中,这意味着当训练图像朝向感兴趣的对象时,脚本效果最佳,尽管它们不需要完整地围绕该对象完成全景视图。如果aabb_scale设置为大于1的数字,解释如上所述,仍然会重建出感兴趣对象背后可见的任何背景。

参考资料

https://github.com/MarvinChung/Orbeez-SLAM

Creating your own NeRF

快速跑 nerf instant-ngp 快速调试与配置,跑自己的数据_instant ngp在2080ti训练-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1352047.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

以爱之名,与“EYE”同行 蔡司光学公益行一直在路上

用心传递公益温暖之力,助力更多乡村学童拥有光明未来。2023年12月26日,一场以“EYE”为主题的公益活动正在中卫市宣和镇东台小学举办。本次,眼视光领域领军品牌蔡司光学携手中卫德明眼科的专业视光团队一同来到活动现场,为该校全体…

文件重命名技巧:找到最简单的办法,删除文件名中的下划线

在日常工作中,经常要处理大量的文件,包括重命名文件。有时候可能会遇到文件名中包含下划线的情况,这使得文件名变得复杂且不易读。要简化文件名并使其更易于管理,可以使用一些简单的技巧来删除文件名中的下划线。现在一起来看云炫…

山西电力市场日前价格预测【2024-01-04】

日前价格预测 预测说明: 如上图所示,预测明日(2024-01-04)山西电力市场全天平均日前电价为197.93元/MWh。其中,最高日前电价为376.04元/MWh,预计出现在18:15。最低日前电价为0.00元/MWh,预计出…

案例分享:Qt多国语言输入法软键盘

若该文为原创文章,转载请注明出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/135346374 红胖子(红模仿)的博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软硬结…

AIGC年度回顾!2024向量数据库是否还是AI发展方向之一?

引言 2023 年,是 AI 技术大爆发的一年,从年初到年末,全球关心技术发展的人们见证了一次次的 AI 技术升级,也逐步加深着对 AGI 发展的畅想。而伴随着生成式人工智能的飞速发展,向量数据库以其独特的技术优势逐渐崭露头角…

第一个Qt程序----Hello word!

从今天起就开始我们的第一个Qt小程序,点击New Project后点击右侧的Application后点击Qt Widgets Application。Qt Widgets 模块提供了一组UI元素用于创建经典的桌面风格的用户界面,Widgets是小部件的意思,也可以称为控件,因此Qt …

OpenHarmony之HDF驱动框架

概述 HDF(Hardware Driver Foundation)驱动框架,为驱动开发者提供驱动框架能力,包括驱动加载、驱动服务管理、驱动消息机制和配置管理。并以组件化驱动模型作为核心设计思路,让驱动开发和部署更加规范,旨在…

LeetCode每日一题.06(翻转二叉树)

给你一棵二叉树的根节点 root ,翻转这棵二叉树,并返回其根节点。 示例 1: 输入:root [4,2,7,1,3,6,9] 输出:[4,7,2,9,6,3,1] 示例 2: 输入:root [2,1,3] 输出:[2,3,1] 示例 3&…

golang学习专栏

GOLANG专栏 Golang基础教程 Golang基础教程 Golang练手算法 Golang练手算法 Golang设计模式 Golang设计模式 Golang数据结构和算法 Golang数据结构和算法 Golang并发编程 Golang并发编程 ORM框架Gorm Golang ORM框架gorm Golang源码分析 Golang源码分析 MySQL教程 MySQ…

Go中interface != nil不一定不是nil

摘要: interface{} 值 ! nil不一定不是nil,应使用reflect库判断是否是nil。 测试示例: // todo interface ! nil 不一定 不是nil var value map[string]interface{} reqMap : make(map[string]interface{}) reqMap["key"] valu…

Python项目15:教你使用pillow把女神的图片,添加表白文字。

★★★★★博文创作不易,我的博文不需要打赏,也不需要知识付费,可以白嫖学习编程小技巧。使用代码的过程中,如有疑问的地方,欢迎大家指正留言交流。喜欢的老铁可以多多点赞收藏分享置顶,小红牛在此表示感谢…

洁净间级别确认和环境监测相关法规指南汇总

一 洁净级别确认 1. 用于生产无菌药品的洁净室和洁净空气设备如单向流系统(UDAF)、限制进入屏障系统(RABS)和隔离器,应根据所需环境特性进行确认。生产操作需要在适当洁净度级别的环境中进行,以降低粒子或…

格局初现:京东阿里都瞄准了这个万亿级的大市场

核 心 要 点 ▪ 企业采购有哪些痛点和解决方案?行业的关键赛点是什么? ▪ 现行格局是何情况?代表性玩家各自有何特点? ▪ 未来企业采购将往何处去? 当这样一组数据摆在眼前的时候,你或许会感到难以置…

CMake入门教程【核心篇】编译类型Debug、Release、MinSizeRel、RelWithDebInfo

文章目录 1.说明1.1 Debug 配置1.2 Release 配置1.3 MinSizeRel 配置1.4 RelWithDebInfo 配置 2.提供的编译类型3.示例结论 1.说明 CMake作为一款强大的构建系统,提供了多种编译配置选项。这些配置影响编译过程中的优化级别和调试信息的包含情况。以下是CMake提供的…

C#中字母与ASCⅡ码的转换

目录 一、关于ASCⅡ及与字符互转 1.主要用到Encoding对象的GetBytes方法 2.Char显式转换为数值类型得到ASCⅡ 二、实例 三、生成效果 四、程序中的一些知识点 1.IsLetterOrDigit() 2.GetBytes() 3.TryParse(string, out int) 一、关于ASCⅡ及与字符互转 ASCⅡ(Americ…

《动手学深度学习》学习笔记 第5章 深度学习计算

本系列为《动手学深度学习》学习笔记 书籍链接:动手学深度学习 笔记是从第四章开始,前面三章为基础知道,有需要的可以自己去看看 关于本系列笔记: 书里为了让读者更好的理解,有大篇幅的描述性的文字,内容很…

scratch小明游泳 2023年12月中国电子学会图形化编程 少儿编程 scratch编程等级考试四级真题和答案解析

目录 scratch小明游泳 一、题目要求 1、准备工作 2、功能实现 二、案例分析

【华为机试】2023年真题B卷(python)-矩阵元素的边界值

一、题目 题目描述: 给定一个N*M矩阵,请先找出M个该矩阵中每列元素的最大值,然后输出这M个值中的最小值。 补充说明: N和M的取值范围均为: [0,100] 二、示例 示例1: 输入: [[1,2],[3,4]] 输出: 3 说明: 第一列元素为: 1和3&…

用ChatGPT方式编程!GitHub Copilot Chat全面开放使用

全球著名开源分享平台GitHub在官网宣布,经过几个月多轮测试的GitHub Copilot Chat,全面开放使用,一个用ChatGPT方式写代码的时代来啦! 据悉,Copilot Chat是基于OpenAI的GPT-4模型,再结合其海量、优质的代码…

TikTok数字趋势:用户在平台上参与的新兴活动

随着社交媒体的蓬勃发展,TikTok作为一款以短视频为主的平台已经成为了年轻人追逐时尚、分享生活的热门场所。 除了日常的搞笑视频和创意内容,近来用户在TikTok上参与的新兴活动也成为了数字时代的一大趋势。本文将深入剖析TikTok上的数字趋势&#xff0…