经典文献阅读之--NICE-SLAM(SLAM的神经隐含可扩展编码)

news2025/1/12 18:09:52

0. 简介

对于深度学习而言,NeRF一定是最近两年最火的工作之一了,**NeRF(Neural Radiance Fields)**是最早在2020年ECCV会议上的Best Paper,其将隐式表达推上了一个新的高度,仅用 2D 的 posed images 作为监督,即可表示复杂的三维场景。NeRF迅速发展也已经被应用到了多个技术方向,例如新视点合成、三维重建等等,都取得非常好的效果。之前我们在《经典文献阅读之–NeRF-SLAM(单目稠密重建)》中给大家提到了NeRF的技术原理下面我们就根据NICE-SLAM作为核心,来给各位介绍一下现有NeRF的缺点以及发展

1. 缺点以及发展

NeRF最大的贡献,是实现了神经场(Neural Field)与图形学组件Volume rendering的有效结合。通过将2D位置与3D空间坐标通过NLP神经网络去隐式地学习一个三维场景。首先值得我们注意的是NeRF的问题,主要的问题有:速度慢、只针对静态场景、泛化性差、需要大量视角等问题。我们分别找了几个文章来做简要的分析,来看不同文章的改进方向。下一节我们将会来侧重着讲如何将NeRF应用到SLAM上。我们来根据NICE-SLAM来详细分析。

1.1 Neural Sparse Voxel Fields

在这项工作中,我们介绍了神经稀疏体素场 (NSVF),这是一种用于快速和高质量自由视点渲染的新神经场景表示。NSVF 定义了一组以稀疏体素八叉树组织的体素有界隐式字段,以对每个单元中的局部属性进行建模。我们仅从一组姿势的 RGB 图像中通过可区分的光线行进操作逐步学习底层体素结构。使用稀疏体素八叉树结构,可以通过跳过不包含相关场景内容的体素来加速渲染新颖的视图。

1.2 Mip-NeRF

Mip-NeRF 使用称为圆锥截头体的几何形状来渲染每个像素,而不是射线,这可以减少混叠,可以显示图像中的精细细节,并将错误率降低 17-60%。该模型也比 NeRF 快 7%。

1.3 NeRF-SR

NERF-SR,一种用于高分辨率(HR)新型视图合成的解决方案,主要是低分辨率(LR)输入。该方法是基于神经辐射场(NERF)的内置,其预测每点密度和颜色,具有多层的射击。在在任意尺度上产生图像时,NERF与超越观察图像的分辨率努力。NERF-SR可以通过改进网络进一步提高超级采样的性能,该细化网络利用估计的深度来实现HR参考图像上的相关补丁的幻觉。

1.4 KiloNeRF

KiloNeRF 解决了 NeRF 中渲染缓慢的问题,这主要与需要数百万次查询深度 MLP 网络有关。 KiloNeRF 将工作负载分离到数千个小型 MLP 中,而不是一个需要多次查询的大型 MLP。每个小型 MLP 都代表一个场景的一部分,可实现 3 倍的性能提升,同时降低存储要求和可比的视觉质量。

1.5 Plenoxels

Plenoxels 将 NeRF 中心的 MLP 替换为稀疏的 3D 网格。每个查询点都是从其周围的体素插入的。因此,无需运行神经网络即可渲染新的 2D 视图,这大大降低了复杂性和计算要求。Plenoxels 提供与 NeRF 相似的视觉质量,同时速度快两个数量级。

1.6 RegNeRF

虽然NERF可以在许多输入视图可用时产生看不见的观点的光静观渲染,但是当该数量减少时,其性能显着下降。我们观察到,稀疏输入方案中的大多数伪像是由估计场景几何中的错误引起的,并且在训练开始时通过不同的行为引起。我们通过规范从未观察的视点呈现的修补程序的几何和外观来解决这一点,并在训练期间退火光线采样空间。我们还使用规范化的流模型来规范未观察的视点的颜色。我们的车型不仅优于优化单个场景的其他方法,而是在许多情况下,还有条件模型,这些模型在大型多视图数据集上广泛预先培训。

1.7 Neural Deformable Voxel Grid for Fast Optimization of Dynamic View Synthesis

神经辐射场(NERF)正在彻底改变新型视图合成(NVS)的卓越性能。但是,NERF及其变体通常需要进行冗长的每场训练程序,其中将多层感知器(MLP)拟合到捕获的图像中。为了解决挑战,已经提出了体素网格表示,以显着加快训练的速度。但是,这些现有方法只能处理静态场景。如何开发有效,准确的动态视图合成方法仍然是一个开放的问题。将静态场景的方法扩展到动态场景并不简单,因为场景几何形状和外观随时间变化。在本文中,基于素素网格优化的最新进展,我们提出了一种快速变形的辐射场方法来处理动态场景。我们的方法由两个模块组成。第一个模块采用变形网格来存储3D动态功能,以及使用插值功能将观测空间中的3D点映射到规范空间的变形的轻巧MLP。第二个模块包含密度和颜色网格,以建模场景的几何形状和密度。明确对阻塞进行了建模,以进一步提高渲染质量。实验结果表明,我们的方法仅使用20分钟的训练就可以实现与D-NERF相当的性能,该训练比D-NERF快70倍以上,这清楚地证明了我们提出的方法的效率。

2. NICE-SLAM具体贡献

NICE-SLAM是一个密集的SLAM系统,通过引入分层的场景表示,纳入了多层次的本地信息。用预先训练好的几何先验来优化这个表示,可以在大的室内场景中进行详细的重建。与最近的神经隐含SLAM系统相比,我们的方法更具可扩展性、效率和鲁棒性。

  1. 我们提出了NICE-SLAM,一个密集的RGB-D SLAM系统,它具有实时性、可扩展性、预测性和对各种挑战性场景的鲁棒性。

  2. NICE-SLAM的核心是一个分层的、基于网格的神经隐式编码。与全局神经场景编码相比,这种表示法允许局部更新,这是大规模方法的一个先决条件。

  3. 我们在各种数据集上进行了广泛的评估,证明了在映射和跟踪方面具有竞争力的性能。

3. 整体框架

文章在图2中提供了我们的方法的概述。我们使用四个特征网格和相应的解码器来表示场景几何和外观(3.1节)。我们使用估计的相机校准跟踪每个像素的观察光线。通过沿着观察光线对点进行采样并查询网络,我们可以渲染这条光线的深度和颜色值(3.2节)。通过最小化深度和颜色的重新渲染损失,我们能够在交替的方式中优化相机姿态和场景几何(3.3节),以便选择关键帧(3.4节)。

在这里插入图片描述

4. 层次化的场景表示

我们现在介绍了我们的分层场景表示,它结合了多级网格特征和预训练的解码器来预测占用。几何形状被编码到三个特征网格 ϕ θ l ϕ^l_θ ϕθl和它们相应的MLP解码器 f l f^l fl 中,其中 l ∈ 0 , 1 , 2 l∈ {0,1,2} l0,1,2指粗略、中等和细致的场景细节。另外,我们还有一个单独的特征网格 ψ ω ψ_ω ψω和解码器 g ω g_ω gω来模拟场景外观。这里 θ θ θ ω ω ω表示几何和颜色的可优化参数,即网格中的特征和颜色解码器中的权重。

4.1 中级和细级场景几何表示

在中级和细级场景几何表示中,观察到的场景几何用中级和细级特征网格表示。在重建过程中,我们使用这两个网格采用粗到细的方法,其中几何先由中级特征网格优化重建,然后用细级网格进行细化。在实现中,我们使用体素网格,其侧长为32厘米和16厘米,除了TUM RGBD [46],我们使用16厘米和8厘米。对于中级特征网格,使用相关的MLP f 1 f^1 f1将特征直接解码为占有率值。对于任意点 p ∈ R 3 p∈\mathbb{R}^3 pR3,我们得到占用值为
在这里插入图片描述
在上面的公式中, ϕ θ 1 ( p ) ϕ^1_θ(p) ϕθ1(p)表示在点 p p p处三线性插值的特征网格。相对较低的分辨率允许我们有效地优化网格特征以适应观察。为了捕捉场景几何中的较小的高频细节,我们以残差的方式加入细级特征。细级特征解码器将相应的中级特征和细级特征作为输入,并输出中级占用率的偏移量。
在这里插入图片描述
点的最终占用率是
在这里插入图片描述
需要注意的是,我们固定预先训练好的解码器 f 1 f^1 f1 f 2 f^2 f2,在整个优化过程中只优化特征网格 ϕ θ 1 ϕ^1_θ ϕθ1 ϕ θ 2 ϕ^2_θ ϕθ2。我们证明这有助于稳定优化并学习一致的几何形状。

4.2 粗粒度层次

在粗粒度层次中,我们使用一个特征网格来捕捉场景的高级几何特征(例如墙壁、地板等),并且与中级和细级层次独立进行优化。粗网格的目的是能够预测观察几何体以外的近似占用值(在中/细级层次中编码),即使每个粗体素只被部分观察到。因此,我们在实现中使用了非常低的分辨率,边长为2米。与中级网格类似,我们通过插值特征并通过MLP f 0 f^0 f0直接解码成占用值,即:
在这里插入图片描述
在跟踪过程中,粗略层次的占用值仅用于预测以前未观察到的场景部分。这种预测出的几何形状允许我们在当前图像的大部分部分之前未见过的情况下进行跟踪。

4.3 预训练特征解码器

我们的框架中使用了三个不同的固定 MLP 来解码网格特征成为占据值。粗糙和中级级别的解码器是作为 ConvONet [38] 的一部分预先训练的,其包括 CNN 编码器和 MLP 解码器。我们使用二元交叉熵损失在预测值和地面真值之间训练编码器/解码器,与 [38] 中相同。训练后,我们只使用解码器 MLP,因为我们将直接优化特征以适应观察结果。这样,预先训练的解码器可以利用从训练集中学习的分辨率特定先验,在解码我们优化的特征时,同样的策略用于预训练细级别解码器。除了在输入到解码器之前,我们只是将中层的特征 ϕ θ 1 ( p ) ϕ^1_θ (p) ϕθ1(p)与细层的特征 ϕ θ 2 ( p ) ϕ^2_θ(p) ϕθ2(p)连接起来进行输入,其余的都需要考虑粗粒度信息。

4.4 色彩表示

我们主要关注场景几何,但我们还编码了颜色信息,允许我们呈现RGB图像,为跟踪提供额外的信号。 为了在场景中编码颜色,我们应用另一个特征网格 ψ ω ψ_ω ψω和解码器 g ω g_ω gω
在这里插入图片描述
其中 ω ω ω表示优化期间的可学习参数。 与具有强烈先验知识的几何不同,我们凭经验发现,联合优化颜色特征 ψ ω ψ_ω ψω和解码器 g ω g_ω gω可以提高跟踪性能。注意,与iMAP [47]类似,这可能会导致遗忘问题,并且颜色只是局部一致的。如果我们想要可视化整个场景的颜色,可以作为后处理步骤全局优化。

4.5 网络设计

对于所有 MLP 解码器,我们使用 32 维隐藏特征维度和 5 个完全连接的块。除了粗粒度几何表示之外,我们在 MLP 解码器的输入之前对 p 应用可学习的高斯位置编码 [47,50],这样可以发现几何和外貌的高频细节。

5. 深度和色彩渲染

受NeRF中体积渲染的最新成功启发,我们提出使用可微渲染过程,该过程将第3.1节中的预测占用率和颜色整合到场景表示中。

…详情请参照古月居

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/679677.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

stm32配置基本定时功能

Clock Source参数说明 内部时钟源是由STM32F103芯片内部的RC振荡器提供的。它的频率为8MHz,可以通过PLL倍频器进行倍频,最高可达到72MHz。 Internal clock Division No Division:不分频,即系统时钟直接作为时钟信号。Divided by 2…

ModaHub AI模型社区:向量数据库CPU 版 Milvus和GPU 版 Milvus 版本比较

目录 CPU 版 Milvus 版本比较 概述 CPU 版 Milvus 支持的索引类型 浮点型向量 二值型向量 GPU 版 Milvus 版本比较 概述 GPU 版 Milvus 支持的索引类型 浮点型向量 二值型向量 CPU 版 Milvus 版本比较 概述 Milvus 提供两个发行版本:CPU 版本和 GPU 版本…

学生成绩管理系统(Python+数据库)

文章目录 前言MySQL部分1. 导入信息2. 演示说明 Python程序设计部分1. 连接数据库2. 登录界面3. 注册界面4. 主界面5. 查询信息6. 修改密码7. 成绩分析7.1 通过学号查询成绩7.2 通过课程号查询成绩 7. 主函数 尾声 前言 用Python和数据库一起实现了一个简单的学生成绩管理系统…

GPDB-内核特性-UDP流量控制

GPDB-内核特性-UDP流量控制 GPDB是在开源PostgreSQL基础上,采用MPP架构的关系型分布式数据库,具有强大的大规模数据分析任务处理能力。采用Shared-Nothing架构,整个集群由多个数据节点(segment)和控制节点(…

Python爬虫 从小白到高手 各种最新案例! Urllib Xpath

Urllib 1.什么是互联网爬虫? 如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的数据 解释1:通过一个程序,根据Url(http…

实训五:数据库安全控制 - 创建用户

创建用户 第1关:创建用户任务描述相关知识增加用户修改用户名修改用户密码删除用户 编程要求测试说明参考代码 第2关:创建用户-练习任务描述相关知识编程要求测试说明参考代码 第1关:创建用户 任务描述 本关任务:创建用户 user1…

你不知道的HTML属性,让你的网页更加响应式

前言 当我们谈论 HTML 时,通常会想到一些常见的属性,如 class、id、href 等等。但是,HTML 还有许多你可能从未听说过的属性,这些属性可以让你的网页更加丰富多彩。在本文中,我将介绍一些你可能不知道的 HTML 属性&…

SPI通信协议SPI通信外设

目录 SPI 介绍 硬件电路 移位示意图 软件SPI SPI时序基本单元 SPI时序​编辑 W25Q64 硬件电路 W25Q64框图 Flash操作注意事项 指令集 硬件SPI SPI框图 主模式全双工连续传输 非连续传输 SPI 介绍 硬件电路 推挽输出,高低电平都有很强的驱动能力&…

基于Python数据分析的详细讲解+实战(含代码)

名字:阿玥的小东东 学习:Python、C/C 主页链接:阿玥的小东东的博客_CSDN博客-python&&c高级知识,过年必备,C/C知识讲解领域博主 目录 载入数据集 数据预处理 探索性数据分析 发现相关性 开发模型 模型部署 Python数据分析代码实…

Vue基础(一)

前言: Vue (读音 /vjuː/,类似于 view) 是一套用于构建用户界面的渐进式框架。与其它大型框架不同的是,Vue 被设计为可以自底向上逐层应用。Vue 的核心库只关注视图层,不仅易于上手,还便于与第三方库或既有项目整合。 …

【Vue2.0源码学习】内置组件篇-keep-alive

文章目录 1. 前言2 用法回顾3. 实现原理propscreateddestroyedmountedrender 4. 生命周期钩子5. 总结 1. 前言 <keep-alive> 是 Vue 实现的一个内置组件&#xff0c;也就是说 Vue 源码不仅实现了一套组件化的机制&#xff0c;也实现了一些内置组件&#xff0c;关于<k…

区块链系统探索之路:比特币核心的编译和探索

前几节我们研究了椭圆曲线&#xff0c;有限域等比特币和区块链所依赖的底层算法。问题在于这些算法不是独立存在&#xff0c;而是作为模块嵌入到整个区块链的体系之中。因此不了解区块链的体系组成或应用场景&#xff0c;那么我们就很难理解这些算法衍生出来的概念或者基于他们…

【硬件1】platform/i2c总线

文章目录 1.platform总线&#xff1a;相对于USB/PCI/I2C/SPI等物理总线来说&#xff0c;platform总线是一种虚拟的总线&#xff0c;实际并不存在&#xff0c;总线的工作就是就是完成总线下的设备和驱动之间的匹配。也就是在左手中找到与右手相匹配的设备驱动&#xff0c;并完成…

基于Java+Springboot的智能图书馆座位管理系统设计和实现

博主介绍&#xff1a;擅长Java、微信小程序、Python、Android等&#xff0c;专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;&#x1f3fb; 不然下次找不到哟 Java项目精品实战案例…

MySQL实战解析底层---为什么只查一行的语句,也执行这么慢

目录 前言 第一类&#xff1a;查询长时间不返回 第二类&#xff1a;查询慢 前言 一般情况下&#xff0c;如果说查询性能优化&#xff0c;首先会想到一些复杂的语句&#xff0c;想到查询需要返回大量的数据但有些情况下&#xff0c;“查一行”&#xff0c;也会执行得特别慢这…

第11讲:BootService 核心实现解析,Agent 的“地基”原来是这样的

之前介绍了 ServiceManager 加载并初始化 BootService 实现的核心逻辑。下图展示了 BootService 接口的所有实现类&#xff0c;本课时将深入分析这些 BootService 实现类的具体逻辑&#xff1a; 网络连接管理 在前面的介绍中提到 SkyWalking Agent 会定期将收集到的 JVM 监控和…

基于Java+Swing实现雷电小游戏

基于JavaSwing实现雷电小游戏 一、系统介绍二、功能展示三、其他系统四、获取源码 一、系统介绍 基于java的雷电游戏基本功能包括&#xff1a;敌方飞机随机飞行、我方飞机手动控制飞行&#xff0c;射击比拼&#xff0c;游戏闯关等。本系统结构如下&#xff1a; &#xff08;1&…

Java中线程的创建与使用、Thread类的常用方法

1、什么是进程与线程 1.1 含义 1.1.1 进程 进程是指正在运行的程序的实例。在操作系统中&#xff0c;一个进程代表了一个正在执行的程序&#xff0c;它包括了程序的代码、数据以及程序执行时所需要的系统资源。 最直观的就是我们任务管理器&#xff1a; 任务管理器中的每一…

Centos7安装和配置Mysql5.7

第一步&#xff1a;获取mysql YUM源 进入mysql官网获取RPM包下载地址&#xff0c;下面就是mysql5.7的Yum仓库的rpm包&#xff1a; mysql5.7链接地址&#xff1a; https://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpm 第二步&#xff1a;下载和安装mysql…

卷福的十年同学会

1.一通电话 某个上班日的午休时间里&#xff0c;小卷正趴在办公桌玩着手机准备睡一会&#xff0c;“叮咚”&#xff0c;一条微信消息弹出来&#xff0c;是大学的班群消息。 “五一期间大家来学校聚一下吧&#xff0c;今年是我们成为同学的十年了&#xff0c;大家提前报名哦&a…