经典文献阅读之--Orbeez-SLAM(单目稠密点云建图)

news2024/11/17 12:36:09

0. 简介

对于现在的VSLAM而言,现在越来越多的工作开始聚焦于如何将深度学习结合到VSLAM当中,而最近的这个工作就给出了一个比较合适的方法。《Orbeez-SLAM: A Real-time Monocular Visual SLAM with ORB Features and NeRF-realized Mapping》这篇文章,可以轻松适应新的场景,而不需要预先训练,并实时为下游任务生成密集的地图。它成功地与隐式神经表示法(NERF)和视觉里程法相结合,实现了只需要RGB输入即可完成通过视觉信号执行复杂任务并与人类合作的空间人工智能。

1. 主要贡献

本文试图开发一种单目视觉SLAM,它无需预训练,并实现实时推理,以供实际应用。为此,我们提出了Orbeez-SLAM,结合了基于特征的SLAM(例如,ORB-SLAM2[1])和基于instant-ngp框架[7]的NeRF。与[5]、[6]不同的是,我们强调VO(在ORB-SLAM2中)即使在训练的早期阶段也可以提供更好的摄像机姿态估计,这使得orbez - slam可以在单目摄像机上工作,即无需深度监督。此外,我们同时通过VO估计相机姿态并更新NeRF网络。值得注意的是,训练过程是在线实时的,不需要预先训练,如图1所示。因此,OrbeezSLAM可以渲染密集的信息,如场景的深度和颜色。此外,在各种室内场景中进行了验证,并在速度、摄像机跟踪和重建方面优于NeRF-SLAM基线。综上所述,我们的贡献有三:

  1. 我们提出了Orbeez-SLAM,这是第一个实时单目视觉SLAM,它无需预训练,提供密集的地图,专为空间人工智能应用而定制。
  2. 通过结合视觉里程计和快速NERF框架,我们的方法实现了实时推理,并生成了密集的地图。
  3. 我们广泛验证Orbeez-SLAM在挑战性基准方面具有最先进水平(SOTA)的基线,显示出卓越的定量和定性结果。

2. 详细内容

为了计算密集地图,最近一种基于学习的可视化SLAM, Tandem[3],利用截断符号距离函数(TSDF)融合来提供密集的3D地图。如[3]中所述,Tandem实现了实时推断,并可以与单目摄像机一起工作。但是,TSDF融合中涉及深度估计,而Tandem中的深度估计模块在推理前需要进行预训练,这限制了其对与预训练场景有明显不同的新场景的适应性。

神经辐射场(Neural Radiance Field, NeRF)[4]是另一种隐式神经表示,在训练过程中不需要深度监督,可以在目标场景从头开始训练。基于这一特性,在可视化SLAM中使用NeRF作为映射是一个潜在的方向。两个最新的NeRF-SLAM[5],[6]呼应了我们的动机。其中,iMAP[5]是第一个在SLAM中让NeRF作为地图表示的作品。同时,它通过NeRF光度损失的反向传播来优化相机姿态。然后,NICE-SLAM[6]对iMAP进行了扩展,开发了分层特征网格模块。该模块允许NICE-SLAM针对大型场景进行扩展,而不会出现灾难性的遗忘。然而,上述NeRF-SLAM需要RGB-D输入,因为它们纯粹通过神经网络优化相机姿态,而没有视觉里程计(VO),导致初始定位不佳。换句话说,他们仍然需要深度信息来指导三维几何。此外,NeRF的一个显著缺点是收敛速度较慢。具体来说,在进程中有大量的渲染,这使得实时训练NeRF举步维艰。通过观察这一点,instant-ngp[7]补偿了训练速度问题。在多分辨率哈希编码和CUDA框架[8]的帮助下,instant-ngp可以在几秒钟内训练nerf。

与之前需要深度信息来更好地感知几何形状的nerf - slam[5]和[6]不同,本文的Orbeez-SLAM利用VO进行精确的姿态估计,用单目摄像机生成密集地图。实现了预训练自适应和实时推理。

2.1 整个系统结构

在这里插入图片描述
图3显示了我们的系统管道。跟踪过程从输入图像流I中提取图像特征,并通过视觉测程估计相机姿态。映射系统通过三角测量生成地图点,并通过束调整(重投影误差)优化相机姿势和地图点。这些地图点代表稀疏点云。然后我们利用更新的相机姿势和地图来训练NeRF。由于这个过程是可微的,我们仍然可以从NeRF光度损失中优化相机姿态。最后,NeRF可以为下游任务生成密集映射。此外,这个管道应该适用于任何提供稀疏点云的SLAM。

2.2 后端估计优化

以下目标用于优化OrbeezSLAM: ( a ) (a) (a)位姿估计, ( b ) (b) (b)束调整, ( c ) (c) (c) NeRF回归。其中 ( a ) (a) (a)在跟踪过程中, ( b ) (b) (b) ( c ) (c) (c)在映射过程中进行。

  1. 位姿估计:重投影误差[28]在基于特征的SLAM中被广泛用于位姿估计[1],[21],[22],其公式如下:
    在这里插入图片描述
    其中 u i j u_{ij} uij为图像上的像素位置,由第 j j j台摄像机 C j \mathcal{C}_j Cj观测到,由第 i i i个3D点投影。 π ( C j , P i ) π(\mathcal{C}_j, P_i) π(Cj,Pi)通过 1 Z K j ( R j P i + t j ) \frac{1}{Z} K_j (R_jP_i + t_j) Z1Kj(RjPi+tj)将三维地图点Pi投影到像素坐标,其中 P i = [ X , Y , Z ] T P_i = [X, Y, Z]^T Pi=[X,Y,Z]T K j K_j Kj [ R ∣ T ] j [R| T]_j [RT]j C j \mathcal{C}_j Cj描述的内在和外在(世界到相机)。我们通过最小化重投影误差来优化相机姿态 { [ R ∣ t ] j } \{[R|t]_j\} {[Rt]j}:

在这里插入图片描述

Bundle adjustment::在VO的三角测量步骤之后,新的地图点被添加到本地地图中。束调整目标也最小化了地图点位置和相机姿势的重投影误差:

在这里插入图片描述

…详情请参照古月居

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/438454.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何将模块加载到linux内核

一 顺利的情况 假设存在一个文件叫mymq.c,下该文件相同目录下的makefile如下语句: obj-y mymq.o 然后编译:编译完成了以后,mymq.c文件中,有个函数叫mymq_open,搜索这个函数在不在System.map文件中,如果在&#xff…

大屏使用echart开发省市地图数据,并点击省获取市地图数据

1. 本文在基础上进行改进,后端使用若依后端 IofTV-Screen: 🔥一个基于 vue、datav、Echart 框架的物联网可视化(大屏展示)模板,提供数据动态刷新渲染、屏幕适应、数据滚动配置,内部图表自由替换、Mixins注入…

CDN与网络安全

DDoS攻击的影响远不止眼前所见。这些攻击不仅会造成巨大的经济损失,还会对受害公司或组织的声誉和形象产生严重影响。研究表明,受害公司至少需要10个小时才能开始解决攻击,而解除还需要4.5个小时。甚至在检测到攻击之前平均数小时&#xff0c…

一文详解Spring事务传播机制

背景 我们在使用Spring管理数据库事务的时候很方便,只需要在代理对象中引入注解Transactional 就可以开启事务了。在使用Transactional时,一般主要关心两个方面,一个是异常回滚的定义(设置rollbackFor),另…

Python统计学:如何理解单样本t检验?

单样本的t检验 指样本的均值是否某个值存在差异。 比如一包薯片标的克重为50g,但每包不一定都是50g,那么我们可以对薯片进行随机抽样,检验它与50g是否有差异。 1 提出假设: 原假设:薯片的平均重量是50g; …

模板方法设计模式解读

目录 豆浆制作问题 模板方法模式基本介绍 基本介绍 模板方法模式的原理类图 模板方法模式解决豆浆制作问题 应用实例要求 思路分析和图解(类图) 模板方法模式的钩子方法 模板方法模式的注意事项和细节 豆浆制作问题 编写制作豆浆的程序,说明如下: 1) 制作豆…

Adobe认证是什么?

Adobe认证又称为Adobe国际认证(英文:Adobe Certified Professional)是Adobe公司CEO签发的权威国际认证体系,旨在为用户提供Adobe软件的专业认证。 Adobe认证包括产品技能认证和职业技能认证多个级别,从初学者到专业人士都可以参加。 Adobe认证覆盖了各…

ORA-27090故障,关于AIO-MAX-NR

在给某银行进行巡检时发现asm中的alert一直报ORA-27090错误。 通过巡检脚本,整理错误发生时间如下: 信息收集: 发生类似的错误,先收集alert日志的信息,操心系统的message日志。 Errors in file /u01/app/grid/diag/…

适合小白学习预处理与程序环境,这篇文章就够了

目录 一. 前言 二. 正文 2.1 “冷知识”:程序环境 2.21 翻译环境——程序从无到有:程序编译 链接 2.22 运行环境——程序开跑 2.3 那些鲜为人知:预定义符号 2.4 预处理指令 #define 2. 41 #和## —— 2.42 宏和函数优劣对比 2.…

阿里全新推出:微服务突击手册,把所有操作都写出来了

今天给大家带来的这份微服务是由阿里巴巴高级技术专家整理,针对Spring Cloud在国内的使用情况,结合国内上百家企业使用Spring Cloud落地微服务架构时遇到的问题和相应的解决方案结合成了这份电子版教程。(文末有免费的获取方式) …

火伞云APP盾,您身边的DDoS攻击安全保护专家

近年来全球各地区DDoS攻击的比例和次数在逐年增加,严重影响到网络信息安全。 主要有以下原因: 攻击成本低,攻击无壁垒。进行DDoS攻击成本很低,最低甚至只需要几百元就可以轻松发起一次攻击,然而被攻击的对象可能动辄…

3自由度并联绘图机器人实现写字功能(一)

1. 功能说明 本文示例将实现R305样机3自由度并联绘图机器人写字的功能。 2. 电子硬件 在这个示例中,采用了以下硬件,请大家参考: 主控板 Basra主控板(兼容Arduino Uno) 扩展板Bigfish2.1扩展板电池7.4V锂电池 3. 功能…

九种 OOM 常见原因及解决方案(IT枫斗者)

九种 OOM 常见原因及解决方案(IT枫斗者) 什么是OOM? OOM,全称“Out Of Memory”,翻译成中文就是“内存用完了”,来源于java.lang.OutOfMemoryError。看下关于的官方说明:Thrown when the Java Virtual Machine canno…

使用 Amazon SageMaker 构建文本摘要应用

背景介绍 文本摘要,就是对给定的单个或者多个文档进行梗概,即在保证能够反映原文档的重要内容的情况下,尽可能地保持简明扼要。质量良好的文摘能够在信息检索过程中发挥重要的作用,比如利用文摘代替原文档参与索引,可…

数据结构复习题(包含答案)

第一章 概论 一、选择题 1、研究数据结构就是研究( D )。 A. 数据的逻辑结构 B. 数据的存储结构 C. 数据的逻辑结构和存储结构 D. 数据的逻辑结构、存储结构及其基本操作 2、算法分析的两个主要方面是( A …

Multi-modal Alignment using Representation Codebook

Multi-modal Alignment using Representation Codebook 题目Multi-modal Alignment using Representation Codebook译题使用表示子空间的多模态对齐期刊/会议CVPR 摘要:对齐来自不同模态的信号是视觉语言表征学习(representation learning)…

SpringMVC文件上传、异常处理、拦截器

SpringMVC文件上传、异常处理、拦截器 基本配置准备&#xff1a;maven项目模块 application.xml <?xml version"1.0" encoding"UTF-8"?> <beans xmlns"http://www.springframework.org/schema/beans"xmlns:xsi"http://www.w3.…

数据库系统-数据物理存储

文章目录 一、DBMS原理1.1 DB物理存储1.1.1 磁盘的结构&特性1.1.2 DBMS数据存储&查询原理记录&#xff1a;磁盘块 1.2 DB文件组织方法1.2.1 无序文件组织1.2.2 有序记录文件1.2.3 散列文件(Hash File)1.2.4 聚簇文件(Clustering File) 1.3 Oracle 物理存储简介 一、DBM…

程序员最常见的谎言

小伙伴们大家好&#xff0c;我是阿秀。 上周看到知乎上有位网友总结了自己的10年程序员生涯中最常说的一些谎言&#xff0c;一共有15条&#xff0c;看完我直呼内行&#xff01;&#xff01; 全中&#xff01;每一枪都中了&#xff01;每一条我都说过。 我基本都说过他说过的那些…

下载VMware安装Ubuntu18.04.6系统

文章目录 前言&#xff1a;1. 下载VMWare与Ubuntu镜像2. 安装VMware3. VMware下安装Ubuntu 前言&#xff1a; 这篇文章是为交叉编译做的铺垫&#xff0c;本文内容比较简单&#xff0c;按步骤操作即可。 1. 下载VMWare与Ubuntu镜像 为了节约大家时间&#xff0c;省的各种找&am…