什么是SLAM?
SLAM,即同时定位与地图构建技术,SLAM可以让机器人、无人机和其他自动化系统能够在未知环境中同时进行自我定位和环境映射。
为什么是NeRF-Based SLAM?
传统CG将输入图像重新投影再融合到新的视图摄像机中,利用几何结构来进行重投影。在很多情况下,传统CG方法重建地图都能有相当好的效果,但是对于地图上的未知区域,进行三维重建恢复就有些困难了。
深度学习很早就在应用在重建方面。Volumetric 表达由Soft3D提出,随后与Volumetric ray-marching 相结合的深度学习技术出现,这是一种基于连续可微密度场的Geometry(几何)表示方法。
神经辐射场引入了Importance Sampling(重要性采样)和Positional Encoding(位置编码),使得三维重建的质量得到显著提升;同时NeRF神经渲染算法大大减少了传统三维重建中生成的伪影,在大多数情况下效果都比传统算法好。目前重建图像质量最好的是Mip-NeRF360。
此外,将SLAM技术融入到深度学习中,更容易使得所有算法能够统一到一个框架中,方便不同算法之间的数据传输和通信,方便了上下游兄弟部门的协同合作。比如建好的地图可以用于语义标注,从而接到BEV感知中训练,又或者可以生成 Occupancy 网格,交给规控部门去做路径的规划和智能体的控制。
为什么是Gaussian-Based SLAM?
基于NeRF的SLAM算法采用全局地图和图像重建损失函数,通过可微分渲染捕获稠密的光度信息,具有高保真度。但是用Implicit Neural Representation(隐式神经表达)对场景建模导致了许多问题:
-
query过程(可以理解为射线渲染)需要大量的采样,渲染方法成本很高
-
用了大型多层MLP,运算量大,占用内存高
-
不容易编辑
-
不能显式地对空间几何建模
-
导致“遗忘”问题
SLAM技术通常部署在机器人身上,性能尤为关键。后续出现了一系列解决NeRF重建效果和性能的论文,基于3D高斯辐射场的SLAM有以下好处:
-
快速渲染和丰富的优化:Gaussian Splatting可以以高达400 FPS的速度渲染,使其比隐式表达更快地可视化和优化。
-
有明确空间范围的建图:现有地图的空间边界可以通过在之前观察到的部分场景中添加高斯函数来控制。给定一个新的图像帧,我们可以通过渲染剪影识别场景的哪些部分是新内容(在地图的空间边界之外)。这对于Tracking任务很重要,因为我们只想将已经建好图的部分与新图像帧进行比较。隐式表达就不行了,因为在对未知区域建图优化的时候,全局的优化会影响到神经网络。
-
显式地图:我们可以通过添加更多的Gaussian函数来任意地增加地图容量。而且这种显式的表达让我们可以编辑场景中的某些部分,同时仍然允许真实的渲染。隐式方法不能轻易地增加其容量或编辑其所表示的场景。
课程大纲
课程亮点
-
本门课程从理论和代码实现两方面展开,带你从零入门NeRF/Gaussian Based SLAM的原理学习、论文阅读、代码梳理等。
-
理论层面,从线性代数入手到传统的计算机图形学,让大家明了现代三维重建的理论基础和源头;
-
代码层面通过多个练习手把手教会大家复现计算机图形学、NeRF相关工作。
学后收获
-
入门基于NeRF/Gaussian的SLAM领域
-
学会如何在快速抓取一篇论文的关键点和创新点
-
如何快速跑通一篇论文的代码并结合代码掌握论文的思想
-
逐行NeRF代码进行解析,掌握每个实现细节,并手动复现并作改进
课程设置
-
系统要求:Linux
-
编程语言:Python
-
基础要求:有Python、PyTorch基础
适合人群
-
对一篇新论文配套开源代码无从下手的小白
-
SLAM定位建图、NeRF三维重建小白
-
从事三维重建工作的人员可参考
-
NeRF论文的初始阅读者
-
对SLAM、NeRF感兴趣的学员
开课时间
2024年2月24日晚上8点(周六),每周更新一章节。
课程答疑
本课程答疑主要在本课程对应的鹅圈子中答疑,学员学习过程中,有任何问题,可以随时在鹅圈子中提问。
▲长按购买课程,前50名,享早鸟价,立减70元
▲长按添加小助理微信:cv3d007,咨询更多
备注:以上图片和视频部分来自网络,如果侵犯了您的权益,还请联系删除!