基于NeRF/Gaussian的全新SLAM算法

news2026/2/15 12:51:48

SLAM，即同时定位与地图构建技术，SLAM可以让机器人、无人机和其他自动化系统能够在未知环境中同时进行自我定位和环境映射。

传统CG将输入图像重新投影再融合到新的视图摄像机中，利用几何结构来进行重投影。在很多情况下，传统CG方法重建地图都能有相当好的效果，但是对于地图上的未知区域，进行三维重建恢复就有些困难了。

深度学习很早就在应用在重建方面。Volumetric 表达由Soft3D提出，随后与Volumetric ray-marching 相结合的深度学习技术出现，这是一种基于连续可微密度场的Geometry（几何）表示方法。

神经辐射场引入了Importance Sampling（重要性采样）和Positional Encoding（位置编码），使得三维重建的质量得到显著提升；同时NeRF神经渲染算法大大减少了传统三维重建中生成的伪影，在大多数情况下效果都比传统算法好。目前重建图像质量最好的是Mip-NeRF360。

此外，将SLAM技术融入到深度学习中，更容易使得所有算法能够统一到一个框架中，方便不同算法之间的数据传输和通信，方便了上下游兄弟部门的协同合作。比如建好的地图可以用于语义标注，从而接到BEV感知中训练，又或者可以生成 Occupancy 网格，交给规控部门去做路径的规划和智能体的控制。

基于NeRF的SLAM算法采用全局地图和图像重建损失函数，通过可微分渲染捕获稠密的光度信息，具有高保真度。但是用Implicit Neural Representation（隐式神经表达）对场景建模导致了许多问题：

SLAM技术通常部署在机器人身上，性能尤为关键。后续出现了一系列解决NeRF重建效果和性能的论文，基于3D高斯辐射场的SLAM有以下好处:

快速渲染和丰富的优化：Gaussian Splatting可以以高达400 FPS的速度渲染，使其比隐式表达更快地可视化和优化。
有明确空间范围的建图：现有地图的空间边界可以通过在之前观察到的部分场景中添加高斯函数来控制。给定一个新的图像帧，我们可以通过渲染剪影识别场景的哪些部分是新内容（在地图的空间边界之外）。这对于Tracking任务很重要，因为我们只想将已经建好图的部分与新图像帧进行比较。隐式表达就不行了，因为在对未知区域建图优化的时候，全局的优化会影响到神经网络。
显式地图:我们可以通过添加更多的Gaussian函数来任意地增加地图容量。而且这种显式的表达让我们可以编辑场景中的某些部分，同时仍然允许真实的渲染。隐式方法不能轻易地增加其容量或编辑其所表示的场景。