论文笔记PhotoReg: Photometrically Registering 3D Gaussian Splatting Models

1.abstract

最近推出的3D高斯飞溅(3DGS)，它用多达数百万个原始椭球体来描述场景，可以实时渲染。3DGS迅速声名鹊起。然而，一个关键的悬而未决的问题仍然存在：我们如何将多个3DG融合到一个连贯的模型中？解决这个问题将使机器人团队能够共同建立其周围环境的3DGS模型。这项工作的一个关键见解是利用照片级真实感重建和3D基础模型之间的二元性，前者从3D结构渲染真实的2D图像，后者从图像对预测3D结构。为此，我们开发了PhotoReg，这是一个将多个照片级真实感3DGS模型与3D基础模型配准的框架。由于3DGS模型通常由单目摄像机图像构建，因此具有任意比例尺。为了解决这一问题，PhotoReg通过考虑这些模型中的深度估计，积极地在不同的3DGS模型之间执行比例一致性。然后，使用细粒度的光度损失迭代地精化对齐，以产生高质量的融合3DGS模型。我们在标准基准数据集和我们自定义收集的数据集上严格评估PhotoReg，包括使用两个四足机器人。

2.INTRODUCTION

本文研究了将多个独立构建的3DGS模型组合成一个统一模型的问题。解决这个问题将允许机器人团队以分散的方式探索和绘制大型未知空间。为了应对3DGS融合的挑战，我们提出了我们的光度学三维高斯配准框架(PhotoReg)。经典的配准方法，如迭代最近点配准方法及其变种[5]、[6]、[7]，主要集中在通过最小化相应点之间的距离来对齐点云[8]。然而，3DGS固有的连续和复杂的几何表示与传统配准方法管理的离散点集有很大的不同，这就需要像PhotoReg这样的创新方法来进行有效的配准。

PhotoReg利用在互联网规模的数据集上训练的3D基础模型，从2D图像对得出初始3D结构。这些模型提供粗略的估计，以促进3DGS模型的初始对齐，特别是在模型之间重叠最小的情况下。由于各个3DGS模型可能具有不同的比例，PhotoReg通过在每个模型中考虑置信度感知深度估计来积极调整它们的比例。随后，PhotoReg优化了细粒度光度损失，该损失衡量模型中渲染图像的质量，以确保3DG之间紧密对齐。我们对PhotoReg提供了广泛的经验评估，包括对经典基准数据集和定制收集的数据的评估。这包括由在公共区域运行的两个四足动物收集的自定义数据集。

本文的创新在于：

1）利用3D基础模型在重叠最小的情况下处理3DGS对齐；

2)通过计算具有置信度的深度估计来重新调整各个模型的比例，从而解决3DGS模型中的比例差异；

3)通过优化渲染图像的质量来精确调整融合模型。

3.RELATED WORK

3D配准：在机器人感知中，配准是指寻找两个3D结构之间的变换。随着时间的推移，配准两个点云已被广泛研究。 ICP [22] 或者找到对应点对并基于最近点假设估计它们之间的刚体变换。 color ICP [23]、Point to Plane ICP [24] 和鲁棒 ICP [25] 等变体在准确性和效率方面提高了该方法。目前已经探索了注册两个 NeRF 的方法。 NeRF2NeRF [26]提出通过手动选择关键点来对齐两个 NeRF。 DReg-NeRF [27] 通过使用深度学习自动对齐 NeRF 模型，进一步推进了 3D 配准。已经尝试探索 3DGS 配准：LoopSplat [28] 通过配准 3D 高斯图引入了一种新颖的环路闭合技术。然而，LoopSplat 依赖 RGB-D 图像来获取深度传感器读数，这限制了其在深度传感器不可用或不可靠时的适用性。 PhotoReg 可以在没有深度传感器的情况下注册 3DGS。

可视化基础模型：机器人技术受益于互联网规模数据训练的transformer[29]。特别是对于机器人感知，这种视觉基础模型包括[30]、[31]、[32]。这些型号充当即插即用模块，以促进一系列下游任务。例如，DINOv2[33]在互联网规模的未标记数据上接受了培训，采用了自监督技术，使其能够深入理解视觉内容，而不需要明确的注释。DUSt3R[34]是PhotoReg中使用的3D基础模型。它被设计成从RGB图像生成3D点图，从而实现姿势估计，并已被应用于下游机器人机械手感知[35]，[36]。PhotoReg利用基础模型的应急能力来执行稳健的对齐。

4.METHODOLOGY

A.问题设置

这项工作中解决的主要挑战涉及3DGS模型的融合。具体地说，在给定输入3DGS模型G1和G2的情况下，我们提出的方法旨在找到在G1的坐标框架内将G2与G1内聚地对齐的变换函数T。由于3DG的规模是任意的，T需要处理可能具有非常不同的尺度的G1和G2。在深入研究我们提出的PhotoReg方法的细节之前，我们首先给出了3DGS模型的数学定义和相应的变换函数。

B.Notation and Transforming Gaussian Splats

3DGS模型G包括一组3D高斯，其中每个高斯由其3D位置µ来定义；协方差矩阵Σ，其描述了高斯分布在3D空间中的扩散和方向；不透明度，α；以及球谐(SH)系数c，其包含颜色信息：

Transformation：3DGS 模型的变换涉及对每个高斯的每个属性应用缩放、旋转和平移。设表示将 3DGS 模型从某个通用坐标系 A 映射到坐标系 B 的变换函数。该函数将坐标系 A 中的 3DGS 模型作为输入，输出（对应的坐标系）。 B变换后的3DGS模型，表示为。

变换函数可以分别由缩放因子s、旋转R 和平移t 组成。假设且。每个属性的转换映射定义如下：

C. PhotoReg Overview

PhotoReg包括四个顺序阶段：基本图像匹配：选择每个输入3DGS模型中相邻区域的渲染图像对作为输入到3D基础模型；初始估计：获得3D基础模型对齐所用的旋转和平移的初始估计；尺度估计：通过置信度加权深度图解决3DGS模型之间的比例差异；优化：通过光度损失最小化同时优化比例、旋转和平移。该工作流程如图4所示。

D. Foundational Image Matching

我们详细介绍基础图像匹配 (FIM) 过程，该过程利用视觉基础模型（尤其是 DINOv2）来启动我们的注册过程。 FIM 过程的输入由两个 3DGS 模型组成，分别表示为 G1 和 G2，每个模型与一组相机pose C1 和 C2 相关联。 FIM 的主要目的是从 G1 和 G2 中识别和提取给定相机pose的两个高质量渲染图像，它们在语义级别上相似，并且不受观看pose的影响。也就是说，同一物体但角度相同也好截然不同也好，只要语义类似，那么这两个图像将被识别为相似。为了选择适当的图像作为 3D 基础模型的输入，我们首先以不同的姿势渲染来自 G1 和 G2 的图像集 I1 和 I2。我们的目标是选择合适的图像对进行粗配准。我们寻求 v1 ∈ V1 和 v2 ∈ V2 使得：

我们以这种方法识别图像对，其中一个从G1生成，另一个从G2生成，它们在语义和视觉上都是相似的。

E. Coarse Registration via 3D Foundation Models

我们继续使用图像对（img1，img2）作为 3D 基础模型 DUSt3R [34] 的输入，以获得初始粗配准，将 G2 近似对齐到 G1 的坐标系中。我们将 img1 和 img2 输入到 DUSt3R 中，它估计具有旋转和平移的刚性变换。然而，G1 和 G2 之间的缩放因子仍然未知。下一步把从 3D 基础模型获得的变换应用回原始 3DGS 模型。该过程涉及一系列转换步骤，如图5所示。我们定义坐标系如下：对于坐标系 P，表示坐标系 P 下的 3DGS 模型 Gi。具体来说，Poi 是 3DGS模型的原始坐标系，而是像机的坐标系，以产生图像img i。溅射模型的原始坐标系是任意构造的，表示模型原始坐标系o1到相机坐标系c1的变换。

我们的目标是获得到，该变换函数直接将G2坐标系变换到G1的坐标系中，公式是：

我们遵循图5中的变换序列。这里，和是世界到相机的变换w2c，对应于已知的图像img1和img2。两个摄像机位姿之间的变换被表示为，它包括旋转、平移和缩放。我们主要关注与DUSt3R的输出的匹配关系。然而，尺度是未知的。因此我们有，可以对着坐标系看公式，公式4是公式3的具体化：

上面公式中，从右往左看，是G2原始坐标系（world）变换到了他的一个相机坐标系c2，然后又从c2变换到了G1的一个相机坐标系c1，最后从c1变换到了G1的世界坐标系。

唯一未知的参数是尺度比。由于两个世界到相机的变换都具有已知的绝对比例，因此是两个3DGS模型之间的比例差异。也就是说，。在接下来的小节中，我们将估计最终的未知参数，即G1和G2之间的尺度比。

F. Scale Estimation

在这一步中，我们通过比较不同坐标系中同一个pose下的深度图来估计尺度比。深度图可以表示为二维矩阵，其中每个元素表示视点(例如，照相机)沿视线到场景中一点的距离，

给定一个相机pose，深度图可以从标准的3DGS模型[39]中提取，并且也可以在初始粗对准期间由DUSt3R输出。还输出深度图的像素方向置信度图。这里，我们将从它们各自的3DGS模型获得的深度图IMG1和IMG2表示为D1，D2∈RW×H，并且将来自DUST3R的深度图表示为∈RW×H，以及置信度图C1，C2∈RW×H。这里，W和H表示图像宽度和高度。

一个关键的细节是，因为DUSt3R的性质（DUSt3R输出的pointmap、confidence map都是统在同一个坐标系下面的），深度位于相同的坐标系中，具有相同的尺度。然后，尺度不同，我们可以根据公式5这样估计G1和G2之间的置信度权重得到尺度比例：

其中，⊗表示矩阵中各个对应元素之间的乘积。通过对尺度比的估计，我们得到一个初始变换（这个尺度比其实就是坐标系尺度比），它大致对齐了G1和G2。我们现在将重点转移到优化训练这个初始变换的路线上。

G. Precise Refinement via Photometric Optimization

在粗略地对齐G1和G2之后，我们通过从G1和G2以一种新的姿势C来渲染图像来进一步优化对齐。然后，我们最小化渲染图像之间的光度损失，并根据我们的变换参数进行优化。我们注意到，3DGS模型和渲染的可微性使得基于梯度的优化能够传播回变换参数。使用的损失是 L1 距离，用mask标记相同pose下，同像素位置来自G1和G2的渲染：

其中 F 是可微渲染函数，可在给定摄像机姿势和 3DGS 模型的情况下生成图像。掩码的 L1 距离 l1masked 给出了由元素级二进制mask的 L1 距离。使用的元素级二进制掩码是 M1⊗M2，其中 M1 和 M2 是二进制掩码，指示是否在每个像素处渲染了任何内容。

我们根据的参数对 L 进行微分，给出为。我们使用基于梯度的优化器来最小化损失并执行详细的对齐。

5. EXPERIMENTS

（coming soon）

在本节中，我们评估所提出的 PhotoReg 方法在合并两个或多个具有不同重叠级别的高斯 Splatting 模型时的性能。我们在框架中使用的基础模型是 DUSt3R 和 DINOv2。 DUSt3R 从渲染图像中生成粗略的 3D 重建； DINOv2 基于图像中稳健的视觉特征执行特征提取。我们寻求凭经验回答几个主要问题