MoGe---最新单目3D几何估计方法

news2025/7/16 0:46:29

一、概述

二、相关工作

1、单目深度估计

2、单目几何估计

3、相机内参估计

4、单目几何的大规模数据训练

三、前置知识

1、仿射不变和尺度不变指标

2、FOV和shift

3、ROE对齐求解器

四、MoGe

1、为什么设计仿射不变？

2、恢复相机焦距和移位

3、MoGe框架

五、实验

1、点映射比较

2、单目深度估计比较

3、FOV比较

4、消融实验

5、可视化

一、概述

该论文提出了一个从单张单目图像中直接预测场景三维点云表示的模型MoGe。利用仿射不变性，不受真实尺度和位移的影响，从而消除了相机焦距产生的歧义。另外提出一种新颖的全局和局部几何监督技术，使模型学习到高质量的几何信息。该模型在包括3D点图，深度图，FoV（相机视场）单目估计中都显著优于最先进的方法。

MGE：Monocular geometry estimation

MDE：Monocular depth estimation

（1）提出了一种新的仿射不变点映射的开放域图像的直接MGE方法。

（2）建立了新的有效的全局和局部监督的鲁棒和精确的几何恢复。

（3）不同数据集下，MGE，MDE，FOV估计均达到SOTA，（可以替代DUSt3R来提供3D prior）

二、相关工作

1、单目深度估计

早期的单目估计严重依赖特定传感器的数据，比如RGBD相机，LiDAR，校准立体相机，但是存在特定领域的适用性。

另外在单目估计近期仿射不变预测或者直接回归或生成模型的方式，但恢复三维几何需要相机内参。

2、单目几何估计

单目点图估计恢复的是每个像素的自由三维点。

LeReS引入仿射不变预测的两阶段pipeline，然后通过点云模块恢复位移和相机焦距。

UniDepth通过自我提示的相机模块，预测摄像机表示来调整后续深度估计。

DUSt3R通过端到端双视图映射点图，但依据尺度不变性，会导致受到焦距模糊影响。

3、相机内参估计

早期工作依据已知三维形状或vanishing points。最近依赖基于学习的方式，但效果并不满意。

4、单目几何的大规模数据训练

MiDaS混合不同领域数据集训练。

Depth Anything使用有标记的和未标记的数据来提高泛化，v2工作进一步强调高质量合成数据也可以提供更多丰富的几何形状信息。

三、前置知识

1、仿射不变和尺度不变指标

首先定义 $\hat{p}_i,p_i$ 分别为预测点和GT点， $\hat{z}_i,z_i$ 分别表示预测深度和GT深度，对应着点的z坐标， $M$ 表示GT的mask， $a,b$ 分别表示将预测和GT对齐的尺度和位移， $d_i,\hat{d}_i$ 表示预测视差和GT视差，定义为 $d_i=1/z_i$ 。

尺度不变点映射

$a^*=\arg \min_{a}\sum_{i \in M} \frac{1}{z_i}||a\hat{p}_i-p_i||_1$

仿射不变点映射

$(a^*,b^*)=\arg \min_{a,b}\sum_{i \in M} \frac{1}{z_i}||a\hat{p}_i+b-p_i||_1$

尺度不变深度映射

$a^*=\arg \min_s \sum_{i \in M}\frac{1}{z_i}|a\hat{z}_i-z_i|$

仿射不变深度映射

$(a^*,b^*)=\arg \min_s \sum_{i \in M}\frac{1}{z_i}|a\hat{z}_i+b-z_i|$

仿射不变视差映射

$(a^*,b^*)=\arg \min_s \sum_{i \in M}(a\hat{d}_i+b-d_i)^2$

其中为防止对齐视差过小或负值，则利用 $1/z_{max}$ 进行反向截断，对齐深度 $\hat{z}_i^*$ 表示为：

$\hat{z}_i^*=\frac{1}{max(a^*\hat{d}_i+b^*,1/z_{max})}$

2、FOV和shift

FOV：视场角（标准镜头45度，近景镜头：40度，广角镜头：60度）（FOV越大，看的范围越宽）

EFL：焦距（焦距越大，看的越远）

FOV与EFL关系： $FOV=2\times tan^{-1}(\frac{W}{2f})$ ，其中W为传感器宽度，由垂直fov和水平fov限制。

单目几何估计输出场景三维模型，一般利用SfM，以往的MGE都是估计一个depth map，并且以未知的scale来结合相机内参，通过非投影方式恢复三维形状。

相较于DUSt3R，使用多视图深度估计，使用尺度不变点映射，MoGe可以单目估计，而且使用仿射不变点映射。

z轴方向的shift：就是相机在z轴方向的前后偏移。

3、ROE对齐求解器

ROE 对齐求解器是一种高效的并行搜索算法，用于求解全局损失中的最优对齐参数 s∗ 和 t∗。它将原优化问题分解成一系列并行的一维子问题，将时间复杂度从 $O(N^3)$ 降低到 $O(N^2logN)$ ,大大提高了训练效率。同时，它还引入了截断绝对残差的策略，进一步提高了鲁棒性。

MoGe中的全局损失和局部损失中的 $(s_j^*,t_j^*)$ 都来自于ROE算法。

四、MoGe

1、为什么设计仿射不变？

根据下图，相似的一前一后两张单目图像，受到相机焦距和与物体的距离影响，导致在尺度不变性下存在不一致的观察效果，而仿射不变性下一致。这是不是也揭示了一些基于DUSt3R进行3D prior的生成模型，在不同视角下，与GT视角只保持了尺度一致，并不能保持仿射一致，不同视角下就会想着相机方向扭曲。

2、恢复相机焦距和移位

仿射不变点映射可以恢复相机位移和焦距，给定预测点 $(x_i,y_i,z_i)$ 以及二维像素 $(u_i,v_i)$ ，可以求解相机焦距预测 $f$ 和z轴偏移 $t_z'$ 。全局尺度s， $t_z'=t_z/s$ 。

$\min_{f,t_z'} \sum_{i=1}^N(\frac{fx_i}{z_i+t_z'}-u_i)^2+(\frac{fy_i}{z_i+t_z'}-v_i)^2$

看到附录里还有一部分直接简化掉焦距的计算，只最小化 $t_z'$ 。

3、MoGe框架

流程：

输入一张单目图像，经过DINOV2 预训练的ViT+轻量级的基于CNN的上采样器预测一个仿射不变点图 $\hat{P}$ 和一个掩码 $\hat{M}$ 用于排除无法定义几何的区域（如天空），直接给定为无穷远。

之后从 $\hat{M}$ 和 $\hat{P}$ 中通过ROE确定全局尺度因子s和平移t，并通过损失来优化参数，在推理过程直接就通过ROE求解得到最优的s和t。

最后有了s和t，通过仿射不变点图 $\hat{P}$ 恢复出相机空间下的点云 $P=s\hat{P}+t$ ，进一步通过点云P提取出深度图，就是提取所有点的z坐标。

而这个模型最优的点在于开创了一系列创新的全局和局部几何监督损失函数：

（1）全局损失 $L_G$ ：相较于以往的只考虑尺度不变，引入了偏移t。

$L_G=\sum_{i\in M}\frac{1}{z_i}||s \hat{p_i}+t-p_i||_1$

训练时应用全局损失来优化s和t，但是首先应该确定s和t，论文中提出了一种并行搜索方法ROE将问题分解为一系列平行一维子问题，降低复杂度到 $O(N^2logN)$ 。

（2）局部损失 $L_{S1},L_{S2},L_{S3}$ ：保证在不同尺度下，独立预测和GT点云进行仿射对齐，计算局部几何差异。

计算过程如下，首先给定一个GT 3D点 $p_j$ 作为锚点，选择以 $p_j$ 为中心，半径为 $r_j$ 的球形区域内的点集 $S_j$ 。

$S_j= \left \{ i||p_i-p_j|| \leqslant r_j,i \in M \right \}$ ，其中 $r_j=\alpha \cdot z_j \cdot \sqrt{\frac{W^2+H^2}{2 \cdot f}}$ ， $z_j$ 是 $p_j$ 深度（z坐标）， $f$ 为焦距， $W,H$ 为图像宽和高， $\alpha \in (0,1)$ ,代表近似表示投影球体直径占图像对角线的比例，