Multiview Neural Surface Reconstruction by Disentangling Geometry and Appearance

主页：https://lioryariv.github.io/idr/
论文：https://arxiv.org/abs/2003.09852
代码：https://github.com/lioryariv/idr

效果展示

在这里插入图片描述

idr_fountain效果图

摘要

In this work we address the challenging problem of multiview 3D surface reconstruction. We introduce a neural network architecture that simultaneously learns the unknown geometry, camera parameters, and a neural renderer that approximates the light reflected from the surface towards the camera. The geometry is represented as a zero level-set of a neural network, while the neural renderer, derived from the rendering equation, is capable of (implicitly) modeling a wide set of lighting conditions and materials. We trained our network on real world 2D images of objects with different material properties, lighting conditions, and noisy camera initializations from the DTU MVS dataset. We found our model to produce state of the art 3D surface reconstructions with high fidelity, resolution and detail.
译文：
在这项工作中，我们解决了多视图3D表面重建的挑战性问题。我们引入了一种神经网络体系结构，该体系结构同时学习未知的几何形状，相机参数以及神经渲染器，该神经渲染器近似从表面向相机反射的光。几何图形表示为神经网络的零级别集，而从渲染方程导出的神经渲染器能够 (隐式) 对各种照明条件和材料进行建模。我们在DTU MVS数据集中的具有不同材料特性，照明条件和嘈杂相机初始化的对象的真实2D图像上训练了我们的网络。我们发现我们的模型可以产生具有高保真度，分辨率和细节的最先进的3D表面重建。

文章工作

主要贡献是:

处理未知几何、外观和相机的端到端架构。
表达神经隐式表面对相机参数的依赖性。
产生具有广泛外观的不同对象的最先进的3D表面重建，从现实生活中的2D图像，具有精确和嘈杂的相机信息。

算法框架

在这里插入图片描述
给定一组输入masked- 2D 图像，我们的目标是推断以下三个未知数：

(i) 场景的几何形状，表示为 MLP f 的零水平集；
(ii) 场景的光线和反射特性；
(iii) 未知的相机参数。

为了实现这一目标，我们模拟了受渲染方程启发的隐式神经几何的渲染过程。IDR 正向模型为可学习的相机位置 $c$ 和一些固定图像像素 $p$ 生成可微分的 $R G B$ 值。
如上所示：相机参数和像素定义观察方向 $v$ ，我们用 $x$ 表示观察光线 $c + t v$ 与隐式表面。样本网络模块将 $x$ 和表面 $n$ 的法线表示为隐式几何和相机参数的可微分函数。从几何体沿方向 $v$ 向相机 $c$ 反射的最终辐射率，即 $R G B$ ，由神经渲染器 $M$ 近似，MLP 将表面点 $x$ 和法线 $n$ 、观察方向 $v$ 和全局几何体作为输入特征向量 $z$ 。反过来，将 IDR 模型与地面实况像素颜色进行比较时会产生损失，从而能够同时学习几何形状、外观和相机参数。

Related Work

隐式表面可微分射线投射:
- 可微分射线投射主要用于隐式形状表示，体积网格上定义的隐式函数或隐式神经表示，如：
  - 隐式函数可以是占用函数 [37,5]；
  - 有符号距离函数 (SDF) [42] ；
  - 任何其他有符号的隐式 [2]；
- 相关工作中：
  - [20] 使用体积网格来表示SDF并实现射线投射可微分渲染器。它们近似于每个体积单元中的SDF值和表面法线。
  - [31] 使用预先训练的DeepSDF模型 [42] 的球体跟踪，并近似深度梯度w.r.t.通过区分球体跟踪算法的各个步骤来确定DeepSDF网络的潜在代码;
  - [30] 使用场探测来促进可区分的射线投射。
- 与这些作品相反，IDR利用了精确且可微的表面点和隐式表面的法线，并考虑了更通用的外观模型，并处理了嘈杂的相机。
多视图曲面重建:
- 问题：在图像的捕获过程中，深度信息会丢失。
- 解决：
  - 假设已知摄像机，经典的多视图立体 (MVS) 方法 [9,48，3,54] 尝试通过匹配视图中的特征点来再现深度信息。但是，需要进行深度融合的后处理步骤 [6,36]，然后是泊松表面重建算法 [24]，才能产生有效的3D的水密性的(watertight，个人理解为封闭)表面重建。
  - 最近的方法使用场景集合来训练MVS管道的子任务的深度神经模型，例如，特征匹配 [27]，或深度融合 [7,44]，或端到端MVS管道 [16,56，57]。
  - 当相机参数不可用时，并且给定一组来自特定场景的图像，则应用运动结构 (SFM) 方法 [51,47，22,19] 来再现相机和稀疏3D重建。Tang和Tan [53] 使用具有集成的可微束调整 [55] 层的深度神经结构来提取参考帧深度的线性基础，并从附近的图像中提取特征，并优化深度和相机参数在每个前向通过。
- 与这些作品相反，IDR使用来自单个目标场景的图像进行训练，从而产生准确的水密3D表面重建。
视图合成的神经表示:
- 最近的作品训练了神经网络，以从一组有限的具有已知相机的图像中预测新颖的视图和3D场景或对象的某些几何表示：
  - [50] 使用LSTM对场景几何进行编码，以模拟光线行进过程；
  - [38] 使用神经网络来预测体积密度和视图相关的发射辐射度，以从一组具有已知相机的图像中合成新视图；
  - [41] 使用神经网络从输入图像和几何图形中学习表面光场，并预测未知视图和/或场景照明。
- 与IDR不同，这些方法不会对场景的几何形状进行3D表面重建，也不会处理未知的相机。

Method

我们的目标是从masked的2D图像中重建对象的几何形状，其中可能包含粗糙或嘈杂的相机信息。我们有三个未知数 :(i) 几何，由参数 $\theta \in R^m$ 表示; (ii) 外观，由 $\gamma \in R^n$ 表示; (iii) 由 $\tau \in R^k$ 表示的相机。符号和设置如图2所示:
在这里插入图片描述

我们将几何表示为神经网络 $(M L P) f$ 的零级集:
$\{x ∈ \mathbb{R^3} | f(x;\theta) = 0\} . (1)$
具有可学习的参数 $\theta \in R^m$ 。为了避免无处不在的0解， $f$ 通常被正则化 [37,5]。我们选择 $f$ 将有符号距离函数 (SDF) 建模到其零水平集合 $S_\theta$ [42]。

我们使用隐式几何正则化 (IGR) [11] 实施SDF约束，SDF在我们的上下文中有两个好处:

它允许使用球体跟踪算法 [12,20] 进行有效的射线投射;
IGR享有隐式正则化，有利于平滑和逼真的表面。

IDR forward model

给定与某些输入图像相关联的由p索引的像素，令 $R_p(\tau) = \{c_p + tv_p | t ≥ 0\}$ 表示通过像素 $p$ 的射线，其中， $c_p = c_p(\tau)$ 表示各个相机的未知中心，而 $v_p = v_p(\tau)$ 表示光线的方向 (即，从 $c_p$ 指向像素 $p$ 的矢量)。令 $\hat x_p = \hat x_p(\theta，\tau)$ 表示射线 $R_p$ 和表面 $S_\theta$ 的第一个交点。沿 $R_p$ 的入射辐射决定了像素 $L_p = L_p(\theta，\gamma，\tau)$ 的渲染颜色，是 $\hat x_p$ 处的表面属性， $\hat x_p$ 处的入射辐射和观看方向 $v_p$ 的函数。反过来，我们假设表面属性和入射辐射是表面点 $x_p$ 及其相应的表面法线 $\hat n_p = \hat n_p(\theta)$ ，观察方向 $v_p$ 和全局几何特征向量的函数 $\hat z_p =\hat z_p(\hat x_p; \varTheta )$ 。因此，IDR正向模型为:
$L_p(\theta, \gamma, \tau) = M(\hat xp, \hat n_p, \hat z_p, v_p; \gamma),(2)$
其中M是第二神经网络 (MLP)。我们在比较 $L_p$ 和像素输入颜色 $I_p$ 的损耗中利用 $L_p$ 来同时训练模型的参数 $\theta, \gamma, \tau$ 。

Differentiable intersection of viewing direction and geometry

Lemma 1. 令 $S_\theta$ 定义为等式1。射线 $R(\tau)$ 与曲面 $S_\theta$ 的交点可以用公式表示 $\hat x(\theta,\tau) = c+t_0v-\frac{v}{\bigtriangledown _xf(x_0;\theta_0)\cdot v_0}f(c+t_0v;\theta),(3)$ 并且在 $\theta = \theta_0$ 和 $\tau = \tau_0$ 的值和 $\theta$ 和 $\tau$ 的一阶导数上是精确的。

此后 (直到第3.4节)，我们假设一个固定像素p，并删除下标p符号以简化符号。第一步是将交点 $\hat x(\theta，\tau)$ 表示为具有参数 $\theta，\tau$ 的神经网络。这可以通过对几何网络f进行稍微修改来完成。令 $\hat x(\theta，\tau) = c + t(\theta，c，v)v$ 表示交点。当我们的目标是在类似梯度下降的算法中使用 $\hat x$ 时，我们需要确保我们的导数在当前参数处的值和一阶导数是正确的，由 $\theta_0，\tau_0$ 表示; 因此，我们表示 $c_0 = c(\tau_0)，v_0 = v(\tau_0)，t_0 = t(\theta_0，c_0，v_0)，x_0 = \hat x(\theta_0，\tau_0) = c_0 + t_0v_0$ 。
为了证明 $\hat x$ 对其参数的这种函数依赖性，我们使用隐式微分 [1,40]，即微分方程 $(\hat x; \theta) ≡ 0 \ \ w.r.t.\ \ v，c，\theta$ 并求解t的导数。然后，可以检查公式3中的公式是否具有正确的导数。更多细节在补充中。我们将等式3实现为神经网络，即，我们添加两个线性层 (具有参数 $c ， v$ ): 一个在 $M L P f$ 之前和一个在 $M L P f$ 之后。公式3统一了 [1] 中的样本网络公式和 [40] 中的可微深度，并将其推广以说明未知相机。在 $x$ 处 $S_\theta$ 的法向量可以通过以下方式计算:
$\hat n(\theta,\tau) = \frac{\bigtriangledown_xf(\hat x(\theta，\tau),\theta)}{|| \bigtriangledown_xf(\hat x(\theta，\tau),\theta)||_2}$

对于SDF，分母为1，因此可以省略。

Approximation of the surface light field

表面光场辐射度 $L$ 是从 $S_\theta$ 在方向- $v$ 到达 $c$ 的方向上的 $x$ 处反射的光量。它由两个函数确定: 描述表面的反射率和颜色特性的双向反射率分布函数 (BRDF)，以及场景中发出的光 (即，光源)。
BRDF函数 $B(x，n，w^o，w^i)$ 描述了在某个波长 (即，颜色) 相对于来自方向 $w^i$ 的入射辐射在方向 $w^o$ 处离开具有法线 $n$ 的表面点x。我们让BRDF也依赖于一点上表面的法线 $n$ 。场景中的光源由函数 $L^e(x，w^o)$ 描述，该函数测量在方向 $w^o$ 上的点x处的某个波长处的光的发射辐射。在方向 $v$ 上到达 $c$ 的光量等于在方向 $w^o =-v$ 上从 $x$ 反射的光量，并且由所谓的渲染方程 [21,17] 描述:
$L(\hat x,w^o) \\= L^e(\hat x,w^o)+\int_\Omega B(\hat x，\hat n，w^o，w^i)L^i(\hat x,w^i)(\hat n,w^i)dw^i \\=M_0(\hat x，\hat n，v),(5)$
其中， $L^i (\hat x，w^i)$ 编码方向 $w^i$ 上的 $\hat x$ 处的传入辐射，术语 $\hat n\cdot w^i$ 补偿了光没有正交地照射到表面的事实; $\Omega$ 是以 $\hat n$ 为中心的半球体。函数 $M_0$ 表示作为局部表面几何形状 $\hat x、 \hat n$ 和观察方向 $v$ 的函数的表面光场。该渲染方程适用于每个光波长度; 如后所述，我们将使用它来表示红色、绿色和蓝色 (RGB) 波长。
我们将注意力限制在可以用连续函数 $M_0$ 表示的光场上。我们用 $P = \{M_0\}$ 表示这种连续函数的集合 (有关 $P$ 的更多讨论，请参见补充材料)。用 (足够大的) MLP近似M (神经渲染器) 代替 $M_0$ 提供了光场近似:
$L(\theta，\gamma，\tau) = M (\hat x,\hat n,v; \gamma),(6)$
几何形状和外观的解缠结要求可学习的M对所有输入 $x ， n ， v$ 近似于 $M_0$ ，而不是存储特定几何形状的辐射值。给定光场函数 $M_0 \in P$ 的任意选择，存在权重 $\gamma = \gamma_0$ 的选择，因此对于所有 $x ， n ， v$ (在某个有界集中)，M近似于 $M_0$ 。这可以使用mlp的标准普遍性定理来证明 (在补充中详细信息)。但是，M可以学习正确的光场函数M0的事实并不意味着可以保证在优化过程中学习它。尽管如此，对于任意 $x ， n ， v$ 能够近似于 $M_0$ 是解开几何 (用f表示) 和外观 (用M表示) 的必要条件。我们将这个必要条件命名为 $P - u n i v e r s a l i t y$ .

Necessity of viewing direction and normal

形式为了能够表示从表面点x反射的正确光，即 $P - u n i v e r s a l$ ，它还必须接收 $v ， n$ 作为参数。即使我们期望M为固定的几何形状工作，观察方向 $v$ 也是必需的; 例如，用于模拟镜面。而正常的 $n$ 则可以由 $M$ 作为 $x$ 的函数来记忆。但是，为了解开几何形状，即允许M独立于几何形状学习外观，也必须合并法线方向。这可以在图3中看到: 在没有正常信息的renderer M将产生相同的光估计情况 (a)和 (b)，而没有观看方向的渲染器M将在情况 (a) 和 © 中产生相同的光估计。在补充中，我们提供了有关这些渲染器在Phong反射模型下如何无法生成正确的辐射的详细信息 [8]。以前的作品，例如 [40]，已经考虑了形式为 $L(\theta，\gamma) = M (\hat x; \gamma)$ 的隐式神经表示的渲染函数。如上所述，从M中省略n和/或v将导致非 $P - u n i v e r s a l$ 渲染器。在实验部分中，我们证明了将 $n$ 合并到渲染器 $M$ 中确实可以成功地解开几何形状和外观，而忽略它会损害解开。
在这里插入图片描述

图3: 没有 $n$ 和/或 $v$ 的神经渲染器不是通用的

Accounting for global light effects

$P - u n i v e r s a l i t y$ 是学习可以从集合 $P$ 中模拟外观的神经渲染器M的必要条件。但是， $P$ 不包括诸如辅助照明和自阴影之类的全局照明效果。通过引入全局特征向量 $\hat z$ ，我们进一步提高了IDR的表达能力。此特征向量允许渲染器全局推理几何 $S_\theta$ 。为了产生向量 $\hat z$ ，我们将网络f扩展如下: $\Theta) = [f(x; \Theta)，z(x; \Theta)] ∈ R × R^\ell$ 。通常， $z$ 可以相对于曲面样本 $x$ 对几何 $S_\theta$ 进行编码; z被馈送到渲染器中，为 φ z(θ，τ) = z (φ x；Θ)，以考虑与当前感兴趣像素p相关的表面样本 $\hat x$ 。我们现在已经完成了IDR模型的描述，在等式2中给出。

Masked rendering

用于重建3D几何形状的另一种有用的2D监督类型是Masked; 蒙版是二进制图像，对于每个像素p，指示感兴趣的对象是否占用该像素。可以在数据中提供掩码 (如我们假设的那样) 或使用例如掩码或分割算法进行计算。我们想考虑以下指示函数来标识某个像素是否被渲染的对象占用 (记住我们假设某个固定像素p):
$S(\theta,\tau) = \left\{\begin{matrix} \ \ \ \ 1 \ \ \ \ \ \ \ \ R(\tau)\cap S_\theta \ne 0 \\ 0 \ \ \ \ \ \ \ \ \ \ \ otherwise \end{matrix}\right.$
由于此函数在 $\theta$ 中不是可微的也不是连续的，因此 $\tau$ 我们使用了几乎所有地方的可微近似值:
$S_\alpha(\theta,\tau) = sigmoid(-\alpha \min_{t \ge 0}f(c+tv;\theta)),(7)$
其中 $\alpha \gt 0$ 是一个参数。由于根据惯例，我们的几何内部 $\lt 0$ ，外部 $f\gt 0$ ，因此可以验证 $S_\alpha(\theta，\tau) → S(\theta，\tau)$ 。此外，该神经网络在 $c = c_0$ 和 $v = v_0$ 处具有精确值和一阶导数。

Loss

设 $I_p ∈ [0,1]^3$ ， $O_p \in \{0，1\}$ 是与使用相机 $c_p(\tau)$ 和方向 $v_p(\tau)$ 拍摄的图像中的像素p相对应的RGB和掩码值 (resp。)，其中 $\in P$ 索引输入图像集合中的所有像素， $\tau \in R^k$ 表示场景中所有摄像机的参数。我们的损失函数的形式为:
$loss(\theta,\gamma,\tau) = loss_{RGB}(\theta,\gamma,\tau) +ploss_{MASK}(\theta,\tau) + \lambda loss_E(\theta),(8)$
我们在P中的小批量像素上训练这种损失; 为了保持简单的符号，我们用P表示当前的小批量。对于每个 $p\in P$ ，我们使用球体跟踪算法 [12,20] 来计算射线 $R_p(\tau)$ 和 $S_\theta$ 的第一个相交点 $c_p +t_p，0v_p$ 。令引脚为已找到相交且 $O_p = 1$ 的像素P的子集。设 $L_p(\theta，\gamma，\tau) = M (\hat x_p,\hat n_p,\hat z_p,v_p; \gamma),$ ，其中 “xp，” np定义为在等式3和4中， $\hat z_p = \hat z (\hat x_p; \theta)$ 定义为在第3.2节和等式2中。RGB损失是
$loss_{RGB}(\theta,\gamma,\tau) =\frac{1}{|P|}\sum_{p \in P^{in}}|I_p-L_p(\theta,\gamma,\tau)|,(9)$
其中 $\cdot |$ 表示L1范数。 $P^{out}=\frac{P}{P^{in}}$ 表示mini-batch中没有射线几何相交或Op = 0的索引。MASK损失是
$loss_{MASK}(\theta,\tau) =\frac{1}{|\alpha P|}\sum_{p \in P^{out}}CE(O_p,S_{p,\alpha(\theta,\tau)}),(10)$
其中，CE是交叉熵损失。最后，我们强制 $f$ 近似为具有隐式几何正则化 (IGR) [11] 的有符号距离函数，即合并了Eikonal正则化:
$loss_{E}(\theta) =E_x(||\bigtriangledown_xf(x;\theta) ||-1)^2,(10)$
其中x均匀分布在场景的边界框中。

实验结果

在这里插入图片描述

总结

我们引入了隐式可微渲染器 (IDR)，这是一种端到端的神经系统，可以从掩蔽的2D图像和嘈杂的摄像机初始化中学习3D几何形状，外观和摄像机。仅考虑粗略的相机估计，就可以在无法获得精确相机信息的现实场景中进行可靠的3D重建。我们的方法的一个限制是，它需要一个合理的相机初始化，不能使用，例如随机相机初始化。有趣的未来工作是将IDR与神经网络结合起来，该神经网络直接从图像中预测相机信息。另一个有趣的未来工作是将表面光场 (等式5中的 $M_0$ ) 进一步因子为材料 (BRDF，B) 和场景中的光 ( $L^i$ )。最后，我们希望将IDR纳入其他计算机视觉和学习应用程序中，例如3D模型生成以及从野外图像中学习3D模型。