概述

针对深度估计的标签数据难以获取，自监督方法在病态（遮挡、非朗伯面）区域的表现差，跨域泛化能力弱的问题，本文提出了一种新的框架用于在无标签条件下训练双目立体深度估计模型，该方法通过NeRF来对单目拍摄的图像序列进行有监督训练得到目标场景的神经辐射场，使用体渲染得到的立体三元组来补偿遮挡区域的信息，并将深度图作为代理标签（proxy label）对双目深度估计模型进行训练。实验结果表明，这种方式填补了无监督模型与有监督模型之间的Gap，比现有的自监督方法在Middleburry数据集上有30% 到 40% 的性能提升，并在 Zero-shot 泛化方面有较好的表现。
在这里插入图片描述
本文的主要贡献如下：

提出一种新的范式，用神经渲染与无标签的图像序列来生成立体匹配模型训练数据。
提出一种NeRF-Supervised训练框架，结合渲染得到的三元组和深度图来解决立体匹配中的遮挡问题，并增强了细节信息。
在MiddleBurry数据集上取得了SOTA的 Zero-shot 泛化性能。

模型架构

在这里插入图片描述
模型的整体框架如图2所示，首先在多个场景中使用多视图来训练神经辐射场，然后使用提渲染技术来获取立体图像与对应的标签深度图，最后用渲染的数据来训练立体匹配网络。

图像收集与位姿估计
使用收集拍摄一系列照片，使用COLMAP估计图像的位姿信息用于NeRF的训练。
NeRF训练
通过批量采样光线信息，基于 $L_2$ 损失对每个场景的训练一个独立的神经辐射场：
$\mathcal{L}_{rend}=\sum_{r\in R}||\hat{C}(r)-C(r)||^2_2\tag{1}$
立体图像对数据渲染生成

定义虚拟的相机外参 $S=\mathbb{I}|\mathbf{b}$ ： $\mathbb{I}$ 为 $3\times 3$ 的单位矩阵， $\mathbf{b} = (b, 0, 0)^T$ 表示只在 $x$ 轴移动的平移向量。
基于任意视角的内参 $\mathbf{E}_k = \mathbf{R}_k|\mathbf{t}_k$ 来生成中间视角的图像 $I_c$
基于内参 $\mathbf{E}_{k}^{\mathrm{L}}=\mathbf{E}_{k} \times \mathbf{S}^{-1}=\mathbf{R}_{k} \mid\left(\mathbf{t}_{k}-\mathbf{b}\right)$ 来生成左视角图像 $I_l$
基于内参 $\mathbf{E}_{k}^{\mathrm{R}}=\mathbf{E}_{k} \times \mathbf{S}=\mathbf{R}_{k} \mid\left(\mathbf{t}_{k}+\mathbf{b}\right)$ 来生成右视角图像 $I_r$
根据渲染生成的深度 $z_r$ 与虚拟内参获取视差 $d_r$ :
$z(\mathbf{r})=\sum_{i=1}^{N} T_{i}\left(1-\exp \left(-\sigma_{i} \delta_{i}\right)\right) \sigma_{i}, \quad d(\mathbf{r})=\frac{b \cdot f}{z(\mathbf{r})}，\tag{2}$
其中 $f$ 为 COLMAP 估计的焦距。

损失函数

给定三元图像组 $I_l,I_c, I_r$ ，将 $I_c, I_r$ 作为立体匹配网络的输入，使用NS损失来训练模型，NS损失包含以下两方面：
三元光度一致性损失

$\mathcal{L}_{\rho}\left(I_{c}, \hat{I}_{c}^{r}\right)=\beta \cdot \frac{1-\operatorname{SSIM}\left(I_{c}, \hat{I}_{c}^{r}\right)}{2}+(1-\beta) \cdot\left|I_{c}-\hat{I}_{c}^{r}\right|\tag{3}$

其中 $\hat{I}_{c}^{r}$ 为右视图基于预测的视差图warp回中间视图的图像。 $\operatorname{SSIM}(\cdot)$ 为结构一致性损失。结构一致性损失在遮挡区域无法起到很好的监督作用，如 $I_c$ 左边界的像素点，为此使用左视图 $I_l$ 沿着预测视差图投影到中间视图 $\hat{I}_{c}^{l}$ ，用于计算光度一致性损失 $\mathcal{L}_{\rho}\left(\hat{I}_{l}^{c}, I_{c}\right)$ ，用于补偿遮挡区域的预测误差。最后的三元光度损失函数为：
$\mathcal{L}_{3 \rho}\left(\hat{I}_{l}^{c}, I_{c}, \hat{I}_{r}^{c}\right)=\min \left(\mathcal{L}_{\rho}\left(\hat{I}_{l}^{c}, I_{c}\right), \mathcal{L}_{\rho}\left(I_{c}, \hat{I}_{r}^{c}\right)\right)\tag{4}$

在这里插入图片描述
上图展示了遮挡区域（明亮部分）对计算三元光度一致性损失的影响，计算三元光度一致性损失时忽略遮挡，最后无纹理区域被掩膜 $\mu$ 消除：

$\mu=\left[\min \mathcal{L}_{3 \rho}\left(\hat{I}_{l}^{c}, I_{c}, \hat{I}_{r}^{c}\right)<\min \mathcal{L}_{3 \rho}\left(I_{l}, I_{c}, I_{r}\right)\right]\tag{5}$

渲染视差损失
计算匹配网络预测的视差图与NeRF渲染的视差图之间的 $L_1$ 损失
$\mathcal{L}_{\text {disp }}=\left|d_{c}-\hat{d}_{c}\right|\tag{6}$

为了消除NeRF渲染视差图的伪影，使用 Ambient Occlusion(AO) 来计算渲染视差图的置信度：
$\mathrm{AO}=\sum_{i=1}^{N} T_{i} \alpha_{i}, \quad \alpha_{i}=1-\exp \left(-\sigma_{i} \delta_{i}\right)\tag{7}$
使用两部分的加权损失作为最后的损失：
$\begin{aligned} \mathcal{L}_{N S} & =\gamma_{d i s p} \cdot \eta_{\text {disp }} \cdot \mathcal{L}_{\text {disp }} +\mu \cdot \gamma_{3 \rho} \cdot\left(1-\eta_{\text {disp }}\right) \cdot \mathcal{L}_{3 \rho} \end{aligned}\tag{8}$