今天读的是发表在WACV2023上的文章,第一作者来自于格拉茨技术大学。
文章链接:DELS-MVS: Deep Epipolar Line Search for Multi-View Stereo
文章目录
- Abstract
- 1. Introduction
- 2. Related Work
- 3. Algorithm
- 3.1 Depth estimation via epipolar residual
- 3.2 Deep epipolar line search (DELS)
- 3.3 Epipolar Residual Network
- 3.4 Confidence Network
- 3.5 Geometry-aware multi-view fusion
- 4 Experimental evaluation and Training
- 5 Conclusion
Abstract
对于reference image中的每个像素,我们的方法利用深度架构沿着相应的对极线来搜索source image中的对应点。先前的learning- based MVS 工作在深度空间中选择一个感兴趣的范围,将其离散化,并根据得到的深度值来采样对极线:这导致对极线的扫描不均匀。 相反,我们的方法直接作用于对极线:这保证了均匀扫描图像空间,避免了选择深度的感兴趣的范围,这通常不是先验的,并且在不同场景会有很大的不同,并且需要用于深度空间的合适的离散化。 事实上,使用的搜索是迭代的,这避免了构建cost volume。 最后,方法执行估计的鲁棒几何感知融合深度图,使用到了每个深度的预测置信度。
1. Introduction
谈到了对深度进行离散化的缺点:
- 在自然环境中得到深度范围空间需要通过SfM,但这不一定准确
- 离散化策略会导致不平衡,对距离相机近的物体来说应该精细,但对距离相机远的物体来说只需要粗略划分就足够了
介绍了方法的优点:
与那些首先离散化给定深度范围、先验选择、然后在寻找匹配时将生成的深度值转换为沿对极线的点或线段的方法相比,我们的方法有几个优点。
首先,在对极线上操作允许我们的方法更好地利用图像信息。 事实上,由于场景几何和参考相机与源相机之间的相对位姿,深度范围的均匀离散化可能会导致点聚集在对极线的一小段中,从而阻止正确匹配。
其次,我们的策略避免了定义搜索深度范围的需要和为场景内容定制的深度离散化策略的需要,因为对极线是动态探索的。 我们的方法是迭代的,采用从粗到精的方法可以有效地扫描对极线。 这避免了构建一个大的细粒度深度成本量。
最后,我们的方法估计每个可用源的参考图像的深度,并使用与深度图本身一起估计的置信度度量,以几何感知的方式融合它们。 在点云构建期间也可以利用这些置信度度量,以过滤异常值,从而导致更准确的重建。
总之,核心贡献如下:
- 一种直接在对极线上运行的深度、迭代和由粗到细的深度估计算法,从而避免了深度离散化的缺点,例如不需要指定深度范围
- 一个置信度预测模块和一个几何感知融合策略,它们耦合在一起,允许对来自不同源图像的多个参考图像深度图进行稳健融合
- 我们验证了 我们的方法通过评估所有最流行的 MVS 基准,即 ETH3D、Tanks and Temples和 DTU,并取得有竞争力的结果
2. Related Work
介绍了相关MVS的工作。
3. Algorithm
- 特征提取,将特征交给接下来的核心算法来估算reference image的深度。
- 对于每个参考图像像素,算法的目标是估计到source image的实际像素投影与我们沿对极线的初始猜测之间的残差。这部分放到3.1节介绍。
- 为了避免尺度依赖性,我们的算法通过迭代分类步骤估计残差,这些步骤以粗到细的方式进行。 我们将我们的算法命名为深度对极线搜索 (DELS),因为迭代分类类似于搜索并利用深度神经网络,称为对极残差网络 (ER-Net)。 我们在 3.2 和 3.3 节中描述了 DELS 算法,它代表了我们的 DELS-MVS 和 ER-Net 的核心。
- DELS-MVS 还具有置信网络 (C-Net),它将置信图与估计的深度图 D n D^{n} Dn 相关联。 该网络在第 3.4 节中介绍,并且会介绍将reference image上的所有 D 0 ≤ n ≤ N − 1 D^{0≤n≤N−1} D0≤n≤N−1 估计深度图融合到单个深度图中所采用的过程,这利用了每个source image。
3.1 Depth estimation via epipolar residual
目标是估算残差使得式子成立:
3.2 Deep epipolar line search (DELS)
在 MVS 场景中,不同source image和reference image之间的基线可能会有很大差异,无论是否在同一场景中。 此外,深度图可以根据特定场景展示非常不同的范围:从用于重建小物体的非常小的范围到用于重建室外场景的非常大的范围。 在大多数 3D 重建场景中,场景比例不是先验的。 总的来说,这使得网络训练、直接回归对极误差成为一项非常具有挑战性的任务。 为此,我们建议将对极线残差估计问题重新转化为迭代和由粗到细的分类方案。
为了估计新迭代 i 的对极残差,我们将极限分为k段,如图所示,里面的叫
L
I
L_{I}
LI,外面的部分叫
L
O
L_{O}
LO。这提供了新的迭代时的方向。
流程如下:
3.3 Epipolar Residual Network
使用ER-Net对每个DELS迭代阶段进行分类。ER-Net的输入是src img和ref img的特征图,以及前一阶段生成的残差图。这允许对每个ref img上面的像素,在对极线上的最新估计附近采样特征。为此,我们将可变形卷积合并到一个类似 U-Net 的架构中。
3.4 Confidence Network
我们的方法在ref img上计算 N 个深度图,每个深度图使用不同的src img计算。 这引出了如何利用所有估计的深度图将它们融合成单个深度图的问题,因为一些ref img区域可能在一个src img图像中可见而在另一个src img图像中不可见。 为此,我们引入了置信网络 (C-Net),用于为每个估计的深度图 D n D^{n} Dn 分配一个置信图 C n C^{n} Cn:然后使用置信图来指导多个可用深度图的融合。
在我们的多分辨率方案的每个级别 j,我们计算一个类似于分区概率的 pixel-wise entropy的图,但考虑到它在 DELS 迭代中的演变:
3.5 Geometry-aware multi-view fusion
介绍了将多张深度图融合的方法。
4 Experimental evaluation and Training
介绍了训练和测试的方法和详细配置。在数据集上的表现如下:
5 Conclusion
我们提出了 DELS-MVS,这是一种新颖的 MVS 方法,它利用深度神经网络直接在src img极线上进行匹配搜索。 在为每个可用src估计ref img上的密集深度图后,DELS-MVS 采用几何感知策略,利用学习到的置信度将它们融合成单个深度图,旨在提高对异常值的鲁棒性。 DELS-MVS 是迭代的,因此不需要构建大的成本量。此外,不需要在最小/最大范围内对深度空间进行显式离散化,因为 DELS-MVS 动态探索对极线。 我们通过对 ETH3D、DTU和 Tanks and Temples基准的评估证实了我们方法的稳健性,取得了有竞争力的结果。