【论文精读】DELS-MVS

news2024/12/30 2:08:18

今天读的是发表在WACV2023上的文章,第一作者来自于格拉茨技术大学。
文章链接:DELS-MVS: Deep Epipolar Line Search for Multi-View Stereo

文章目录

  • Abstract
  • 1. Introduction
  • 2. Related Work
  • 3. Algorithm
    • 3.1 Depth estimation via epipolar residual
    • 3.2 Deep epipolar line search (DELS)
    • 3.3 Epipolar Residual Network
    • 3.4 Confidence Network
    • 3.5 Geometry-aware multi-view fusion
  • 4 Experimental evaluation and Training
  • 5 Conclusion

Abstract

对于reference image中的每个像素,我们的方法利用深度架构沿着相应的对极线来搜索source image中的对应点。先前的learning- based MVS 工作在深度空间中选择一个感兴趣的范围,将其离散化,并根据得到的深度值来采样对极线:这导致对极线的扫描不均匀。 相反,我们的方法直接作用于对极线:这保证了均匀扫描图像空间,避免了选择深度的感兴趣的范围,这通常不是先验的,并且在不同场景会有很大的不同,并且需要用于深度空间的合适的离散化。 事实上,使用的搜索是迭代的,这避免了构建cost volume。 最后,方法执行估计的鲁棒几何感知融合深度图,使用到了每个深度的预测置信度。

1. Introduction

谈到了对深度进行离散化的缺点:

  1. 在自然环境中得到深度范围空间需要通过SfM,但这不一定准确
  2. 离散化策略会导致不平衡,对距离相机近的物体来说应该精细,但对距离相机远的物体来说只需要粗略划分就足够了

介绍了方法的优点:
与那些首先离散化给定深度范围、先验选择、然后在寻找匹配时将生成的深度值转换为沿对极线的点或线段的方法相比,我们的方法有几个优点。
首先,在对极线上操作允许我们的方法更好地利用图像信息。 事实上,由于场景几何和参考相机与源相机之间的相对位姿,深度范围的均匀离散化可能会导致点聚集在对极线的一小段中,从而阻止正确匹配。
其次,我们的策略避免了定义搜索深度范围的需要和为场景内容定制的深度离散化策略的需要,因为对极线是动态探索的。 我们的方法是迭代的,采用从粗到精的方法可以有效地扫描对极线。 这避免了构建一个大的细粒度深度成本量。
最后,我们的方法估计每个可用源的参考图像的深度,并使用与深度图本身一起估计的置信度度量,以几何感知的方式融合它们。 在点云构建期间也可以利用这些置信度度量,以过滤异常值,从而导致更准确的重建。

总之,核心贡献如下:

  1. 一种直接在对极线上运行的深度、迭代和由粗到细的深度估计算法,从而避免了深度离散化的缺点,例如不需要指定深度范围
  2. 一个置信度预测模块和一个几何感知融合策略,它们耦合在一起,允许对来自不同源图像的多个参考图像深度图进行稳健融合
  3. 我们验证了 我们的方法通过评估所有最流行的 MVS 基准,即 ETH3D、Tanks and Temples和 DTU,并取得有竞争力的结果

2. Related Work

介绍了相关MVS的工作。

3. Algorithm

整体架构图

  1. 特征提取,将特征交给接下来的核心算法来估算reference image的深度。
  2. 对于每个参考图像像素,算法的目标是估计到source image的实际像素投影与我们沿对极线的初始猜测之间的残差。这部分放到3.1节介绍。
  3. 为了避免尺度依赖性,我们的算法通过迭代分类步骤估计残差,这些步骤以粗到细的方式进行。 我们将我们的算法命名为深度对极线搜索 (DELS),因为迭代分类类似于搜索并利用深度神经网络,称为对极残差网络 (ER-Net)。 我们在 3.2 和 3.3 节中描述了 DELS 算法,它代表了我们的 DELS-MVS 和 ER-Net 的核心。
  4. DELS-MVS 还具有置信网络 (C-Net),它将置信图与估计的深度图 D n D^{n} Dn 相关联。 该网络在第 3.4 节中介绍,并且会介绍将reference image上的所有 D 0 ≤ n ≤ N − 1 D^{0≤n≤N−1} D0nN1 估计深度图融合到单个深度图中所采用的过程,这利用了每个source image。

3.1 Depth estimation via epipolar residual

在这里插入图片描述
目标是估算残差使得式子成立:
在这里插入图片描述

3.2 Deep epipolar line search (DELS)

在 MVS 场景中,不同source image和reference image之间的基线可能会有很大差异,无论是否在同一场景中。 此外,深度图可以根据特定场景展示非常不同的范围:从用于重建小物体的非常小的范围到用于重建室外场景的非常大的范围。 在大多数 3D 重建场景中,场景比例不是先验的。 总的来说,这使得网络训练、直接回归对极误差成为一项非常具有挑战性的任务。 为此,我们建议将对极线残差估计问题重新转化为迭代和由粗到细的分类方案。
在这里插入图片描述
为了估计新迭代 i 的对极残差,我们将极限分为k段,如图所示,里面的叫 L I L_{I} LI,外面的部分叫 L O L_{O} LO。这提供了新的迭代时的方向。

流程如下:
在这里插入图片描述

3.3 Epipolar Residual Network

使用ER-Net对每个DELS迭代阶段进行分类。ER-Net的输入是src img和ref img的特征图,以及前一阶段生成的残差图。这允许对每个ref img上面的像素,在对极线上的最新估计附近采样特征。为此,我们将可变形卷积合并到一个类似 U-Net 的架构中。

3.4 Confidence Network

我们的方法在ref img上计算 N 个深度图,每个深度图使用不同的src img计算。 这引出了如何利用所有估计的深度图将它们融合成单个深度图的问题,因为一些ref img区域可能在一个src img图像中可见而在另一个src img图像中不可见。 为此,我们引入了置信网络 (C-Net),用于为每个估计的深度图 D n D^{n} Dn 分配一个置信图 C n C^{n} Cn:然后使用置信图来指导多个可用深度图的融合。

在我们的多分辨率方案的每个级别 j,我们计算一个类似于分区概率的 pixel-wise entropy的图,但考虑到它在 DELS 迭代中的演变:
在这里插入图片描述

3.5 Geometry-aware multi-view fusion

介绍了将多张深度图融合的方法。

4 Experimental evaluation and Training

介绍了训练和测试的方法和详细配置。在数据集上的表现如下:
ETH3D
T&T
DTU

5 Conclusion

我们提出了 DELS-MVS,这是一种新颖的 MVS 方法,它利用深度神经网络直接在src img极线上进行匹配搜索。 在为每个可用src估计ref img上的密集深度图后,DELS-MVS 采用几何感知策略,利用学习到的置信度将它们融合成单个深度图,旨在提高对异常值的鲁棒性。 DELS-MVS 是迭代的,因此不需要构建大的成本量。此外,不需要在最小/最大范围内对深度空间进行显式离散化,因为 DELS-MVS 动态探索对极线。 我们通过对 ETH3D、DTU和 Tanks and Temples基准的评估证实了我们方法的稳健性,取得了有竞争力的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/663465.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【换脸详细教程】手把手教你进行AI换脸:换脸流程及源码详解

目录 1. 换脸基本原理2 人脸检测及可视化3. 人脸轮廓点检测及可视化4. 人脸图像变换--仿射变换5. 生成遮罩并直接替换人脸6. 人脸颜色校正 最近AI换脸貌似比较火爆,就稍微研究了一下相关了内容。AI换脸是一个娱乐性比较强的应用,这种错位感让人觉得非常有…

搭建高性能数据库集群之一:主从复制

一、概述 1. 数据库主从概念、优点、用途   主从数据库是什么意思呢,主是主库的意思,从是从库的意思。数据库主库对外提供读写的操作,从库对外提供读的操作。 数据库为什么需要主从架构呢?   高可用,实时灾备&am…

手把手教你撸一个接口自动化测试平台(一)

项目构思:开发一个web版的接口自动化测试平台 功能包括:接口导入、自动化测试用例生成、自动化测试报告、可持续集成 项目框架:django vue mysql 技术要求:熟悉django后台开发、熟悉vue开发 第一节:搭建django 项…

被ChatGPT戏耍的周末

被ChatGPT戏耍的周末 1. 被ChatGPT戏耍全过程2. 拆穿ChatGPT的把戏3. AIGC与内容安全 1. 被ChatGPT戏耍全过程 电动垂直起降飞行器(eVTOL,Electric Vertical Takeoff and Landing)技术越来越成熟,为了解下相关产品我周末打开了Cha…

OpenGLES:相机实时滤镜四宫格、九宫格

一.概述 今天继续OpenGLES的学习 今天在之前博文《OpenGLES:GLSurfaceView实现Android Camera预览》 的基础上,使用OpenGLES实现相机 四宫格滤镜 和 九宫格滤镜。 二.四宫格 先定义几个名词: 之前博文中实现的相机普通预览叫:…

【人工智能】“AI + 算力 = 最强龙头”,你怎么看?

文章目录 一、AI 与算力相辅相成1.1 AI 和算力的概念1.2 AI 和算力的应用领域1.3 AI 需要算力的支持1.4 AI 和算力的结合带来的巨大价值1.4.1 人脸识别1.4.2 语音识别1.4.3 自动驾驶1.4.4 医疗诊断1.4.5 自然语言处理 二、AI算力催生“最强龙头”2.1 “最强龙头”的概念2.2 AI …

Unity核心4——SpriteShape

Sprite Shape 是精灵形状的意思,它主要是方便我们以节约美术资源为前提,制作 2D 游戏场景地形或者背景的 ​ 在 Window --> Package Manager 中搜索 2D,选择 2D Sprite Shape,导入项目 一、Sprite Shape Profile 精灵形状概述文…

FPGA基础知识-用户自定义原语

目录 学习目标 学习内容 1.UDP的组成 2.UDP定义规则 3.表示组合逻辑的UDP 4.表示时序逻辑的UDP 5.UDP表中的缩写符号 6.UDP设计指南 学习时间 学习总结 学习目标: 提示:这里可以添加学习目标 理解编写UDP的规则,明白UDP的各个组成部分。 学…

设计师常用的网页设计素材网站大全

设计师不仅需要源源不断的灵感,还需要与时俱进的网页设计素材。 本文推荐4个非常不错的设计素材网站 即时设计资源社区 ​即时设计资源社区是国内优秀的网页设计素材网站,内置阿里、字节、腾讯、京东、谷歌、华为等设计系统,超过3000UI组件…

DDoS攻击导致Azure和Outlook中断

微软已经证实,最近Azure、Outlook和OneDrive门户网站的中断是由于针对该公司服务的第7层DDoS攻击造成的。 这些攻击是由微软追踪到的一个名为Storm-1359的攻击组织造成的,他们自称是匿名苏丹。 故障发生在6月初,Outlook.com的网络门户在6月…

分布式配置中心Apollo中Namespace的类型整理

Namespace的类型 Namespace类型有三种: 【1】私有类型 【2】公共类型 【3】关联类型(继承类型) (1)私有类型 私有类型的Namespace具有private权限。例如上文提到的“application” Namespace就是私有类型。 &…

【计算机网络】运输层端口号、复用与分用

1、复用和分用 2.端口号 3.举例 4.详细学习视频 https://www.bilibili.com/video/BV1c4411d7jb?p58&vd_source621b166d35a3636b23f3c4d270272c53

WSL子系统启动报错 Wsl/Service/CreateInstance/CreateVm/HCS_E_SERVICE_NOT_AVAILABLE

今天琢磨着WindowsLinux子系统研究研究新东西,结果当我启动WSL时却出现了下面的提示: WSL启动报错 由于未安装所需的特性,无法启动操作。 Error code: Wsl/Service/CreateInstance/CreateVm/HCS_E_SERVICE_NOT_AVAILABLE问题排查 于是分析…

Audio API 实现音频播放器

市面上实现音频播放器的库有很多,比如wavesurfer.js、howler.js等等,但是都不支持大音频文件处理,100多M的文件就有可能导致程序崩溃。总之和我目前的需求不太符合,所以打算自己实现一个音频播放器,这样不管什么需求 在…

软件工程是否迎来iPhone时刻?

“软件工程是否迎来iPhone时刻?” 是2023K全球软件研发行业创新峰会上海站主会场的Panel discussion的主题,出场的几位嘉宾给出了不同的答案,其中有两位嘉宾给出了“No”,一位给出了“塞班时刻”(后来给我朋友圈投票是…

设计模式—“状态变化”

在组件构建过程中,某些对象的状态经常面临变化,如何对这些变化进行有效的管理?同时又维持高层模块的稳定?"状态变化"模式为这一问题提供了解决方案。 典型模式有:Memento、State 一、State 动机 在软件构建过程中,某些对象的状态如果改变,其行为也会随之而…

18-BOM对象

一、是什么 🍕🍕🍕BOM (Browser Object Model),浏览器对象模型,提供了独立于内容与浏览器窗口进行交互的对象 其作用就是跟浏览器做一些交互效果,比如如何进行页面的后退,前进,刷新&#xff0…

SSM幼儿园管理系统的设计与实现-计算机毕设 附源码86673

SSM幼儿园管理系统的设计与实现 摘 要 21世纪时信息化的时代,几乎任何一个行业都离不开计算机,将计算机运用于幼儿管理系统也是十分常见的。过去使用手工的管理方式对幼儿园进行管理,造成了管理繁琐、难以维护等问题,如今使用计算…

搜索表单的触发方式

1、按键盘触发 配套监听 _keydownHandler: function (event) { // 获取表单数据 let formValue this.$[frm-mach-break].serializeMyForm(); let params { machineName: formValue.mach_id }; this.requestAjax(ajx-view-mach-break, params); }, onKeypress: function ({ ke…

抖音seo账号矩阵系统源码sign解密.技术

抖音SEO矩阵系统源码是一种用于优化抖音视频内容的工具,可以帮助用户提高抖音视频的搜索排名和流量,从而增加视频曝光和转化率。该系统包括两部分,即数据收集和分析模块以及SEO策略和实施模块。 返回示例 错误: { "ec…