【论文简述】MVSTER: Epipolar Transformer for EfficientMulti-View Stereo(ECCV 2022)

news2024/11/25 15:56:55

一、论文简述

1. 第一作者:Xiaofeng Wang

2. 发表年份:2022

3. 发表期刊:ECCV

4. 关键词:MVS、3D重建、Transformer、极线几何

5. 探索动机:融合多视图代价体很关键,现有的方法效率低,引入了太多额外的参数,并且只关注了图像局部相关性的信息,忽略了深度信息的关联。

存在问题:Fusing source volumes is an essential step in the whole pipeline and many MVS approaches put efforts into it. The core of the fusing step is to explore correlations between multi-view images. MVSNet follows the philosophy that various images contribute equally to the 3D cost volume, and utilizes variance operation to fuse different source volumes. However, such fusing method ignores various illumination and visibility conditions of different views.

一些解决办法:”To alleviate this problem, Transmvsnet、Patchmatchnet、CDS-MVSNet enrich 2D feature semnatics via Deformable Convolution Network (DCN) and PVA-MVSNet、Vis-MVSNet leverage extra networks to learn per-pixel weights as a guidance for fusing multi-view features.

这些办法的缺点:However, these methods introduce onerous network parameters and restrict efficiency. Besides, they only concentrate on 2D local similarities as a criteria for correlating multiple views, neglecting depth-wise 3D associations, which could lead to inconsistency in 3D space.

6. 工作目标:通过Transformer,从数据本身学习3D关系,而不引入额外的学习参数。探索一种有效的方法来建模3D空间关联融合源视图体。

we explore an efficient approach to model 3D spatial associations for fusing source volumes. Our intuition is to learn 3D relations from data itself, without introducing extra learning parameters. Recent success in attention mechanism prompts that Transformer is appropriate for modeling 3D associations. The key advantage of Transformer is it leverages cross-attention to build data-dependent correlations, introducing minimal learnable parameters. Besides, compared with CNN, Transformer has expanded receptive field, which is more adept at constructing long-range 3D relations.

7. 核心思想:

  1. We propose a novel end-to-end Transformer-based method for multi-view stereo, named MVSTER. It leverages the proposed epipolar Transformer to efficiently learn 3D associations along epipolar line.
  2. An auxiliary monocular depth estimator is utilized to guide the query feature to learn depth discriminative information during training, which enhances feature semantics yet brings no efficiency compromises.
  3. We formulate depth estimation as a depth-aware classification problem and solve it with the entropy-regularized optimal transport, which produces finer depth estimations propagated in the cascade structure.

8. 实验结果:

Compared with MVSNet and CasMVSNet, our method reduces 88% and 73% relative depth hypotheses, making 80% and 51% relative reduction in running time, yet obtaining 34% and 14% relative improvements on the DTU benchmark, respectively. Besides, our method ranks first among all published works on Tanks&Temples-Advanced.

9.论文&代码下载:

https://arxiv.org/pdf/2204.07346v1.pdf

https://github.com/JeffWang987/MVSTER

二、实现过程

1. MVSTER概述

MVSTER网络结构如图所示。给定参考图像及其对应的源图像,首先利用特征金字塔网络提取2D多尺度特征。然后将源图像特征变化到参考摄像机截锥,通过可微单应性构造源体。随后,利用极极Transformer聚合源体并产生代价体,辅助分支进行单目深度估计以增强上下文。该体由轻量级3D CNN正则化以进行深度估计管道进一步以级联结构构建,以粗到细的方式传播深度图。为了减少深度传播过程中的错误深度假设,将深度估计制定为深度感知分类问题,并使用最优传输对其进行优化。最后给出了网络损失

2. 2D编码器和3D单应性

应用类似FPN的网络提取参考图像及其邻近的源图像多尺度2D特征。fpn,其中图像降尺度M次以构建深度特征Fk。尺度k = 0表示图像的原始大小。通过单应性变化得到N−1个源体{Vi}N−1H×W ×C×D,其中D是假设深度的总数。

3. 极线Transformer

极性Transformer从不同的视图聚合源体。极线Transformer利用参考特征作为query,沿着极线匹配源特征(key),从而增强相应的深度(value)。具体来说,通过单目深度估计的辅助任务来丰富参考query。随后,交叉注意力在极线约束下计算query和source体之间的关联,生成注意力引导以聚合来自不同视图的特征体。 然后,通过轻量级 3D CNN 对聚合特征进行正则化。下面,我们首先给出query构造的细节,然后详细说明对极线Transformer 引导的特征聚合。 最后给出了轻量级正则化策略。

查询构建。如前所述,我们将参考特征视为对极线transformer的query。 然而,由浅层 2D CNN 提取的特征在非朗伯和低纹理区域的判别性降低。 为了解决这个问题,一些方法利用代价较高的的DCN或 ASPP 来丰富特征。 相比之下,本文提出了一种更有效的方法来增强query:构建一个辅助单目深度估计分支来规范query并学习深度判别特征。 在辅助分支中应用了单目深度估计任务中使用的通用解码器。 给定通过 FPN 提取的多尺度参考特征,通过插值扩展低分辨率特征图,并将其与后续尺度特征连接。 聚合的特征图被输入回归头以进行单目深度估计:

其中Φ(⋅)是单目深度解码器,I(⋅)是插值函数,[⋅,⋅]表示连接操作。 随后,针对不同尺度的查询单目深度估计。 值得注意的是,这种辅助分支仅用于训练阶段,指导网络学习深度感知特征。

极线Transformer引导聚合。Pipeline如图 2(a) 所示,旨在构建查询特征的3D关联。 然而,深度方向的3D空间信息不是由2D查询特征图明确传递的,因此我们首先通过homography warping恢复深度信息。 将查询特征pr的假设深度位置投影到源图像极线上,得到源体特征psi,j,即极线 transformer的key。因此,沿极线的关键特征被用来构建查询特征的深度 3D 关联,这是通过交叉注意力操作实现的:

其中viC×D{psi,j}沿深度维叠加计算,te为温度参数,wi为查询与键的相关的注意力。在图2(b)中可视化一个真实图像的例子,其中注意力集中在极线上最匹配的位置。

(a)极线Transformer聚合。利用单应性变化恢复参考特征的深度信息,然后在极限约束下交叉注意计算查询与源体之间的3D关联,生成注意力引导以聚合不同视角的特征体。(b) DTU数据集上交叉注意力得分的可视化,其中极线上点的不透明度表示注意力得分。

计算出的query和keys之间的注意力wi用于聚合values。对于Transformer的value设计,使用分组相关,以有效的方式测量参考特征与源体之间的视觉相似性

〈·,·〉是内积。沿着通道维度进行堆叠,得到si∈G×D,这是Transformer的value。最后,通过极线注意力得分wi聚合value,以确定最终的代价体:

总之,对于所提出的极线Transformer,首先利用可分离的单目深度估计分支来增强深度判别2D语义,然后利用查询和键之间的交叉注意力来构建深度方向的 3D 关联。 最后,结合2D和3D信息用作聚合不同视图的指导。极线Transformer被设计为一个高效的聚合模块,其中没有引入可学习的参数,并且极线Transformer只学习依赖数据的关联。

轻量级正则化。由于非朗伯表面或物体遮挡,原始代价体容易受到噪声污染。 为了平滑最终的深度图,使用3D CNN来对代价体积进行正则化。 考虑到已将3D关联嵌入到cost volume中,在3D CNN 中省略了深度特征编码,这使其更有效。 具体来说,将卷积核大小从3 × 3 × 3减小到3 × 3 × 1,仅沿特征宽度和高度聚合代价体。 正则化概率体P ∈ H × W × D。在每像素深度置信度预测中是非常理想的,被用来在级联结构中进行深度估计。

4. 级联深度图传播

MVSTER设置了四个阶段的管道,其中四个阶段的输入分辨率为H × W × 64H/2×W/2×32, H/4 × W/4 ×16, H/8 × W/8 ×8第一阶段采用深度逆采样初始化深度假设,相当于像素空间等距采样。为了实现由粗到细的深度图传播,每个阶段的深度假设都以前一阶段的深度预测为中心,在假设的深度范围内统一生成Dk个假设。

5. 损失

虽然级联结构受益于粗到细的管道,但它很难从前面阶段引入的错误中恢复过来。为了缓解这个问题,一个简单的方法是在每个阶段生成一个更精细的深度图,特别是避免预测深度远离真实值。然而,以往的方法简单地将深度估计视为一个多类分类问题,对每个假设深度一视同仁,没有考虑它们之间的距离关系。例如,在下图中,最左边的子数字是一个真实深度,情况1和情况2是两个预测深度分布,他们的交叉熵损失是相同的,说明交叉熵损失不知道每个假设深度之间的相对距离。但是,case 1的深度预测超出了有效范围,无法正常传播到下一阶段。

在本文中,深度预测被表述为深度感知分类问题,它强调了预测深度与真实距离的惩罚。具体来说,用现成的Wasserstein距离来测量预测分布Pi∈D与真实分布Pθ,i∈D之间的距离:

其中,inf表示极值,Π(Pi, Pθi)是边缘分布为Pii的所有可能分布的集合。这样的公式是受最优传输问题的启发,该问题计算将Pi传输到的最小功Pθi,可以通过沉角算法差分求解。

综上所述,损失函数由两部分组成测量预测深度分布与真实值之间距离的Wasserstein损失和优化单目深度估计的L1损失:

6. 实验

6.1. 数据集

DTU, Tanks&Temples, BlendedMVS,ETH3D

6.2. 实现细节

假设深度数{Dk}每段设为8、8、4、4。组相关{Gk}设置为8,8,4,4。我们使用PyTorch[21]实现,在4台NVIDIA RTX 3090上进行训练,每个GPU上批大小为2的GPU。使用AdamW优化器[19]。

6.3. 与先进技术的比较

ETH3D

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/393777.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Git】P2 分支(创建分支,合并分支,分支冲突,分支分类)

分支分支的概念2077 与 分支git - 分支分支语句查看与创建分支切换与删除分支合并分支分支冲突分支分类分支的概念 什么是分支? 2077 与 分支 我最喜欢的游戏就是 赛博朋克2077,美国末日 和 GTA,下图是2077的存档。 存档非常多的原因是因为…

JavaScript 语句、注释和代码块实例集合

文章目录JavaScript 语句、注释和代码块实例集合JavaScript 语句JavaScript 代码块JavaScript 单行注释JavaScript 多行注释使用单行注释来防止执行使用多行注释来防止执行JavaScript 语句、注释和代码块实例集合 JavaScript 语句 源码 <!DOCTYPE html> <html> &…

Springboot 读取模板excel信息内容并发送邮件, 并不是你想想中的那么简单

Springboot 读取模板excel信息内容并发送邮件 背景技术选型搭建过程数据加密隐藏问题暴露背景追溯解决背景 在我们日常开发中, 会遇到这样一种场景, 就是读取表格中的数据, 并将数据以附件的形式通过邮箱发送到表格中的每个人 即: excel 读取 excel 写入 发送邮件(携带附件), 例…

Volsdf Sampling algorithm

l论文作者开发一个算法计算抽样S方程中使用 I(c,v)≈I^S(c,v)∑i1m−1τ^iLiI(\boldsymbol{c}, \boldsymbol{v}) \approx \hat{I}_{\mathcal{S}}(\boldsymbol{c}, \boldsymbol{v})\sum_{i1}^{m-1} \hat{\tau}_{i} L_{i} I(c,v)≈I^S​(c,v)i1∑m−1​τ^i​Li​ 首先是通过利用…

小区业主入户安检小程序开发

小区业主入户安检小程序开发 可针对不同行业自定义安检项目&#xff0c;线下安检&#xff0c;线上留存&#xff08;安检拍照/录像&#xff09;&#xff0c;提高安检人员安检效率 功能特性&#xff0c;为你介绍小区入户安检系统的功能特性。 小区管理;后台可添加需要安检的小区…

LeetCode-96. 不同的二叉搜索树

题目来源 96. 不同的二叉搜索树 递归 1.我们要知道二叉搜索树的性质&#xff0c;对于一个二叉搜索树&#xff0c;其 【左边的节点值 < 中间的节点值 < 右边的节点值】&#xff0c;也就是说&#xff0c;对于一个二叉搜索树&#xff0c;其中序遍历之后形成的数组应该是一…

分布式系统中的补偿机制设计问题

我们知道&#xff0c;应用系统在分布式的情况下&#xff0c;在通信时会有着一个显著的问题&#xff0c;即一个业务流程往往需要组合一组服务&#xff0c;且单单一次通信可能会经过 DNS 服务&#xff0c;网卡、交换机、路由器、负载均衡等设备&#xff0c;而这些服务于设备都不一…

C++:初识函数模板和类模板

目录 一. 泛型编程 二. 函数模板 2.1 什么是函数模板 2.2 函数模板的实例化 2.2.1 函数模板的隐式实例化 2.2.1 函数模板的显示实例化 2.3 函数模板实例化的原理 2.4 模板函数调用实例化原则 三. 类模板 3.1 什么是类模板 3.2 类模板的实例化 一. 泛型编程 泛型编程…

Qt广告机客户端(下位机)

目录功能结构adClient.promain.cppadclient.h 客户端adclient.cpp 客户端addate.h 时间处理addate.cpp 时间处理adsocket.h 客户端Socket处理adsocket.cpp 客户端Socket处理weather.h 天气信息处理weather.cpp 天气信息处理rollmassege.h 滚动信息处理rollmassege.cpp 滚动信息…

DCC数字管护生命周期模型解读

实话说&#xff0c;对于Digital Curation笔者真心不知道应该怎么翻译。本文借用了钱毅老师的观点&#xff0c;姑且翻译成“数字管护”&#xff0c;详见《从保护到管护&#xff1a;对象变迁视角下的档案保管思想演变》&#xff08;《档案学通讯》&#xff0c;2022年第2期&#x…

数据库基本功之SQL的数据类型

1.四种基本的常用数据类型 1.1 字符型 char # 固定字符,最长2000个 varchar2 # 可变长字符,最长4000个,最小值是1 nchar/nvarchar2 # 类型的列使用国家字符集 raw & long raw # 固定/可变长度的二进制数据长度 最2G,可存放多媒体图象声音等.(老类型,逐步淘汰) LONG …

浅谈CSRF跨域读取型漏洞之JSONP劫持

目录 前提知识 CSRF JSONP jsonp漏洞 原理 过程 复现 漏洞挖掘思路 漏洞防御 前提知识 CSRF 提起CSRF&#xff0c;可能很多人都会想到修改个人资料、授权登陆等攻击场景&#xff0c;可以发现这两个场景都是写入型的CSRF漏洞&#xff0c;通常会忽视更常见的读取型的CS…

MP与IP-Trunk技术讲解

目录 PPP MP技术 将PPP链路直接绑定到VT上实现MP 按照PPP链路用户名查找VT实现MP IP-Trunk技术 PPP MP技术 MP&#xff08;MultiLink PPP&#xff09;将多个PPP链路捆绑使用的技术&#xff08;Serial接口、POS接口等&#xff09; 实现方式 可以采用虚拟VT接口实现MP PPP链路…

通过canvas画出爱心图案,表达你的爱意!

通过canvas画出爱心图案&#xff0c;浏览器可以使用以下js代码&#xff0c;新建对象时&#xff0c;会自动呈现动画效果&#xff0c;代码文末可下载。 点击免费下载源码 let HeartCanvas new HeartCanvas() /*** 爱心* Heart Canvas*/class HeartCanvas {/*** param hMin 颜…

怎么恢复本地磁盘里的数据?电脑本地磁盘数据恢复7种方案

演示机型&#xff1a;技嘉 H310M HD22.0系统版本&#xff1a;Windows 10 专业版软件版本&#xff1a;云骑士数据恢复软件3.21.0.17本地磁盘是什么意思&#xff1f;所谓的本地磁盘是指安装在电脑主板上&#xff0c;不能随便拔插的硬盘&#xff0c;通俗易懂的讲就是电脑内部安装的…

Spring Cloud融合gateway构建的API网关服务 | Spring Cloud 12

一、Spring Cloud Gateway 1.1 概述 所谓的网关就是指系统的统一入口&#xff0c;它封装了运用程序的内部结构&#xff0c;为客户端提供统一的服务&#xff0c;一些与业务功能无关的公共逻辑可以在这里实现&#xff0c;诸如认证、鉴权、监控、路由转发等。 Spring Cloud Gat…

北斗导航 | PPP-RTK:CLASLIB 0.7.2 版本中文手册(CLASLIB ver. 0.7.2 Manual)

===================================================== github:https://github.com/MichaelBeechan CSDN:https://blog.csdn.net/u011344545 ===================================================== CLASLIB ver. 0.7.2 Manual

Hevc变换系数扫描

量化后变换系数的熵编码在整个熵编码中占有举足轻重的地位&#xff0c;由于量化后变换系数大多为零值或者幅度较小的值&#xff0c;如何有效利用这一特性是熵编码的关键环节&#xff0c;H265/HEVC标准中&#xff0c;亮度数据和色度数据均以变换块TB为单位&#xff0c;通过编码非…

Compose 动画 (四) : AnimatedVisibility 各种入场和出场动画效果

AnimatedVisibility中的EnterTransition 和 ExitTransition &#xff0c;用来配置入场/出场时候的动画效果。 默认的入场效果是 fadeIn() expandVertically() 默认的出场效果是 fadeOut() shrinkVertically() 1. EnterTransition和ExitTransition支持的动画 enter的参数类…

【VUE】vue3.0后台常用模板

vue3.0后台常用模板&#xff1a; 1、vue-admin-perfect 在线预览 gitee国内访问地址&#xff1a;https://yuanzbz.gitee.io/vue-admin-perfect/#/home github site : https://zouzhibin.github.io/vue-admin-perfect/ 基础功能版本预览&#xff1a;https://yuanzbz.gitee.io/…