论文笔记: Monocular Depth Estimation: a Review of the 2022 State of the Art

news2024/11/25 10:37:58

中文标题:单目深度估计:回顾2022年最先进技术

本文对比了物种最近的基于深度学习的单目深度估计方法:

  • GPLDepth(2022)[15]: Global-Local Path Networks for Monocular Depth Estimation with Vertical CutDepth
  • Adabins(2021)[1]: Adabins: Depth estimation using adaptive bins
  • 3Dshape(2021)[34]: Learning to recover 3D scene shape from a single image
  • MiDaS(2020)[22]: Towards robust monocular depth estimation: Mixing datasets for zero-shot cross-dataset transfer
  • DPT(2021)[21]: Vision transformers for dense prediction

算法简述

GLPDepth

在这里插入图片描述

  • GLPDepth使用一个Transformer作为编解码模块。
  • 对比以往的方法主要提升是一个数据增强方法-Vertical Cutdepth。由于单目深度估计主要使用垂直信息进行预测,因此最好替代图像的垂直波段。
    在这里插入图片描述
  • 左下是[14]中的数据增强方法,右下是[15]中的数据增强方法。

Adabins

  • Adabins 认为深度估计问题是一个分类问题,像[9]一样。和[9]不同的是每一个bin有一个自适应的宽度。
  • Adabins的编解码器是EfficientNet B5。然后基于transformer的Adabin模块同时预测bin宽度以及每个像素属于bin的概率。

MiDaS

  • 没有提出一个新的架构或一个新的损失,而是表明结合多个训练数据集可以使更好的性能和更好的泛化。
  • 作者观察到,使用一个在分类任务上表现更好的基础网络可以获得更好的单眼深度估计性能。

DPT

  • DPT通过将基础架构转换为基于Transfromer的编译码器架构来扩展MiDaS。

3DShape

  • 3DShape还研究了从估计的深度图中创建一个三维模型的问题。
  • 三种不同的损失函数:
    在这里插入图片描述
  • 一个图片级的归一化损失函数, d ^ \hat d d^是预测的深度, d ∗ d^* d是真实标签的均值方差。
    在这里插入图片描述
  • 一个成对的表面法向量损失。对于A和B两组在三维结构的边缘和平面上采样的成对点,n(n∗)是对预测的三维点云(分别为地面真点云)的法态估计。
    在这里插入图片描述
  • 一个多层梯度损失

实验对比

  • 参考原文,从不同种类的图像对比了不同方法的效果。个人感觉MiDa以及DPT效果最好。

参考文献

[0] Ehret T. Monocular Depth Estimation: a Review of the 2022 State of the Art[J]. Image Processing On Line, 2023, 13: 38-56.
[1] S. F. Bhat, I. Alhashim, and P. Wonka, Adabins: Depth estimation using adaptive bins, in IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 4009–4018. https://doi.org/10.1109/CVPR46437.2021.00400.
[9] H. Fu, M. Gong, C. Wang, K. Batmanghelich, and D. Tao, Deep ordinal regression network for monocular depth estimation, in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 2002–2011. https://doi.org/10.1109/CVPR.2018.00214.
[14] Y. Ishii and T. Yamashita, CutDepth: Edge-aware Data Augmentation in Depth Estimation, arXiv preprint arXiv:2107.07684, (2021). https://doi.org/10.48550/arXiv.2107.07684.
[15] D. Kim, W. Ga, P. Ahn, D. Joo, S. Chun, and J. Kim, Global-Local Path Networks for Monocular Depth Estimation with Vertical CutDepth, arXiv preprint arXiv:2201.07436, (2022). https://doi.org/10.48550/arXiv.2201.07436.
[21] R. Ranftl, A. Bochkovskiy, and V. Koltun, Vision transformers for dense prediction, in IEEE/CVF International Conference on Computer Vision (ICCV), 2021, pp. 12179–12188. https://doi.org/10.1109/ICCV48922.2021.01196.
[22] R. Ranftl, K. Lasinger, D. Hafner, K. Schindler, and V. Koltun, Towards robust monocular depth estimation: Mixing datasets for zero-shot cross-dataset transfer, IEEE Transactions on Pattern Analysis and Machine Intelligence, (2020). https://doi.org/10.1109/TPAMI.2020.3019967.
[34] W. Yin, J. Zhang, O. Wang, S. Niklaus, L. Mai, S. Chen, and C. Shen, Learning to recover 3D scene shape from a single image, in IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 204–213. https://doi.org/10.1109/CVPR46437. 2021.00027.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/346224.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

操作系统:文件系统的实现

一、文件系统结构 磁盘的逻辑单元为块,内存和磁盘之间的I/O传输以块为单位执行。 磁盘的特点 1可以原地重写,可以从磁盘上读一块儿,修改该块,并将它写回到原来的位置可以直接访问磁盘上的任意一块。因此,可以方便地…

浅析SCSI协议(2)命令模型

SCSI命令模型 SCSI协议对链路传输没有进行严格的限制,但约束了SCSI的命令模型。协议允许使用SAS、FC以及以太网等不同的链路实现,但对所有的SCSI传输层实现而言,都必须遵循统一的SCSI命令模型。SCSI命令模型约束了SCSI命令执行过程、命令请求…

《底层逻辑:看清这个世界的底牌》读后感

书名《底层逻辑:看清这个世界的底牌》作者刘润简介如果只教给你各行各业的“干货”(方法论),那只是“授人以鱼”,一旦环境出现任何变化,“干货”就不再适用。但如果教给你的是底层逻辑,那就是“…

初入测试如何编写测试用例?从3个方面带你写一个合格的测试用例

前言 作为一个测试新人,刚开始接触测试,对于怎么写测试用例很头疼,无法接触需求,只能根据站在用户的角度去做测试,但是这样情况会导致不能全方位的测试APP,这种情况就需要一份测试用例了,但是不…

亿级高并发电商项目-- 实战篇 --万达商城项目 七(品牌模块、商品类型模块等开发)

专栏:高并发---分布式 在管理商品时,除了商品名、价格、商品介绍等基本参数外。还需 要给商品添加品牌、商品类型、商品规格等参数。比如Iphone13的 品牌是苹果。商品类型属于手机通讯>手机>手机。规格有机身颜色: 星光色、版本:128G。品牌、商品…

暗网与深网:5 个主要区别

在互联网上,深网不会被网络爬虫索引,而暗网是故意隐藏的。 文章目录前言一、暗网与深网二、什么是暗网?什么是深网?暗网和深网之间的 5 个主要区别1. 范围和操作暗网深网2. 尺寸暗网:深网:3. 访问暗网深网4…

数据的分组聚合

1:分组 t.groupby #coding:utf-8 import pandas as pd import numpy as np file_path./starbucks_store_worldwide.csv dfpd.read_csv(file_path) #print(df.head(1)) #print(df.info()) groupeddf.groupby(byCountry) print(grouped) #DataFrameGroupBy #可以遍历…

1.2配置OSPF包文分析和验证

1.2.2实验2:配置OSPF包文分析和验证 [1] 实验目的通过抓包分析OSPF的包文实现OSPF区域认证的配置实验拓扑实验拓扑图如图1-3所示。 图1-3 配置OSPF包文分析和验证 实验步骤 IP地址的配置、运行OSPF的步骤与实验1相同,此处略。[2] 在R1的g0/0/0抓包

Redis 集群搭建及集群管理工具

目录一、简介二、架构图三、搭建集群3.1、下载3.2、编译安装3.3、配置文件修改3.4、创建集群四、集群管理工具redis-cli4.1、查看集群信息4.2、检查集群4.3、修复槽错误4.4、重分片4.5、负载均衡4.6、添加节点4.7、删除节点4.8、设置超时4.9、导入数据4.10、重建集群一、简介 本…

【JavaWeb】网络编程概念 + Socket套接字 + UDP/TCP编程

目录 网络编程基础概念 发送端与接受端 请求与响应 客户端与服务器 常见的客户端服务器模型 Socket套接字 回显(echo)程序 UDP版的回显程序 服务器代码 客户端代码 结果 TCP版的回显程序 服务器代码 客户端代码 结果 网络编程基础概念 网络编程,指网…

2.5|物联网应用系统设计|复习提纲|提问背诵

基础概念总结掌握Linux常用的基本命令功能、语法结构,用法等。具体命令参考实验指导书、相关PPT等资料内容。什么是操作系统(OS)?操作系统是用以控制和管理计算机系统资源,方便用户使用的程序和数据结构的集合。在所有…

零基础学习Python的一点建议

Python语言的火爆程度,真的是超过了任何一门计算机语言,当然火爆程度里面含有赶上了人工智能这个领域的风口,但是大部分的原因是Python易学,语法对小白非常友好,总结一句话,Python语言能做很多事情&#xf…

亿级高并发电商项目-- 实战篇 --万达商城项目 六(编写角色管理、用户权限(Spring Security认证授权)、管理员管理等模块)

专栏:高并发---前后端分布式 👏作者简介:大家好,我是小童,Java开发工程师,CSDN博客博主,Java领域新星创作者 📕系列专栏:前端、Java、Java中间件大全、微信小程序、微信…

使用nvm管理node

nvm介紹 node的版本管理器,可以方便地安装&切换不同版本的node 我们在工作中,可以会有老版本的node的项目需要维护,也可能有新版本的node的项目需要开发,如果只有一个node版本的话将会很麻烦,nvm可以解决我们的难点…

node 拉取github开源漏洞

我们可以通过github的open api 来拉取一些信息。这里主要是拉取 github 开源漏洞中的漏洞信息 Github Explorer github Explorer 是一个在线工具,登录之后,我们可以在左侧输入GraphQL 查询语句,之后就可以查询相关的信息。例如:…

B树和B+树,红黑树作为索引的区别

索引是一种数据结构,帮助我们在mysql表中更高效获取数据的数据结构 常用作为索引的数据结构:二叉树,红黑树,Hash表,B树,B树 下面的数据表中有两个字段,第一个字段是col1,第二个字段…

如何在Qt中设置背景图片,且不覆盖其它控件

正常情况,我们直接通过在样式表里设置背景图片会出现背景图片覆盖其它控件的情况,比如下面操作: 首先右击空白处,点击改变样式表。 然后选择background-image 然后点击铅笔图标 之后我们要先添加前缀,也就是我们…

使用 Three.js 后处理的粗略铅笔画效果

本文使用Three.js的后处理创建粗略的铅笔画效果。我们将完成创建自定义后处理渲染通道、在 WebGL中实现边缘检测、将法线缓冲区重新渲染到渲染目标以及使用生成和导入的纹理调整最终结果的步骤。翻译自Codrops,有改动。 Three.js 中的后处理 Three.js中的后处理是一…

1.9 实践项目——爬取学生信息

1. 项目简介设计一个 Web 服务器 server.py,它读取 students.txt 文件中的学生数据,以表格的形式呈现在网页上,其中 students.txt 的格式如下:No,Name,Gender,Age1001,张三,男,201002,李四,女,191003,王五,男,21设计一个客户端的爬…

【Junit5】就这篇,带你从入门到进阶

目录 前言 1.前置工作 2、注解 2、断言(Assertions类) 2.1、断言 匹配/不匹配 2.2、断言结果 为真/为假 2.3、断言结果 为空/不为空 3、用例的执行顺序 3.1、用例执行顺序是怎样的? 3.2、通过order注解来排序 4、参数化 4.1、单…