Depth Anything V2:抖音开源高性能任何单目图像深度估计V2版本,并开放具有精确注释和多样化场景的多功能评估基准

news2024/11/28 10:47:01

📜文献卡


题目: Depth Anything V2
作者: Lihe Yang; Bingyi Kang; Zilong Huang; Zhen Zhao; Xiaogang Xu; Jiashi Feng; Hengshuang Zhao
DOI: 10.48550/arXiv.2406.09414
摘要: This work presents Depth Anything V2. Without pursuing fancy techniques, we aim to reveal crucial findings to pave the way towards building a powerful monocular depth estimation model. Notably, compared with V1, this version produces much finer and more robust depth predictions through three key practices: 1) replacing all labeled real images with synthetic images, 2) scaling up the capacity of our teacher model, and 3) teaching student models via the bridge of large-scale pseudo-labeled real images. Compared with the latest models built on Stable Diffusion, our models are significantly more efficient (more than 10x faster) and more accurate. We offer models of different scales (ranging from 25M to 1.3B params) to support extensive scenarios. Benefiting from their strong generalization capability, we fine-tune them with metric depth labels to obtain our metric depth models. In addition to our models, considering the limited diversity and frequent noise in current test sets, we construct a versatile evaluation benchmark with precise annotations and diverse scenes to facilitate future research.
GitHub: DepthAnything/Depth-Anything-V2: Depth Anything V2. A More Capable Foundation Model for Monocular Depth Estimation (github.com)

在这里插入图片描述

⚙️ 内容

实现了一种名为“深度任意物V2”的单目深度估计算法,旨在通过三个关键实践:使用合成图像代替真实标记图、增加教师模型容量以及通过大规模伪标记的真实图像教授学生模型等方法,提高深度预测精度和鲁棒性。与基于Stable Diffusion的最新模型相比,该算法更加高效(比其快10倍以上)且准确度更高。作者提供了不同规模(从25M到1.3B参数)的模型以支持各种场景,并利用它们的强大泛化能力,在带有深度标签的数据集上进行微调,从而获得我们的深度测量模型。此外,考虑到当前测试数据集的有限多样性和频繁噪声,作者还构建了一个具有精确注释和多样化场景的灵活评估基准,以促进未来的研究。

test1

模型优点:

  • 高效性:更快的推理速度
  • 精度:更高的深度精度
  • 轻量级模型:参数少(从25M到1.3B)

💡 创新点

  • 数据驱动的深度学习优化:通过全面采用高质量合成图像作为训练数据源,克服了真实图像标签噪声的问题。

  • 模型架构与训练策略:引入了教师-学生模型框架,其中大型教师模型先在合成数据上训练,然后生成伪标签用于训练小型学生模型,有效转移知识并提升模型的泛化性能。

  • 深度预测的精度与多样性:无需依赖复杂技术,仅通过数据和模型结构的优化,显著提升了深度预测的准确度,尤其是在透明表面等挑战性对象上的表现。

  • 多功能评估基准:构建了新的测试基准,以促进未来单目深度估计研究的发展。

架构图

🧩 不足

  • 合成数据的局限性:尽管合成图像在提供精确标签方面有优势,但它们缺乏真实世界的多样性和复杂性,即存在合成图像与真实图像之间存在分布漂移问题和合成图像的场景覆盖不足问题,可能导致模型在某些特定或罕见场景下的表现不佳。
  • 深度预测的泛化能力:虽然模型在训练数据集上表现优异,但在未见过的极端或新奇环境下可能仍面临挑战。
  • 特殊场景表现不佳:透明对象和反射表面处理不佳

🔁 实验卡


💧 数据

  • 来源与预处理:研究使用了五个精确的合成数据集(含595K张图像)和八个大型的伪标签真实数据集(共62M张图像)。合成数据集如Hypersim和vKITTI提供了高精度的深度标签,而真实图像则用于生成大规模的伪标签。
  • 忽略噪声区域:在训练过程中,对于每个伪标签样本,会忽略其损失最大的前10%区域,视为潜在的噪声标签。

方法改进

与V1相比,该方法采用了更精确的合成数据集和更大的伪标签真实数据集,从而提高了模型的精度和泛化能力。此外,该方法还加入了梯度匹配损失Lgm,可以提高深度的锐度。

👩🏻‍💻 方法

  • 教师模型训练:基于DINOv2-G的教师模型在高质合成图像上进行训练。
  • 深度标签生成:教师模型在大规模未标记的真实图像上产生精确的伪深度。
  • 学生模型训练:使用伪标签真实图像训练最终的学生模型以实现稳健的一般化(即合成图像在此步骤中不再需要),以增强模型的鲁棒性和泛化能力。

🔬 实验

实验验证:通过与V1、Marigold等模型的对比,展示了Depth Anything V2在精度、速度和参数量方面的优势。特别是在透明表面挑战中的零样本测试中,V2取得了83.6%的高分,远超MiDaS的25.9%和V1的53.5%。

实验结果1
实验结果2

📜 结论

Depth Anything V2在不牺牲速度和效率的情况下,显著提高了深度预测的精度和细节质量,证明了其在单目深度估计领域的先进性。

🤔 总结卡


研究团队成功地揭示了数据质量和多样性对于提升单目深度估计模型性能的关键作用,特别是通过创新地结合高质量合成数据与大规模无标签真实数据的伪标签策略。然而,未来工作可以探索如何进一步增强模型对真实世界复杂性和多样性场景的理解,比如通过更先进的合成数据生成技术或者在模型设计中融入更多自适应机制来应对未知环境的挑战。同时,持续优化评估基准以更全面地反映模型在实际应用中的表现也是必要的。

文章特别点

  • 提出了DA-2K(Diverse Applications Dataset for Monocular Depth Estimation),一个更加多样化且高分辨率的基准数据集,用于评估相对单目深度估计模型。
  • 使用稀疏深度标签而非密集像素级深度标签来构建基准数据集,提高了效率并减少了人工标注的工作量。
  • 通过两个不同的管道选择像素对,并引入了挑战性的图像手动识别过程,确保了数据集的多样性和精确性。
  • 实验结果表明,该基准数据集能够覆盖广泛的场景,并提供更高质量的数据以支持各种应用。

方法创新点

  • 利用自动预测对象掩模的方法(SAM)和关键点来选取稀疏深度标签,提高数据集的多样性。
  • 通过与人类注释者一起检查每个注释,确保了数据集的准确性。
  • 通过使用深度学习技术,将编码器预训练在大型合成数据集上,然后将其转移到下游任务中,实现了良好的泛化能力。

未来展望

  • 进一步扩大DA-2K数据集的规模,以更好地满足实际应用场景的需求。
  • 研究如何处理透明物体等复杂情况下的深度估计算法,提高模型的鲁棒性和精度。
  • 探索如何利用多模式信息(如RGB、红外线、激光雷达等)来进一步提升深度估计算法的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1851442.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

前端 JS 经典:通用性函数封装思路

前言:设计通用性函数,我们需要考虑两个方面,一个是函数传参的可能性,如果可能性很多,我们可以将处理参数的方法暴露出去,让使用者去设计。为了调用的方便性,我们还可以做参数的归一化。 举个例…

计算机组成原理笔记-第3章 系统总线

第三章 系统总线 笔记PDF版本已上传至Github个人仓库:CourseNotes,欢迎fork和star,拥抱开源,一起完善。 该笔记是最初是没打算发网上的,所以很多地方都为了自我阅读方便,我理解了的地方就少有解释&#xf…

RockChip Android12 System之MultipleUsers

一:概述 System中的MultipleUsers不同于其他Preference采用system_dashboard_fragment.xml文件进行加载,而是采用自身独立的xml文件user_settings.xml加载。 二:Multiple Users 1、Activity packages/apps/Settings/AndroidManifest.xml <activityandroid:name="S…

Android集成高德天气API 天气预报

1.新建工程项目WeatherForecast。 2.在AndroidManifest文件中添加网络访问相关权限。 <uses-permission android:name"android.permission.INTERNET"/> 3.设计页面布局activity_main.xml&#xff0c;界面效果如图所示。 4.注册高德开放平台&#xff0c;查阅…

代码签名证书有什么作用?有哪些申请步骤?

代码签名证书是一种数字证书&#xff0c;它为软件开发者提供一种验证软件代码真实性和完整性的方法。通过使用代码签名证书&#xff0c;开发者可以确保他们的软件在发布后没有被篡改&#xff0c;并且用户可以信任软件的来源。 什么是代码签名证书&#xff1f; 代码签名证书是提…

小程序 UI 设计缔造独特魅力

小程序 UI 设计缔造独特魅力

【面试干货】抽象类的意义与应用

【面试干货】抽象类的意义与应用 1、为其他子类提供一个公共的类型2、封装子类中重复定义的内容3、定义抽象方法&#xff0c;子类虽然有不同的实现&#xff0c;但是定义时一致的4、示例代码 &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 在…

jrebel安装使用教程(2022.4.1版本)

本方法适用于jrebel2022.4.1版本&#xff0c;之后的版本不再适用。 1.下载插件 下载地址 2.安装插件 可以通过idea内部安装 也可以将插件解压进idea的安装目录下的plugins。 3.激活 Team URL中填入 https://jrebel.qekang.com/{guid}这里提供两个guid生成地址&#xf…

【AI工作流-AI-Agent】FastGPT新建应用并用openai接口调用

FastGPT 简介 FastGPT是一个AI工作流搭建平台&#xff0c;它是一个开源框架&#xff0c;支持聊天&#xff0c;RAG&#xff08;知识库&#xff09;&#xff0c;工作流编排。 缺点是不支持AI搜索&#xff0c;模型支持需要依赖于第三方部署框架例如oneapi&#xff0c;ollama等。…

aardio - 【库】lock 跨进程读写锁

import win.ui; /*DSG{{*/ var winform win.form(text"aardio form";right272;bottom203;topmost1) winform.add( button{cls"button";text"无锁演示";left27;top132;right120;bottom184;z2}; button2{cls"button";text"有锁演示…

CausalMMM:基于因果结构学习的营销组合建模

1. 摘要 在线广告中&#xff0c;营销组合建模&#xff08;Marketing Mix Modeling&#xff0c;MMM&#xff09; 被用于预测广告商家的总商品交易量&#xff08;GMV&#xff09;&#xff0c;并帮助决策者调整各种广告渠道的预算分配。传统的基于回归技术的MMM方法在复杂营销场景…

修复 Android 手机卡在启动屏幕上的 7 种方法

Android 手机卡在启动屏幕上的情况并不常见。通常&#xff0c;问题出现在应用新更新或安装未知来源的应用程序后。幸运的是&#xff0c;您可以让您的 Android 手机跳过启动屏幕&#xff0c;而无需前往最近的服务中心。 当您的 Android 手机在启动屏幕上陷入无限循环时&#xf…

MSPM0G3507——PWM

在sysconfig中&#xff0c;左侧可以选择MCU的外设&#xff0c;我们找到并点击TIMER-PWM选项卡&#xff0c;在TIMER-PWM中点击ADD&#xff0c;就可以添加定时器下的PWM外设。 这里设置通道0为100Hz的频率&#xff0c;0%占空比的PWM&#xff0c;周期计数值为1000&#xff0c;比较…

有哪些骨传导耳机是比较推荐入手的?精选五款热门骨传导耳机推荐!

耳机基本是每人人手一台&#xff0c;不管是在地铁上还是在公交上&#xff0c;都可以看到很多人戴着耳机度过空余的时光&#xff0c;甚至现在人们在耳机的选择方面更加偏向于骨传导耳机&#xff0c;开放耳道的奇特设计在户外佩戴的时候可以更好的感知到周围的环境音&#xff0c;…

面试突击:深入理解 Java 中的异常

本文已收录于&#xff1a;https://github.com/danmuking/all-in-one&#xff08;持续更新&#xff09; 前言 哈喽&#xff0c;大家好&#xff0c;我是 DanMu。今天想和大家聊聊 Java 中的异常。异常处理是一种重要的概念&#xff0c;因为程序总是会出现各种意料之外的问题&…

分享计算机msvcp100.dll,丢失或找不到的7个解决方法

msvcp100.dll是动态链接库文件对于执行使用 Microsoft Visual C 2010 编译器编译的应用程序至关重要。它包含了 C 标准库的实现&#xff0c;提供了应用程序运行时所需的核心功能&#xff0c;如输入/输出操作、字符串处理、数学运算和异常处理等。若系统中缺失或损坏此文件&…

win10环境配置ollama-ui运行llama3模型

先说我的笔记本电脑配置intel-i7-11390h,4核8处理器&#xff0c;内存16G。显卡NVIDA GeFroce MX450&#xff0c;2G显存&#xff0c;这是一台5000元左右的电脑。 我用它跑roop、sd1.5、ffusion2、ChatTTs还有pythonpytorch的自定义模型&#xff0c;现在用来跑llama3。当然&…

挑战Midjourney,融合近百个SD大模型的通用模型AlbedoBase XL

在SDXL的通用模型中&#xff0c;DreamShaperXL和juggernautXL这2款大模型一直都深受广大AI绘画者的喜爱&#xff0c;不可否认&#xff0c;这2款通用模型在很多方面表现都相当出色。 今天再给大家介绍一款基于SDXL的通用大模型&#xff1a;AlbedoBase XL&#xff0c;作者的目标…

Centos7 Mysql8.3.0 安装地址

MySQL :: Download MySQL Community Server (Archived Versions)

qt 5.6 qmake手册

qt 5.6 qmake手册 &#xff08;笔者翻译的qmake手册&#xff0c;多数是机翻&#xff0c;欢迎评论区纠错修正&#xff09; Qmake工具有助于简化跨不同平台开发项目的构建过程。它自动生成Makefile&#xff0c;因此创建每个Makefile只需要几行信息。您可以将qmake用于任何软件项目…