字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。

字节发布Depth Anything V2深度模型，比 Depth Anything V1 更精细的细节。

news2026/2/15 14:45:02

欢迎点击关注下方公众号并加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

字节发布Depth Anything V2深度模型。比 Depth Anything V1 更精细的细节。与基于 SD 构建的模型相比效率显著更高（快了10倍以上）且更准确。提供了不同规模的模型（参数从25M到1.3B不等），以支持各种应用场景。分别针对室内和室外场景发布了三个尺度的六种度量深度模型。

通过三个关键实践产生了更精细和更鲁棒的深度预测：

用合成图像取代所有标注的真实图像，
扩大教师模型的容量，
通过大规模伪标注的真实图像作为桥梁来教授学生模型。

Depth Anything V2基于595K张合成标记图像和62M+张真实未标记图像进行训练，提供最强大的单目深度估计(MDE)模型。

相关链接

论文地址：https://arxiv.org/abs/2406.09414

代码地址：https://github.com/DepthAnything/Depth-Anything-V2

试用链接：https://huggingface.co/spaces/Depth-Anything/Depth-Anything-V2

论文阅读

摘要

这项工作提出了 Depth Anything V2。我们不追求花哨的技术，而是旨在揭示关键发现，为构建强大的单目深度估计模型铺平道路。值得注意的是，与 V1 相比，此版本通过三个关键实践产生了更精细、更稳健的深度预测：

用合成图像替换所有标记的真实图像；
扩大我们的教师模型的容量
通过大规模伪标记真实图像的桥梁教授学生模型。

与基于稳定扩散构建的最新模型相比，我们的模型效率更高（速度快 10 倍以上）且更准确。我们提供不同规模的模型（从 25M 到 1.3B 参数不等）以支持广泛的场景。得益于它们强大的泛化能力，我们使用度量深度标签对它们进行微调以获得我们的度量深度模型。除了我们的模型之外，考虑到当前测试集中的多样性有限和频繁的噪声，我们构建了一个具有稀疏深度注释的通用评估基准，以方便未来的研究。

方法

我们首先在纯合成图像上训练一个初始的最大教师模型（基于 DINOv2-Giant）。然后，它为大规模未标记的真实图像生成高质量的伪标签。最后，仅在伪标记的真实图像上训练学生模型。

效果展示

与Depth Anything V1在细粒度细节上的比较

与 Depth Anything V1 的稳健性比较

与 Marigold 和 Geowizard 的比较

视频深度可视化

注意： Depth Anything V2是一种基于图像的深度估计方法，我们使用视频只是为了更好地展示我们的优势。

数据覆盖范围

我们使用595K张合成图像来训练初始最大的教师模型，并使用62M+张真实伪标记图像来训练最终的学生模型。

结论

在这项工作中，我们提出了 Depth Anything V2，这是一种更强大的单目深度估计基础模型。它能够

提供稳健且细粒度的深度预测；
支持具有各种模型大小（从 25M 到 1.3B 参数）的广泛应用
作为一种有前途的模型初始化，可以轻松微调到下游任务。

我们揭示了关键的发现，为构建强大的 MDE 模型铺平了道路。此外，考虑到现有测试集中的多样性较差和噪声丰富，我们构建了一个多功能评估基准 DA-2K，涵盖了具有精确且具有挑战性的稀疏深度标签的各种高分辨率图像。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1866351.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

昇思25天学习打卡营第3天|onereal

昇思25天学习打卡营第3天|onereal

前几天不能运行代码，经过排查是因为我的浏览器是搜狗的，换成Chrome问题解决了。按照提示学习了《应用实践/计算机视觉/FCN图像语义分割.ipynb》并且尝试运行代码，开始训练，最后看到图片变化。网络流程 FCN网络的流程如下图所示&…

阅读更多...

【课程总结】Day11（下）：YOLO的入门使用

【课程总结】Day11（下）：YOLO的入门使用

前言 YOLO的简介 YOLO（You Only Look Once）是一种流行的目标检测算法，由Joseph Redmon等人于2015年提出。YOLO的设计思想是将目标检测任务转化为单个神经网络的回归问题，通过在图像上划分网格并对每个网格预测边界框和类别置信度…

阅读更多...

Node.js全栈指南：浏览器显示一个网页

Node.js全栈指南：浏览器显示一个网页

上一章，我们了解到，如何通过第二章的极简 Web 的例子来演示如何查看官方文档。为什么要把查阅官方文档放在前面的章节说明呢？因为查看文档是一个很重要的能力，就跟查字典一样。回想一下，我们读小学，初中的…

阅读更多...

如何创建一个vue项目

如何创建一个vue项目

目录 1.环境准备 2.检查node和npm版本，确定已安装nodejs 3.全局安装vue/cli、webpack、webpack-cli、vue/cli-init 4.检查vue版本,注意V是大写 5.创建vue项目 6.得到的vue项目目录结构如下： 1.环境准备安装nodejs,或者安装nvm，并使用…

阅读更多...

day38动态规划part01| 理论基础 509. 斐波那契数 70. 爬楼梯 746. 使用最小花费爬楼梯

day38动态规划part01| 理论基础 509. 斐波那契数 70. 爬楼梯 746. 使用最小花费爬楼梯

**理论基础 ** 无论大家之前对动态规划学到什么程度，一定要先看我讲的动态规划理论基础。如果没做过动态规划的题目，看我讲的理论基础，会有感觉是不是简单题想复杂了？ 其实并没有，我讲的理论基础内容，…

阅读更多...

盲源信道分离—FastICA算法性能仿真

盲源信道分离—FastICA算法性能仿真

本案例中使用Matlab软件对FastICA算法的声音分离性能进行了仿真，分别对简单波形的混合信号、不同类型声音的混合信号、同一类型的混合信号这三种情况进行仿真，主要从分离信号的波形形状、串音误差两方面对分离性能进行衡量，仿真结果显示快速I…

阅读更多...

前端新手小白的第一个AI全栈项目---AI聊天室

前端新手小白的第一个AI全栈项目---AI聊天室

前言 ok，大家好。- ̗̀(๑ᵔ⌔ᵔ๑)最近也是想做自己的第一个前后端分离的项目，刚好最近学了一点AI接口的实现。想着用接口做一个自己的ai聊天室并且尝试一下全栈式开发。中间真的解决了很多问题，也是成功之后也是想要将实现过程分享一下&a…

阅读更多...

4.任务调度

4.任务调度

1.基本知识 2.任务的状态 FreeRTOS中任务共存在4种状态：Running 运行态当任务处于实际运行状态称之为运行态，即CPU的使用权被这个任务占用（同一时间仅一个任务处于运行态）。Ready 就绪态处于就绪态的任务是指那些能够运行&…

阅读更多...

6毛钱SOT-23封装28V、400mA 开关升压转换器，LCD偏置电源和白光LED应用芯片TPS61040

6毛钱SOT-23封装28V、400mA 开关升压转换器，LCD偏置电源和白光LED应用芯片TPS61040

SOT-23-5 封装 TPS61040 丝印PHOI 1 特性 • 1.8V 至 6V 输入电压范围 • 可调节输出电压范围高达 28V • 400mA (TPS61040) 和 250mA (TPS61041) 内部开关电流 • 高达 1MHz 的开关频率 • 28μA 典型空载静态电流 • 1A 典型关断电流 • 内部软启动 • 采用 SOT23-5、TSOT23…

阅读更多...

图解HTTP笔记整理（前六章）

图解HTTP笔记整理（前六章）

图解HTTP 第一章 web使用HTTP （HyperText Transfer Protocol，超文本传输协议）协议作文规范，完成从客户端到服务器端等一系列运作流程。协议：计算机与网络设备要相互通信，双方就必须基于相同的方法。比如…

阅读更多...

[油猴脚本] Image To Ascii 快速转换审计网站图片中敏感信息插件

[油猴脚本] Image To Ascii 快速转换审计网站图片中敏感信息插件

项目地址:https://github.com/MartinxMax/ImageToAscii 导入将ImagetoAscii.user.js导入油猴进行按照访问网站分析图片当鼠标靠近图片时会出现分析按钮通过审查图片信息,我们可以快速发现这张图片存在PHP代码。当然在渗透测试中,你可以快速查看上传的图片木马中PHP代码…

阅读更多...

经验分享，在线word转图片

经验分享，在线word转图片

这里分享一个在线word转图片的网站，比较好用网址：http://www.docpe.com/word/word-to-image.aspx 截图：

阅读更多...

40.连接假死-空闲检测-发送心跳

40.连接假死-空闲检测-发送心跳

连接假死情况 1.网络设备出现故障，例如网卡，机房等。底层的TCP连接已经断开，但应用程序没有感知到，仍然占着资源。 2.公网网络不稳定，出现丢包。若果连续出现丢包，这时现象就是客户端数据发不出去，服务端也一直收不到数据，就这么一直耗着。 3.应用程序线程阻塞，无法…

阅读更多...

甲子光年专访天润融通CEO吴强：客户经营如何穿越低速周期？

甲子光年专访天润融通CEO吴强：客户经营如何穿越低速周期？

作者｜陈杨、编辑｜栗子社会的发展从来都是从交流和联络开始的。从结绳记事到飞马传信，从电话电报到互联网，人类的联络方式一直都在随着时代的发展不断进步。只是传统社会通信受限于技术导致效率低下，对经济社会产生影…

阅读更多...

浅谈 MySQL 复制架构

浅谈 MySQL 复制架构

Author：Arsen Date：2024/06/26 目录前言一、参数设置1.1 slave_exec_mode1.2 max_allowed_packet1.3 binlog-do-db1.4 binlog-ignore-db1.5 replicate-ignore-db1.6 replicate-ignore-table1.7 replicate-wild-ignore-table1.8 slave_compressed_protoc…

阅读更多...

实时美颜技术解析：视频美颜SDK如何改变直播行业

实时美颜技术解析：视频美颜SDK如何改变直播行业

实时美颜技术的出现，尤其是视频美颜SDK的应用，正逐渐改变着直播行业的生态。一、实时美颜技术的原理实时美颜技术利用人工智能和图像处理算法，对视频中的人物面部进行优化和修饰。该技术通常包含以下几个步骤： 1.人脸检测和识…

阅读更多...

ue 材质贴图Tiling repeat

ue 材质贴图Tiling repeat

材质问题，如下贴图显然不符合逻辑，太大，并且是一次性贴图换一个红砖纹理，就看清了，砖太大了修改： 拖出一个TexCoord，代表坐标，拖出一个参数，代表次数，如…

阅读更多...

AI自动生成角色和情节连续的漫画,中山大学联想提出AutoStudio，可以多轮交互式连续生成并保持主题一致性。

AI自动生成角色和情节连续的漫画,中山大学联想提出AutoStudio，可以多轮交互式连续生成并保持主题一致性。

中山大学和联想研究院提出AutoStudio: 是一种无需训练的多代理框架，用于多轮交互式图像生成，能够在生成多样化图像的同时保持主体一致性。 AutoStudio 采用三个基于 LLM 的智能体来解释人类意图并为 SD 模型生成适当的布局指导。此外，还引入…

阅读更多...

搜索引擎的原理与相关知识

搜索引擎的原理与相关知识

搜索引擎是一种网络服务，它通过互联网帮助用户找到所需的信息。搜索引擎的工作原理主要包括以下几个步骤： 网络爬虫（Web Crawler）：搜索引擎使用网络爬虫（也称为蜘蛛或机器人）来遍历互联网&#…

阅读更多...

一文了解自定义表单系统开源的多个优势

一文了解自定义表单系统开源的多个优势

降本、提质、增效，是当前很多企业都想实现的目的。什么样的软件可以助力企业创造价值？低代码技术平台是近些年得到了很多客户喜爱的平台产品，因为它能帮助大家减少编程代码的撰写，能轻松助力各部门之间做好协调沟通工作&#xff0…

阅读更多...

推荐文章

最新文章