DepthCrafter：为开放世界视频生成一致的长深度序列

news2026/2/15 20:51:34

在这里插入图片描述
通过利用视频扩散模型，我们创新了一种新颖的视频深度估算方法–DepthCrafter。它可以为开放世界视频生成具有细粒度细节的时间一致性长深度序列，而无需摄像机姿势或光流等附加信息。

简介

动机。尽管在静态图像的单目深度估算方面取得了重大进展，但由于开放世界视频在内容、运动、摄像机移动和长度等方面存在极大差异，因此估算开放世界视频的深度仍然具有挑战性。我们提出了一种创新方法–DepthCrafter，用于为开放世界视频生成具有复杂细节的时间一致性长深度序列，而无需摄像机姿势或光流等任何补充信息。 DepthCrafter 通过精心设计的三阶段训练策略，利用编译好的成对视频深度数据集，从预先训练好的图像到视频扩散模型训练视频到深度模型，从而实现对开放世界视频的泛化能力。我们的训练方法使模型能够一次性生成长度可变的深度序列，最多可达 110 帧，并从现实和合成数据集中获取精确的深度细节和丰富的内容多样性。我们还提出了一种推理策略，通过分段估计和无缝拼接来处理超长视频。

在这里插入图片描述
概述 DepthCrafter 是一个条件扩散模型，它以输入视频为条件，对深度序列的分布进行建模。我们分三个阶段对模型进行训练，其中扩散模型的空间层或时间层是在我们编译的现实数据集或长度可变的合成数据集上逐步学习的。在推理过程中，给定一个开放世界的视频，它可以从初始化的高斯噪声中为整个视频生成具有细粒度细节的时间上一致的长深度序列，而不需要任何补充信息，如摄像机姿势或光流。

在这里插入图片描述
超长视频推理。我们将视频划分为重叠的片段，并采用噪声初始化策略估算每个片段的深度序列，以锚定深度分布的尺度和偏移。然后，这些估算出的片段通过潜在插值策略无缝拼接在一起，形成整个深度序列。

Project: https://depthcrafter.github.io/
Code: https://github.com/Tencent/DepthCrafter
arXiv: https://arxiv.org/abs/2409.02095
Paper:https://depthcrafter.github.io/pdf/DepthCrafter.pdf
Model:https://huggingface.co/tencent/DepthCrafter

使用

安装

git clone https://github.com/Tencent/DepthCrafter.git
cd DepthCrafter
pip install -r requirements.txt

推理

高分辨率推理，需要 1024x576 分辨率的约 26GB 内存的 GPU：

完全推理（在 A100 上约为 0.6 fps，建议用于获得高质量结果）：

python run.py  --video-path examples/example_01.mp4

通过四步去噪，在无分类器引导的情况下实现快速推理（在 A100 上约为 2.3 fps）：

python run.py  --video-path examples/example_01.mp4 --num-inference-steps 4 --guidance-scale 1.0

低分辨率推理，需要约 9GB 内存的 GPU，分辨率为 512x256：

完全推理（在 A100 上约为 2.3 帧/秒）：

python run.py  --video-path examples/example_01.mp4 --max-res 512

通过 4 步去噪和无分类器引导实现快速推理（在 A100 上约为 9.4 帧/秒）：

python run.py --video-path examples/example_01.mp4 --max-res 512 --num-inference-steps 4 --guidance-scale 1.0

Gradio Demo

提供了本地的 Gradio Demo 模型，以运行：

gradio app.py

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2143931.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

DepthCrafter：为开放世界视频生成一致的长深度序列

简介

使用

安装

推理

Gradio Demo

相关文章

Vue2集成高德地图遇到的几个问题

敏捷项目管理：团队高效协作的关键

git学习【持续更新中。。。】

B站开源长文本大模型：我很小但很能“装”

单链表的实现（C语言）

基于springboot+vue实现的智能垃圾分类系统（源码+L文+ppt）4-063

微信支付开发-前端api实现

codemirror 代码在线编辑器基本使用

RabbitMQ Spring客户端使用

WordPress建站钩子函数及使用

谈谈OpenAI o1的价值意义及RL 的Scaling Law

计算机毕业设计乡村生活垃圾管理系统的设计与实现 Java+SpringBoot+Vue 前后端分离文档报告代码讲解安装调试

视觉Transformer(ViT) ：全面超越CNN，看懂这篇文章就没什么能难倒你了！

【BFS专题】— 解决拓扑排序问题

ADB ROOT开启流程

（十五）、把自己的镜像推送到 DockerHub

基于用户增长的动销方案实践！

服装企业必备增长利器：高效商品管理系统

碰撞检测 | 图解线段几何与线段相交检测原理(附ROS C++可视化)

[Java]maven从入门到进阶