Stability AI发布Stable Video 3D模型:可从单张图像创建多视图3D视频,视频扩散模型史诗级提升!

news2024/9/24 3:49:27

Stability AI发布了Stable Video 3D (SV3D),这是一种基于稳定视频扩散的生成模型,推动了3D技术领域的发展,并大大提高了质量和视图一致性。

该版本有两个版本:

  • SV3D_u:该变体基于单图像输入生成轨道视频,无需相机调节。

  • SV3D_p:扩展SVD3_u的功能,此变体可容纳单图像和轨道视图,允许沿着指定的相机路径创建3D视频。

Stable Video 3D现在可以用于商业目的与稳定的AI会员。对于非商业用途,可以在huggingface上下载模型权重并查看论文。

相关链接

目前模型和技术报告已经发布:

  • 模型:https://huggingface.co/stabilityai/sv3d

  • 技术报告:https://stability.ai/s/SV3D_rep

  • 项目主页:https://stability.ai/news/introducing-stable-video-3d

论文阅读

摘要

论文提出了稳定视频3D (SV3D),一种潜在的视频扩散模型,用于高分辨率,图像到多视图生成围绕3D物体的轨道视频。最近的工作三维生成方面,提出了将二维生成模型用于新视图合成(NVS)和三维优化的技术。

然而,这些方法有几个缺点由于有限的视角或不一致的NVS,从而影响了3D对象生成的性能。在这个 在本文中,我们提出了基于图像到视频扩散模型的SV3D,用于新的多视图合成和3D生成,从而利用了泛化和多视图视频模型的一致性,同时进一步为NVS添加显式摄像机控制。

我们还建议改进使用SV3D及其NVS输出进行图像到3D生成的3D优化技术。大量的实验在2D和3D指标的多个数据集上的结果用户研究证明了SV3D在NVS和3D重建方面的最先进性能。

方法

SV3D架构

SV3D建立在SVD的基础上,SVD由多层UNet组成,每层包含一个带有Conv3D层的残差块和两个变压器块的序列(空间和时间)有注意层。

  • 我们删除了"fps id"和"motion bucket id "的向量条件,因为它们与SV3D无关。

  • 条件反射图像通过SVD的VAE编码器嵌入到隐空间后,与UNet在噪声时间步长t处的噪声潜状态输入z t连接。

  • 将条件图像的CLIPembedding矩阵作为其键和值提供给每个transformer块的交叉注意力层。

  • 将摄像机轨迹连同扩散噪声时间步长一起输入到残差块中。首先,将摄像机姿态角度ei和ai以及噪声时间步长t嵌入到正弦位置嵌入中。然后,将相机姿态嵌入连接在一起,进行线性变换,并将其添加到噪声时间步嵌入中。这被馈送到每个残差块,在那里它们被添加到块的输出特征中。

实验结果

Stable Video 3D引入了3D生成的重大进步,特别是在新视图合成(NVS)方面。不像以前的方法,往往与有限的视角和输出不一致,稳定的视频3D能够提供连贯的观点,从任何给定的角度与熟练的泛化。这种能力不仅增强了姿态可控性,而且确保了跨多个视图的一致对象外观,进一步提高了逼真和准确的3D生成的关键方面。

新视图合成

多视点合成

SV3D能够生成更详细、更真实的新颖多视图。以调理图像为主,与前人作品的多视角比较一致。

3D生成

SV3D利用其多视图一致性来优化3D神经辐射场(NeRF)和网格表示,以提高从新视图直接生成的3D网格的质量。为此论文设计了一个掩蔽分数蒸馏采样损失,以进一步提高在预测视图中不可见区域的3D质量。此外为了减少嵌入式照明问题,SV 3D采用了与3D形状和纹理共同优化的解纠缠照明模型。

感谢你看到这里,也欢迎点击关注下方公众号,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1539472.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

yolov6实现遥感影像目标识别|以DIOR数据集为例

1 目标检测是计算机视觉领域中的一项重要任务,它的目标是在图像或视频中检测出物体的位置和类别。YOLO(You Only Look Once)是一系列经典的目标检测算法,最初由Joseph Redmon等人于2016年提出。YOLO算法具有快速、简单、端到端的特…

QT学习第一天,创建工程文件,创建按钮,对象树的概念

创建qt 方式一:欢迎》project》new project 方式二:菜单栏》文件》新建文件或项目 打开项目 方式1: 欢迎》project》open project 方式2:打开目录(页面上不存在的项目) 创建工程时需要注意&#xff1…

YOLOv5全网首发改进: 注意力机制改进 | 上下文锚点注意力(CAA) | CVPR2024 PKINet 遥感图像目标检测

💡💡💡本文独家改进:引入了CAA模块来捕捉长距离的上下文信息,利用全局平均池化和1D条形卷积来增强中心区域的特征,从而提升检测精度,CAA和C3进行结合实现二次创新,改进思路来自CVPR2024 PKINet,2024年前沿最新改进,抢先使用 💡💡💡小目标数据集,涨点近两个…

opencv图片处理基础

文章目录 计算机中图片构成红绿蓝边界填充色彩图片转二值图腐蚀操作sobel算子滤波图像阈值函数 边缘检测轮廓检测轮廓特征与轮廓近似轮廓特征轮廓近似 计算机中图片构成红绿蓝 图片由像素点构成,每个像素点有三个通道,分别是RGB,对应红绿蓝颜…

DFS深度优先搜索刷题(一)

一.P2089 烤鸡 算法思想: 指数型枚举,可以通过dfs深度优先搜索暴力枚举出所有可能的情况,在通过剪枝去除错误的方案来减少时间开销。主要用一个循环枚举每个调料放几克(每个位置的分支情况都相同),注意回溯…

分类预测 | Matlab实现PSO-KELM粒子群优化算法优化核极限学习机分类预测

分类预测 | Matlab实现PSO-KELM粒子群优化算法优化核极限学习机分类预测 目录 分类预测 | Matlab实现PSO-KELM粒子群优化算法优化核极限学习机分类预测分类效果基本描述程序设计参考资料 分类效果 基本描述 1.MATLAB实现PSO-KELM粒子群优化算法优化核极限学习机分类预测(完整源…

【c++初阶】C++入门(下)

✅✅✅✅✅✅✅✅✅✅✅✅✅✅✅✅ ✨✨✨✨✨✨✨✨✨✨✨✨✨✨✨✨ 🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿&#x1…

lvgl 窗口 windows lv_port_win_visual_studio 版本 已解决

不知道的东西,不知道lvgl窗口。一切从未知开始 lv_port_win_visual_studio 主分支 对应的分支 v7版本更新git submodule update --init --recursive同步 lvgl代码随后打开 visualSudio 打开.sln 文件 编译 release模式 允许 一切正常代码部分

iOS应用审核问题解决方案及优化方法 ✨

摘要 本文将针对iOS应用提交审核时可能遇到的问题,如“你必须在Xcode中添加com.apple.developer.game-center密钥”,以及突然间提交送审报错情况进行探讨。通过大量查询资料和尝试,结合案例分析,提供了解决方案和优化方法&#x…

Linux进程地址空间详解

文章目录 前言一、程序地址空间二、感受虚拟地址的存在三、进程地址空间四、程序从磁盘加载到内存的过程4.1 物理地址和虚拟地址的区别 五、写时拷贝5.1 解释fork()函数有两个返回值 前言 我们在学习C/C的时候用到的地址是什么地址呢?虚拟地址?物理地址&…

抗疫医疗用品销售平台|基于JSP技术+ Mysql+Java+ Tomcat的抗疫医疗用品销售平台设计与实现(可运行源码+数据库+设计文档)

推荐阅读100套最新项目 最新ssmjava项目文档视频演示可运行源码分享 最新jspjava项目文档视频演示可运行源码分享 最新Spring Boot项目文档视频演示可运行源码分享 2024年56套包含java,ssm,springboot的平台设计与实现项目系统开发资源(可…

mysql 如何设计分库分表

在MySQL中设计分库分表的方法通常涉及到水平拆分与垂直拆分两种主要方式。 水平拆分: 按照某一列进行水平拆分: 可以根据某一列(如用户ID、时间等)的取值范围将数据拆分到不同的数据库或表中。基于哈希值的水平拆分:…

贪吃蛇(C语言超详细版)

目录 前言: 总览: API: 控制台程序(Console): 设置坐标: COORD: GetStdHandle: STD_OUTPUT_HANDLE参数: SetConsoleCursorPosition: …

python--循环(作业)

作业一: 判断一个数是否为质数(素数) flag True prime int(input("请输入一个整数:")) for num in range(2, prime):if prime % num 0:flag Falsebreak if flag:print("它是质数") else:print("它…

2024年阿里云服务器地域和可用区所在地区城市分布表

阿里云服务器地域和可用区有哪些?阿里云服务器地域节点遍布全球29个地域、88个可用区,包括中国大陆、中国香港、日本、美国、新加坡、孟买、泰国、首尔、迪拜等地域,同一个地域下有多个可用区可以选择,阿里云服务器网aliyunfuwuqi…

RabbitMQ问题

如何实现顺序消费? 消息放入到同一个队列中消费 如何解决消息不丢失? 方案: 如上图:消息丢失有三种情况,解决了以上三种情况就解决了丢失的问题 1、丢失1--->消息在到达交换机的时候;解决&#xff1…

unity学习(68)——相机/模型的旋转/位置计算

这个比想象中要难,而且需要自己写。 1.相机可以转xy两个位置,可以点头和转圈。注意这里有一个if判断(后面返回来发现了这些问题) 2.角色不能点头,只能转圈。 难得是移动方向,因为移动方向(位置)和转向是相…

Spark与flink计算引擎工作原理

Spark是大批量分布式计算引擎框架,scale语言开发的,核心技术是弹性分布式数据集(RDD)可以快速在内存中对数据集进行多次迭代,支持复杂的数据挖掘算法及图形计算算法,spark与Hadoop区别主要是spark多个作业之…

Mac 搜索工具比对 ProEverything ProFind DFind 等

对比 Windows的everything用习惯了,其他的搜索追之不及啊。Mac上对比了一圈,简单总结一下。 比较项ProEverythingProFindDFindEasyFindScherlokk是否索引方式索引遍历遍历遍历待试用费用收费 推荐88元终身版收费收费免费待试用是否可全盘全盘无法查找影…

pytest简介以及命令行执行

pytest简介以及安装 pytest简介导入第三方库修改工具类 pytest命令方式执行函数执行pytest中的参数详解 pytest简介 pytest有很多强大的插件 pytest-html (生成html格式的自动化测试报告) pytest-xdist (测试用例分布式执行,多cpu…