【SVD生成视频+可本地部署】ComfyUI使用(二)——使用Stable Video Diffusion生成视频 (2023.11开源)

news2024/9/28 1:26:26

SVD官方主页 : Huggingface | | Stability.ai || 论文地址
huggingface在线运行demo : https://huggingface.co/spaces/multimodalart/stable-video-diffusion
SVD开源代码:Github(含其他项目) || Huggingface
Comfyui使用: ComfyUI国内下载 | SVD模型下载 | | 官网下载(Github)

在这里插入图片描述

文章目录

  • 一、SVD是什么,能做什么?(图片到视频)
    • 1.1 模型的缺点(不能干的事情)?
  • 二、在comfyui中使用 (约15G`显存`)
    • 2.1 Stable-XL生成图片再生成视频(Text2Img2Video)
      • 第一次初始化+运行示例,在3090Ti上花费 209.35秒
        • 拍摄美丽的风景自然山脉阿尔卑斯河急流雪天积云
      • 第二次 花费 生成图片(6秒)+视频 (花费70秒)
      • 一艘悠闲地沿着塞纳河航行的船,背景是文森特·梵高的埃菲尔铁塔
      • 一只独角兽在一个神奇的小树林里,非常详细
    • 使用上传的图片生成视频?
  • 三、方法 (未完待续)

一、SVD是什么,能做什么?(图片到视频)

2023年11月21日Stability AI 开源2个图片到视频模型(“Stable Video Diffusion”(稳定视频扩散模型)
它将静止图像(still image)作为条件帧(conditioning frame),并从中生成视频分辨率(1024x576)。

  1. 上传已有1张图片,生成相关的视频片段、生成视频长度2-5秒,帧率 3-30帧每秒,
  2. 串联一个Stable-XL模型,生成图片后,再生成视频 (文字到图片再到视频)

在这里插入图片描述

1.1 模型的缺点(不能干的事情)?

  1. 生成的视频相当(<=4秒),并且该模型没有实现完美的真实感。
  2. 该模型可能生成没有运动的视频,或者生成非常慢的相机平移(没变化)。
  3. 不能直接文本控制模型 (需要串联其他模型)。
  4. 该模型无法呈现清晰的文本(legible text)(让艺术字动起来)。
  5. 一般来说,人脸和人物可能无法正确生成。
  6. 模型的自动编码部分是有损的(lossy)。

二、在comfyui中使用 (约15G显存)

使用说明: https://comfyanonymous.github.io/ComfyUI_examples/video/

2.1 Stable-XL生成图片再生成视频(Text2Img2Video)

工作流文件: 链接:https://pan.baidu.com/s/1CvyGmUibreM8SM7AFjt1uA?pwd=0125

在这里插入图片描述

第一次初始化+运行示例,在3090Ti上花费 209.35秒

拍摄美丽的风景自然山脉阿尔卑斯河急流雪天积云

photograph beautiful scenery nature mountains alps river rapids snow sky cumulus clouds

在这里插入图片描述

第二次 花费 生成图片(6秒)+视频 (花费70秒)

题词来源于论文图17

一艘悠闲地沿着塞纳河航行的船,背景是文森特·梵高的埃菲尔铁塔

题词

A boat sailing leisurely along the Seine River with the Eiffel Tower in background by Vincent van Gogh

在这里插入图片描述

一只独角兽在一个神奇的小树林里,非常详细

A unicorn in a magical grove, extremely detailed

在这里插入图片描述

使用上传的图片生成视频?

三、方法 (未完待续)

该模型训练经过,

  1. 在给定相同大小的上下文帧的情况下,以576x1024的分辨率生成25帧,
  2. 再从图像帧微调为视频[14帧]。我们还对广泛使用的f8解码器( f8-decoder )进行了时间一致性(temporal consistency)微调。
  3. 为了方便起见,我们在这里为该模型额外提供了标准的逐帧解码器(frame-wise decoder )。

利用了Nvidia提出的Align your Latents基本结构
Align your Latents: 23.07.High-Resolution Video Synthesis with Latent Diffusion Models
项目主页: https://research.nvidia.com/labs/toronto-ai/VideoLDM/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1410099.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Midjourney】绘画风格关键词

1.松散素描(Loose Sketch) "Loose sketch"&#xff08;松散素描&#xff09;通常指的是一种艺术或设计中的手绘风格&#xff0c;其特点是线条和形状的表现相对宽松、自由&#xff0c;没有过多的细节和精确度。这样的素描通常用于表达创意、捕捉概念或者作为设计的初步…

清华大学学生一行赴麒麟信安调研交流

1月24日&#xff0c;清华大学信息科学技术学院电子工程系学子组成的社会实践支队一行到访麒麟信安&#xff0c;调研交流长沙市先进计算产业发展情况和未来规划。 在公司展厅&#xff0c;清华大学学子详细了解了麒麟信安的发展历程、国产操作系统产业现状&#xff0c;以及麒麟信…

第三季《乐队风暴》全国总决赛圆满落幕

2024年1月21日&#xff0c;由广东珠江、盛娱星汇海选联合主办的第三季《乐队风暴》全国海选歌手赛道全国总决赛在广州罗格镇MUSIC LIVE&#xff08;太古仓店&#xff09;正式打响&#xff0c;第三季《乐队风暴》全国海选开启以来共有超8000人报名渴望登上绚丽舞台&#xff0c;从…

1.25 day2 C++

自己封装一个矩形类(Rect)&#xff0c;拥有私有属性:宽度(width)、高度(height)&#xff0c; 定义公有成员函数: 初始化函数:void init(int w, int h) 更改宽度的函数:set_w(int w) 更改高度的函数:set_h(int h) 输出该矩形的周长和面积函数:void show()

草原超声波气象站

TH-CQX9在广袤无垠的草原上&#xff0c;有一种神秘而重要的设施正在默默地守护着这片美丽的土地&#xff0c;它就是草原超声波气象站。这不仅是一个高科技的气象观测平台&#xff0c;更是草原生态保护的重要一环。那么&#xff0c;草原超声波气象站究竟是什么&#xff1f;它又是…

Java 字符串03 String构造方式代码实现和内存分析 (黑马)

第一种方式&#xff1a; 第二种方式&#xff1a; 有参的字符串&#xff1a; 传递字符串 传递字符数组 应用场景&#xff1a;将abc字符串改为Qbc&#xff0c;那么可以将其转换为数组&#xff0c;然后进行修改&#xff0c;最后传入即可获得Qbc&#xff1b; 字节数组&#xff1a;…

python自动化测试面试题

1、自动化代码中,用到了哪些设计模式? 单例设计模式工厂模式PO设计模式数据驱动模式面向接口编程设计模式 2、什么是断言( Assert) ? 断言Assert用于在代码中验证实际结果是不是符合预期结果&#xff0c;如果测试用例执行失败会抛出异常并提供断言日志 3、什么是web自动化…

服务器运维小技巧(二)——如何进行监控告警

服务器运维难度高的原因&#xff0c;很大程度是因为服务器一旦出现问题&#xff0c;生产环境的业务就会受到严重影响&#xff0c;极有可能带来难以承担的后果。因此这份工作要求工程师保持高要求的服务质量&#xff0c;能够快速响应问题&#xff0c;及时解决问题。 但是“及时…

uniapp Android 离线打包之未配置appkey或配置错误

1、去官网申请appKey: 申请Appkey 2、项目中使用appKey: <meta-dataandroid:name"dcloud_appkey"android:value"794534204bbae06989........" />3、参考 官方教程&#xff0c;修改配置&#xff1a; 配置教程 注意&#xff1a; 本地的appId 和 官…

简单快速取消AlertDialog的白色背景框,AlertDialog设置圆角背景

问题描述&#xff1a; 产品需求弹出的提示框是圆角&#xff0c;使用shape 设置圆角背景后&#xff0c;弹出的AlertDialog提示框四个角有白色的背景&#xff0c;据分析这个背景是 AlertDialog 父组件的背景色。 解决方法&#xff1a; 将Dialog的背景设置为透明色&#xff0c;代…

OpenKruise :Kubernetes背后的托底

一、 诞生背景 Kubernetes 自身提供的应用部署管理功能&#xff0c;无法满足大规模应用场景的需求&#xff0c;例如应用发布时的原地升级策略&#xff0c;流式扩容&#xff0c;缩容顺序控制等等。所以OpenKruise的出现弥补了 Kubernetes 在应用部署、升级、防护、运维等领域的不…

【电子通识】传统网络变压器原理与生产流程

网络变压器也称为网络隔离变压器。传统的网络变压器贴片器件大概长的都类似以下这样&#xff1a; 在网络接口上所起的作用主要有信号耦合、高压隔离、阻抗匹配、电磁干扰抑制作用。它主要用在网络交换机、路由器、网卡等产品。 做为数据传输时使用网络变压器可以达到以下效果&a…

Python元组的创建和删除

Python 是一种功能强大而灵活的编程语言&#xff0c;提供了多种数据类型来存储和操作数据。其中&#xff0c;元组&#xff08;Tuple&#xff09;作为一种不可变的数据类型&#xff0c;在许多情况下都发挥着重要的作用。本文将重点探讨如何创建和删除元组&#xff0c;并探讨元组…

代码随想录 Leetcode102. 二叉树的层序遍历

题目&#xff1a; 代码(首刷看解析 2024年1月24日&#xff09;&#xff1a; class Solution { public:vector<vector<int>> levelOrder(TreeNode* root) {vector<vector<int>> res;if(root nullptr) return res;queue<TreeNode*> que;TreeNode…

用k8s私有化部署docsify做开放API平台

文章目录 1、API开放平台2、实现思路3、用docsify实现4、一些坑坑1&#xff1a;nginx转发实现跳转坑2&#xff1a;点击跳转不能精准跳坑3&#xff1a;md文档页内跳转与跨文档跳转坑4&#xff1a;插件做目录的折叠收起坑5&#xff1a;统一目录 做完了一个API开放平台的需求&…

了解云工作负载保护:技术和最佳实践

云工作负载是指云环境中的应用程序或存储元素&#xff0c;无论是公共云、私有云还是混合云。每个云工作负载都使用云的资源&#xff0c;包括计算、网络和存储。 云工作负载可以多种多样&#xff0c;例如运行应用程序、数据库或托管网站。它们可以是静态的或动态的&#xff0c;…

MySQL(下)

四、事务 一、概念 对数据库的一次执行中有多条sql语句执行。这多条sql在一次执行中&#xff0c;要么都成功执行&#xff0c;要么都不执行。保证了数据完整性。MySQL中只有innodb引擎支持事务。 二、特性 事务是必须满足 4 个条件&#xff08;ACID&#xff09;&#x…

【pytorch】pytorch学习笔记(续1)

p22&#xff1a;1.加减乘除&#xff1a; &#xff08;1&#xff09;add(a,b)&#xff1a;等同于ab。 &#xff08;2&#xff09;sub(a,b)&#xff1a;等同于a-b。 &#xff08;3&#xff09;mul(a,b)&#xff1a;等同于a*b。 &#xff08;4&#xff09;div(a,b)&#xff1a…

前端 防止浏览器提示记住密码以及自动填充密码

当前端 <input /> 的 type’password‘ 时&#xff0c;浏览器为了优化用户体验&#xff0c;会在表单提交后提示用户记住密码 如果不想要这样的行为&#xff0c;最简单的当然是提示用户自己在浏览器设置中进行相关配置 如果希望在代码层面阻止浏览器提示是否记住密码或者…

AI开发——探索人工智能时代的无限可能

在当今信息化时代&#xff0c;人工智能&#xff08;Artificial Intelligence&#xff0c;简称AI&#xff09;以其强大的计算能力和智能分析能力成为科技界的热门话题。AI开发正处于快速发展的阶段&#xff0c;各行业都在积极探索和应用AI技术&#xff0c;推动人工智能时代的到来…