Stable Video文本生成视频公测地址——Scaling Latent Video Diffusion Models to Large Datasets

news2025/1/17 15:38:42

近期,Stability AI发布了首个开放视频模型——"Stable Video",该创新工具能够将文本和图像输入转化为生动的场景,将概念转换成动态影像,生成出电影级别的作品,旨在满足广泛的视频应用需求,包括媒体、娱乐、教育和营销等领域。"Stable Video"提供了两种图像到视频的模型,能够生成14帧和25帧的视频,用户还可以自行设置帧率,范围在3到30帧每秒之间。该模型适用于多种视频应用任务,包括从单一图像进行多视角合成,以及在多视角数据集上进行微调。

Stable Video Diffusion模型是一种先进的文本到视频和图像到视频生成模型,专为高分辨率视频设计。研究者通过三个阶段的训练过程,强调了预训练数据集的重要性,并提出了一种系统化的数据策划方法来培养一个强大的基础模型。该模型不仅为多视图合成提供了强有力的运动和多视角先验,还能够微调成多视图扩散模型,以高效的方式生成对象的多个视角。

此外,通过特定的运动提示和LoRA模块的训练,模型能够实现显式运动控制。研究者们通过策划工作流程,将大型视频集合转化为高质量的数据集,并训练出了超越先前所有模型的尖端文生视频和图生视频模型。他们的方法在减少数据集大小、提高分辨率和视频帧数方面表现出色,并在与其他顶尖模型的比较中证明了其有效性。总而言之,这一方法有效地分离了运动和内容,在多视图合成方面取得了显著成果。其主要步骤如下:

  1. 数据处理与标注:首先提出了一个大型视频数据集(LVD),包含580M个标注过的视频剪辑对,使用三种不同的合成字幕方法对每个片段进行注释,而通过进一步研究发现,现有数据集中含有可能降低最终视频模型性能的样本,如运动量少、文本过多或审美价值低的视频。因此,作者以2FPS进行计算,并通过删除任何平均光流幅度低于某一阈值的视频来过滤掉静态场景。

  2. 图像预训练:讨论了图像预训练作为视频模型训练流程中的第一个阶段。作者将图像预训练(image pretraining)作为视频模型训练流程的第一个阶段。他们在初始模型上使用了一个预训练的图像扩散模型——即Stable Diffusion 2.1——以为模型提供强大的视觉表现力

  3. 策划视频预训练数据集:作者提出了一个两阶段的视频预训练数据集策划流程。第一阶段涉及图像预训练,其中利用了空间布局初始化自预训练图像模型的视频模型,并展示了在预训练大型且多样化的数据集,然后在较小但质量更高的数据集上进行微调的效果提升。第二阶段关注于策划适合预训练的视频数据集。作者通过计算光流(optical flow)来过滤掉不需要的样本以创建一个更适宜的预训练数据集

  4. 高质量视频微调:这一阶段的目的是在一个高质量、高分辨率的视频子集上对模型进行精细化调整。在前两个阶段(图像预训练和视频预训练)的基础上,通过进一步的高质量微调来提升最终模型的性能。在第三阶段期间,插入时间卷积和注意力层,这些是在每个空间卷积和注意力层之后添加的,与仅训练时间层的工作或完全基于LLM(大型语言模型)的方法形成对比。

Stability AI还发布了"Stable Video Diffusion"的代码,其github仓库地址为:https://github.com/nateraw/stable-diffusion-videos,可以进入仓库使用colab一键体验。另外Stable Video Diffusion官网已经全面开放使用,可以直接进入官网https://www.stablevideo.com/,点击start with text。

输入对应的prompt如:A tranquil, realistic depiction of a sunset over calm ocean waters, with the sky ablaze in vibrant oranges and reds, reflecting softly on the water's surface,然后选择比例和风格,点击Generate即可开始生成视频。

图像和视频的生成已成为目前人工智能最火热的应用,而掌握良好的提示工程基础已经成为提高工作效率、优化系统设计和提供良好用户体验的重要前提之一。无论是对于从事信息技术相关工作的专业人士,还是对于对提示技术感兴趣的初学者,我推荐学习一下《提示工程基础》这门课程、课程将介绍提示工程的基本知识,然后逐步过渡到高级提示技术。您还将学习如何防止提示误用,以及如何在与基础模型 (FM, Foundation Model) 互动时减少偏差。

课程链接:https://study.163.com/course/introduction.htm?from=AWS-social-FY24-KOC-HJS

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1485129.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为什么要在业务系统中引入大宽表?

在高度系统化驱动的业务中,查看业务报表已经是一个很常见的需求了。在分工非常明确的大型企业里,往往有专门的数据分析团队 BI 或者数据开发团队,他们能够胜任此类需求(但也未必是轻松的,或者说高效的)。 …

编码器原理图

操作 旋转编码器提供两种交互方式: 每次用户旋转旋钮时,都会在 DT 和 CLK 引脚上产生低电平信号: 顺时针旋转会先使CLK引脚变为低电平,然后DT引脚也变为低电平。 逆时针旋转会使 DT 引脚首先变为低电平,然后 CLK 引脚…

深度学习PyTorch 之 RNN-中文多分类

关于RNN的理论部分我们已经在前面介绍过,所以这里直接上代码 1、 数据部分 1.1 读取数据 # 加载数据 data_path ./data/news.csv data pd.read_csv(data_path)# 预览数据的前几行 data.head()数据是csv格式,只有两列,第一列是标签&#…

2024最新外贸建站:WordPress搭建外贸独立站零基础教程

想与外国人做生意有多种方式,一些朋友选择在跨境电商平台上开店如(亚马逊),而另一些朋友则决定建立自己的外贸独立站点。本篇教程主要说的是第二种方式如何快速建立自己的外贸独立站!通过学习这篇外贸建站教程&#xf…

【AI绘画】免费GPU Tesla A100 32G算力部署Stable Diffusion

免责声明 在阅读和实践本文提供的内容之前,请注意以下免责声明: 侵权问题: 本文提供的信息仅供学习参考,不用做任何商业用途,如造成侵权,请私信我,我会立即删除,作者不对读者因使用本文所述方法…

Beans模块之工厂模块BeanClassLoaderAware

博主介绍:✌全网粉丝5W,全栈开发工程师,从事多年软件开发,在大厂呆过。持有软件中级、六级等证书。可提供微服务项目搭建与毕业项目实战,博主也曾写过优秀论文,查重率极低,在这方面有丰富的经验…

DataGrip(IDEA 内置)连接 SQL Server

原文:https://blog.iyatt.com/?p14265 测试环境: IDEA 2023.1SQL Server 2022 首先打开 SQL Server 配置管理工具 启用 TCP/IP 打开 Windows 服务管理 在服务列表中找到 SQL Server(MSSQLSERVER),右键重新启…

【计算机网络通信】计算机之间的局域网通信和互联网通信方法(附Python和C#代码)

文章目录 前言一、局域网通信1.1 基本原理和方法1.1.1 获取本地ip1.1.2 实现局域网内的广播1.1.3 进行局域网通信 1.2 实现多客户端连接1.3 Python源码1.4 C#源码1.5 可能存在的问题 二、互联网通信2.1 实现原理2.1.1 内网穿透软件2.1.2 实现互联网通信 2.2 Python源码2.3 C#源…

腾讯云服务器CVM_云主机_云计算服务器_弹性云服务器

腾讯云服务器CVM提供安全可靠的弹性计算服务,腾讯云明星级云服务器,弹性计算实时扩展或缩减计算资源,支持包年包月、按量计费和竞价实例计费模式,CVM提供多种CPU、内存、硬盘和带宽可以灵活调整的实例规格,提供9个9的数…

研发日记,MatlabSimulink开箱报告(九)——Simulink Test模块

文章目录 前言 Simulink Test模块 静态测试 动态测试 逻辑测试 前言 见《开箱报告,Simulink Toolbox库模块使用指南(四)——S-Fuction模块》 见《开箱报告,Simulink Toolbox库模块使用指南(五)——S-F…

Canvs的js库:Fabric.js简单强大,用于绘制各种图形

Fabric.js是一个用于创建交互式的HTML5 Canvas应用程序的JavaScript库。它提供了一个简单而强大的API,用于在Web浏览器中绘制和操作图形对象。Fabric.js可以用于创建各种图形应用程序,例如绘图编辑器、图像编辑器、流程图、地图和数据可视化等。 官网文…

初识C语言—常见关键字

变量的命名最好有意义 名字必须是字母&#xff0c;数字&#xff0c;下划线组成&#xff0c;不能有特殊字符&#xff0c;同时不能以数字开头 变量名不能是关键字 typedef---类型定义&#xff0c;类型重命名 #include <stdio.h>typedef unsigned int uint; //将unsigne…

链表类型题目

文章目录 简介链表的常用技巧两数相加原理代码代码|| 两两交换链表中的节点代码原理 重排链表(重要)原理代码 合并 K 个升序链表代码递归代码 K 个一组翻转链表原理代码 简介 大家好,这里是jiantaoyab,这篇文章给大家带来的是链表相关的题目练习和解析,希望大家能相互讨论进步 …

LCR 152. 验证二叉搜索树的后序遍历序列

解题思路&#xff1a; 分治 public class Solution {// 验证给定的后序遍历数组是否可以来自一个二叉搜索树(BST)public boolean verifyTreeOrder(int[] postorder) {// 调用递归方法来验证整个postorder数组return verify(postorder, 0, postorder.length - 1);}// 递归方法&…

vue2+若依框架plus交互 路由介绍

本周及寒假 参加了校企合作的工程过程管理&#xff0c;和学长学姐一起写项目&#xff0c;之前学了vue也没有应用&#xff0c;然后对框架很多组件的用法不太了解&#xff0c;前期耽误了一些时间。 框架模块 首先是框架模块的介绍 api存了一些系统管理及发送请求的方法 例如p…

C习题002:澡堂洗澡

问题 输入样例 在这里给出一组输入。例如&#xff1a; 2 5 1 3 3 2 3 3 输出样例 在这里给出相应的输出。例如&#xff1a; No代码长度限制 16 KB 时间限制 400 ms 内存限制 64 MB 栈限制 8192 KB 代码 #include<stdio.h> int main() {int N,W,s,t,p;int arr_s[…

Vue+SpringBoot打造大学计算机课程管理平台

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 实验课程档案模块2.2 实验资源模块2.3 学生实验模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 实验课程档案表3.2.2 实验资源表3.2.3 学生实验表 四、系统展示五、核心代码5.1 一键生成实验5.2 提交实验5.3 批阅实…

Redis安全加固策略:服务账号管理 开启redis密码认证 开启防护模式

Redis安全加固策略&#xff1a;服务账号管理 & 开启redis密码认证 & 开启防护模式 1.1 服务账号管理1.1.1 检测方法1.1.2 加固参考配置操作 1.2 开启redis密码认证1.2.1 检测方法1.2.2 加固参考配置操作 1.3 开启防护模式1.3.1 检测方法1.3.2 加固参考配置操作 &#x…

静态时序分析:SDC约束命令set_case_analysis详解

相关阅读 静态时序分析https://blog.csdn.net/weixin_45791458/category_12567571.html?spm1001.2014.3001.5482 目录 指定值 指定端口/引脚列表 简单使用 set_case_analysis命令用于对电路进行特定模式的设定&#xff0c;例如对于一个工作在正常模式下的芯片&#xff0c;…

Springboot 项目读取yaml的配置文件信息给静态方法使用,以及通过配置 ResourceBundle 类读取config.properties

读取yaml 的配置文件 配置文件信息 iot_saas_tenement:user_id: 7........8d9bprivate_key: MII.......qQbj_url: http://4.....5:8088project_name: iot_s.......rojectdevice_name: te.....ice 创建一个类 ProxyProperties 读取配置文件信息&#xff0c;并对外提供get方法 …