Latte:一个类似Sora的开源视频生成项目

news2025/1/9 16:56:55

前段时间OpenAI发布的Sora引起了巨大的轰动,最长可达1分钟的高清连贯视频生成能力秒杀了一众视频生成玩家。因为Sora没有公开发布,网上对Sora的解读翻来覆去就那么多,我也不想像复读机一样再重复一遍了。

本文给大家介绍一个类似Sora的视频生成项目:Latte。为什么说它类似Sora呢?这个项目的全称是:Latent Diffusion Transformer for Video Generation(用于视频生成的潜在扩散转换器),对Sora生成技术有所了解的同学看到 Diffusion 和 Transformer 这两个单词应该就明白我在说什么了,Sora也同样使用了这两种技术。而且 Sora 和 Latte 都声称参考了DiT(Scalable Diffusion Models with Transformers)项目,它们的技术路线应该都是差不多的。最重要的是 Latte 是开源的,可以自己部署着玩,这篇文章就给大家介绍下 Latte 的原理和使用方法。

对 Diffusion 和 Transformer 这两种技术完全没概念的同学可以看我之前写的一篇科普文章:AI视频生成的重大突破:OpenAI的梦幻制造机Sora

效果演示

下图是官网的文生视频效果展示。注意实际生成时也需要抽卡,有时候效果也是一言难尽。

Latte介绍

Latte(Latent Diffusion Transformer)是一种用于视频生成的创新模型。它首先通过预训练的变分自编码器(VAE)将输入视频编码为潜在空间中的特征,并从中提取出时空令牌(Token)。然后应用一系列 Transformer 块对这些令牌进行建模,以捕捉视频数据分布。由于视频具有复杂的时空信息且高分辨率帧内包含大量细节,Latte设计了四种不同的高效Transformer变体,这四种变围绕如何有效地利用Transformer网络捕获视频数据中的时空分布信息展开,各自探索了不同的空间-时间分解方法、信息融合策略以及计算效率优化方案。

  • 变体1:该变体的Transformer主干结构包括空间Transformer块和时间Transformer块。空间Transformer块专注于在同一时间索引下的视频令牌之间捕捉纯空间信息,通过关注相同时间步内的像素或区域之间的关联性来提取空间特征。而时间Transformer块则采用“交错融合”的方式处理跨时间维度的信息,以捕捉不同时间帧间的变化和动态内容。
  • 变体2:不同于变体1中的即时融合策略,变体2可能采用了“晚期融合”机制,即先独立处理空间和时间维度上的信息,在后续阶段再将两者合并,以另一种方式整合时空上下文。
  • 变体3:此变体主要聚焦于对Transformer内部多头注意力模块进行分解。它首先仅在空间维度上计算自注意力,随后再在时间维度上执行自注意力计算。这样设计的目的是让每个Transformer块能够先后分别从空间和时间角度理解输入序列,并最终综合捕获并建模视频的时空信息。
  • 变体4:变体4将多头注意力(MHA)分解为两个组件,利用不同的组件分别处理空间和时间维度上的令牌。在Transformer主干结构之后,通过采用标准线性解码器以及重塑操作,对视频令牌序列进行解码,从而得出预测噪声和预测协方差。。

在实际应用时,Latte首先将视频帧序列转换为一系列令牌,并利用上述某种变体中对应的 Transformer 结构对这些令牌进行编码和解码。具体来说,在生成阶段,模型会依据学习到的反向扩散过程,在潜在空间中逐步还原出低噪声的视频帧表示,并最终重构为连续且逼真的视频内容。

实验结果显示,Latte在FaceForensics、SkyTimelapse、UCF101和Taichi-HD这四个标准视频生成数据集上,Latte能够生成逼真的、具有连贯时序内容的视频,并在Fréchet视频距离(FVD)、Fréchet Inception Distance (FID)和Inception Score等指标上达到了最先进的性能水平。

此外,Latte还被扩展到文本到视频生成任务(T2V),其表现与当前的T2V模型相当。不过可能模型训练的数据还不够,生成的视频效果还有很大提升空间。

使用Latte

这里主要介绍使用Latte进行推理的方法,有两种方式,一是直接使用我制作的AutoDL镜像,二是手动一步步安装。注意Latte预训练的模型只能生成2秒的视频,更长的视频需要自己训练模型,训练视频模型比较耗费资源,需要的直接看Github上的说明就行了:GitHub - Vchitect/Latte: Latte: Latent Diffusion Transformer for Video Generation.。

使用AutoDL镜像

AutoDL访问地址:https://www.autodl.com,AutoDL的注册和使用方法可以看这篇文章:

1、创建服务器实例时镜像选择:Vchitect/Latte/yinghuoai-latte 的最新版本。我已经在3090、4090、3080*2等显卡型号上测试通过,其它型号可能问题也不大。

2、打开服务器实例的 JupyterLab,进入操作环境。

操作环境如下图所示,左侧是文件及目录,我编写了一个生成器的页面,可以在其中直接执行相关视频生成命令,目前可以生成四种固定类型的视频,以及通过文本自由生成视频。

3、点击选中下方的代码单元格后,再点击菜单栏中的“箭头按钮”即可执行对应的生成任务。

注意需要先执行“初始化”命令,后边的视频生成任务随便执行。

任务执行进度如下,执行可能较慢,请耐心等待!

日志中显示了生成的视频位置。

可在左侧目录中找到,然后在对应的文件上右键下载。

手动安装

手动安装步骤比较多,请大家跟紧了。

安装conda

因为需要安装大量的python包,为了方便,我们这里使用conda包管理,没安装的同学先安装:Installing Miniconda — Anaconda documentation

如果已经安装过,可以通过命令升级到最新版本:

conda update -n base -c defaults conda

下载Latte

代码地址:GitHub - maxin-cn/Latte: The official implementation of Latte: Latent Diffusion Transformer for Video Generation.

通过git安装的方法:

git clone https://github.com/maxin-cn/Latte.git

修改依赖包的版本

Latte对python和相关包的版本依赖比较重,实测需要调整下官方提供的环境依赖文件。

在Latte根目录中找到 environment.yml 文件,完整修改如下:

name: latte
channels:
  - pytorch
  - nvidia
dependencies:
  - python = 3.10.8
  - pytorch = 2.0.0
  - torchvision
  - pytorch-cuda=11.7
  - pip
  - pip:
    - timm
    - diffusers[torch]==0.24.0
    - accelerate
    - tensorboard
    - einops
    - transformers
    - av
    - scikit-image
    - decord
    - pandas
    - imageio-ffmpeg

修改的就是下图中这三个:

创建Python虚拟环境

使用下边的命令,实测还需要再补充安装一些python包。

# 进入Latte目录
cd Latte
# 清理latte虚拟环境
conda remove --name latte --all
# 创建latte虚拟环境
conda env create -f environment.yml
# 激活latte虚拟环境
source activate latte

# 在latte虚拟环境中补充安装一些python包
pip install omegaconf
pip install SentencePiece
pip install beautifulsoup4
pip install ftfy
pip install codewithgpu

下载预训练模型

预训练模型是Latte官方提前训练好的模型,我们可以直接使用。

建议从huggingface下载:

https://huggingface.co/maxin-cn/Latte/tree/main

或者从这个国内镜像站:

maxin-cn/Latte · HF Mirror

生成视频

Latte项目中内置了几个脚本,可以帮我们快速生成视频。

sample 目录下这几个sh文件就是,可以在shell或者命令行程序中执行它们。

我们看一个 t2v.sh:

export CUDA_VISIBLE_DEVICES=5
python sample/sample_t2v.py --config configs/t2v/t2v_sample.yaml

这里首先通过export设置使用哪个显卡,如果只有1个,请设置为0。

然后就是运行python程序生成视频的命令,注意后边的配置文件,官方也提供了示例,就在config目录下,需要根据实际情况进行修改。

  • ckpt:使用的模型文件路径,请修改“/path/to”为上一步下载模型的本地保存目录。
  • save_img_path:视频保存路径。
  • pretrained_model_path:文本生成视频专用的一些模型,请修改“/path/to”为上一步下载模型的本地保存目录。

其它参数基本不需要调整了,当然可以改改试试。


以上就是本文的主要内容了,如有兴趣欢迎讨论交流。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1493885.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第五篇:组件更新:完整的 DOM diff 流程是怎样的?(下)

下面我们来继续讲解上节课提到的核心 diff 算法。 新子节点数组相对于旧子节点数组的变化,无非是通过更新、删除、添加和移动节点来完成,而核心 diff 算法,就是在已知旧子节点的 DOM 结构、vnode 和新子节点的 vnode 情况下,以较…

Vue+SpringBoot打造超市账单管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块三、系统设计3.1 总体设计3.2 前端设计3.3 后端设计在这里插入图片描述 四、系统展示五、核心代码5.1 查询供应商5.2 查询商品5.3 新增超市账单5.4 编辑超市账单5.5 查询超市账单 六、免责说明 一、摘要 1.1 项目介绍 基于…

【轮式平衡机器人】——TMS320F28069片内外设之ePWM

声明:本系列博客参考有关专业书籍,截图均为自己实操,仅供交流学习! 引入 脉冲宽度调制(PWM)是一种对模拟信号进行数字编码的方法,硬件原理是根据相应载荷的变化来调制晶体管栅极或基极的偏置&…

3. 在Go语言项目中使用Zap日志库

文章目录 一、介绍二、 默认的Go Logger1. 实现Go Logger2. 设置Logger3. 使用Logger4. Logger的运行5. Go Logger的优势和劣势 三、Uber-go Zap1. 为什么选择Uber-go zap2. 安装3. 配置Zap Logger4. 定制logger4.1 将日志写入文件而不是终端4.2 将JSON Encoder更改为普通的Log…

三极管控制元器件设计

一、设计原则 三极管作为开关控制设备的两个原则: 1、NPN型三极管:从设备取电流,导向GND。 2、PNP型三极管:从电源取电流,导向设备。 二、理论计算(设计规则推演) 分别以NPN和PNP控制三极管为…

算法简单试题

一、选择题 01.一个算法应该是( B ). A.程序 B.问题求解步骤的描述 C.要满足五个基本特性 D.A和C 02.某算法的时间复杂度为O(n),则表示该…

【高效开发工具系列】vimdiff简介与使用

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

领取阿里云服务器1888元优惠券,如何登录云主机?

点击左上角“请登录” 首先点此领取阿里云服务器1888元优惠券 这样就登录成功了。 如果您没有淘宝帐号,可以自行注册一个。 登录成功后: 很多人进入阿里云首页告诉我找不到购买云主机的地方。 点击云服务器ECS即可找到。 付款后,登录阿里云…

期货开户交易切勿满仓操作

平时我们交易主要是仓位管理风险,切勿不要满仓操作,满仓相当于一锤子买卖,我们做交易要有交易计划,计划中除了开仓点.止损点.止盈点外,还有加仓点,所以我们要留下充足的加仓仓位,有很多投资者是…

传感器在TWS耳机中的应用

一项音频产品使用报告显示,消费者对音频设备中音质差异的认知不断提高,对在设备上获得最佳音频体验的期待也在提升。自适应主动降噪、语音增强、空间音频等是提升TWS耳机用户体验的主要因素,这些技术背后都有运动传感器的身影,包括…

一文搞定Kafka安装和配置(Windows)

一文搞定Kafka安装和配置(Windows) 概述 Kafka是一个分布式发布-订阅消息系统和一个强大的队列,可以处理大量的数据,并使您能够将消息从一个端点传递到另一个端点,Kafka适合离线和在线消息消费,Kafka消息保留在磁盘上&#xff0c…

2024/3/6打卡最短编辑距离---线性DP

题目: 给定两个字符串 A 和 B,现在要将 A 经过若干操作变为 B,可进行的操作有: 删除–将字符串 A 中的某个字符删除。插入–在字符串 A 的某个位置插入某个字符。替换–将字符串 A 中的某个字符替换为另一个字符。 现在请你求出&a…

Draft-P802.11be-D3.2协议学习__$Annex-Z-HE-SIG-B-and-EHT-SIG-content-examples

Draft-P802.11be-D3.2协议学习__$Annex-Z-HE-SIG-B-and-EHT-SIG-content-examples Z.1 GeneralZ.2 HE-SIG-B example 1Z.3 HE-SIG-B example 2Z.4 HE-SIG-B example 3Z.5 HE-SIG-B example 4Z.6 EHT-SIG example 1(EHT OFDMA 80MHz)Z.7 EHT-SIG example …

Java两周半速成之路(第十一天)

集合 1.概述: (1)为什么出现集合类? 面向对象语言对事物的体现都是以对象的形式,所以为了方便对多个对象的操作,Java就提供了集合类。 (2)数组和集合类同是容器,有何…

【Godot4自学手册】第二十节增加游戏的打击感,镜头震颤、冻结帧和死亡特效

这节我主要学习增加游戏的打击感。我们通过镜头震颤、冻结帧、增加攻击点特效,增加死亡。开始了。 一、添加攻击点特效 增加攻击点特效就是,在攻击敌人时,会在敌人受击点显示一个受击动画。 1.添加动画。 第一步先做个受击点动画。切换到…

鲸鱼优化算法(WOA)优化随机森林回归预测(RF)

WOA-RF回归 鲸鱼优化算法(WOA)优化随机森林回归预测(RF) 可以更换算法和替换成自己需要预测的数据集 实验结果如下

PAT——1020月饼(python)

题目要求 题目思路 计算每种月饼的均价,优先卖出均价最高的月饼计算总价格,需要注意,当全部月饼都不够需求时,价格就是当前总价格 题目代码(python) def mooncake(cakelist,need_cake): # 输入月饼信…

Leetcode 239:滑动窗口最大值

题意 大小为 k 的滑动窗口从整数数组 nums 的最左侧移到最右侧,只能看到滑动窗口中的 k 个数字,窗口每次向右移动一位。 返回滑动窗口的最大值。 示例 1: 输入:nums [1,3,-1,-3,5,3,6,7], k 3 输出:[3,3,5,5,6,7] …

Common Sense Machines(CSM):立志成为图像生成适用于游戏引擎的3D资产AI产品

详细说明 Common Sense Machines(CMS):立志成为图像生成适用于游戏引擎的3D资产AI产品-喜好儿aigc详细说明:https://heehel.com/CSM-3d 官方网站:https://www.csm.ai/ 使用体验网址:https://3d.csm.ai/ 来…

stable diffusion的额外信息融入方式

conditioning怎么往sd中添加,一般有三种,一种是直接和latent拼一下,另外很多是在unet结构Spatialtransformers上加,和文本特征一样,通过cross-attention往unet上加,这里还需要注意一点,在文本嵌…