在线教程丨与 Sora 技术路线相似!全球首个开源文生视频 DiT 模型 Latte 一键部署

news2024/12/23 19:14:02

自OpenAI推出 Sora 以来,「文生视频」概念及相关应用备受瞩目。而伴随 Sora 的大热,其背后的关键技术,DiT(Diffusion Transformers) 也被「考古挖掘」了出来。

事实上,DiT 是一个文生图模型,该模型于两年前开源,其研发人员分别是 Peebles 和谢赛宁,其中 Peebles 也是 Sora 的项目领导者之一。

在 DiT 模型提出之前,Transformer 以其强大的特征提取和上下文理解能力,几乎在自然语言处理领域独霸一方。而 U-Net 则以其独特架构和优越的性能,在图像生成和扩散模型领域占据主导地位。DiT 最大的特点是把扩散模型里的 U-Net 架构换成了 Transformer 架构。 有趣的是,这项工作成果在 2023 年曾被 CVPR 拒稿,理由是缺乏创新点。

与 U-Net 相比,Transformer 具有更好的拓展性,它能够学习全局依赖关系,通过自注意力机制 (Self-Attention Mechanism) 处理序列数据中的长距离依赖问题,在处理图像全局特征方面有很大的优势。此外,基于 Transformer 架构的 DiT 在计算效率和生成效果上也有明显的提升,进一步推动了图像生成的规模化应用。

然而,由于视频数据的高度结构化与复杂性,如何将 DiT 扩展到视频生成领域却是一个挑战。对此,来自上海人工智能实验室的研究团队在 2023 年底便开源了全球首个文生视频 DiT:Latte。作为一款与 Sora 技术相似的自研模型,Latte 可以自由部署, 对于想要探索文生视频技术的小伙伴来说,开源的 Latte 无疑为大家提供了实践的机会。

Latte 模型结构及其四种变体 (a, b, c, d)

首先,Latte 通过预训练的变分自编码器 (VAE) 将输入视频编码为潜在空间中的特征,并从中提取出 Tokens 。接着,利用上述某种变体中对应的 Transformer 结构对这些 Tokens 进行编码和解码。在生成过程,模型会依据学习到的反向扩散过程,在潜在空间中逐步还原出低噪声的视频帧表示,并最终重构为连续、逼真的视频内容。

值得注意的是,Latte 的背后的研发团队上海人工智能实验室曾联合中央广播电视总台,共同推出了首部中国原创文生视频 AI 系列动画《千秋诗颂》,并在 CCTV-1 综合频道上播出。 业内人士分析,随着国内首部 AI 动画的开播,我国文生视频应用的落地有望加速,未来可能会重新塑造影视行业的制作流程,推动影视动画制作、游戏开发和广告设计的革命性发展。

小编用文本「a dog with sunglasses」生成了一个戴墨镜的小狗视频,还挺帅气的!

动图封面

Demo 运行

  1. 登录 hyper.ai,在「教程」页面,选择「Latte 全球首个开源文生视频 DiT」,点击「在线运行此教程」。

  1. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

  1. 点击右下角「下一步:选择算力」。

  1. 跳转后,选择「NVIDIA GeForce RTX 4090」,点击「下一步:审核」。

  1. 点击「继续执行」,等待分配资源,首次克隆需等待 3-5 分钟左右的时间。当状态变为「运行中」后,点击「打开工作空间」。

若超过 10 分钟仍处于「正在分配资源」状态,可尝试停止并重启容器;若重启仍无法解决,请在官网联系平台客服。

  1. 打开工作空间后,在左侧菜单中根据路径打开配置文件 home/Latte/configs/t2v/t2v_sample.yaml,在 text_prompt 下输入 prompt「例如:a dog with sunglasses」,并通过 Ctrl+S 保存。

  1. 保存后,新建一个终端页面,输入「cd Latte」并按下回车键后进入「Latte」目录。输入「bash sample/t2v.sh」即可生成高清视频。

效果展示
1.当进度条显示 100% 后,打开左侧菜单栏「Latte/sample_videos」,找到我们生成的视频,点击右键下载。请注意,MP4 视频无法直接观看,需要下载后才可观看。

  1. 一个小狗戴墨镜的视频就生成啦!

动图封面

目前,HyperAI超神经官网已上线了数百个精选的机器学习相关教程,并整理成Jupyter Notebook的形式。

以上就是 HyperAI超神经本次分享的全部内容了,如果大家看到优质项目,欢迎后台留言推荐给我们!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1709905.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

linux 定时执行shell、python脚本

在linux里设置定时执行一般是用crontab,如果没有的话,可以先安装: 安装 查看是否安装 cron -v # 对于基于Debian的系统(如Ubuntu) sudo apt-get install cron# 对于基于RedHat的系统(如CentOS&#xff…

基于Java实现震中附近风景区预警可视化分析实践

目录 前言 一、空间数据说明 1、表结构信息展示 2、空间范围查询 二、Java后台开发实现 1、模型层设计与实现 2、控制层设计与实现 三、Leaflet地图开发 1、地震震中位置展示 2、百公里风景区列表展示 3、风景区列表展示 4、附近风景区展示 四、总结 前言 地震这类…

打印机手动双面打印技巧

一、WORD和PDF (1)首先选择要打印的页面范围,然后选择仅奇数页打印 (2)将打印完的纸张翻过来,白纸朝上,纸张的头部先放入打印机 (3)选择要打印的页面范围,然…

【problem】解决EasyExcel导出日期数据显示为#####问题

前言 在使用EasyExcel进行数据导出时,你可能遇到日期或其他数据在Excel中显示为“#######”的情况,这通常是因为列宽不足以展示单元格内的全部内容。本文将指导你如何通过简单的步骤解决这一问题,并确保导出的Excel文件自动调整列宽或直接指…

成都蓝蛙科技引领AIGC创新,亮相中国AIGC开发者大会

2024年5月25日,第三届AIGC中国开发者大会在北京举行,蓝蛙科技公司CEO兼创始人李辰受邀出席并发表主题演讲。作为开源框架GeneralAgent的作者,发表了题为“Agent框架的挑战和解决方案”的精彩演讲。李辰先生深入探讨了在构建和部署基于大型语言…

git冲突

git冲突的产生: 首先用户A新建一个文件conflict,并在里面添加内容 然后通过add,commit,push将该文件上传到远端仓库 然后用户B通过pull将程序拉下来之后,也在这个文档里面进行编辑,并且内容不一样 如果这个时候其中一个人push&…

Redis面试题深度解析

1、我看你做的项目中,都用到了redis,你在最近的项目中哪些场景使用了redis呢? 2、缓存穿透 布隆过滤器的误判现象 Redisson和Guava都对布隆过滤器进行了实现 3、缓存击穿 互斥锁,就是一个线程来修改,并占据了锁,另外其…

C#--Mapster(高性能映射)用法

1.Nuget安装Mapster包引用 2.界面XAML部分 <Window x:Class"WpfApp35.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.com/winfx/2006/xaml"xmlns:d"http://schemas.m…

实战指南:Vue 2基座 + Vue 3 + Vite + TypeScript微前端架构实现动态菜单与登录共享

实战指南&#xff1a;Vue 2基座 Vue 3 Vite TypeScript子应用vue2微前端架构实现动态菜单与登录共享 导读&#xff1a; 在当今的前端开发中&#xff0c;微前端架构已经成为了一种流行的架构模式。本文将介绍如何结合Vue 2基座、Vue 3子应用、Vite构建工具和TypeScript语言…

华为机考入门python3--(32)牛客32-密码截取

分类&#xff1a;最长对称子串、动态规划 知识点&#xff1a; 生成二维数组 dp [[0] * n for _ in range(n)] 求最大值 max(value1, value2) 动态规划的步骤 a. 定义问题 长度为n下最长的对称子串的长度 b. 确定状态 dp[i][j]表示字符串从索引i到j的子串是否为对称…

2024.5.28晚训题解

提前预告&#xff0c;市赛初中组会考算法题&#xff0c;应该会有两道模板题 比如DFS BFS 二分 简单动态规划&#xff0c;虽然我们没学多久&#xff0c;但是模板题你还是要会写的 A题 编辑距离 动态规划 注意多组输入 #include<iostream> using namespace std; int dp[1…

unity3D获取某天的0点和23点59分59秒

系列文章目录 unity工具 文章目录 系列文章目录unity工具 &#x1f449;一、前言&#x1f449;二、获取某一天的0点和23点59分59秒1-1.代码如下1-2.调用方法如下1-2-1.获取当天的时间1-2-2.获取某一天的时间 &#x1f449;三、当月第一天0时0分0秒&#x1f449;四、当月最后一…

SHELL编程(三)网络基础命令 Makefile

目标 一、网络基础及相关命令&#xff08;一&#xff09;网络相关命令&#xff08;二&#xff09;重启网络服务 二、Makefile&#xff08;一&#xff09;标签式语法&#xff08;二&#xff09;目标:依赖 式语法1. 格式2. 编译流程&#xff1a;预处理 编译 汇编 链接3. 目标和伪…

TiDB-从0到1-体系结构

TiDB从0到1系列 TiDB-从0到1-体系结构TiDB-从0到1-分布式存储TiDB-从0到1-分布式事务 一、TiDB体系结构图 TiDB基础的体系架构中有4大组件 TiDB Server&#xff1a;用于处理客户端的请求PD&#xff1a;体系的大脑&#xff0c;存储元数据信息TiKV&#xff1a;存储数据TiFlash…

Stable Diffusion 模型演进:LDM、SD 1.0, 1.5, 2.0、SDXL、SDXL-Turbo 等

节前&#xff0c;我们星球组织了一场算法岗技术&面试讨论会&#xff0c;邀请了一些互联网大厂朋友、参加社招和校招面试的同学。 针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 合集&#x…

Vue3+Ant design 实现Select下拉框一键全选/清空

最近在做后台管理系统项目的时候&#xff0c;产品增加了一个让人非常苦恼的需求&#xff0c;让在Select选择器中添加一键全选和清空的功能&#xff0c;刚开始听到的时候真是很懵&#xff0c;他又不让在外部增加按钮&#xff0c;其实如果说在外部增加按钮实现全选或者清空的话&a…

触摸屏是输入设备还是输出设备?

从功能上讲&#xff0c;触摸屏理应属于输入设备&#xff0c;之所以有很多用户会误会它是输出设备&#xff0c;是因为将其与“触摸显示屏”搞混了&#xff0c;以手机屏幕为例&#xff0c;它并不是单层屏幕&#xff0c;而是有多个不同功能和作用组成的集成屏&#xff0c;这类带有…

ubuntu-24.04系统静态Mac和IP配置

操作系统版本&#xff08;桌面版&#xff09;&#xff1a;ubuntu-24.04-desktop-amd64.iso 原因说明&#xff1a;因网络的IP地址和Mac是预分配的&#xff0c;所以ubuntu系统需要修改网卡的mac地址和IP才能访问&#xff0c;网络查了半天资料都没成功&#xff0c;后再界面提示&a…

【Python】 Python中的“命名元组”:简单而强大的数据结构

基本原理 在Python中&#xff0c;namedtuple是tuple的一个子类&#xff0c;它允许我们为元组的每个位置指定一个名字。这种数据结构非常适合用于需要固定字段和值的场景&#xff0c;例如数据库查询的结果或配置文件中的设置。 namedtuple提供了一种方便的方式来访问元组中的元…

力扣2028. 找出缺失的观测数据

题目&#xff1a; 现有一份 n m 次投掷单个 六面 骰子的观测数据&#xff0c;骰子的每个面从 1 到 6 编号。观测数据中缺失了 n 份&#xff0c;你手上只拿到剩余 m 次投掷的数据。幸好你有之前计算过的这 n m 次投掷数据的 平均值 。 给你一个长度为 m 的整数数组 rolls &a…