Open-Sora：开源版的Sora

news2026/2/14 21:03:22

项目简介

本项目希望通过开源社区的力量复现Sora，由北大-兔展AIGC联合实验室共同发起，当前我们资源有限仅搭建了基础架构，无法进行完整训练，希望通过开源社区逐步增加模块并筹集资源进行训练，当前版本离目标差距巨大，仍需持续完善和快速迭代，欢迎Pull request！！！

项目阶段：

基本的

设置代码库并在景观数据集上训练无条件模型。
训练可提高分辨率和持续时间的模型。

扩展

在景观数据集上进行text2video实验。
在 video2text 数据集上训练 1080p 模型。
具有更多条件的控制模型。
在 video2text 数据集上训练 1080p 模型。
具有更多条件的控制模型。

仓库结构

要求和安装

推荐要求如下。

Python >= 3.8
Pytorch >= 1.13.1
CUDA 版本 >= 11.7
安装所需的包：

用法

数据集

参考Data.md

Video-VQVAE (VideoGPT)

训练

请参阅原始存储库。使用 scripts/train_vqvae.py 脚本训练 Video-VQVAE。执行 python scripts/train_vqvae.py -h 以获取有关所有可用训练设置的信息。下面列出了更多相关设置的子集以及默认值。

VQ-VAE 特定设置

--embedding_dim ：码本嵌入的维数
--n_codes 2048 ：码本中的代码数量
--n_hiddens 240 ：残差块中隐藏特征的数量
--n_res_layers 4 ：剩余块的数量
--downsample 4 4 4 ：编码器的 T H W 下采样步长

训练设置

--gpus 2 ：分布式训练的GPU数量
--sync_batchnorm ：使用 > 1 GPU 时使用 SyncBatchNorm 而不是 BatchNorm3d
--gradient_clip_val 1 ：训练的梯度裁剪阈值
--batch_size 16 ：每个 GPU 的批量大小
--num_workers 8 ：每个 DataLoader 的工作人员数量

数据集设置

--data_path <path> ： hdf5 文件或包含 train 和 test 文件夹以及视频子目录的文件夹的路径
--resolution 128 ：训练的空间分辨率
--sequence_length 16 ：时间分辨率，或视频剪辑长度

重建

项目链接

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1621694.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

Open-Sora：开源版的Sora

项目简介

项目阶段：

仓库结构

要求和安装

用法

VQ-VAE 特定设置

训练设置

数据集设置

重建

项目链接

相关文章

java多功能手机

国产POL8903 LVDS转MIPI带旋转功能方案介绍

「ChatGPT」掀起新一轮AI热潮！超越GPT-4 Turbo，商汤日日新大升级！

设计模式-状态模式在Java中的使用示例-信用卡业务系统

Adobe Illustrator 2024 v28.4.1 (macOS, Windows) - 矢量绘图

【注解和反射】获取类运行时结构

【git学习】Git 的基本操作

谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术

web前端框架设计第六课-样式绑定

网络安全新挑战：通用人工智能（AGI）等级保护指南

网络基础（day3）建议在电脑端注册登陆观看！！！

宜搜科技死磕港交所上市：从搜索引擎到广告投放，业绩疲态凸显

easyExcel快速入门

Github进行fork后如何与原仓库同步

Redis之路系列(5)功夫在诗外

机器学习/算法工程师面试题目与答案-深度学习部分1

python+django校园社交高校交友网站2x7r5.

探索Web3：去中心化的互联网新时代

跨平台SIP 客户端-linphone下载、使用、开启视频H264

【ensp】网关冗余vrrp实验