一、模型介绍
2024 年 3 月 18 日,Colossal-AI 团队发布了 Open-Sora 1.0 项目,该项目是一个全面开源的视频生成模型项目,项目旨在高效制作高质量视频,并使所有人都能使用其模型、工具和内容。
模型架构 :
- Open-Sora 1.0 采用了 Diffusion Transformer(DiT)模型,并在此基础上引入了时间注意力层,以优化对视频数据的处理。
- 整个架构包括预训练的 VAE、文本编码器,以及利用空间-时间注意力机制的 STDiT(Spatial Temporal Diffusion Transformer)模型。
- 通过预训练的 VAE 进行视频数据压缩,然后在潜在空间中结合文本嵌入训练 STDiT 扩散模型。在推理阶段,模型从 VAE 的潜在空间中采样高斯噪声,并与提示词嵌入一起输入到 STDiT 中,最终通过 VAE 的解码器生成视频。
训练策略 :
- 采用了多阶段训练方法,包括大规模图像预训练、大规模视频预训练和高质量视频数据微调。这种策略通过逐步扩展数据集,更高效地实现了高质量视频生成的目标。
- 提供了训练加速系统,通过算子优化和混合并行等策略,实现了训练的高效加速。
功能特点:
- 支持视频数据预处理、加速训练、推理等全套流程。
- 提供了用于数据预处理的视频切割和字幕工具,以及支持剪辑和 T5 文本调节的功能。
- 实现了可变长宽比、可变分辨率和可变时长等功能,为用户提供了更灵活的视频生成选项。
- Open-Sora 1.0 的实际视频生成效果令人印象深刻,能够生成风格多样的视频内容,如悬崖海岸的航拍画面、山川瀑布的宏伟鸟瞰、水中世界的悠然镜头等。
- 它不仅能够根据文本描述生成视频,还具备根据分割图和文本描述生成与输入图像空间布局一致的图像能力。
二、模型搭建流程
下面将以 open sora1.0项目进行部署,由于模型较大,建议使用 RTX3090或其他性能优于RTX3090的显卡 。
1. 选择主机和镜像
(1)进入算家云的“应用社区”,点击搜索或者找到"OpenSora",进入该模型详情页后点击“创建应用”,即可进入“租用实例”页面
(2)进入“租用实例”页面后之后会自动匹配模型,选择 3090 卡或其他性能优于 3090的显卡,点击“立即创建”即可创建实例
2. 进入创建的实例
在“项目实例”页面点击对应实例的“Web SSH”操作
以下命令均在该页面进行:
(1)打开文档
cd Open-Sora-Plan-1.0.0
(2) 激活虚拟环境opensora
conda activate opensora
(3)指定端口,运行py文件
python -m opensora.serve.gradio_web_server
出现以下界面即为运行成功
3. 开启外部访问获取访问链接
返回“项目实例”列表,选择并点击对应实例的“开放端口”操作。
有两种访问方式可以选择:本地私密访问和对外开放端口。
(1)本地私密访问:选择 ssh 工具访问,登录之后填写各选项,点击“开启代理”
(2)对外开放端口:请按照下图操作
4. 进入 webUI 界面后即可操作
将复制的访问网址复制到新网页即可开始 ui 界面的使用
以上就是在算家云搭建 Open-Sora1.0 的流程,具体使用方式可进入算家云应用社区查看该模型的使用说明。
复制下方网址,进入算家云,选择模型,一键开启 AI 之旅!
算家云应用社区 www.suanjiayun.com/container/#/mirror