一、Open-Sora1.1简介
Open-Sora 1.1 项目是 Colossal AI 团队开发的一个完全开源的视频生成项目,该项目致力于高效制作高质量视频,并通过开源原则实现先进视频生成技术的低成本普及。
1. 项目背景与目标
Open-Sora 项目旨在通过提供开源的模型、工具和内容,简化视频制作的复杂性,使更多人能够参与到内容创作领域的创新、创造和包容中。相比于 1.0 版本,Open-Sora1.1在功能、训练效率和整体灵活性方面进行了显著改进。
2. 主要特性与改进
(1)视频生成能力增强
- 延长视频长度 :Open-Sora 1.1 能够生成长达 21 秒的视频(部分信息提到为 15 秒,但最新消息显示已提升至 21 秒),与 Open-Sora 1.0 的 2 秒限制相比,这是一个显著的增加。
- 可变输出 :支持不同分辨率(从 144p 到 720p)和宽高比的视频生成,满足多样化的项目需求。
(2)图像生成功能
- 除了视频生成外,Open-Sora 1.1 还扩展了图像生成功能,使用户能够在生成视频的同时创建高质量的静态图像。
(3)增强的提示功能
- 允许用户利用图像和视频作为视频生成的提示,实现图转动画、视频延展、视频编辑和视频拼接等功能。
**(4)模型架构与训练优化 **
- 模型架构修改 :引入了 ST-DiT-2 模型架构,这是 Open-Sora 1.0 中使用的原始模型架构的改进版本,提高了训练稳定性和整体性能。
- 多任务学习 :在训练过程中采用多任务学习方法,使模型能够同时处理各种视频属性,包括分辨率、帧长和宽高比。
- 数据处理流程 :采用了一套细致的数据处理流程,包括原始视频分割、多分数评估、字幕和匹配分数计算、最终过滤和摄像机运动检测等步骤,确保高质量的训练数据。
- Bucket 系统 :用于在不同分辨率的视频上高效训练模型,通过分桶的方式支持不同批次的动态尺寸,降低计算成本并平衡 GPU 负载。
**(5)技术细节 **
- 时序注意力 :引入了 RoPE 位置编码,并使用 AdaIN 和 LN 来稳定训练过程。
- QK-normalization :与 SD3 一样,使用 QK-norm 来稳定半精度训练过程。
- 支持不同尺寸视频作为训练样本 :增加视频的宽高、时长和 fps 等信息到 text 中作为条件,使模型能够生成具有多种特性的视频。
二、模型搭建流程
下面将以 Open-Sora1.1项目进行部署,由于模型较大建议使用 RTX3090 及以上显卡 。
1. 选择主机和镜像
(1)在“租用实例”页面,点击进入应用社区,选择相应的模型
(2)点击“选择”后会自动匹配模型,选择 3090 卡,点击“立即创建”即可创建实例
2. 进入创建的实例
在“项目实例”页面点击对应实例的“Web SSH”操作
以下命令均在该页面进行:
(1)打开文档
cd Open-Sora-Plan-1.1.0
(2)激活虚拟环境 opensora
conda activate opensora
(3)指定端口
export GRADIO_SERVER_NAME=0.0.0.0
export GRADIO_SERVER_PORT=8080
(4) 指定端口,运行 py 文件
export HF_ENDPOINT=https://hf-mirror.com
python -m opensora.serve.gradio_web_server
出现以下界面即为运行成功
3.开启外部访问获取访问链接
返回“项目实例”列表,选择并点击对应实例“开放端口”操作。
可选择”本地私密访问“进行下载解压ssh工具,打开得到对应界面,选择对应的项目以及实例开放端口即可。也可选择”对外开放端口“,实名认证后即可使用。
点击开放端口在浏览器输入 127.0.0.1:8080
即可访问。
4.进入 webUI 界面
输入访问网址 127.0.0.1:8080
到新网页即可开始 ui 界面的使用
以上就是在算家云搭建 OpenSora 1.1 的流程,具体使用方式可进入算家云应用社区查看该模型的使用说明。
复制下方网址,进入算家云,选择模型,一键开启 AI 之旅!
算家云应用社区 www.suanjiayun.com/container/#/mirror