Open-Sora：开源AI视频生成的新星

一.引言

近年来，AI视频生成技术快速发展，从文本生成图像（如Stable Diffusion、DALL·E）到文本生成视频（如Runway、Pika），AI在多媒体创作领域的应用日益广泛。近期，Open-Sora作为一款开源AI视频生成项目在GitHub上发布，引起了广泛关注。

Open-Sora（项目地址：https://github.com/hpcaitech/Open-Sora）由HPCAI Tech团队开发，旨在提供一个高效、可扩展的开源框架，用于训练和部署AI视频生成模型。本文将介绍Open-Sora的核心特性、技术架构、使用方法，并探讨其在AI视频生成领域的潜力。

二. Open-Sora的核心特性

Open-Sora提供了一套完整的AI视频生成解决方案，主要特点包括：

开源免费：代码完全开放，支持社区协作改进。
高效训练：优化了计算资源的使用，支持分布式训练，降低训练成本。
可扩展性：支持多种模型架构，便于研究人员进行二次开发。
高质量视频生成：基于先进的扩散模型（Diffusion Model），能够生成高分辨率、连贯的视频内容。
灵活的输入支持：支持文本、图像、视频等多种输入方式，适应不同应用场景。

三. 技术架构解析

Open-Sora 的技术架构融合了当前最先进的 扩散模型（Diffusion Models） 和 Transformer 结构，并针对视频数据的特点进行了优化。下面我们将从 模型架构、训练策略、优化技术 三个层面深入解析其核心技术。

3.1 核心模型架构

（1）视频扩散模型（Video Diffusion Model）

Open-Sora 的核心生成模型基于 扩散模型（Diffusion Model），但与传统的图像扩散模型不同，它需要处理 时间维度（Temporal Dimension） 上的连续性。其关键改进包括：

3D U-Net 结构：
- 传统图像扩散模型使用 2D U-Net，而 Open-Sora 采用 3D U-Net，在空间（H×W）和时间（T）维度上同时进行特征提取。
- 3D 卷积层能够更好地建模视频帧间的运动信息，提高生成视频的连贯性。
条件输入机制（Conditioning Mechanism）：
- 支持 文本、图像、视频 作为输入条件，通过 CLIP 文本编码器 或 ViT 图像编码器 提取特征，并输入到扩散模型进行引导生成。
- 对于视频输入，采用 3D CNN 或时空Transformer 进行特征编码，增强时间一致性。

（2）时空注意力机制（Spatio-Temporal Attention）

为了高效建模视频的 空间（单帧） 和 时间（帧间变化） 关系，Open-Sora 引入了 时空注意力机制，主要包含两种实现方式：

Separable Spatio-Temporal Attention（SST）
- 先计算 空间注意力（Spatial Attention），再计算 时间注意力（Temporal Attention），降低计算复杂度。
- 适用于长视频生成，减少显存占用。
Joint Spatio-Temporal Attention（JST）
- 同时计算空间和时间注意力，建模更复杂的时空关系，但计算量较大。
- 适用于高质量短视频生成（如 5-10 秒片段）。

（3）Transformer 增强的扩散模型

采用类似 DiT（Diffusion Transformer）的架构，用 Transformer 替换 U-Net 的部分卷积层，增强模型的表达能力。
在训练时，使用 自适应位置编码（Adaptive Positional Encoding） 来适应不同分辨率的视频输入。

3.2 训练策略与优化技术

（1）高效训练方法

Open-Sora 针对视频数据的高计算需求，采用了多种优化策略：

混合精度训练（Mixed Precision Training）
- 使用 FP16/FP32 混合精度计算，减少显存占用，提高训练速度。
- 通过 梯度缩放（Gradient Scaling） 防止低精度训练时的梯度消失问题。
梯度检查点（Gradient Checkpointing）
- 在反向传播时选择性保存中间激活值，降低显存占用 50% 以上，使更大 batch size 的训练成为可能。
分布式训练（Distributed Training）
- 支持 数据并行（Data Parallelism） 和 模型并行（Model Parallelism），可在多 GPU/TPU 集群上高效训练。

（2）数据增强与正则化

时序数据增强（Temporal Augmentation）：
- 随机调整视频帧率、裁剪片段，增强模型对不同长度视频的适应能力。
动态噪声调度（Dynamic Noise Scheduling）：
- 在训练过程中动态调整噪声强度，使模型能更好地学习不同阶段的去噪任务。

（3）模型压缩与推理优化

知识蒸馏（Knowledge Distillation）
- 训练小型化学生模型（Student Model），使其模仿大教师模型（Teacher Model）的行为，降低推理成本。
量化推理（Quantization Inference）
- 支持 INT8 量化，在保持生成质量的同时，提升推理速度 2-4 倍。

四. 如何使用Open-Sora？

1.安装

# create a virtual env and activate (conda as an example)
conda create -n opensora python=3.10
conda activate opensora

# download the repo
git clone https://github.com/hpcaitech/Open-Sora
cd Open-Sora

# Ensure torch >= 2.4.0
pip install -v . # for development mode, `pip install -v -e .`
pip install xformers==0.0.27.post2 --index-url https://download.pytorch.org/whl/cu121 # install xformers according to your cuda version
pip install flash-attn --no-build-isolation

您可以选择安装flash attention 3以获得更快的速度。

git clone https://github.com/Dao-AILab/flash-attention # 4f0640d5
cd flash-attention/hopper
python setup.py install

2.模型下载

官网显示，11B型号支持256px和768px分辨率。T2V和I2V都由一个型号支持。

Download from huggingface:

pip install "huggingface_hub[cli]"
huggingface-cli download hpcai-tech/Open-Sora-v2 --local-dir ./ckpts

Download from ModelScope:

pip install modelscope
modelscope download hpcai-tech/Open-Sora-v2 --local_dir ./ckpts

3.文生视频

模型针对图像到视频生成进行了优化，但它也可用于文本到视频生成。为了生成高质量的视频，在流文本到图像模型的帮助下，我们构建了一个文本到图像到视频的管道。对于256x256分辨率：

# Generate one given prompt
torchrun --nproc_per_node 1 --standalone scripts/diffusion/inference.py configs/diffusion/inference/t2i2v_256px.py --save-dir samples --prompt "raining, sea"

# Save memory with offloading
torchrun --nproc_per_node 1 --standalone scripts/diffusion/inference.py configs/diffusion/inference/t2i2v_256px.py --save-dir samples --prompt "raining, sea" --offload True

# Generation with csv
torchrun --nproc_per_node 1 --standalone scripts/diffusion/inference.py configs/diffusion/inference/t2i2v_256px.py --save-dir samples --dataset.data-path assets/texts/example.csv

对于768x768分辨率：

# One GPU
torchrun --nproc_per_node 1 --standalone scripts/diffusion/inference.py configs/diffusion/inference/t2i2v_768px.py --save-dir samples --prompt "raining, sea"

# Multi-GPU with colossalai sp
torchrun --nproc_per_node 8 --standalone scripts/diffusion/inference.py configs/diffusion/inference/t2i2v_768px.py --save-dir samples --prompt "raining, sea"

您可以通过--aspect_ratio调整生成纵横比，通过--num_frames调整生成长度。aspect_ratio的候选值包括16:9、9:16、1:1、2.39:1。num_frames的候选值应为4k+1且小于129。
您还可以通过以下方式将文本直接转换为视频：

# One GPU for 256px
torchrun --nproc_per_node 1 --standalone scripts/diffusion/inference.py configs/diffusion/inference/256px.py --prompt "raining, sea"
# Multi-GPU for 768px
torchrun --nproc_per_node 8 --standalone scripts/diffusion/inference.py configs/diffusion/inference/768px.py --prompt "raining, sea"

4.图生视频

给定提示和参考图像，您可以使用以下命令生成视频：

# 256px
torchrun --nproc_per_node 1 --standalone scripts/diffusion/inference.py configs/diffusion/inference/256px.py --cond_type i2v_head --prompt "A plump pig wallows in a muddy pond on a rustic farm, its pink snout poking out as it snorts contentedly. The camera captures the pig's playful splashes, sending ripples through the water under the midday sun. Wooden fences and a red barn stand in the background, framed by rolling green hills. The pig's muddy coat glistens in the sunlight, showcasing the simple pleasures of its carefree life." --ref assets/texts/i2v.png

# 256px with csv
torchrun --nproc_per_node 1 --standalone scripts/diffusion/inference.py configs/diffusion/inference/256px.py --cond_type i2v_head --dataset.data-path assets/texts/i2v.csv

# Multi-GPU 768px
torchrun --nproc_per_node 8 --standalone scripts/diffusion/inference.py configs/diffusion/inference/768px.py --cond_type i2v_head --dataset.data-path assets/texts/i2v.csv