Pyramidal Flow使用指南：快手、北大、北邮，开源可免费商用视频生成模型，快速上手教程

news2025/4/12 20:30:15

什么是 Pyramidal Flow？

Pyramidal Flow 是由快手科技、北京大学和北京邮电大学联合推出的开源视频生成模型，它是完全开源的，发布在 MIT 许可证下，允许商业使用、修改和再分发。该模型能够通过文本描述生成最高10秒、分辨率为1280x768、帧率24帧的视频。其核心技术是金字塔流匹配算法，将视频生成过程分解为多个不同分辨率的阶段，从而提高生成效率和质量。

功能特色

1. 文本到视频生成：用户可以输入文本提示，模型生成与描述相符的视频内容。
2. 高分辨率输出：支持生成高达768p分辨率的视频。
3. 自回归视频生成：支持连续帧生成，确保视频的连贯性和流畅度。
4. 端到端优化：在统一框架内进行优化，简化训练和部署。
5. 高效生成：采用流匹配技术，降低计算复杂度。

Pyramidal Flow 与其他视频生成模型的不同之处

金字塔流匹配技术：
- Pyramidal Flow 采用了一种名为金字塔流匹配的技术，将视频生成分解为多个不同分辨率的阶段，开始时生成低分辨率的草图，然后逐步提升到高分辨率。这种技术降低了计算负担，同时提高了生成的灵活性。
自回归框架和块状因果注意力机制：
- 模型利用自回归框架和块状因果注意力机制，确保视频的连贯性和逻辑性。每一帧都能基于之前的帧进行生成，提高了生成视频的质量和一致性。
高效训练与计算资源：
- Pyramidal Flow 在 A100 GPU 上仅经过了 20,700 小时的训练，能耗和效率远超市面上的同类模型。这对于没有庞大算力的中小企业和个人开发者来说，是一个巨大的助力。
开源性质：
- Pyramidal Flow 是完全开源的，发布在 MIT 许可证下，允许商业使用、修改和再分发。这使得它非常适合开发者和内容创作者使用，尤其是希望避免高额订阅费用的用户。
高质量视频生成：
- 在官方的 VBench 基准测试中，Pyramidal Flow 的总评分为 81.72，与众多商业模型并驾齐驱。尽管在动态流畅度和画面稳定性方面略低于某些商业模型，但其质量非常接近于商业模型。
硬件要求：
- 由于模型基于大型 Transformer 架构，运行时对硬件要求较高。运行 768p 视频生成时需要 40GB 显存，384p 视频生成则需要 26GB 显存。

定价信息

Pyramidal Flow 是完全开源的，发布在 MIT 许可证下，允许商业使用、修改和再分发。

如何使用

Pyramidal Flow 已在 Hugging Face 平台上线，用户可以通过以下方式使用：

Pyramid Flow项目官网 | MeoAI：
Pyramid Flow在线体验demo：
Pyramid Flow论文地址：
GitHub代码：；
Hugging Face模型下载：
ComfyUI 插件：通过安装插件在 ComfyUI 中使用。

使用 Pyramidal Flow 模型的详细步骤

在本地环境中使用 Pyramidal Flow 模型来生成视频。这涉及到在本地机器上安装必要的软件、下载模型、运行模型生成视频等操作。这种方法适用于那些希望在本地机器上直接运行模型、进行实验或者开发应用的用户。

安装

首先，你需要克隆 Pyramidal Flow 的官方 GitHub 仓库，并按照说明创建一个新的 conda 环境，并安装必要的依赖项

# 克隆 Pyramidal Flow 的 GitHub 仓库
git clone https://github.com/jy0205/Pyramid-Flow
cd Pyramid-Flow

# 创建一个新的 conda 环境，并安装 Python 3.8.10
conda create -n pyramid python==3.8.10

# 激活新创建的环境
conda activate pyramid

# 安装所需的 Python 库
pip install -r requirements.txt

下载模型

从 Huggingface 模型库下载预训练模型：

# 从 Huggingface 模型库下载预训练模型
from huggingface_hub import snapshot_download
model_path = 'PATH'   # 本地保存下载的检查点路径
snapshot_download("rain1011/pyramid-flow-sd3", local_dir=model_path, local_dir_use_symlinks=False, repo_type='model')

使用模型生成视频

加载下载的模型，并使用提供的文本提示生成视频：

import torch
from PIL import Image
from pyramid_dit import PyramidDiTForVideoGeneration
from diffusers.utils import load_image, export_to_video

# 设置 CUDA 设备
torch.cuda.set_device(0)

# 初始化模型
更多代码内容访问教程地址：https://www.meoai.net/pyramidal-flow.html

# 定义文本提示
prompt = "A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors"

# 使用模型生成视频
更多代码内容访问教程地址

# 将生成的帧导出为视频文件
更多代码内容访问教程地址