Pyramidal Flow使用指南:快手、北大、北邮,开源可免费商用视频生成模型,快速上手教程

news2024/10/26 22:47:41

什么是 Pyramidal Flow?

Pyramidal Flow 是由快手科技、北京大学和北京邮电大学联合推出的开源视频生成模型,它是完全开源的,发布在 MIT 许可证下,允许商业使用、修改和再分发。该模型能够通过文本描述生成最高10秒、分辨率为1280x768、帧率24帧的视频。其核心技术是金字塔流匹配算法,将视频生成过程分解为多个不同分辨率的阶段,从而提高生成效率和质量。

功能特色

    1. 文本到视频生成:用户可以输入文本提示,模型生成与描述相符的视频内容。
    2. 高分辨率输出:支持生成高达768p分辨率的视频。
    3. 自回归视频生成:支持连续帧生成,确保视频的连贯性和流畅度。
    4. 端到端优化:在统一框架内进行优化,简化训练和部署。
    5. 高效生成:采用流匹配技术,降低计算复杂度。

Pyramidal Flow 与其他视频生成模型的不同之处

  1. 金字塔流匹配技术
    • Pyramidal Flow 采用了一种名为金字塔流匹配的技术,将视频生成分解为多个不同分辨率的阶段,开始时生成低分辨率的草图,然后逐步提升到高分辨率。这种技术降低了计算负担,同时提高了生成的灵活性。
  2. 自回归框架和块状因果注意力机制
    • 模型利用自回归框架和块状因果注意力机制,确保视频的连贯性和逻辑性。每一帧都能基于之前的帧进行生成,提高了生成视频的质量和一致性。
  3. 高效训练与计算资源
    • Pyramidal Flow 在 A100 GPU 上仅经过了 20,700 小时的训练,能耗和效率远超市面上的同类模型。这对于没有庞大算力的中小企业和个人开发者来说,是一个巨大的助力。
  4. 开源性质
    • Pyramidal Flow 是完全开源的,发布在 MIT 许可证下,允许商业使用、修改和再分发。这使得它非常适合开发者和内容创作者使用,尤其是希望避免高额订阅费用的用户。
  5. 高质量视频生成
    • 在官方的 VBench 基准测试中,Pyramidal Flow 的总评分为 81.72,与众多商业模型并驾齐驱。尽管在动态流畅度和画面稳定性方面略低于某些商业模型,但其质量非常接近于商业模型。
  6. 硬件要求
    • 由于模型基于大型 Transformer 架构,运行时对硬件要求较高。运行 768p 视频生成时需要 40GB 显存,384p 视频生成则需要 26GB 显存。

定价信息

Pyramidal Flow 是完全开源的,发布在 MIT 许可证下,允许商业使用、修改和再分发。

如何使用

Pyramidal Flow 已在 Hugging Face 平台上线,用户可以通过以下方式使用:

  • Pyramid Flow项目官网 | MeoAI
  • Pyramid Flow在线体验demo
  • Pyramid Flow论文地址
  • GitHub代码:;
  • Hugging Face模型下载
  • ComfyUI 插件:通过安装插件在 ComfyUI 中使用。

使用 Pyramidal Flow 模型的详细步骤

在本地环境中使用 Pyramidal Flow 模型来生成视频。这涉及到在本地机器上安装必要的软件、下载模型、运行模型生成视频等操作。这种方法适用于那些希望在本地机器上直接运行模型、进行实验或者开发应用的用户。

安装

首先,你需要克隆 Pyramidal Flow 的官方 GitHub 仓库,并按照说明创建一个新的 conda 环境,并安装必要的依赖项

# 克隆 Pyramidal Flow 的 GitHub 仓库
git clone https://github.com/jy0205/Pyramid-Flow
cd Pyramid-Flow

# 创建一个新的 conda 环境,并安装 Python 3.8.10
conda create -n pyramid python==3.8.10

# 激活新创建的环境
conda activate pyramid

# 安装所需的 Python 库
pip install -r requirements.txt
下载模型

从 Huggingface 模型库下载预训练模型:

# 从 Huggingface 模型库下载预训练模型
from huggingface_hub import snapshot_download
model_path = 'PATH'   # 本地保存下载的检查点路径
snapshot_download("rain1011/pyramid-flow-sd3", local_dir=model_path, local_dir_use_symlinks=False, repo_type='model')
使用模型生成视频

加载下载的模型,并使用提供的文本提示生成视频:

import torch
from PIL import Image
from pyramid_dit import PyramidDiTForVideoGeneration
from diffusers.utils import load_image, export_to_video

# 设置 CUDA 设备
torch.cuda.set_device(0)

# 初始化模型
更多代码内容访问教程地址:https://www.meoai.net/pyramidal-flow.html

# 定义文本提示
prompt = "A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors"

# 使用模型生成视频
更多代码内容访问教程地址

# 将生成的帧导出为视频文件
更多代码内容访问教程地址
使用技巧
  • guidance_scale 参数控制视觉质量,建议对 768p 检查点使用 [7, 9] 以内的指导。
  • video_guidance_scale 参数用于控制运动,数值越大,动态程度越高。

Pyramidal Flow 模型的训练数据

Pyramidal Flow 模型的训练数据来源主要是开源数据集。具体来说,模型在训练过程中使用了以下数据集:

  1. LAION-5B:这是一个用于多模态AI研究的大型数据集。
  2. CC-12M:由网络爬虫收集的图像文本对的数据集。
  3. SA-1B:一个具有高质量、无模糊图像的数据集。
  4. WebVid-10M 和 OpenVid-1M:这两个数据集被广泛用于文本到视频生成的视频数据集。

Pyramidal Flow 模型在训练时仅使用了开源数据集,总计使用了 20,700 小时的 A100 GPU 计算资源。这种开源的训练数据策略使得模型可以供广大开发者和研究者免费使用,并便于进行进一步的研究和开发。

适用场景

  1. 娱乐和社交媒体:用于生成有趣的视频内容,适合在社交平台分享。
  2. 电影和电视制作:生成特定场景或背景,降低实际拍摄成本。
  3. 游戏开发:生成游戏内动画和视频内容,提高设计效率。
  4. 广告和营销:快速生成吸引人的广告视频。
  5. 教育和培训:生成教学视频,帮助解释复杂概念。

Pyramidal Flow 提供了高效、灵活的视频生成解决方案,适合开发者、艺术家和创作者使用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2224237.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

EveryoneNobel:为每个人打造诺贝尔奖风格的纪念图片

在这个充满荣誉和成就的时代,EveryoneNobel 项目应运而生,旨在为每个人提供一个生成诺贝尔奖风格纪念图片的机会。通过利用 ComfyUI 进行图像生成,结合 HTML 模板展示文字,不仅提供了一个生成诺贝尔奖图片的流程,而且构…

【Python爬虫实战】Selenium自动化网页操作入门指南

#1024程序员节|征文# 🌈个人主页:易辰君-CSDN博客 🔥 系列专栏:https://blog.csdn.net/2401_86688088/category_12797772.html ​ 目录 前言 一、准备工作 (一)安装 Selenium 库 &#xff0…

2024 年我的 MacBook 软件开发设置分享

在过去的一年里,我的 MacBook 软件开发环境经历了一些变化。今天,我想分享我的最新设置、工作流程和工具,帮助你在软件开发中提升效率。 我的工作设备 💻 我目前使用的是 16 英寸的 MacBook Pro M1 Max。这台机器的性能令人印象…

「C/C++」C++ STL容器库 之 std::multimap 键值对的集合容器

✨博客主页何曾参静谧的博客📌文章专栏「C/C」C/C程序设计📚全部专栏「VS」Visual Studio「C/C」C/C程序设计「UG/NX」BlockUI集合「Win」Windows程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「PK」Parasoli…

化验单智能识别与数据抽取:AI平台赋能医疗信息化

化验单处理在医院日常运作中常遇信息量大、数据整理不易、效率低的问题。思通数科推出的AI多模态平台,借助光学字符识别(OCR)、图像处理等技术,提供了一款开源化验单智能识别系统,能迅速识别、提取和分析化验单数据。 …

【云原生网关】Higress 从部署到使用详解

目录 二、网关概述 2.1 什么是云原生网关 2.2 常见的云原生网关 2.2.1 Nginx 2.2.2 ApiSix 2.2.3 Kong 2.2.4 Apache Shenyu 2.2.5 Higress 2.2.6 Envoy​​​​​​​ 三、higress介绍 3.1 什么是higress 3.2 Higress 定位 3.3 Higress 内核选择 四、Higress搭…

10.22.2024刷华为OD C题型(三)--for循环例子

脚踝动了手术,现在宾馆恢复,伤筋动骨一百天还真不是说笑的,继续努力吧。 文章目录 靠谱的车灰度图恢复灰度图恢复 -- for循环使用例子 靠谱的车 https://www.nowcoder.com/discuss/564514429228834816 这个题目思路不难,就是要自…

网络一些相关术语

目录 网络一些相关术语 转发平面效率 可扩展性 控制平面 网络拓扑 服务质量(QoS) 网络协议 网络带宽 网络拥塞 网络安全 网络冗余 网络切片 网络延迟 网络地址转换(NAT) 虚拟专用网络(VPN) …

C#中的接口的使用

定义接口 public interface IMyInterface {int MyProperty { get; set; }void MyMethod(); } 实现类 internal class MyClass : IMyInterface {public int MyProperty { get; set; }public void MyMethod(){Console.WriteLine("MyMethod is called");} } 目录结构…

每天一题:洛谷P2041分裂游戏

题目描述 有一个无限大的棋盘,棋盘左下角有一个大小为 n 的阶梯形区域,其中最左下角的那个格子里有一枚棋子。你每次可以把一枚棋子“分裂”成两枚棋子,分别放在原位置的上边一格和右边一格。(但如果目标位置已有棋子&#xff0c…

《人脸表情识别可解释性研究综述(计算机学报)》

文章全面综述了**人脸表情识别(FER)**领域的可解释性研究,探讨了表情识别的基本概念、技术方法和研究进展,并重点介绍了可解释性研究的重要性以及提高模型可解释性的方法,如模型的可视化和简化等。 论文内容概述&…

【智能大数据分析 | 实验四】Spark实验:Spark Streaming

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈智能大数据分析 ⌋ ⌋ ⌋ 智能大数据分析是指利用先进的技术和算法对大规模数据进行深入分析和挖掘,以提取有价值的信息和洞察。它结合了大数据技术、人工智能(AI)、机器学习(ML&a…

基于SSM考研助手系统的设计

管理员账户功能包括:系统首页,个人中心,学生管理,教学秘书管理,考研资讯管理,考研名师管理,考研信息管理,系统管理 教学秘书账号功能包括:系统首页,个人中心…

如何加密电脑磁盘?电脑本地磁盘加密方法介绍

随着信息技术的不断发展,电脑磁盘加密已经成为保护个人隐私和数据安全的重要手段。本文将介绍几种常见的电脑本地磁盘加密方法,帮助用户保护自己的数据安全。 文件夹只读加密专家 文件夹只读加密专家不仅可以加密电脑中的文件夹,还可以加密保…

JMeter快速入门示例

JMeter是一款开源的性能测试工具,常用于对Web服务和接口进行性能测试。 下载安装 官方下载网址: https://jmeter.apache.org/download_jmeter.cgi也可以到如下地址下载:https://download.csdn.net/download/oscar999/89910834 这里下载Wi…

docker run 命令解析

docker run 命令解析 docker run 命令用于从给定的镜像启动一个新的容器。这个命令可以包含许多选项,下面是一些常用的选项: -d:后台运行容器,并返回容器ID;-i:以交互模式运行容器,通常与 -t …

leetcode动态规划(十七)-组合总和IV

题目 377.组合总和IV 给你一个由 不同 整数组成的数组 nums ,和一个目标整数 target 。请你从 nums 中找出并返回总和为 target 的元素组合的个数。 题目数据保证答案符合 32 位整数范围。 示例 1: 输入:nums [1,2,3], target 4 输出&a…

告别接口困扰,LDR6020芯片打造USB-C显示器智能新选择!

随着USB TYPE-C接口技术的广泛普及和USB4标准的崭新推出,传统HDMI与DisplayPort接口的主导地位正悄然受到挑战。USB TYPE-C接口凭借其小巧的体积、高速的传输速度以及丰富的功能特性,正逐步成为显示器与电视机接口的首选。本文旨在深入探讨如何设计基于U…

【电商搜索】现代工业级电商搜索技术-亚马逊-经典的Item-to-Item协同推荐算法

【电商搜索】现代工业级电商搜索技术-亚马逊-经典的Item-to-Item协同推荐算法 文章目录 【电商搜索】现代工业级电商搜索技术-亚马逊-经典的Item-to-Item协同推荐算法1. 论文信息2. 算法介绍3. 创新点小结4. 实验效果5. 算法结论6. 代码实现7. 问题及优化方向1. 冷启动问题2. 稀…

node集成redis (教学)

文章目录 前言一、安装redis二、可视化界面测试连接1.vscode安装插件 三、node代码编写1.先安装两个库(redis和ioredis)2.测试连接 (前提是你的redis服务器要启动起来) 总结 前言 在Node.js中集成ioredis是一个常见的做法&#x…