如何在算家云搭建OpenSora 1.2(文本生成视频)

news2024/9/27 5:50:59

一. OpenSora 1.2简介

1. 技术特点

高清视频生成 :

  • OpenSora 1.2 在 720p 高清文生视频质量和生成时长上取得了突破性进展,支持无缝产出任意风格的高质量短片。
  • 通过引入视频压缩网络(VAE)和更优的扩散模型算法,显著提升了视频生成的质量和效率。

视频压缩网络 :

  • OpenSora 团队提出了一个创新的视频压缩网络,该网络在空间和时间两个维度上分别进行压缩。首先在空间维度上进行 8x8 倍的压缩,接着在时间维度上进一步压缩了 4 倍。这种压缩策略既避免了因抽帧而牺牲视频流畅度的弊端,又大幅降低了训练成本。

更优的扩散模型算法 :

  • 基于 Stable Diffusion 3 的研究成果,OpenSora 团队提供了一套完整的训练解决方案,包括简单易用的整流(rectified flow)训练、用于训练加速的 Logit-norm 时间步长采样、基于分辨率和视频长度的时间步长采样等。这些技术的整合不仅加快了模型的训练速度,还显著减少了推理阶段的等待时间。

模型评估体系 :

  • OpenSora 团队构建了更完善的模型评估体系,保障模型的稳健性和泛化能力。他们跟踪了 100 张图像和 1k 个视频的校正流评估损失,并使用 VBench 进行自动视频评估,以监控训练过程和评估模型性能。

2. 应用场景

游戏开发 :

  • 游戏开发者可以使用 OpenSora 生成游戏场景、人物动画等,提升游戏画面表现力。

影视制作 :

  • 电影、电视剧等影视作品的制作人员可以使用 OpenSora 生成各种场景、特效等,为影视作品增添视觉效果。

广告制作 :

  • 广告制作人员可以使用 OpenSora 生成各种场景和动画,提升广告创意和视觉效果。

教育和培训 :

  • OpenSora 可以用于制作教学视频、演示视频等,为用户提供更直观的学习体验。

个人创作 :

  • 个人用户可以使用 OpenSora 制作各种短视频,满足个人创作需求。

3. 其他特性

多语言能力 :

  • OpenSora 1.2 通过用 mT5 替换了 T5,增强了多语言能力,使得模型能够更好地处理不同语言的文本输入。

生成可控性 :

  • 提供了更多的可控性选项,使用户能够根据需要调整生成的视频内容和风格。

支持任意长度和分辨率 :

  • 采用了 bucket 策略,从而支持生成任意长度和分辨率的视频。

4. 模型下载与资源

  • 模型下载 :OpenSora 1.2 的模型可以在 Hugging Face 等平台上免费下载和使用,具体链接如:Huggingface 模型下载。
  • 代码资源 :相关的代码和文档可以在 GitHub 等开源平台上找到,便于开发者进行二次开发和研究。

二、模型搭建流程

下面将以 open sora1.2 项目进行部署,由于模型较大,建议使用 RTX3090 及以上显卡 。

1. 选择主机和镜像

(1)在“租用实例”页面,点击进入应用社区,选择相应的模型

image.png

image.png

(2)点击“选择”后会自动匹配模型,选择 3090 卡,点击“立即创建”即可创建实例

image.png

2. 进入创建的实例

在“项目实例”页面点击对应实例的“Web SSH”操作

image.png

image.png

以下命令均在该页面进行

(1)打开文档

cd Open-Sora

(2)激活虚拟环境 opensora

conda activate opensora

(3)运行 py 文件

export HF_ENDPOINT=https://hf-mirror.com
python scripts/inference.py configs/opensora-v1-2/inference/sample.py \
  --num-frames 4s --resolution 144p \
  --layernorm-kernel False --flash-attn False \
  --prompt "a beautiful room"

出现以下界面即为运行成功,红框内为保存视频的地址,返回项目实例的文件管理中找到该视频即可播放。

image.png

如果想要在网页查看视频,可以通过 python http 服务进行显示,以下示例为监听 8080 端口,继续进行下述操作步骤

cd samples/samples
python -m http.server 8080

3.开启外部访问获取访问链接

返回“项目实例”列表,选择并点击对应实例“开放端口”操作。

可选择”对外开放端口“,实名认证后即可使用。

也可选择”本地私密访问“进行下载解压 ssh 工具,打开得到对应界面,选择对应的项目以及实例开放端口即可。

点击开放端口在浏览器输入 127.0.0.1:8080 即可访问。

image.png

image.png

打开浏览器输入 127.0.0.1:8080 即可显示运行的视频。

以上就是在算家云搭建OpenSora 1.2的流程,具体使用方式可进入算家云应用社区查看该模型的使用说明。

复制下方网址,进入算家云,选择模型,一键开启 AI 之旅!

算家云应用社区 www.suanjiayun.com/container/#/mirror

首页.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2104580.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

设置电子签名

设置点赞签名代码 export class Signature {width: number 300height: number 300canvas!: HTMLCanvasElementctx!: CanvasRenderingContext2Dprivate drawing: boolean falsepreTask: string[] []nextTask: string[] []private allTask: { x: number; y: number; color: …

阿里巴巴API在电商中的新应用:商品详情实时获取与解析

阿里巴巴API在电商中的新应用主要体现在商品详情实时获取与解析上,这对于提升电商平台的数据处理能力、用户体验以及运营效率具有重要意义。以下将详细介绍这一应用,并包含具体的代码示例。 一、阿里巴巴商品详情API概述 阿里巴巴商品详情API是阿里巴巴…

监控易赋能行动:打造专业运维监控团队,助力代理商成长

在当今数字化转型的浪潮中,运维监控作为确保业务连续性和稳定性的关键一环,其重要性日益凸显。作为行业领先的运维监控解决方案提供商,监控易深知合作伙伴在市场拓展和服务交付中的核心作用。为此,我们隆重推出“监控易赋能行动”…

山东大学OLED透明展示柜案例:科技赋能,创新展示新体验

随着科技的飞速发展,显示技术也在不断突破传统界限,为各行各业带来了全新的展示体验。山东大学集成攻关大平台展厅近期引入了OLED透明展示柜,这一创新举措不仅提升了展厅的展示效果,还为参观者带来了前所未有的互动体验。 背景介绍…

基于Java+SpringBoot+Vue+MySQL的驾校预约管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 基于SpringBootVue的驾校预约管理系统【附源码文档】、前后…

tenda路由器登录后台后添加端口映射

实现本地地址通过公网地址访问应用。 前提条件:本地网络为专线并且有公网IP 一、登录路由器后台 二、添加映射的内网地址和外网地址以及端口 三、查看公网IP 四、访问本地应用

VisionMaster二次开发-获取全局变量

GlobalVariableModuleCs.GlobalVariableModuleTool类 ,继承自 VmModule ,用于操作和管理全局变量 using GlobalVariableModuleCs;// 创建实例 GlobalVariableModuleTool global new GlobalVariableModuleTool(); // 直接调用 GetGlobalVar 方法 int res…

截取pdf中的部分内容,又保证内容不失真,实现方式

文章目录 0.为什么需要截取pdf1.访问网站2.上传你需要截取的pdf文件3.选取区域下载 0.为什么需要截取pdf 如果直接截图工具截图的话,里面的文字和图片内容会出现失真的情况,但是我们希望pdf空白部分的内容不要,这个时候就需要截取pdf工具 1…

From Man vs Machine to Man + Machine

From Man vs. Machine to Man Machine: The Art and AI of Stock Analyses 论文阅读 文章目录 From Man vs. Machine to Man Machine: The Art and AI of Stock Analyses 论文阅读 AbstractConstruction and Performance of the AI AnalystMethodologyThe Performance of Ana…

【数据结构与算法 | 搜索二叉树篇 力扣篇】力扣530

1. 力扣530:二叉搜索树的最小绝对差 1.1 题目: 给你一个二叉搜索树的根节点 root ,返回 树中任意两不同节点值之间的最小差值 。 差值是一个正数,其数值等于两值之差的绝对值。 示例 1: 输入:root [4,…

TCP协议必懂内容

网络分层结构 计算机的网络体系分为三种,OSI网络分层结构,TCP/IP 五层模型,TCP/IP四层模型。 TCP/IP五层模型: 应用层:为应用程序提供交互服务,在应用层中有较多的协议,较为出名的是&#xff…

Java八股文总结三

JVM部分 一、JVM是由哪几部分组成的 类加载器运行时数据区执行引擎本地库接口 说一下运行时数据区的组成: 本地方法栈、虚拟机栈、堆区、程序计数器、方法区。 虚拟机栈帧的组成: 每个栈帧包含五部分,分别包括局部变量表、操作数栈、动…

【鸿蒙开发从0到1 day06】

一.视口 视口:用来约束html,html和设备的大小进行适配 (注释视口) 添加视口 二倍图 概念:设计稿里面每个元素的尺寸的倍数 作用:防止图片在高分辨率屏幕下模糊失真 可以使用pxcook 如果我们的原图大小是设计图的两倍,可以使用pxCook去原图抓取到设…

墨刀基础篇(一):全局事件和动效

一:全局事件 全局事件是针对于整个页面设置的,而不是针对页面中的某个组件设置的。 事件 手势事件: 单击左滑、又滑、上滑、下滑、长按、双击摇一摇 鼠标事件: 单击、双击长按鼠标移入、鼠标移出右键 定时事件 定时器 行为 …

C++11第一弹:简介 | 统一的列表初始化 | 声明

🌈个人主页: 南桥几晴秋 🌈C专栏: 南桥谈C 🌈C语言专栏: C语言学习系列 🌈Linux学习专栏: 南桥谈Linux 🌈数据结构学习专栏: 数据结构杂谈 🌈数据…

盘点2024年最常用的透明加密软件!TOP10排行榜

随着数字化生活的深入,数据安全成为每个人和企业都不可忽视的重要议题。透明加密软件因其在保障数据安全的同时,不影响用户日常操作的特性,越来越受到人们的青睐。以下是2024年最常用的透明加密软件TOP10排行榜,它们以卓越的性能和…

Vue3 使用 富文本编辑器 wangeditor/editor-for-vue 配置详解

Vue3 使用 富文本编辑器 wangeditor/editor-for-vue 配置详解 先上官网地址 wangEditor 5 点这里 wangeditor 主要API 配置功能栏 let toolbarConfig {toolbarKeys: [ "bold", // 字体加粗 "underline", // 字体下划线 "italic", // 字体斜体…

一款用于分析java socket连接问题的工具

network-tools 介绍 network-tools基于sun jdk、Oracle jdk开发,拦截基于java socket请求,它包括 ​ http 客户端 ​ jdbc 客户端 ​ mq 客户端 ​ redis 客户端 目前提供如下功能: ​ 最近端点连接情况 ​ 最近与远程端点连接情况&am…

公寓项目(尚庭公寓笔记)

公寓项目 课程介绍项目概述移动端业务功能后台管理系统业务功能-公寓管理后台管理系统业务功能-租赁功能后台管理系统业务功能-系统管理&用户管理核心业务功能技术概述 项目开发流程项目原型数据库设计理论ER模型数据库设计流程 数据库设计实操概念模型逻辑模型公寓信息房间…

sse fetch-event-source插件的使用

sse简单介绍https://blog.csdn.net/weixin_42400404/article/details/141895877?csdn_share_tail%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22141895877%22%2C%22source%22%3A%22weixin_42400404%22%7D fetch-event-source gitHub地址 通信…