DAMODEL丹摩智算平台实践CogVideoX

news2024/9/25 14:13:32

文章目录

前言

一、平台账号注册并登录

二、部署CogVideoX

(一)简介

(二)部署

1. 创建实例

2. 配置环境和依赖

3.预制模型与配置文件

三、开始运行

总结


前言

该文章主要记录DAMODEL丹摩智算平台实践过程与心得体会,本次实践的内容为CogVideoX-2b-部署与使用;DAMODEL平台地址为:丹摩DAMODEL|让AI开发更简单!算力租赁上丹摩!


一、平台账号注册并登录

点击上方DAMODEL地址,点击右上角"登录"按钮,选择下方的"去注册"按钮,设置用户名密码以及手机号后点击"立即注册"即可

注册完成后进到登录界面,使用账号登录或手机号登录

登录后的主界面为

二、部署CogVideoX

(一)简介

智谱AI于8月6日宣布开源视频生成模型CogVideoX。该模型支持最多226个token的提示词生成6秒视频,帧率为8帧/秒,分辨率为720x480。这只是初代版本,未来将推出性能更强、参数量更大的模型。CogVideoX的核心技术是3D变分自编码器,能将视频数据压缩至原来的2%,在大幅降低计算资源需求的同时,保持视频帧的连贯性,解决生成过程中闪烁的问题。

(二)部署

1. 创建实例

进入控制台,选择GPU云实例,点击"创建按钮"

由于CogVideoX 在 FP-16 精度下的推理至少需 18GB 显存,微调则需要 40GB 显存,所以实例配置可以选择NVIDIA-L40S,GPU数量、硬盘数量按照默认配置即可

框架选择PyTorch 2.3.0,设置好登录实例后并点击立即创建

立即创建之后等实例状态变成运行中就是创建成功了

2. 配置环境和依赖

(1)控制台实例界面进入JupyterLab

(2)点击Other页签下的Terminal进入终端

(3)拉取CogVideo代码的仓库

wget http://file.s3/damodel-openfile/CogVideoX/CogVideo-main.tar

效果图:

(4)下载后解压缩 CogVideo-main.tar

tar -xf CogVideo-main.tar

效果图: 

(5)进入 CogVideo-main 文件夹,输入安装对应依赖

cd CogVideo-main/
pip install -r requirements.txt

效果图:

依赖安装好后,在终端输入python,并用以下代码进行测试:

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video

如下所示没有报错说明依赖安装成功

测试完成后输入quit()退出python

3.预制模型与配置文件

处理配置环境和依赖之外,还需要上传CogVideoX模型和对于的配置文件,同样在终端执行以下命令:

(1)下载CogVideoX模型

cd /root/workspace
wget http://file.s3/damodel-openfile/CogVideoX/CogVideoX-2b.tar

效果图:

(2)下载完解压缩

tar -xf CogVideoX-2b.tar

(3)解压后的目录如图

三、开始运行

调试

按照第二点部署环境后,接下来就是调试,CogVideoX所用的编程语言是Python,进入CogVideo-main文件夹,使用该路径下的test.py文件进行测试,运行完后会生成一个output.mp4的文件

cd /root/workspace/CogVideo-main
python test.py

效果图:

test.py 代码主要使用了 diffusers 库中的 CogVideoXPipeline 模型,并加载了一个预训练的 CogVideo 模型。通过提供详细的文本描述(prompt),代码生成相应的视频内容:

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video

# prompt里写自定义想要生成的视频内容
prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."

pipe = CogVideoXPipeline.from_pretrained(
    "/root/workspace/CogVideoX-2b", # 这里填CogVideo模型存放的位置,此处是放在了数据盘中
    torch_dtype=torch.float16
).to("cuda")

# 参数do_classifier_free_guidance设置为True可以启用无分类器指导,增强生成内容一致性和多样性
# num_videos_per_prompt控制每个prompt想要生成的视频数量
# max_sequence_length控制输入序列的最大长度
prompt_embeds, _ = pipe.encode_prompt(
    prompt=prompt,
    do_classifier_free_guidance=True,
    num_videos_per_prompt=1,
    max_sequence_length=226,
    device="cuda",
    dtype=torch.float16,
)

video = pipe(
    num_inference_steps=50,
    guidance_scale=6,
    prompt_embeds=prompt_embeds,
).frames[0]

export_to_video(video, "output.mp4", fps=8)

总结

CogVideoX环境搭建好后,将test.py里的变量prompt的值改成相对应的文本,运行test.py文件即可生成对应的视频文件,非常适合需要文本转视频的人员使用!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2163771.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【自动化测试】Appium Server如何安装和Appium Server安装困难的原因和解决方法以及常见的一些安装失败的错误和解决方法

引言 Appium Server安装过程时常出现问题,以下是安装Appium Server过程一些原因、常见错误和解决方法 文章目录 引言一、Appium Server如何安装1.1 Node.js 安装1.2 使用NPM安装Appium1.3 验证Appium安装1.4 运行Appium Server1.5 使用Appium Desktop(可…

QT C++ 自学积累 『非技术文』

QT C 自学积累 『非技术文』 最近一段时间参与了一个 QT 项目的开发,使用的是 C 语法,很遗憾的是我之前从来没有接触过 C ,大学没有开过这堂课,也没用自己学习过,所有说上手贼慢,到现在为止其实也不是很清楚…

经纬恒润全冗余R-EPS助力L4级自动驾驶落地

随着L4级别自动驾驶技术的逐步成熟与商业化进程加速,行业对车辆安全性的要求达到了新的高度。为了确保自动驾驶车辆全天候、全路况下安全运行,冗余系统的研发与应用成为关键。在这一背景下,经纬恒润开发了齿条式全冗余电动助力转向系统R-EPS&…

Spring Boot 进阶- Spring Boot入门程序详解

在上篇文章中,我们创建了一个RESTFul风格的接口项目,并且分析了它的相关依赖,这里我们就来看一下这个项目还有什么值得我们分析的地方。前面提到的,在SpringBoot的场景启动器中,我们提供了一些自动配置的功能,那么在之前我们也说过,这些自动配置,除了可以自动配置之外,…

基于springboot在线点餐系统

基于springbootvue实现的点餐系统 (源码L文ppt)4-077 第4章 系统设计 4.1 总体功能设计 一般个人用户和管理者都需要登录才能进入点餐系统,使用者登录时会在后台判断使用的权限类型,包括一般使用者和管理者,一般使用…

【C++】stack和queue的使用及模拟实现

stack就是栈的意思,这个结构遵循后进先出(LIFO)的原则,可以将栈想象为一个子弹夹,先进去的子弹后出来。 queue就是队列的意思,这个结构遵循先进先出(FIFO)的原则,可以将对列想象成我们排队买饭的场景,先排…

Java Web应用升级故障案例解析

在一次Java Web应用程序的优化升级过程中,从Tomcat 7.0.109版本升级至8.5.93版本后,尽管在预发布环境中验证无误,但在灰度环境中却发现了一个令人困惑的问题:新日志记录神秘“失踪”。本文深入探讨了这一问题的排查与解决过程&…

一份在阿里内网悄悄流传的大模型面试真题!(2024年最新)

随着人工智能技术的迅猛发展,计算机视觉(CV)、自然语言处理(NLP)、搜索、推荐、广告推送和风险控制等领域的岗位越来越受欢迎,而对于大型模型技术的掌握成为了这些岗位的标配。 但目前公开的大模型资源还是…

FAT32取证分析

前言: 在正常工作中经常会有数据恢复或者取证分析的场景,数据是否能被恢复,主要还是看数据是否被覆盖,正常情况下文件虽然被删除,只是修对应的标志位,文件本身数据并不会被破坏,所以我们就可以…

Chrome截取网页全屏

1.使用Chrome开发者工具 Chrome自带的开发者工具,可以进行网页整页截图, 首先打开你想截图的网页, 然后按下 F12,调出开发者工具, 接着按Ctrl Shift P。 紧接着输入指令 capture, 它会提示有三个选项,如…

应用层 IV(万维网WWW)【★★】

(★★)代表非常重要的知识点,(★)代表重要的知识点。 一、WWW 的概念与组成结构 1. 万维网的概念 万维网 WWW(World Wide Web)并非某种特殊的计算机网络。万维网是一个大规模的、联机式的信息…

echarts y轴滚动(react版本)

目录 效果图如下,代码见下方 代码可以直接复制,图片和css也要复制 tsx代码 css代码 代码里用到的图片,可以换成自己项目的图 效果图如下,代码见下方 代码可以直接复制,图片和css也要复制 tsx代码 import React,…

Leetcode 1396. 设计地铁系统

1.题目基本信息 1.1.题目描述 地铁系统跟踪不同车站之间的乘客出行时间,并使用这一数据来计算从一站到另一站的平均时间。 实现 UndergroundSystem 类: void checkIn(int id, string stationName, int t) 通行卡 ID 等于 id 的乘客,在时间…

自动化测试常用函数:元素定位、操作与窗口管理

目录 一、元素的定位 1. cssSelector 2. xpath 2.1 获取HTML页面所有的节点 2.2 获取HTML页面指定的节点 2.3 获取一个节点中的直接子节点 2.4 获取一个节点的父节点 2.5 实现节点属性的匹配 2.6 使用指定索引的方式获取对应的节点内容 二、操作测试对象 1. 点击/提交…

多个ECU测试方案-IP地址相同-DoIP刷新-环境测试耐久测试

情况1:只有一个ECU进行测试 - 接口模块只需要使用一个车载以太网转换器; 情况2:多ECU同时测试,但ECU IP地址不一样,上位机多个网口 - 上位机测试软件,需要通过PC的不同网卡,访问各个ECU&#…

基于 RealSense D435相机实现手部姿态检测

基于 RealSense D435i相机进行手部姿态检测,其中采用 Mediapipe 进行手部检测,以下是详细步骤: Mediapipe 是一个由 Google开发的开源框架,专门用于构建多媒体处理管道,特别是计算机视觉和机器学习任务。它提供了一系列…

第68期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找…

【YashanDB知识库】如何配置jdbc驱动使getDatabaseProductName()返回Oracle

本文转自YashanDB官网,具体内容请见https://www.yashandb.com/newsinfo/7352676.html?templateId1718516 问题现象 某些三方件,例如 工作流引擎activiti,暂未适配yashandb,使用中会出现如下异常: 问题的风险及影响 …

【YashanDB知识库】查询YashanDB表空间使用率

本文转自YashanDB官网,具体内容请见https://www.yashandb.com/newsinfo/7369203.html?templateId1718516 【问题分类】功能使用 【关键字】表空间,使用率 【问题描述】YashanDB使用过程中,如何查询表空间的使用率 【问题原因分析】需要查…

NTPD使用/etc/ntp.conf配置时钟同步详解

NTPD使用/etc/ntp.conf配置时钟同步详解 引言安装NTPD配置/etc/ntp.conf1. 权限控制(restrict)2. 指定上层NTP服务器(server)3. 本地时间服务器(可选)启动NTPD服务验证时间同步ntpd服务默认多长时间同步一次ntp.conf上如何配置同步的频率和间隔配置步骤注意事项结论引言 …