丹摩征文活动|CogVideoX-2b:从安装到上线,轻松搞定全过程!

news2024/12/27 15:04:46

CogVideoX-2b:从安装到上线,轻松搞定全过程!

CogVideoX简介

CogVideoX的推出标志着视频生成技术的一次重大突破。过去,如何在保持高效的同时提升视频质量一直是一个难题,但CogVideoX 通过其先进的3D变分自编码器,成功将视频数据压缩至原来的2%,大幅降低了资源消耗,并确保视频帧之间的流畅连贯。

其独特的3D旋转位置编码技术让视频在时间轴上如行云流水般自然呈现,每个画面都充满了生动的活力。同时,智谱AI的端到端视频理解模型能够精准地解析用户指令,生成内容丰富且高度相关的视频作品。

这一技术革新为创作者提供了更为广阔的创作空间,让他们在更少限制的情况下,发挥更大的创造力。通过这些尖端技术的结合,CogVideoX为视频创作带来了前所未有的自由和灵活性,从根本上改变了视频生成的规则,为用户带来了全新的体验与可能性。

如果您对CogVideoX感兴趣,以下资源将帮助您深入了解这一创新技术:

  • 探索代码库:您可以在 GitHub 上找到我们最新的代码,轻松获取并开始您的项目。
  • 模型下载:前往 Hugging Face 平台下载CogVideoX-2b模型,以便直接使用我们的技术成果。
  • 技术详情:想了解更多技术背景和实现细节?请查看我们的 技术报告,获取完整的设计与开发信息。
  • 加入丹摩智算平台:在 此处 注册,开启您的智能计算旅程,与我们共同探索AI的无限可能。

通过上述链接,可以全面了解并利用CogVideoX,开启您的创新视频生成体验。无论是代码、模型还是技术文档,这些资源都将助您一臂之力,迈向更卓越的创作之路。

创建丹摩实例

本次实践流程在丹摩服务器上进行部署和初步使用 CogVideoX,进入控制台,选择 GPU 云实例,点击创建实例。(实名认证有抵扣卷)
在这里插入图片描述

要在FP-16精度下运行CogVideoX,至少需要具备18GB显存来进行推理,而如果您计划进行模型微调,则需要40GB的显存容量。我们建议使用L40S显卡(推荐)或4090显卡,以确保最佳性能表现。至于存储方面,您可以选择标准配置的100GB系统盘,加上50GB的数据盘,以满足基本的存储需求。

在这里插入图片描述

镜像选择 PyTorch2.3.0、Ubuntu-22.04,CUDA12.1镜像。

在这里插入图片描述

创建登录实例。(点击创建密钥对,输入个名称即可创建)

在这里插入图片描述

实例创建成功。

在这里插入图片描述

配置环境和依赖

丹摩平台已预置了调试好的代码库,可开箱即用,进入 JupyterLab 后,打开终端,首先拉取 CogVideo 代码的仓库。

wget http://file.s3/damodel-openfile/CogVideoX/CogVideo-main.tar

在这里插入图片描述

下载完成后解压缩CogVideo-main.tar,完成后进入 CogVideo-main 文件夹,输入安装对应依赖。

在这里插入图片描述

依赖安装好后,可以在终端输入 python,进入python环境。

输入代码进行测试:

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video

没有报错就说明依赖安装成功!输入quit()可退出 python。

在这里插入图片描述

模型与配置文件

除了配置代码文件和项目依赖,还需要上传 CogVideoX 模型文件和对应的配置文件。平台已为您预置了 CogVideoX 模型,您可内网高速下载。

cd /root/workspace
wget http://file.s3/damodel-openfile/CogVideoX/CogVideoX-2b.tar

在这里插入图片描述

下载完成后解压缩CogVideoX-2b.tar

tar -xf CogVideoX-2b.tar

解压后的效果图:

在这里插入图片描述

运行

进入CogVideo-main文件夹,运行test.py文件。

cd /root/workspace/CogVideo-main
python test.py

下面是test.py脚本的简单介绍:该脚本主要利用diffusers库中的CogVideoXPipeline模型。它首先加载一个已经预训练好的CogVideo模型,然后根据用户提供的详细文本描述(即提示词),生成与之对应的视频片段。

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video

# prompt里写自定义想要生成的视频内容
prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance."

pipe = CogVideoXPipeline.from_pretrained(
    "/root/workspace/CogVideoX-2b", # 这里填CogVideo模型存放的位置,此处是放在了数据盘中
    torch_dtype=torch.float16
).to("cuda")

# 参数do_classifier_free_guidance设置为True可以启用无分类器指导,增强生成内容一致性和多样性
# num_videos_per_prompt控制每个prompt想要生成的视频数量
# max_sequence_length控制输入序列的最大长度
prompt_embeds, _ = pipe.encode_prompt(
    prompt=prompt,
    do_classifier_free_guidance=True,
    num_videos_per_prompt=1,
    max_sequence_length=226,
    device="cuda",
    dtype=torch.float16,
)

video = pipe(
    num_inference_steps=50,
    guidance_scale=6,
    prompt_embeds=prompt_embeds,
).frames[0]

export_to_video(video, "output.mp4", fps=8)

这段代码的核心功能是轻松将文字转换为引人入胜的视频内容。无论您是想为创意项目增添动态元素,还是需要快速生成视觉素材,这个工具都能助您一臂之力。通过简单的文本输入,您就可以看到文字变成生动的视频画面。这种便捷的方式为视频创作开启了新的可能,让创作者能够在短时间内实现高质量的视频生成,大大拓展了创意表达的空间。

运行成功后,可以在 CogVideo-main 文件夹中找到对应 prompt 生成的 output.mp4 视频。

在这里插入图片描述

模型官方也提供了 webUIDemo,进入CogVideo-main文件夹,运行gradio_demo.py文件。

cd /root/workspace/CogVideo-main
python gradio_demo.py

通过丹摩平台提供的端口映射能力,把内网端口映射到公网,进入GPU 云实例页面,点击操作-更多-访问控制。

在这里插入图片描述

点击添加端口,添加7870端口。

在这里插入图片描述

添加成功后,通过访问链接即可访问到刚刚启动的 gradio 页面。

在这里插入图片描述

效果

A street artist, clad in a worn-out denim jacket and a colorful bandana, stands before a vast concrete wall in the heart, holding a can of spray paint, spray-painting a colorful bird on a mottled wall.

m jacket and a colorful bandana, stands before a vast concrete wall in the heart, holding a can of spray paint, spray-painting a colorful bird on a mottled wall.

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2238816.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CocosCreator 构建透明背景应用(最新版!!!)

文章目录 透明原理补充设置截图以及代码step1: electron-js mian.jsstep2:ENABLE_TRANSPARENT_CANVASstep3:SOLID_COLOR Transparentstep:4 Build Web phonestep5:package electron-js & change body background-color 效果图补充 透明原理 使用Cocos creator 做桌面应用开…

【H2O2|全栈】JS案例章节(三)——轮播图实现

目录 前言 开篇语 准备工作 需求 HTML和CSS 注意事项 原生JS实现 变量设置 方法设置 自动轮播与轮播销毁 翻页按钮 li点击切换指定图片 JQuery实现 变量设置 方法设置 自动轮播与轮播销毁 翻页按钮 li点击切换指定图片 结束语 前言 开篇语 本系列为短章节…

Vivado+Vscode联合打造verilog环境

一、Vivado下载安装 详细参考我另一篇文章: Vivado2022.2下载安装_fpga vivado下载-CSDN博客https://blog.csdn.net/weixin_61081689/article/details/143460790?spm1001.2014.3001.5501 二、Vscode下载安装 详细参考我另一篇文章: VscodeAnacond…

A20红色革命文物征集管理系统

🙊作者简介:在校研究生,拥有计算机专业的研究生开发团队,分享技术代码帮助学生学习,独立完成自己的网站项目。 代码可以查看文章末尾⬇️联系方式获取,记得注明来意哦~🌹 赠送计算机毕业设计600…

【软考】系统架构设计师-计算机系统基础(1):计算机硬件

知识点汇总 1、指令集 精简指令集RISC:寄存器,硬布线,效率高;复杂指令集CISC:微程序控制技术,效率低; 2、奇偶校验码:码距是2(出错位校验位),只…

掌握高级 SQL 技巧:提升数据查询和管理能力

📝个人主页🌹:一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 SQL(Structured Query Language)是处理和管理关系型数据库的重要工具。随着数据量的增加和业务需求的复杂…

从无音响Windows 端到 有音响macOS 端实时音频传输播放

以下是从 Windows 端到 macOS 端传输音频的优化方案,基于上述链接中的思路进行调整: Windows 端操作 安装必要软件 安装 Python(确保版本兼容且已正确配置环境变量)。安装 PyAudio 库,可通过 pip install pyaudio 命令…

Python小试牛刀:第一次爬虫,获取国家编码名称

使用场景: 需要初始化国家(地区表),字段有国家名称、国家编码等等。 解决方案: 使用requests发送请求,使用bs4解析得到的HTML,打开F12,查看元素,(可以Ctrl…

“倒时差”用英语怎么说?生活英语口语学习柯桥外语培训

“倒时差”用英语怎么说? “倒时差”,这个让无数旅人闻之色变的词汇,在英语中对应的正是“Jet Lag”。"Jet" 指的是喷气式飞机,而 "lag" 指的是落后或延迟。这个短语形象地描述了当人们乘坐喷气式飞机快速穿…

图书推荐 | Python金融大数据分析快速入门与案例详解(文末免费送书)

1、Python编程语言与金融大数据分析 随着信息技术的飞速发展,大数据分析技术应运而生,为各行各业带来了前所未有的变革。金融行业作为全球经济的核心,对数据十分依赖。因此,掌握大数据分析技术对于金融从业者来说具有重要的现实意…

易泊车牌识别相机:4S 店的智能之选

在当今数字化时代,科技的进步不断为各个行业带来更高效、便捷的解决方案。对于 4S 店来说,易泊车牌识别相机的出现,无疑为其运营管理带来了全新的变革。 一、易泊车牌识别相机的强大功能 易泊车牌识别相机以其卓越的性能和精准的识别能力&…

Docker平台搭建方法

Docker平台搭建方法 1.1在VMware中创建两个虚拟机,只需要1个网卡,连接192.168.200.0网络。 虚拟机分配2个CPU,2G内存,60G硬盘,主机名分别为server和client,IP地址分别为192.168.200.137和192.168.200.138。server节点还兼做regis…

云计算在教育领域的应用

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 云计算在教育领域的应用 云计算在教育领域的应用 云计算在教育领域的应用 引言 云计算概述 定义与原理 发展历程 云计算的关键技…

紫光展锐携手上赞随身Wi-Fi,让5G触手可及

近年来,随着各类移动应用层出不穷,人们对随时随地上网的需求日益增强,随身 Wi-Fi 设备以其便捷性、灵活性和相对较低的成本,成为用户满足办公、社交、娱乐等多元化需求的重要工具。5G技术的逐步普及为随身Wi-Fi市场注入了新的活力…

Spring资源加载模块,原来XML就这,活该被注解踩在脚下 手写Spring第六篇了

这一篇让我想起来学习 Spring 的时&#xff0c;被 XML 支配的恐惧。明明是写Java&#xff0c;为啥要搞个XML呢&#xff1f;大佬们永远不知道&#xff0c;我认为最难的是 XML 头&#xff0c;但凡 Spring 用 JSON来做配置文件&#xff0c;Java 界都有可能再诞生一个扛把子。 <…

【C++】AVL树的了解和简单实现

目录 AVL树的概念 AVL树介绍 平衡因子 AVL树的插入 平衡因子的更新 【1】平衡因子为0 【2】平衡因子为1/-1 【3】平衡因子为2/-2 选择的处理 旋转的原则 右单旋 具体的三种情况&#xff1a; ​编辑 所有情况的概念图&#xff1a; 对于父亲指针的处理 &…

使用 PageHelper 在 Spring Boot 项目中实现分页查询

目录 前言1. 项目环境配置1.1 添加 PageHelper 依赖1.2 数据库和 MyBatis 配置 2. 统一的分页响应类3. 使用 PageHelper 实现分页查询3.1 Service 层分页查询实现3.2 PageHelper 分页注意事项 4. 控制层调用示例5. 常见问题与解决方案5.1 java.util.ArrayList cannot be cast t…

丹摩征文活动 | 丹摩智算:大数据治理的智慧引擎与实践探索

丹摩DAMODEL&#xff5c;让AI开发更简单&#xff01;算力租赁上丹摩&#xff01; 目录 一、引言 二、大数据治理的挑战与重要性 &#xff08;一&#xff09;数据质量问题 &#xff08;二&#xff09;数据安全威胁 &#xff08;三&#xff09;数据管理复杂性 三、丹摩智算…

彻底理解ARXML中的PDU

文章目录 一、DBC报文信号的发送二、ARXML报文信号的发送2.1 什么是PDU2.2 PDU的类型2.3 Container-I-PDU的发送 三、小结 在CANFD支持可变速率和更大的数据长度&#xff08;64字节&#xff09;的情况下&#xff0c;可以使用DBC和ARXML两种数据库格式来进行报文通信&#xff0c…

探索MoviePy:Python视频编辑的瑞士军刀

文章目录 &#x1f3ac; 探索MoviePy&#xff1a;Python视频编辑的瑞士军刀第一部分&#xff1a;背景介绍第二部分&#xff1a;MoviePy是什么&#xff1f;第三部分&#xff1a;如何安装MoviePy&#xff1f;第四部分&#xff1a;MoviePy的基本函数使用方法1. 视频剪辑2. 视频拼接…