MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX

news2024/11/15 8:46:28

图片

CogVideoX的体验地址:https://bigmodel.cn/console/trialcenter?modelCode=cogvideox

     自2021年起,智谱 AI 技术团队便开始着手布局包括 text-2-img、text-2-video、img-2-text、video-2-text 在内的多模态模型,并陆续研发并开源了CogView、CogVideo、Relay Diffusion、CogVLM、CogVLM-Video等多个先进模型。近期,智谱 AI 正式开源新一代视频大模型——CogVideoX。

一、CogVideoX的核心技术特点如下:

       针对内容连贯性问题,智谱AI自主研发了一套高效的三维变分自编码器结构(3D VAE)。该结构能够将原始视频数据压缩至原始大小的2%,显著降低了视频扩散生成模型的训练成本和难度。结合3D RoPE位置编码模块,该技术有效提升了在时间维度上对帧间关系的捕捉能力,从而建立了视频中的长期依赖关系。

      在可控性方面,智谱AI打造了一款端到端的视频理解模型,该模型能够为大量视频数据生成精确且内容相关的描述。这一创新增强了模型对文本的理解和对指令的遵循能力,确保生成的视频更加符合用户的输入需求,并能够处理超长且复杂的prompt指令。

      模型采纳了一种将文本、时间、空间三维一体融合的transformer架构。该架构摒弃了传统的cross attention模块,创新性地设计了Expert Block以实现文本与视频两种不同模态空间的对齐,并通过Full Attention机制优化模态间的交互效果。

      CogVideoX 模型目前已在bigmodel.cn平台上线了,基于CogVideoX的产品「清影」(Ying)上线PC端,免费体验AI文本生成视频和图像生成视频的服务。

二、下面是使用bigmodel开放平台的体验示例:

2.1、图生视频

1)Prompt:城市中湖边上有一对情侣在缓慢散步

图片如下所示:

图片

生成的视频如下:

请参见:MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX

生成的效果不错,非常高清。

2.2、文生视频

1)Prompt:一位头发苍白的老人(主体)站在海边(环境描述)看日落(动作)

生成的视频如下:

 请参见:MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX

2)Prompt:特写镜头(镜头描述),清晨的微光(光线运用),两只鸳鸯在海面上嬉戏,鸳鸯是彩色羽毛(主体描述),背景国贸大厦(环境描述)。

 请参见:MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX

3)Prompt:小狗在空地上画画

 请参见:MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX

三、使用API生成视频

首先,需要在官网申请API Key,申请地址:https://bigmodel.cn

然后,使用如下脚本生成视频

from zhipuai import ZhipuAI
client = ZhipuAI(api_key="") # 请填写您自己的APIKey

response = client.videos.generations(
    model="cogvideox",
    prompt="小狗在空地上画画。"
)
print(response)

生成VideoObject对象,其中id为视频唯一识别号。

VideoObject(id='636617217207461558911210927746488763', model='cogvideox', video_result=None, task_status='PROCESSING', request_id='8911210927746488759')

接下来,使用上述生成的视频id抽取视频内容。

from zhipuai import ZhipuAI
client = ZhipuAI(api_key="") # 请填写您自己的APIKey

response = client.videos.retrieve_videos_result(
    id="636617217207461558911210927746488763"
)
print(response)

抽取视频内容后,会生成视频的url和其中一帧图片的url,具体如下所示:

VideoObject(id=None, model='cogvideox', video_result=[VideoResult(url='https://sfile.chatglm.cn/testpath/video/f0048f7d-e6ed-5cf9-810d-38f14631f9de_0.mp4', cover_image_url='https://sfile.chatglm.cn/testpath/video_cover/f0048f7d-e6ed-5cf9-810d-38f14631f9de_cover_0.png')], task_status='SUCCESS', request_id='8911210927746488759')

生成的视频,如下所示:

 请参见:MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX

生成的图片,如下图所示:

图片

总结:

       从图生视频和文生视频的效果来看,主体和主要动作都完美的生成了,而且非常高清。

       使用API调用的最大感受是响应速度非常快,几乎感觉不到延时,给智谱点赞👍。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2099574.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

0基础学习爬虫系列:Python环境搭建

1.背景 当前网络资源更新非常快,然后对应自己感兴趣的内容,每天盯着刷网站又太费时间。我在尝试借助Ai,搭建一套自己知识抓取更新提醒的系统,这样可以用极少的时间,关注到自己感兴趣的信息。 其实,这套逻辑…

C++使用日志库经验总结

1、log4cpp日志源文件路径设置 在 Visual Studio 中,C 项目的日志格式可以通过设置项目的属性来调整。如果你想要使用完整路径来显示诊断消息,可以在项目属性中的“C/C”选项卡下的“高级”属性页中找到“使用完整路径”(/FC)选项…

幂等的通用实现方案

文章目录 一、幂等的概念1.1 什么是幂等1.2 举个例子 二、幂等问题的解决方案2.1 准备:先添加2张表(账户表、充值订单表)2.2 方案1:update时将status0作为条件判断解决原理源码 2.3 方案2:乐观锁原理源码 2.4 方案3&am…

FMCW雷达介绍以及FMCW雷达测距

调频连续波雷达测距 FMCW radar: Frequency Modulated Continous Wave信号表示形式 调频连续波形式(频域/时域) 发射信号和接收信号 数学表达式 测距模型 该文章详细介绍了单target和多target场景下的FMCW雷达测距!!!…

Datawhale X 李宏毅苹果书 AI夏令营 Task3打卡

实践方法论 1 模型偏差 1.1 基本概念 模型偏差(Model Bias),也称为“偏差误差”或“系统误差”,是指模型预测值与真实值之间的差异,这种差异并不是由随机误差引起的,而是由模型本身的结构或假设导致的。模…

如何在 Raspberry Pi 5 上设置 Raspberry Pi AI Kit

本指南将帮助您在 Raspberry Pi 5 上安装 Raspberry Pi AI Kit。这将使您能够使用 Hailo AI 神经网络加速器运行 rpicam-apps 摄像头演示。 如果您在开始安装人工智能套件之前需要帮助,本指南提供了安装过程的分步图片。 安装人工智能套件:https://www.…

SGM41511电源管理芯片与STM32L496通讯源码虚拟I2C协议实测成功读写cubemx设置裸机和freertos操作系统源码通用

不用它的I2C设置,容易出错不通讯,只打开GPIO输出就可以; 如果是RTOS的话请打开系统定时器提供参考时间基准,那个定时器都行; 以下是经过验证的代码,同样适用于SGM同类系列电源管理芯片; 准备好…

HTML5好看的花店商城源码1

文章目录 1.设计来源1.1 主界面1.2 界面效果11.3 界面效果21.4 界面效果31.5 界面效果41.6 界面效果51.7 界面效果61.8 界面效果7 2.效果和源码2.1 动态效果2.2 源代码 源码下载万套模板,程序开发,在线开发,在线沟通 作者:xcLeigh…

【补-网络安全】日常运维(二)终端端口占用排查

文章目录 一、利用ipconfig、netstat 命令行统计二 、策略封禁IP 引言:检查频繁,第一步我们梳理完资产,第二步应该对资产终端进行一个排查,诊断把脉,了解清楚系统的端口占用及开放情况 一、利用ipconfig、netstat 命令行统计 1.先用ipconfig定位该终端的IP地址 2.明确IP地址后…

9.2(C++ Day 4)

一、作业 完成算术运算符重载&#xff0c;实现至少两个运算符的成员函数和全局函数的版本 1.&#xff08;1&#xff09;成员函数实现算术运算符&#xff08;-&#xff09;重载 const 类名 operator#(const 类名 &R) const {} #include <iostream>using namespac…

三级_网络技术_56_应用题

一、 请根据下图所示网络结构回答下列问题。 1.填写RG的路由表项。 目的网络/掩码长度输出端口__________S0&#xff08;直接连接&#xff09;__________S1&#xff08;直接连接&#xff09;__________S0__________S1__________S0__________S1 (2)在不改变路由表项的前提下&…

mysql安装和使用

文章目录 下载mysqlmysql安装检验mysqlpython、vscode插件 下载mysql 进入官网&#xff0c;选择下载。mysql官网是 https://www.mysql.com/ 。 选择社区版 选择windows版 选择离线包 让你登陆&#xff0c;我们谢绝登录 ojbk。开始下载。 mysql安装 选自定义安装。 “Server…

「漏洞复现」WookTeam searchinfo SQL注入漏洞

0x01 免责声明 请勿利用文章内的相关技术从事非法测试&#xff0c;由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失&#xff0c;均由使用者本人负责&#xff0c;作者不为此承担任何责任。工具来自网络&#xff0c;安全性自测&#xff0c;如有侵权请联系删…

用Python导入CSV和Excel表格数据到Word表格

在不同格式的文档之间进行数据传输是非常重要的操作。例如将CSV和Excel表格数据导入到Word文档中&#xff0c;不仅可以实现数据的有效整合与展示&#xff0c;还能极大地提升工作效率和文档的专业性。无论是生成报告、制作统计分析还是编制业务文档&#xff0c;熟练掌握用Python…

Java简单实现服务器客户端通信

目录 Socket 概述Socket 通信模型Socket 编程流程DEMO服务器端客户端 在Java中实现服务器和客户端的通信&#xff0c;可以使用Java Socket编程。 Socket 概述 Socket 指的是“插座”&#xff0c;是应用层与传输层之间的桥梁&#xff0c;用于在网络上进行双向通信。在 Socket …

Ceph-deploy搭建ceph集群

Ceph介绍及安装 一、Ceph介绍1.1 ceph说明1.2 Ceph架构1.3 Ceph逻辑组织架构1.3.1 Pool1.3.2 PG1.3.3 PGP 二、部署Ceph集群2.1 部署方式&#xff1a;2.2 服务器准备monitor、mgr、radosgw&#xff1a;MDS&#xff08;相对配置更高一个等级&#xff09;OSD节点 CPU&#xff1a;…

文献阅读(218)EHP

题目&#xff1a;A Research Retrospective on the AMD Exascale Computing Journey时间&#xff1a;2023会议&#xff1a;ISCA研究机构&#xff1a;AMD 题目&#xff1a;Realizing the AMD Exascale Heterogeneous Processor Vision时间&#xff1a;2024会议&#xff1a;ISCA研…

【人工智能 | 机器学习】神经网络

文章目录 1. 神经元模型2. 感知机与多层网络3. 误差逆传播算法&#xff08;BP)4. 全局最小与局部极小5. 其他常见神经网络6. 深度学习 1. 神经元模型 神经网络&#xff1a;具有适应性的 简单单元&#xff08;神经元&#xff09;组成的广泛并行互连的网络&#xff0c;其组织能够…

微服务组件----网关

小编目前大一&#xff0c;刚开始着手学习微服务的相关知识&#xff0c;小编会把它们整理成知识点发布出来。我认为同为初学者&#xff0c;我把我对知识点的理解以这种代码加观点的方式分享出来不仅加深了我的理解&#xff0c;或许在某个时候对你也有所帮助&#xff0c;同时也欢…

KTV包房开台必点套餐--SAAS本地化及未来之窗行业应用跨平台架构

一、源码 var 未来之窗app_通用ID"";CyberWin_Dialog.layer(url,{type:"url",title:title,move:false,width:"700px",height:"400px",id:未来之窗app_通用ID,mask:true,align:59,hideclose:false}); 二、解释 以下是用修仙手法为您改…