总结目前开源的视频生成/视频编辑大模型

news2025/1/19 20:17:11

Diffusion Models视频生成-博客汇总

前言:随着Sora的爆火,视频生成和视频编辑受到了越来越多的关注。这篇博客总结一下目前开源的视频生成和视频编辑的大模型,并分析他们各自的优缺点,以及在自己进行科研任务或者工作中应该如何选用对应的开源模型,希望能给从事这一领域研究和使用的小伙伴们帮助。

目录

Open-Sora Plan

因果视频VAE

模型结构

训练细节

推理技巧

数据构建

Stable Video Diffusion

Open-Sora

ModelScope T2V

AnimateDiff

VideoCraft

VideoComposer

DynamiCrafter


Open-Sora Plan

https://github.com/PKU-YuanGroup/Open-Sora-Plan/tree/main

相比之前的视频生成模型,Open-Sora-Plan v1.0.0 有以下的改进:

  1. CausalVideoVAE 高效的训练与推理。用 4×8×8 的对视频进行时间和空间的压缩。
  2. 图片视频联合训练提升质量。 CasualVideoVAE 视觉将首帧图像,天然支持同时编码图像和视频。这允许扩散模型提取更多时空细节来提高质量。

Open-Sora-Plan v1.0.0支持图片视频联合训练。

因果视频VAE

模型结构

因果VAE架构继承了稳定扩散图像VAE。为了保证图片VAE的预训练权重可以无缝应用到视频VAE中,模型结构采取如下设计:

  1. CausalConv3D : 将Conv2D 转变成CausalConv3D 可以实现图片和视频的联合训练。 CausalConv3D 对第一帧进行特殊处理,因为它无法访问后续帧。更多细节,请参考#145

  2. 初始化:将Conv2D初始化Conv3D常用的方法有两种:平均初始化和中心初始化。但是我们采用了特定的初始化方法(尾部初始化)。这种初始化方法确保模型不需要训练任何就能够直接重建图像,甚至视频。

训练细节

我们展示了17×256×256下两种不同初始化方法的损失曲线。黄色曲线代表使用尾部初始化的损失,而蓝色曲线对应中心初始化的损失。如图所示,尾部初始化在损失曲线上表现出来更好的性能。此外,我们发现中心初始化会导致错误累积,导致长时间内崩溃。

推理技巧

尽管训练Diffusion中VAE始终是冻结的,我们仍然无法负载CasualVideoVAE的花销。在我们的实验中,80G的显着只存能够在半精度下推理一个256×512×512或32×1024×1024的视频,这限制了我们划分更长更高清的视频。因此我们采用平铺卷积,能够以几乎恒定的内存推理无论何时长或无论分辨率的视频。

数据构建

我们定义高质量的视频数据集包括两个核心原则:(1) 不与内容无关的水印。(2) 高质量的文本注释。

对于法则1,我们从开源网站(CC0协议)爬取了大约40k视频:1234个来自mixkit,7408个来自pexels,31616个来自pixabay。我们根据Panda70M提供的场景转换剪切脚本将这些视频大概差不多434k 视频剪辑。事实上,根据我们的剪切结果,从这些网上爬取的 99% 的视频都是单一的场景。此外,我们发现爬取的数据中超过 60% 为风景相关视频。更多细节可以在这里找到。

对于2,很难有大量的高质量的文本注释能够从网上直接抓取因此。我们用成熟的图片标注模型来获取高质量的稠密描述。我们对2个多模态大模型进行消融实验:ShareGPT4V-Captioner-7B和LLaVA-1.6-34B。原先是专门用于制作文本注释的模型实验,而晚上是一个通用的多模态大模型。在我们的消融之后,他们在标题中的表现大约。但是他们推理速度在A800上差距很大:ShareGPT4V-Captioner-7B的批量大小为12的40s/it,ShareGPT4V-Captioner-7B的批量大小为1的15s/it。我们开源所有的文本注释和原视频。

Stable Video Diffusion

https://github.com/Stability-AI/generative-models

我们提出了Stable Video Diffusion——一种用于高分辨率、最先进的文本到视频和图像到视频生成的潜在视频扩散模型。最近,通过插入时间层并在小型、高质量的视频数据集上微调它们,将训练用于 2D 图像合成的潜在扩散模型转化为生成视频模型。然而,文献中的训练方法差异很大,该领域尚未同意 cu-* 同等贡献的统一策略。评级视频数据。在本文中,我们确定并评估了三种不同的阶段,以成功训练视频ldm:文本到图像预训练、视频预训练和高质量的视频微调。此外,我们展示了精心策划的预训练数据集生成高质量视频的必要性,并提出了一个系统管理过程来训练一个强大的基础模型,包括字幕和过滤策略。然后,我们探讨了微调基础模型对高质量数据的影响,并训练了一个与闭源视频生成竞争的文本到视频模型。我们还表明,我们的 base1 模型为下游任务提供了强大的运动表示,例如图像到视频生成以及对相机运动特定 LoRA 模块的适应性。最后,我们证明了我们的模型提供了强大的多视图 3D 先验,可以作为微调多视图扩散模型的基础,该模型以前馈方式联合生成对象的多个视图,在其计算预算的一小部分上优于基于图像的方法。

Open-Sora

https://github.com/hpcaitech/Open-Sora

Open-Sora项目是一项致力于高效制作高质量视频,并使所有人都能使用其模型、工具和内容的计划。 通过采用开源原则,Open-Sora 不仅实现了先进视频生成技术的低成本普及,还提供了一个精简且用户友好的方案,简化了视频制作的复杂性。 通过 Open-Sora,我们希望更多开发者一起探索内容创作领域的创新、创造和包容。

ModelScope T2V

GitHub - modelscope/modelscope: ModelScope: bring the notion of Model-as-a-Service to life.

ModelScopeT2V集成了时空块,以确保一致的帧生成和平滑的运动转换。该模型可以适应训练和推理过程中不同帧数的变化,使其适用于图像文本和视频文本数据集。ModelScopeT2V集合了三个组件(即VQGAN、文本编码器和去噪UNet),总共包含17亿个参数,其中5亿个参数专用于时间能力。该模型在三个评估指标上展示了优于最先进方法的性能。

AnimateDiff

https://github.com/guoyww/AnimateDiff

随着文本到图像模型(如Stable Diffusion)和相应的个性化技术(如LoRA和DreamBooth)的发展,每个人都可以以可承受的成本将自己的想象力表现为高质量的图像。因此,对图像动画技术有很大的需求,以进一步将生成的静止图像与运动动力学相结合。在这个项目中,我们提出了一个有效的框架来一次性地对大多数现有的个性化文本到图像模型进行动画处理,从而节省了特定于模型的调优工作。

提出的框架的核心是将新初始化的运动建模模块附加到基于冻结的文本到图像模型中,然后在视频剪辑上对其进行训练,以提取合理的运动。一旦训练,通过简单地注入这个运动建模模块,所有的个性化版本派生自同一基础一个很容易成为文本驱动模型,产生多样化和个性化的动画图像。

VideoCraft

https://github.com/VideoCrafter/VideoCrafter

VideoCrafter是一个用于制作视频内容的开源视频生成和编辑工具箱。它目前包括Text2Video和Image2Video模型

VideoComposer

https://github.com/ali-vilab/videocomposer

对可控性的追求作为视觉内容创作的更高标准,在可定制图像合成方面取得了显著进展。然而,由于时间动态的巨大变化和跨帧时间一致性的要求,实现可控视频合成仍然是一个挑战。基于合成生成的范例,这项工作提出了VideoCompoer,它允许用户灵活地使用文本条件、空间条件和更重要的时间条件来合成视频。具体来说,考虑到视频数据的特点,我们引入压缩视频的运动矢量作为明确的控制信号,为时间动态提供指导。此外,我们开发了一个时空条件编码器(STC-encoder),作为一个统一的接口,有效地结合时序输入的空间和时间关系,使模型能够更好地利用时间条件,从而实现更高的帧间一致性。大量的实验结果表明,VideoCompoer能够以各种形式同时控制合成视频中的空间和时间模式,例如文本描述、草图序列、参考视频,甚至是简单的手工制作动作。代码和模型将公开提供。

DynamiCrafter

https://github.com/Doubiiu/DynamiCrafter

动画的静态图像提供了一个引人入胜的视觉体验。传统的图像动画技术主要集中在用随机动力学(例如云和流体)或特定领域的运动(例如人的头发或身体运动)来动画自然场景,因此限制了它们对更一般的视觉内容的适用性。为了克服这一限制,我们探索了开放域图像的动态内容合成,将其转换为动画视频。关键思想是通过将图像纳入生成过程作为指导,利用文本到视频扩散模型的运动先验。给定图像,我们首先使用查询转换器将其投影到与文本对齐的富上下文表示空间中,这有助于视频模型以兼容的方式消化图像内容。然而,一些视觉细节仍然难以在最终的视频中保留下来。为了补充更精确的图像信息,我们进一步通过将完整图像与初始噪声连接起来,将其输入扩散模型。实验结果表明,该方法可以产生视觉上令人信服的、更符合逻辑和自然的运动,并且与输入图像的符合性更高。对比评估表明,我们的方法明显优于现有的竞争对手。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1682233.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux网络配置全攻略:解读/etc/network/interfaces文件的精髓

欢迎来到我的博客,代码的世界里,每一行都是一个故事 Linux网络配置全攻略:解读/etc/network/interfaces文件的精髓 前言文件结构与基本概念配置网络接口的常用参数高级网络配置技巧实用工具与调试技巧实战案例与最佳实践 前言 在我们的日常生…

PM入门必备| 怎么写产品分析报告?

​小陪老师,产品经理是做些什么的呢?我去面试应该准备些什么呢? A: 首先要分清产品经理的类型,产品的面试需要准备的一般有Axure原型,需求文档,产品分析报告等,有些甚至需要展示项目经验。 tea…

“遥遥领先” time.sleep(6)?

日前,在一场万众瞩目的发布会上,华为自信满满地揭开了其大模型文生图技术的神秘面纱。然而,演示期间一个不经意间闪现的time.sleep(6)代码片段,如同投入平静湖面的一颗石子,激起了业界对于演示真实性与技术底蕴的热烈探…

Process Monitor下载安装使用教程(图文教程)超详细

「作者简介」:2022年北京冬奥会网络安全中国代表队,CSDN Top100,就职奇安信多年,以实战工作为基础对安全知识体系进行总结与归纳,著作适用于快速入门的 《网络安全自学教程》,内容涵盖系统安全、信息收集等…

Ansys Mechanical|中远程点的Behavior该如何设置?

Remote point是ANSYS mechanical中的一种常见节点自由度耦合建模形式,在转动装配体中的连接转动副、或者在施加远端约束及远端载荷的时候,我们经常用到远端单元来耦合一个面或者一条线。例如销轴似的滚动摩擦连接,如果我们希望将两个物体通过…

每日学习 - APK解包

文章目录 APK的定义解析APKAPK 是什么每个文件的意义classes.dexAndroidManifest.xmlassetslibres & resources.arsc 反编译工具apktool apk解包 秒了~ APK的定义 APK(Android Package Kit)是用于部署和分发Android操作系统上应用程序的软件包格式。…

ASTM通信协议校验和计算方法

Lis通信接口开发 <STX> FN <Frame> <ETB>or<ETX> <CS><CR> <LF> 其中&#xff1a; <STX>&#xff1a;起始帧头&#xff08;0x02&#xff09; FN&#xff1a;帧号&#xff08;范围0&#xff5e;7&#xff0c;1&#xff5e;7完…

Winform自定义控件 —— 开关

在开始阅读本文之前&#xff0c;如果您有学习创建自定义控件库并在其他项目中引用的需求&#xff0c;请参考&#xff1a;在Visual Studio中创建自定义Winform控件库并在其他解决方案中引用https://blog.csdn.net/YMGogre/article/details/126508042 0、引言 由于 Winform 框架并…

Python代码:九、十六进制数字的大小

1、题目 计算的世界&#xff0c;除了二进制与十进制&#xff0c;使用最多的就是十六进制了&#xff0c;现在使用input读入一个十六进制的数字&#xff0c;输出它的十进制数字是多少&#xff1f; 2、代码 import sysnum16 input() num10 int(num16,16) print(num10) 3、结…

GAN实例基于神经网络

目录 1.前言 2.实验 1.前言 需要了解GAN的原理查看对抗生成网络&#xff08;GAN&#xff09;&#xff0c;DCGAN原理。 采用手写数字识别数据集 2.实验 import argparse import os import numpy as np import mathimport torchvision.transforms as transforms from torchvi…

创维汽车总经理培训正式开展,打造新能源汽车销售的精英战队

在新能源汽车市场竞争日益激烈的背景下&#xff0c;创维汽车为加强核心竞争力&#xff0c;于2024年5月15日至17日在河南省安阳市举办了为期三天的总经理岗位认证培训。此次培训旨在强化经销商店端负责人们在新能源汽车销售与运营方面的能力&#xff0c;指明未来发展思路&#x…

(5.4–5.10)投融资周报|共38笔公开投融资事件,基础设施领跑,游戏融资活跃

5月4日至5月10日期间&#xff0c;加密市场共发生38笔投融资事件&#xff0c;其中基础设施18笔、游戏5 笔、其他4 笔、DeFi 3笔、Depin 3 笔、CeFi 2笔、NFT2笔、 RWA1笔。 本周千万美金以上融资有5笔&#xff1a; 加密货币交易公司Arbelos完成了一轮2800 万美元的种子轮融资&…

【极简】docker常用操作

镜像images是静态的 容器container是动态的&#xff0c;是基于镜像的&#xff0c;类似于一个进程。 查看docker images&#xff1a; docker images 或者docker image ls 查看docker container情况&#xff1a;docker ps -a&#xff0c;-a意思是--all 运行一个container: doc…

Python程序设计 文件处理(二)

实验十二 文件处理 第1关&#xff1a;读取宋词文件&#xff0c;根据词人建立多个文件 读取wjcl/src/step1/宋词.txt文件&#xff0c; 注意&#xff1a;宋词文件的标题行的词牌和作者之间是全角空格&#xff08;" ")可复制该空格 在wjcl/src/step3/cr文件夹下根据每…

【WEEK12】 【DAY3】整合MyBatis框架【中文版】

2024.5.15 Wednesday 目录 13.整合MyBatis框架13.1.整合测试13.1.1.新建springboot-05-mybatis项目13.1.2.导入MyBatis需要的依赖13.1.3.配置数据库连接信息13.1.3.1.修改application.properties13.1.3.2.修改Springboot05MybatisApplicationTests.java并测试 13.1.4.新建pojo文…

Spring使用小技巧--排除bean无法被调用问题

我们在项目中可能由于项目的复杂性&#xff0c;创建了个spring的bean&#xff0c;但是调用却出现报错&#xff0c;显示无法找到该bean的异常。 这个时候我们就需要找到出错的原因&#xff0c;很多人往往会忽略的一点就是&#xff0c;你所创建的bean有可能并没有被加载到ioc容器…

【Linux系统编程】第十九弹---进程状态(下)

​​​​​​​ ✨个人主页&#xff1a; 熬夜学编程的小林 &#x1f497;系列专栏&#xff1a; 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】 目录 1、僵尸进程 2、孤儿进程 3、运行状态 4、阻塞状态 5、挂起状态 6、进程切换 总结 1、僵尸进程 上一弹…

算法练习第22天|39. 组合总和、40.组合总和II

39. 组合总和 39. 组合总和 - 力扣&#xff08;LeetCode&#xff09;https://leetcode.cn/problems/combination-sum/description/ 题目描述&#xff1a; 给你一个 无重复元素 的整数数组 candidates 和一个目标整数 target &#xff0c;找出 candidates 中可以使数字和为目标数…

Unity Mirror 从入门到入神(一)

Mirror从入门到成神 文章目录 Mirror从入门到成神简介NetworkClientRegisterPrefabConnect (string address)Disconnect ()activeactiveHost NetworkServerSpawn 简介 Mirror是一个unity网络同步框架&#xff0c;基于MonoBehaviour生命周期的回调的基础上进行数值的同步&#…

一个强大的在线解析网站,无需登录,只用把视频链接粘贴进去就能免费解析下载视频。

TiQu.cc是什么&#xff1f; TiQu.cc是一个强大的在线工具&#xff0c;让用户可以从包括Facebook、VK、Twitter、Tiktok、Instagram等在内的100多个平台下载他们喜爱的视频。不论是音乐、电视节目、电影、短片还是个人上传的内容&#xff0c;TiQu.cc都可以帮助您随时随地以离线…