视频扩散模型介绍 Video Diffusion Models Introduction

视频扩散模型介绍 Video Diffusion Models Introduction

news2026/2/15 14:59:58

视频扩散模型介绍 Video Diffusion Models Introduction

Diffusion 扩散模型中的一些概念
- DDPM
- DDIM
- CLIP
- Latent Diffusion
- Stable Diifusion
- LoRA
- DreamBooth
- ControlNet
视频生成
- 评估标准
- - 图片层面
  - 视频层面
- 前人的工作
- - Make-A-Video
  - Align your Latents
- 开源视频生成模型
- - ModelScopeT2V（阿里）
  - Show-1
  - VideoCrafter（tx）
  - LaVie
  - Stable Video Diffusion
- 高效的生成方法
- - AnimateDiff
  - Text2Video-Zero 无需训练
  - 其他
- Storyboard
- - VisorGPT
  - VideoDirectorGPT
  - Long-form Video Prior
  - 其他工作
- 长视频生成
- - NUWA-XL
Video Editing
- Tuning-based
- - Tune-A-Video
  - Dreamix
- Training-Free
- - TokenFlow
  - FateZero
  - 其他工作
- Controlled Editing
- - Gen-1
  - Pix2Video
  - ControlVideo
  - VideoControlNet
  - CCEdit
  - VideoComposer
  - 其他工作
  - Pose Control姿态控制
  - - MagicAnimate
  - PointControl
- 3D-Aware

Diffusion 扩散模型中的一些概念

DDPM

扩散过程和去噪过程
在这里插入图片描述

在这里插入图片描述

去噪器，预测出来噪声然后与原始图片相减，得到干净的图片

在这里插入图片描述
当然，去噪过程是逐步的，所以减去之后会重新加上“平均噪声”

DDIM

跳步
在这里插入图片描述
DDIM和DDPM作对比：

在这里插入图片描述

CLIP

在这里插入图片描述

Latent Diffusion

不是直接在像素空间进行操作，多了编码解码，在latent空间操作加噪和去噪过程
在这里插入图片描述

Stable Diifusion

在这里插入图片描述

LoRA

微调
在这里插入图片描述

DreamBooth

在这里插入图片描述

ControlNet

在这里插入图片描述

在这里插入图片描述

视频生成

一些已有的工作分类
在这里插入图片描述
3D可以分成（2+1），就是从图片生成到视频生成的一种思路

早期工作：
在这里插入图片描述
解码器+插帧+超分辨率模块

评估标准

在这里插入图片描述

图片层面

语义相似度
在这里插入图片描述

像素相似度
在这里插入图片描述

视频层面

视频生成的质量和多样性
在这里插入图片描述

一致性
在这里插入图片描述

组合评估
在这里插入图片描述

前人的工作

Make-A-Video

在这里插入图片描述

Align your Latents

在这里插入图片描述

开源视频生成模型

ModelScopeT2V（阿里）

在这里插入图片描述

可变temporal attention
在这里插入图片描述

下面是模型效果，ZeroScope是从ModelScope 用10K的小数据集fine-tune出来的
在这里插入图片描述

Show-1

在这里插入图片描述

VideoCrafter（tx）

在这里插入图片描述

LaVie

在这里插入图片描述

Stable Video Diffusion

数据处理
在这里插入图片描述

训练过程：
先初始化参数

训练过程

fine-tune阶段
在这里插入图片描述

高效的生成方法

AnimateDiff

把文生图片模型转化为文生视频模型而不需要单独train

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Text2Video-Zero 无需训练

动机：如何在不用fine-tune的情况下使用Stable Diffusion

做法：给定第一帧noise后，人为定义全局scene motion

在这里插入图片描述

其他

在这里插入图片描述

Storyboard

前面生成的视频都是几秒钟长度的视频，如果时间要增长，有哪些工作做了

文本->电影脚本->视频

VisorGPT

在这里插入图片描述

VideoDirectorGPT

在这里插入图片描述

Long-form Video Prior

在这里插入图片描述

其他工作

在这里插入图片描述

长视频生成

NUWA-XL

在这里插入图片描述

Video Editing

在这里插入图片描述

Tuning-based

Tune-A-Video

在这里插入图片描述

Sparse-Casual的attention方式节约内存空间，只跟第一帧和前一帧做attention
在这里插入图片描述

Dreamix

在这里插入图片描述

在这里插入图片描述

Training-Free

TokenFlow

在这里插入图片描述

FateZero

在这里插入图片描述

其他工作

在这里插入图片描述

Controlled Editing

Gen-1

在这里插入图片描述

Pix2Video

Control场景里也有不需要训练的方法
在这里插入图片描述

ControlVideo

另外一种不需要训练的方法
在这里插入图片描述

VideoControlNet

CCEdit

在这里插入图片描述

VideoComposer

在这里插入图片描述

其他工作

在这里插入图片描述

Pose Control姿态控制

MagicAnimate

在这里插入图片描述

PointControl

比如图中想把猫换成狗但是背景保留

在这里插入图片描述

只在关键帧标注
在这里插入图片描述

3D-Aware

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1496278.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

MATLAB KL变换

MATLAB KL变换

1. 原理 KL变换步骤： 1.求样本X的协方差矩阵R 2.求 R的特征值λ。选取前d个较大的特征值。 3.计算d个特征值对应的特征向量，归一化后构成变换矩阵U。 4.对{X}中每一个X进行K-L变换，得到变换后向量YU’ * X，d维向量Y就是…

阅读更多...

UE4 Niagara 关卡3.4官方案例解析

UE4 Niagara 关卡3.4官方案例解析

Texture sampling is only supported on the GPU at the moment.(纹理采样目前仅在GPU上受支持) 效果：textures can be referenced within GPU particle systems。this demo maps a texture to a grid of particles（纹理可以在GPU粒子系统中被引用这个演…

阅读更多...

Android 恢复出厂设置后如何恢复短信？5 个值得尝试的方法

Android 恢复出厂设置后如何恢复短信？5 个值得尝试的方法

对于 Android 用户来说，安全问题、定制工作或软件问题等不可预见的情况可能会促使需要采取严厉措施：恢复出厂设置。这种重置虽然通常是必要的，但可能会导致重要数据（包括短信）的无意丢失。当您面临恢复这些丢失消息的…

阅读更多...

数据分析-Pandas数据分组箱线图

数据分析-Pandas数据分组箱线图

数据分析-Pandas数据分组箱线图数据分析和处理中，难免会遇到各种数据，那么数据呈现怎样的规律呢？不管金融数据，风控数据，营销数据等等，莫不如此。如何通过图示展示数据的规律？ 数据表&#x…

阅读更多...

SpringBoot 多环境的配置（附截图）

SpringBoot 多环境的配置（附截图）

文章目录概要整体配置流程配置详细说明技术细节小结概要多环境开发在实际项目开发中，一般需要针对不同的运行环境，如开发环境、测试环境、生产环境等，每个运行环境的数据库...等配置都不相同，每次发布测试、更新生产都需要手…

阅读更多...

基于SpringBoot+Vue+ElementUI+Mybatis前后端分离管理系统超详细教程（一）

基于SpringBoot+Vue+ElementUI+Mybatis前后端分离管理系统超详细教程（一）

Vue.js 是一个流行的前端框架，用于构建用户界面和单页应用程序。Vue 2 是其第二个主要版本，它提供了数据绑定、组件化、虚拟DOM等核心特性。要搭建一个 Vue 2 的工程化项目，可以遵循以下步骤： 一、前端环境搭建 （一&a…

阅读更多...

【小黑嵌入式系统第十八课】结课总结（二）——软件部分（系统架构调试测试运行系统软件设计）

【小黑嵌入式系统第十八课】结课总结（二）——软件部分（系统架构调试测试运行系统软件设计）

上一课： 【小黑嵌入式系统第十七课】结课总结（一）——硬件部分（系统&总线&处理器&外设&通信） 前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分…

阅读更多...

CKA考试必备：解锁Pod封装多容器的高级技巧！

CKA考试必备：解锁Pod封装多容器的高级技巧！

往期精彩文章 : 提升CKA考试胜算：一文带你全面了解RBAC权限控制！揭秘高效运维：如何用kubectl top命令实时监控K8s资源使用情况？CKA认证必备：掌握k8s网络策略的关键要点提高CKA认证成功率，CKA真题中的节点维…

阅读更多...

Python 爬虫快速入门

Python 爬虫快速入门

1. 背景最近在工作中有需要使用到爬虫的地方，需要根据 Gitlab Python 实现一套定时爬取数据的工具，所以借此机会，针对 Python 爬虫方面的知识进行了学习，也算 Python 爬虫入门了。需要了解的知识点： Python 基础语…

阅读更多...

three.js如何实现简易3D机房？（三）显示信息弹框/标签

three.js如何实现简易3D机房？（三）显示信息弹框/标签

接上一篇： three.js如何实现简易3D机房？(二）模型加载的过渡动画：http://t.csdnimg.cn/onbWY 目录七、创建信息展示弹框 1.整体思路 （1）需求： （2）思路：…

阅读更多...

猜猜:哪句古诗与古代女子妆容有关？2024.3.8蚂蚁庄园今日答案：金盆水里拨红泥

猜猜:哪句古诗与古代女子妆容有关？2024.3.8蚂蚁庄园今日答案：金盆水里拨红泥

蚂蚁庄园是一款爱心公益游戏，用户可以通过喂养小鸡，产生鸡蛋，并通过捐赠鸡蛋参与公益项目。用户每日完成答题就可以领取鸡饲料，使用鸡饲料喂鸡之后，会可以获得鸡蛋，可以通过鸡蛋来进行爱心捐赠。其中&#…

阅读更多...

Java 中创建线程多种方式介绍

Java 中创建线程多种方式介绍

在 Java 中，创建线程有多种方式，以下是最常见的四种： 1. **通过继承 Thread 类** 2. **通过实现 Runnable 接口** 3. **通过实现 Callable 接口** 4. **通过使用 Executor 框架** 每种方式都有其特点和适用场…

阅读更多...

ElasticSearch之通过search after和scroll解决深度分页问题

ElasticSearch之通过search after和scroll解决深度分页问题

写在前面通过from，size来进行分页查询时，如下： 当from比较大时会有深度分页问题，问题产生的核心是coordinate node需要从每个分片中获取fromsize条数据，当from比较大，整体需要获取的数据量也会比较大&am…

阅读更多...

【Java_JSON】如何从JSON数据中提取value值

【Java_JSON】如何从JSON数据中提取value值

如何从JSON数据中提取value值？ 首先将JSON数据转成字符串创建JSONObject 对象通过kv键值对的特性使用key值来获取value 值并输出结果：

阅读更多...

Redis（十七）分布式锁

Redis（十七）分布式锁

文章目录面试题分布式锁锁的种类分布式锁需要具备的条件和刚需分布式锁案例nginx分布式微服务部署，单机锁问题分布式锁注意事项lock/unlocklua脚本自研版的redis分布式锁搞定lua脚本可重入锁可重入锁种类可重入锁hset实现，对比setnx（重要&…

阅读更多...

Jmeter压测分配业务比例

Jmeter压测分配业务比例

在进行综合场景压测时，由于不同的请求，要求所占比例不同，如何实现呢？ 不同的请求，服务器对其处理能力不同，有的处理快，有的处理慢。真实模拟按比例进行并发： 在使用LR进行过类似…

阅读更多...

在winform中如何嵌入第三方软件窗体✨

在winform中如何嵌入第三方软件窗体✨

相关win32api的学习✨ SetParent [DllImport("user32.dll ", EntryPoint "SetParent")] private static extern IntPtr SetParent(IntPtr hWndChild, IntPtr hWndNewParent); //将外部窗体嵌入程序语法： HWND SetParent([in] H…

阅读更多...

windows关闭copilot预览版

windows关闭copilot预览版

如果用户不想在windows系统当中启用Copilot，可以通过以下三种方式禁用。第一种：隐藏Copilot 按钮右键点击任务栏，取消勾选“显示 Copilot（预览版）按钮”，任务栏则不再显示，用户可以通过快捷键…

阅读更多...

2024 年 AI 辅助研发趋势：从研发数字化到 AI + 开发工具 2.0，不止于 Copilot

2024 年 AI 辅助研发趋势：从研发数字化到 AI + 开发工具 2.0，不止于 Copilot

在上一年里，已经有不少的企业在工具链上落地了生成式 AI，结合我们对于这些企业的分析，以及最近在国内的一些 “新技术” 趋势，诸如于鸿蒙原生应用的初步兴起。从这些案例与趋势中，我们也看到了一些新的可能方向。结合…

阅读更多...

【C++】蓝桥杯必备算法竞赛常用STL万字总结

【C++】蓝桥杯必备算法竞赛常用STL万字总结

传送门⏬⏬⏬[方便查表] 🌟一、什么是STL？🌟二、为什么STL重要？✨1、原因✨2、STL的作用 🌟三、STL知识点总结✨0.使用说明书✨1、vector 【可变数组】✨2、pair [ x,y ]✨3、string【字符串】✨4、queue【队列】和pr…

阅读更多...

推荐文章

最新文章