哈工大华为提出ControlVideo:一种无需训练的可控视频生成方法

news2024/11/25 20:47:11

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【扩散模型和Transformer】交流群

导读

哈工大&华为云最新提出了一种可控的文本-视频生成方法ControlVideo,在无需训练的条件下,仅使用一张2080Ti就可以合成较长的高质量视频。

7f63ba6ce8c88de80eac583745af4270.png

正文

文本引导的扩散模型在图像合成领域已经取得了前所未有的成就。但如果想在视频生成中取得不错的效果,仍然需要大量的计算资源和训练数据来学习时序关系的建模。除此之外,所合成的视频也存在着明显的外观不一致或者是结构上的抖动,尤其是在长视频生成中。为了保证流畅高效的文本-视频生成,哈工大左旺孟团队联合华为云田奇团队提出了一种无需训练的视频生成方法《ControlVideo: Training-free Controllable Text-to-Video Generation》:

e65d19ad259c7a050e907cb0b9870c9d.png

  • 论文链接:https://arxiv.org/pdf/2305.13077.pdf

  • 代码链接:https://github.com/YBYBZhang/ControlVideo

可视化效果

ControlVideo 可以基于多种结构信息来合成高质量的视频:

1. 基于深度图序列

结构序列

文本描述:"A majestic sailing boat cruises along the vast, azure sea."

2. 基于边缘图序列

结构序列

文本描述:"A young man riding a sleek, black motorbike through the winding mountain roads."

3. 基于人体姿态序列

结构序列

文本描述:"James bond moonwalk on the beach, animation style."

得益于本文所提出的层次化采样器,ControlVideo还可以合成稳定的长视频:

文本描述:"A steamship on the ocean, at sunset, sketch style."

文本描述:"Hulk is dancing on the beach, cartoon style."

ControlVideo的原理

ControlVideo是由文本-图片合成模型ControlNet迁移而来,利用了输入的结构序列中的粗粒度结构一致性,并提出了三个模块来提升视频的时序一致性与高效性。

首先,为了保证帧间的外观一致性,ControlVideo在原本的自注意力模块中添加了完全跨帧注意力机制。相比于以往的工作,完全跨帧注意力机制可以看作把所有帧拼接成一张”大图“,因此可以从ControlNet中直接继承了高质量的生成能力。

40d98aa4a64624a3ae2d9f92ab1369d8.png

其次,ControlVideo进一步提出了交错式帧间平滑器来去除结构上的抖动。其核心思想在于通过对中间帧的插帧实现相邻三帧的平滑,以一种交错的方式在连续的时间步中重复这一过程可以保证整个视频的平滑。值得注意的一点是,平滑过程是在DDIM采样过程中的部分时间步进行的,所以被平滑视频帧的质量及独特性可以被后续的去噪步骤所保证。

e5f6a5711a5322dddcb8ec57cc688d51.png

最后,为了高效的合成长视频,ControlVideo采用层次化采样器来一段段合成具有整体一致性的短视频序列。具体来说,一段长视频通过关键帧被划分为多个短视频序列;然后,基于完全跨帧注意力机制来合成外观一致的关键帧;基于每一对关键帧的信息,ControlVideo可以相继合成对应的短视频序列。

点击进入—>【扩散模型和Transformer】交流群

最新CVPR 2023论文和代码下载

 
 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

扩散模型和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-扩散模型或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如扩散模型和Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看1725b86791e49d655f49fec0917b55ea.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/596163.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

长沙之行第二天

这是学习笔记的第 2458篇文章 已经从长沙返京一个多星期了,旅行日记还没有写好,真是羞愧,赶紧补一补回忆。 整体来看返京后这一周我最大的变化就是几乎每天都订1次外卖吃长沙牛肉粉。 第二天 自第一天逛完橘子洲之后,我们的行程重…

3.11 Ext JS文件上传基本使用

文件上传对应的组件是Ext.form.field.File。 组件的效果是输入框+文件选择按钮,如下图所示: 点击“选择文件的按钮”, 会弹出操作系统选择文件的对话框,如下图所示窗口: 选择文件后,输入框会根据不同的浏览器有不同的显示, 有的浏览器是文件名,有的浏览器是完整路径,…

c#特性Attribute

C# 特性(Attribute) 特性(Attribute)是用于在运行时传递程序中各种元素(比如类、方法、结构、枚举、组件等)的行为信息的声明性标签。您可以通过使用特性向程序添加声明性信息。一个声明性标签是通过放置在…

分享几款还不错的工具,这几个工具你们知道吗?

1、可口的披萨 这是一款非常有趣的小游戏,它不仅可以帮助你超解压,还能消磨时间。你将扮演一位店主,经营一家小店。在这个过程中,你会遇到各种不同的人,每个人都有着自己的故事和背景。这些故事非常感人,会…

scitb5函数1.6版本(交互效应函数P for interaction)尝鲜版发布----用于一键生成交互效应表

在SCI文章中,交互效应表格(通常是表五)几乎是高分SCI必有。因为增加了亚组人群分析,增加了文章的可信度,能为文章锦上添花,增加文章的信服力,还能进行数据挖掘。 在上一个版本中,我们…

使用PlotNeuralNet绘制深度学习网络图的基本操作

使用PlotNeuralNet绘制深度学习网络图的基本操作 PlotNeuralNet工具,具如其名,plot neural net用的,首先我们看看效果: PlotNeuralNet安装与简单命令了解 关于如何安装大家可以参考网上的其他教程,网上有很多教程&…

如何使用ArcGIS查找离家最近的地铁站(附练习数据)

学习GIS的目的除了可以用在工作上之外,还可以用在平时的生活中,比如可以用来查找定位离家最近的地铁站,这里给大家介绍一下查找方法,希望能够对大家有所帮助。 近邻分析 在ArcToolbox中点击“分析工具\邻域分析\近邻分析”&#…

数据体系建设-ODS|DW|TDM|ADS介绍

参考书目《数据中台:让数据用起来》 ODS:各业务生成的基础数据存表,如log日志数据等DW:在ods基础上,分主题整合数据TDM:存储标签数据ADS:基于上面的数据源整合而成的供业务应用的指标报表等 贴…

什么是EDI 858装运信息?

EDI 858是电子数据交换(Electronic Data Interchange,简称EDI)中的一种标准格式,它主要用于在供应链管理中进行物流和运输的数据交换。EDI 858是指基于ASC X12标准的858交付和接收数据集,也被称为”Shipping Notice/Ma…

基于Spring boot的图书商城管理系统-源码、数据库、LW

框架:Springboot 数据库:MySQL 下载链接: https://download.csdn.net/download/yw1990128/87851197 B站运行链接: 基于Springboot的图书商城管理系统_哔哩哔哩_bilibili 引言 项目开发背景 Internet最早在美国出现&#xf…

GLSurfaceView 与 SurfaceView 联系与区别

同系列文章: SurfaceView为什么不能做动画? SurfaceViewMediaPlayer实现视频播放 本文目录 笔试题解析有了SurfaceView,为什么还要提供一个GLSurfaceView?SurfaceView有哪些用途? 笔试题解析 下面是属于GLSurfaceView特性的是&a…

Android开机流程、Zygote进程、systemserver、ServiceManager

一、Loader层 1、Boot ROM: 上电后,BootRom会被激活,引导芯片代码开始从预定义的地方(固化在ROM)开始执行,然后加载引导程序到RAM。 2、 Boot Loader引导程序 Android是基于Linux系统的,它没有BI…

Arcgis进阶篇(6)——如何将Arcgis Pro的离线数据发布成服务

常常因为Arcgis Server(或者GeoScene Server)昂贵的价格,而导致小项目技术选型选择开源的GIS Server(如GeoServer等)。但用完之后,发现后者实在拉跨,使用对比差异巨大。那就只能另想办法&#x…

商家618活动文案怎么写,注意事项

马上又是一年的618,特别是最近大家消费热情高涨的时候。今天,就来和大家好好唠一唠618。商家618活动文案怎么写,以及注意事项。 为了以防有些人没有真正了解618,虽然可能性很小,但是本着严谨的原则,还是先介…

MySQL数据库 3.内部数据模型

🤔前言: 🙂关系型数据库: 关系型数据库是建立在关系模型基础上,由多张相互连接的二维表组成的数据库。 关系型数据库是一种使用关系模型来组织数据的数据库系统。数据以二维表的形式存储,一张表代表一种数…

chatgpt赋能python:Python交流微信群:打开学习和分享的大门

Python交流微信群:打开学习和分享的大门 Python是一种高级编程语言,得益于其灵活性,易学性和强大的社区支持,已经成为许多程序员首选的开发语言。但是,学习Python并没有那么容易,很多人可能会面临困惑和挫…

FPGA 设计中经常犯的 10 个错误

本文列出了FPGA设计中常见的十个错误。我们收集了 FPGA 工程师在其设计中犯的 10 个最常见错误,并提供了解决方案的建议和替代方案。本文假定读者已经具备 RTL 设计和数字电路方面的基础。接下来让我们深入探讨在FPGA 设计中要避免的 10 大错误。 异步逻辑 FPGA 设计…

C# webAPI 精解

入门 创建一个web项目 先创建一个web项目 基本可以运行的程度 用postman进行接口测试 .NET Framework 和 .NET Core 都可以创建 webAPI 这里用 .NET Framework 比较简单 。 启动 Visual Studio,并从“开始”页中选择“新建项目”。 或者,在 “文件” 菜…

简单介绍Roop(类似SimSwap)单张图视频换脸的项目

文章目录 (一)关于Roop(二)安装Roop(CPU)(2.1)克隆仓库(2.2)设置python国内源(2.2)检查安装virtualenv(2.3)创…

chatgpt赋能python:Python文本处理——从文本中提取数据

Python文本处理——从文本中提取数据 在数据分析和机器学习中,从文本中提取数据是一个十分重要的步骤。在Python中,我们可以使用各种工具和库来实现这一目标。这篇文章将介绍一些Python中用于从文本中提取数据的常用技术。 正则表达式 正则表达式是一…