【论文+视频控制】23.08DragNUWA1.5:通过集成文本、图像和轨迹来进行视频生成中的细粒度控制 (24.01.08开源最新模型)

news2024/10/7 10:23:52

论文链接:DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory
代码:https://github.com/ProjectNUWA/DragNUWA
在这里插入图片描述

一、简介

中国科学技术大学+微软亚洲研究院 在 NUWA多模态模型、 Stable Video Diffusion 、UniMatch基础上提出的可控视频合成方法
在这里插入图片描述
提出了同时(simultaneously )引入文本、图像和轨迹信息,从语义(semantic)、空间(spatial)和时间角度(temporal perspectives) 对视频内容进行·细粒度控制(fine-grained control)。。
为了解决当前研究中开放域轨迹控制(open-domain trajectory control )限制的问题,我们提出了三个方面的轨迹建模
一个轨迹采样器TS,a Trajectory Sampler):保证任意轨迹(arbitrary trajectories,)的开放域控制
一个多尺度融合MF,a Multiscale Fusion):不同细粒度(granularities)的控制轨迹
自适应训练策略(AT, Adaptive Training): 生成一致的(consistent)的视频。

在这里插入图片描述

二、主要方法

DragNUWA训练流程概述。DragNUWA支持三种可选输入:文本p、图像s和轨迹g,并专注于从三个方面设计轨迹。首先,轨迹采样器(TS)从开放域视频流中动态采样轨迹。其次,多尺度融合(MF)将轨迹与UNet架构的每个块中的文本和图像深度集成。最后,自适应训练(AT)将模型从光流条件调整为用户友好的轨迹。最终,DragNUWA能够处理具有多个对象及其复杂轨迹的开放域视频。
在这里插入图片描述

三、相关工作(需要的知识储备

  1. 21.11.NUWA: 神经视觉世界创造的视觉合成预训练模型 Visual Synthesis Pre-training for Neural visUal World
    creAtion
  2. 22.09 Make-A-Video :Meta AI 提出一种直接将文本到图像 (T2I) 生成的巨大最新进展转换为文本到视频 (T2V) 的方法 :Text-to-Video Generation without Text-Video Data
  3. 22.10 Imagen Video : Imagen video: High ̃video generation with diffusion models
  4. 23.02 GEN1 : Runway : 基于扩散模型的结构和内容引导视频合成 Structure and Content-Guided Video Synthesis with Diffusion Models

3.1 NUWA的由来 (Neural visUal World creAtion)

Neural visual World creation (神经视觉世界创造)
在这里插入图片描述
视觉多模态预训练框架
一种统一的多模态预训练模型N̈UWA,该模型可以为各种视觉合成任务生成新的或操作现有的视觉数据(即图像和视频)。为了同时覆盖不同场景的语言、图像和视频,设计了一个 3D 变压器编码器-解码器框架,该框架不仅可以将视频作为 3D 数据处理,还可以将文本和图像分别调整为 1D 和 2D 数据。还提出了一种 3D 近邻注意 (3DNA) 机制来考虑视觉数据的性质并降低计算复杂度。
在这里插入图片描述

3.3 Imagen Video

本文提出了一种基于视频扩散模型级联的以文本情境来生成视频的系统,即用图像增强技术来生成视频——Imagen Video。 给定一个文本提示符(a text prompt),Imagen Video 使用基本视频生成模型和一系列时空交织的视频超分模型,来生成高清视频。我们描述了如何将该系统扩展为一个高清晰度的 text2video模型,包括设计决策,如在一定的分辨率下,时空超分模型的全卷积层的选择,和扩散模型(Diffusion Model)的v-parameterization的选择。此外,我们确认并迁移了一些研究成果,从以前基于diffusion的图像生成工作,到我们视频生成设置。 最终,我们将渐进式蒸馏(progressive distillation)运用至我们的视频生成模型中,用免分类(classier-free) 的引导函数来引导生成快速、高品质的样本。我们发现 Imagen Video 不仅能够生成高保真度的视频,并且具有高度的可控性,了解世界常识(world knowledge)。它能够生成不同艺术风格、能够理解3D对象的视频和文本动画。
在这里插入图片描述

附录:代码主要借鉴

主要借鉴于 Stable Video Diffusion  、 Hugging Face、   UniMatch

Stable Video Diffusion

Hugging Face

UniMatch:流量、立体和深度估计

一个统一的模型对三种运动和3D感知的任务:(流量、立体和深度估计获得):

文章目录

  • 一、简介
  • 二、主要方法
  • 三、相关工作(需要的`知识储备`)
    • 3.1 NUWA的由来 (`Neural visUal World creAtion`)
    • 3.3 Imagen Video
  • 附录:代码主要借鉴
    • [Stable Video Diffusion](https://github.com/Stability-AI/generative-models)
    • [Hugging Face](https://github.com/huggingface)
    • UniMatch:流量、立体和深度估计

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1405583.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

mockjs(3)

mockjs(1) mockjs(2) 这篇主要是Mock.random工具类,前段要用的话主要是在模版中的占位符。mockjs(1)里面的3.2 6 Mock.random Mock.Random 是一个工具类,用于生成各种随机数据。 …

即插即用篇 | YOLOv8 引入 SENetv2 | 多套版本配合使用

卷积神经网络(CNNs)通过提取空间特征并在基于视觉的任务中实现了最先进的准确性,彻底改变了图像分类。所提出的压缩激励网络模块收集输入的通道表示。多层感知机(MLP)从数据中学习全局表示,在大多数用于学习图像提取特征的图像分类模型中起到关键作用。在本文中,我们引入…

论文阅读2---多线激光lidar内参标定原理

前言:该论文介绍多线激光lidar的标定内参的原理,有兴趣的,可研读原论文。 1、标定参数 rotCorrection:旋转修正角,每束激光的方位角偏移(与当前旋转角度的偏移,正值表示激光束逆时针旋转&…

实用的SQLite数据库可视化管理工具推荐

前言 俗话说得好“工欲善其事,必先利其器”,合理的选择和使用可视化的管理工具可以降低技术入门和使用门槛。今天推荐7款实用的SQLite数据库可视化管理工具(GUI),帮助大家更好的管理SQLite数据库。 什么是SQLite? SQLite是一个…

【新闻感想】谈一下PandoraNext的覆灭(潘多拉Next-国内可访问的免费开放GPT共享站将于2024年1月30日关闭)

文章目录 悲报:TIME TO SAY GOODBYE!PandoraNext!PandoraNext作者言:你们赢了,但我却没有输我如何了解到PandoraNext的合照留念于是开始逆向! 悲报:TIME TO SAY GOODBYE!PandoraNext…

外包干了2个多月,技术退步明显。。。。。

先说一下自己的情况,本科生,19年通过校招进入广州某软件公司,干了接近3年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测试…

Java/Python/Go不同开发语言在进程、线程和协程的设计差异

Java/Python/Go不同开发语言在进程、线程和协程的设计差异 1. 进程、线程和协程上的差异1.1 进程、线程、协程的定义1.2 进程、线程、协程的差异1.3 进程、线程、协程的内存成本1.4 进程、线程、协程的切换成本 2. 线程、协程之间的通信和协作方式2.1 python如何实现线程通信&a…

换上龙年表盘,开启一整年的好运

农历新年即将到来,华为表盘市场陆续推出一系列龙年主题的表盘。其中,三款表盘的设计格外引人注目:云白腾龙机械、非凡腾龙多色、玄武腾龙机械。 这三款表盘不仅在艺术审美上展现了设计师的独特创意与深厚功底,更是在细微之处巧妙融…

Tensorflow2.0笔记 - 范式norm,reduce_min/max/mean,argmax/min, equal,unique

练习norm,reduce_min/max,argmax/min, equal,unique等相关操作。 范数主要有三种: import tensorflow as tf import numpy as nptf.__version__#范数参考:https://blog.csdn.net/HiWangWenBing/article/details/119707541 tensor tf.convert_to_tensor(…

python系列-函数(上)

🌈个人主页: 会编程的果子君 ​💫个人格言:“成为自己未来的主人~” 目录 函数 函数是什么 语法格式 函数参数 函数返回值 函数 函数是什么 编程中的函数和数学中的函数有一定的相似之处 编程中的函数,是一段可以被重复利用的代码片段…

Oracle Linux 9.3 安装图解

风险告知 本人及本篇博文不为任何人及任何行为的任何风险承担责任,图解仅供参考,请悉知!本次安装图解是在一个全新的演示环境下进行的,演示环境中没有任何有价值的数据,但这并不代表摆在你面前的环境也是如此。生产环境…

Unity工程没有创建.sln文件,导致打开C#文件无法打开解决方案

最近又开始折腾些Unity的小项目,重新遇到一些常见的小问题 点击报错文件 却没有打开文件 于是查看了下打开Window->Package Manager 选择Unity Registry 搜索Visual Studio Editor,发现并没有安装 同理,也可以安装VSCode的插件 问题解决了…

【服务器】安装Docker环境

目录 🌺【前言】 🌼1. 打开Xshell软件 🌻2. 安装Docker环境 ①:下载docker.sh脚本 ②:列出下载的内容 ③:执行一下get-docker.sh文件,安装docker ④:运行docker服务 ⑤&…

Python IO流

第一章、IO流 一、概述 1、IO流概念 2、IO流的分类 在Python中,I/O(输入/输出)流是处理数据输入和输出的机制。它们用于从文件、网络连接、内存等源读取数据,或将数据写入到这些目标中。I/O流以字节流和字符流的形式存在。 Pyth…

C++版QT:电子时钟

digiclock.h #ifndef DIGICLOCK_H #define DIGICLOCK_H ​ #include <QLCDNumber> ​ class DigiClock : public QLCDNumber {Q_OBJECT public:DigiClock(QWidget* parent 0);void mousePressEvent(QMouseEvent*);void mouseMoveEvent(QMouseEvent*); public slots:voi…

Git--创建仓库(1)

git init Git 使用 git init 命令来初始化一个 Git 仓库&#xff0c;Git 的很多命令都需要在 Git 的仓库中运行&#xff0c;所以 git init 是使用 Git 的第一个命令。 在执行完成 git init 命令后&#xff0c;Git 仓库会生成一个 .git 目录&#xff0c;该目录包含了资源的所有…

使用trace工具分析Mysql如何选择索引

背景说明 工作中,可能会遇到执行一个SQL,明明有索引,但是采用explain分析后发现执行结果并未走索引。甚至还有部分SQL语句相同就只是查询条件不一样也会出现有的走索引,有的不走索引情况。比如: 我的示例环境有个employees表,并有个idx_name_age_position的联合索引…

消息中间件之RocketMQ事务消息流程(二)

所谓事务消息就是基于消息中间件模拟的两阶段提交(2PC)&#xff0c;属于对消息中间件的一种特殊利用。总体思路如下: 1.系统A先向消息中间件发送一条预备消息(Half Message)&#xff0c;消息中间件在保存好消息之后向系统A发送确认消息 2.系统A执行本地事务 3.系统A根据本地事务…

Java毕业设计-基于ssm的学生社团活动管理系统-第82期

获取源码资料&#xff0c;请移步从戎源码网&#xff1a;从戎源码网_专业的计算机毕业设计网站 项目介绍 基于ssm的学生社团活动管理系统&#xff1a;前端 jsp、jquery、ajax&#xff0c;后端 springmvc、spring、mybaties&#xff0c;角色分为管理员、学生、社团、用户&#…

html火焰文字特效

下面是代码&#xff1a; <!DOCTYPE html> <html><head><meta charset"UTF-8"><title>HTML5火焰文字特效DEMO演示</title><link rel"stylesheet" href"css/style.css" media"screen" type&quo…