MagicAnimate:Temporally consistent human image animation using diffusion model

news2024/11/15 21:48:20

 

1.Introduction

        本文研究了任务形象动画人物,旨在根据特定的运动序列生成一个具有特定参考身份的视频。现有的人物图像动画的数据驱动方法可以基于所使用的生成主干模型分为两类,1.基于GAN,通常使用变形函数将参考图变形为目标姿态,并利用GAN模型来外推缺失或mask的身体部分;2.基于diffusion model,利用外观和姿势条件基于预训练的扩散模型来生成目标图像。但通常存在几个限制:1.基于GAN的方法具有受限的运动传递能力,导致mask区域的细节不真实,在跨身份场景中的泛化能力有限;2.基于扩散的方法以逐帧的方式处理长视频,然后沿temporal维度stack,忽略了temporal consistency,导致闪烁的结果,通常依赖于CLIP来编码参考外观,CLIP在保留细节方面的效果较差。

        MagicAnimate提供了long-range temporal consistency,robust appearance encoding,和高质量的逐帧动画,开发了视频扩散模型,通过将temporal attention block融入扩散模型来编码temporal信息。其次,引入了一种创新的外观编码器,以保留从参考图图像中获取的人物身份和背景信息。

2.Method

        给定一个参考图像Iref和一个运动序列P=[p1,...,pN],其中N是帧数,目标是在遵循给定的运动系列的同时合成一个连续的视频I=[I1,...,IN],其外观和Iref相似。

        Temporal consistency modeling处理闪烁问题;Appearance encoder捕捉精细的细节。

        MagicAnimate,使用Appearance encoder将参考图嵌入为Appearance embedding ya,然后将目标姿势序列,如DensePose,传入姿势控制网络Fp,提取运动条件yp,在这两个信号的基础上,训练视频扩散模型,将参考任务的身份根据给定的运动进行动画化,为了减轻一些片段之间的细微不连续性,采用一种简单的视频融合方法来提高过渡的平滑性,将整个视频分解为重叠的片段,并简单的对重叠帧的预测进行平均,引入了一种图像视频联合训练策略。

2.1 Temporal consistency modeling

        为了确保视频帧之间的时间一致性,将扩散模型扩展到视频领域,通过插入temporal attention layer将原始的2d unet变成3d unet。1.随机初始化潜在噪声Zt(1-K),其中K是视频帧的长度,2.将K个连续的姿势stack成一个Densepose序列P(1-K)用于运动指导,通过将输入特征从NxCxKxHxW重新调整为NKxCxHxW,将Zt(1-K)输入到视频扩散网络中,在temporal模块中,将特征重新调整为NKWxKxC,以沿着temporal维度计算跨帧信息,添加正弦位置编码使模型了解每帧在视频中的位置,使用standard attention操作temporal attention,MagicAnimate聚合了相邻帧的temporal信息,并合成具有improved temporal consistency的K帧。

2.2 Appearance encoder

        人物图像动画的目标是在参考图像Iref的指导下生成结果。Appearance encoder的核心目标是使用详细的身份和背景相关特征来表示Iref,这些特征可以注入到视频扩散模型中,以在运动信息引导下进行重定位,和MasaCtrl以及Reference-only controlnet模式一致,提出一种新的appearance encoder,具有improved identity and background preservation,以增强单帧的保真度和时间连贯性。创建了unet的另一个可训练副本,并且每个去噪步骤t计算参考图像Iref的条件特征,

ya是middle and upsampling blocks的normalized attention hidden states,与controlnet以residual manner add conditions的方式不同,MagicAnimate将这些特征传递给了spatial self-attention layers,通过讲过ya的每个特征和原始unet中self-attention hidden states特征concat起来,以注入appearance信息。

2.3 Animation pipeline

2.3.1 Motion transfer

        对于动画化参考人体图像,通常使用controlnet for openpose关键点,但主要的身体关键点是稀疏的,对某些动作不够稳健,例如旋转,因此采用了densepose

2.3.2 Denoising process

        基于appearance ya和运动条件yp(1-K),magicanimate根据densepose序列动画化参考图像。

2.3.3 Long video animation

        通过时间一致性建模和外观编码器,可以通过分段处理生成任意长度的时间上一致的人体图像动画结果,然而,由于temporal attention无法对不同段落之间的长程一致性(long-range consistency)建模,因此可能出现不自然的过渡和段落之间不一致的细节。

        为了解决这个问题,在推断时,采用滑动窗口方法来提高过渡的平滑性,将长的运动序列分成多个具有temporal overlap的段落,其中每个段落的长度为K,先对整个视频采样噪声Z(1-N),将其分割成具有重叠的噪声段落{Z(1-K),z(K-s+1:2K-s),...,},最后一帧不满K就填充成K,对于每个去噪时间步t,预测噪声并得到每个段落的噪声预测,然后对重叠帧进行平均合并得到动画。

2.4 Training

2.4.1 Learning objectives

        采用了多阶段的训练策略,第一阶段,临时省略temporal attention layer,将appearance encoder和姿势控制网络一起训练(Fa,Fp),第二阶段,仅优化Ft中的temporal attention layer。

2.4.2 Image-video joint training

        第一阶段,训练Fa和Fp时,设置了一个采样阈值t0,随机抽取数值,小于t0就用采样的凸显个训练。第二阶段,选择两个阈值t1和t2,<t1,从图像数据中采样训练数据,否则从视频数据中采样数据。

3.Experiments

TikTok和TED-talks数据集,

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1310105.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux-----6、文件操作管理

# 文件操作管理 重要&#xff1a;Linux下&#xff0c;一切皆文件&#xff01;&#xff01;&#xff01; 说在前面&#xff1a; 接下来所有的命令需要在一个载体上执行&#xff0c;这个载体就叫做终端。 终端上所有命令都需要一个东西翻译解析一下&#xff0c;计算机才能理解…

同义词替换工具在论文降重中的应用 神码ai

大家好&#xff0c;今天来聊聊同义词替换工具在论文降重中的应用&#xff0c;希望能给大家提供一点参考。 以下是针对论文重复率高的情况&#xff0c;提供一些修改建议和技巧&#xff1a; 标题&#xff1a;同义词替换工具在论文降重中的应用 一、引言 在撰写论文时&#xff0c…

LeetCode力扣每日一题(Java):67、二进制求和

一、题目 二、解题思路 1、我的思路&#xff08;残缺版&#xff09; 好家伙&#xff0c;又是一道我盯着屏幕看了半天还没思路的题目 我只有一部分残缺的思路&#xff0c;在这里先写下来吧 我们可以先创建一个空字符串&#xff08;后文称新字符串&#xff09;&#xff0c;用…

Linux-----5、文件系统

# 文件系统 # 终端的基本操作 ㈠ 打开多个终端 ㈡ 快速清屏 新建标签&#xff1a;command T 新建窗口&#xff1a;command N 关闭标签&#xff1a;command Q 关闭窗口&#xff1a;command W 放大&#xff1a;command 缩小&#xff1a;command - 清屏&#xff…

API绘画API:分分钟让你成为创作艺术家

引言 近几年&#xff0c;AI技术已经取得了显著的进步&#xff0c;尤其是在绘画领域。现在&#xff0c;通过使用API绘画API&#xff0c;普通人也可以像专业艺术家一样创作出令人惊叹的艺术作品。本文将向你介绍API绘画API的工作原理、如何使用它以及它对艺术创作的影响。 一、…

Java面向对象思想以及原理以及内存图解

文章目录 什么是面向对象面向对象和面向过程区别创建一个对象用什么运算符?面向对象实现伪代码面向对象三大特征类和对象的关系。 基础案例代码实现实例化创建car对象时car引用的内存图对象调用方法过程 成员变量和局部变量作用范围在内存中的位置 关于对象的引用关系简介相关…

js Intl.DateTimeFormat() 格式化时间利器

效果 案例 const options { year: numeric, month: 2-digit, day: 2-digit, hour: 2-digit, minute: 2-digit, second: 2-digit, hour12: false }; const now new Intl.DateTimeFormat(zh, options).format(new Date()).replace(/[/]/g,"-") console.log("当…

算法Day31 房间收纳

房间收纳 Description 对于零落的玩具&#xff0c;你需要进行收纳&#xff0c;为了将最多的玩具进行收纳&#xff0c;请你合理分配收纳柜和房间数量。 请你将一些玩具收纳在一个房间中&#xff0c;给你一个二维数组 roomTypes&#xff0c;其中的roomTypes[i] {numberOfBoxes_…

Java反射,枚举讲解

&#x1f495;"理想者最可能疯狂。"&#x1f495; 作者&#xff1a;Mylvzi 文章主要内容&#xff1a;Java反射&#xff0c;枚举讲解 "&#x1f495; 作者&#xff1a;Mylvzi 文章主要内容&#xff1a;数据结构之Map/Set讲解硬核源码剖析 一.反射 1.概念 …

调用函数(打印素数)

#define _CRT_SECURE_NO_WARNINGS #include <stdio.h> int is_prime(int n) {for (int j 2; j < n; j){if (n % j 0)return 0;}return 1; } void main() {for (int n 101; n < 200; n){int ret is_prime(n);if(ret1)printf("%d ", n);} }

Unity | Shader基础知识(第四集:Shader结构体)

目录 一、本节介绍 1 上集回顾 2 本节介绍 二、结构体的需求 1 数据的接入 2 开始写结构体 三、unity封装好的结构体 1 unity封装好了很多结构体 2 如何使用封装好的结构体 四、下集预告 一、本节介绍 1 上集回顾 上一集&#xff0c;我们做了一个可以改变颜色的案例…

Linux 线程池源码剖析

1 了解线程池 1-1线程池的概述 由一个任务队列和一组处理队列的线程组成。一旦工作进程需要处理某个可能“阻塞”的操作,不用自己操作,将其作为一个任务放到线程池的队列,接着会被某个空闲线程提取处理。 1-2线程池的组件 任务 待处理的工作,通常由标识、上下文和处理…

D92-02-ASEMI快恢复二极管20A 200V

编辑&#xff1a;ll D92-02-ASEMI快恢复二极管20A 200V 型号&#xff1a;D92-02 品牌&#xff1a;ASEMI 封装&#xff1a;TO-247 特性&#xff1a;插件、快恢复二极管 最大平均正向电流&#xff1a;20A 最大重复峰值反向电压&#xff1a;200V 恢复时间&#xff1a;35ns…

QQ音乐评论爬虫程序【原创】

先找到一首歌&#xff0c;把请求参数替换到下面程序中 例如&#xff1a; ‘g_tk_new_20200303’: ‘5381’, ‘g_tk’:‘5381’, ‘topid’:‘102636799’, //歌曲ID ‘cv’:‘4747474’ … #此处修改请求的页数 if page >10: break import requests from urllib import p…

多组别cellchat

不同分组之间的配对分析 ⚠️&#xff1a;配对分析必须保证细胞类型是一样的&#xff0c;才可以进行配对。如果 两个样本的细胞类型不一样又想进行配对分析时&#xff0c;可以用subset把两个样本的细胞类型取成一致的。 1. 数据准备&#xff0c;分别创建CellChat对象 Sys.set…

Antd Select 添加中框

默认antd 的 Select中间并没有竖框&#xff0c;但是ui design设计了&#xff0c;所以记录一下如何添加 默认&#xff1a; CSS&#xff1a; .custom-select-suffix-icon {display: flex;align-items: center; }.custom-select-suffix-icon::before {content: ;height: 31px; …

1. Prism系列之数据绑定

Prism系列之数据绑定 文章目录 Prism系列之数据绑定一、安装Prism二、实现数据绑定三、更换数据源 一、安装Prism 创建一个WPF工程&#xff0c;创建名为 PrismNewSample 的WPF项目。 使用管理解决方案的Nuget包 在上面或许我们有个疑问&#xff1f; 为啥安装prism会跟Pri…

ICC2:如何调整floorplan原点位置

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口 使用virtuoso layout或calibredrv改变原点位置可以参考专栏文章: Virtuoso layout如何改变原点坐标 ICC2中改变原点位置需要使用move_block_orgin命令,使用方法如下: move_block_origin -to [lind…

Epicypher:CUTANA™ E. coli Spike-in DNA

来源于Escherichia coli&#xff08;E.coli&#xff09;的片段DNA可以用作核酸酶靶向切割和释放&#xff08;CUT&RUN&#xff09;的实验标准化的spike-in对照。产品CUTANA™ E. coli Spike-in DNA含有足够的材料&#xff0c;可用于100-200个CUT&RUN样本&#xff08;高丰…

Win10错误代码0x80070005的解决方法

在Win10电脑操作过程中&#xff0c;用户可能会遇到各种各样的问题&#xff0c;从而影响到自己正常使用电脑办公。现在&#xff0c;就有用户遇到了错误码0x80070005的提示&#xff0c;但不清楚具体的解决方法。下面小编给大家分享不同的解决方法&#xff0c;解决后Win10电脑就能…