MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model

news2025/4/9 0:02:23

show lab NUS&bytedance
https://github.com/magic-research/magic-animate

问题引入

输入参考图片 $I_{ref}$ 和动作序列 $p^{1:N}=[p_1,\cdots,p_N]$ ，其中 $N$ 表示的是帧数，输出的是 $N$ 帧的视频，动作和动作序列保持一致，外观和参考图片保持一致；

methods

video diffusion model来保持帧间一致性，加入了temporal attentio模块；
reference encoder来embed参考图片得到reference embedding $y_a$ ，实现上是复制了另外一份unet（不含temporal module），注入到vdm的方式是和middle以及upsample层的self attention层的hidden state进行concat；
pose controlnet来获取motion condition $y_p^{1:K}$ ；
因为是逐段的生成，段与段之间衔接可能不连贯，所以采取了overlap+average得方式来处理；
训练的时候图片和视频统一训练；

实验

数据集：Tiktok&TED-talks

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1684461.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

MySQL主从复制+读写分离（ShardingJDBC）

MySQL主从复制读写分离 MySQL主从复制介绍二进制日志： MySQL的主从复制原理如下搭建主从复制准备工作主库配置从库配置测试读写分离案例ShardingJDBC介绍数据库环境初始工程导入读写分离配置测试1). 保存数据2). 修改数据3). 查询数据4). 删除数据 MySQL主从复制 …

ipad air6电容笔推荐，2024十大高性价比电容笔排行榜！

电容笔作为ipad的最佳拍档，为学生党和打工人带来了极大的便利，二者搭配效率真的大大提升，但是，如何选购一支适合自己的电容笔呢？作为一个对数码设备非常感兴趣并且有一定了解的人，我根据自己多年的使用经…

deepseek是哪家公司

deepblue是什么公司 DeepSeek是杭州深度求索人工智能基础技术研究有限公司的简称。12 杭州深度求索人工智能基础技术研究有限公司，成立于2023年，位于浙江省杭州市，是一家专注于研究和试验发展的企业。该公司的注册资本为1000万人民币&…

安装和使用图像处理软件GraphicsMagick @FreeBSD

GraphicsMagick是一个用于处理图像的读取、写入和操作的工具软件。它被誉为图像处理领域的“瑞士军刀”，短小精悍，支持超过88种图像格式，包括DPX、GIF、JPEG、JPEG-2000、PNG、PDF、PNM和TIFF等。 GraphicsMagick的主要特点包括：…

pyqt6水平布局

效果预览 main_window.ui <?xml version"1.0" encoding"UTF-8"?> <ui version"4.0"><class>MainWindow</class><widget class"QMainWindow" name"MainWindow"><property name"geo…

文章目录 1. 先写出第一步2.将其封装成函数3. pytorch版 1. 先写出第一步 # 定义输入值和期望输出 x_1 40.0 x_2 80.0 expected_output 60.0 初始化# 定义权重 w_1_11 0.5 w_1_12 0.5 w_1_13 0.5 w_1_21 0.5 w_1_22 0.5 w_1_23 0.5w_2_11 1.0 w_2_21 1.0 w_2_31 1…

【Android】WorkManager（章二）

剩余的三部分官方文档案例实现下载器，并监听下载进度界面定义Worker 在官方案例的前提下，进行完善下载download 下载进度授予权限开始工作并监听完整代码 MainActivity.java package com.test.downloadworkerapplication;import static…

【SpringBoot】整合百度文字识别

流程图一、前期准备 1.1 打开百度智能云官网找到管理中心创建应用全选文字识别 1.2 保存好AppId、API Key和Secret Key 1.3 找到通用场景文字识别，立即使用 1.4 根据自己需要，选择要开通的项目二、代码编写以通用文字识别（高精度版&am…

AI图书推荐：用OpenAI API 开发AI应用详细指南

随着人工智能不断重塑行业，OpenAI 处于人工智能研究的前沿，了解如何创建聊天机器人、虚拟助手、内容生成器和生产力增强器等创新应用程序是一个游戏规则改变者。本书《用OpenAI API 开发AI应用详细指南》（OpenAI API Cookbook）&am…

Docker访问文件权限受限问题解决

问题描述运行项目的docker环境，新添加了一个数据集，但是数据集的访问权限受限（Permission dinied），运行的命令如图所示问题解决 chmod 777 xxx YYDS！！！但是单纯直接运行会因为权限…

LLaVA UHD:一种可感知任意纵横比和高分辨率图像的LMM

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images (2024-03-18) 文章概要作者: Ruyi Xu; Yuan Yao; Zonghao Guo; Junbo Cui; Zanlin Ni; Chunjiang Ge; Tat-Seng Chua; Zhiyuan Liu; Maosong Sun; Gao Huang期刊: arXiv 预印版DOI: 10.48550/arXiv…

Python 全栈体系【四阶】（五十二）

第五章深度学习十二、光学字符识别（OCR） 2. 文字检测技术 2.1 CTPN（2016） 2.1.1 概述 CTPN全称Detecting Text in Natural Image with Connectionist Text Proposal Network（基于连接文本提议网络的自然图像文本…

uniappx 安卓保活（多种技术；UTS版） Ba-KeepAlive-U

简介（下载地址） Ba-KeepAlive-U 是一款android原生保活插件，UTS版本（同时支持uniapp和uniappx），支持市面上大部分机型，Android4.4到Android14（**注意：**不保证支持所有机…

Go-zero（api部分）

目录 api的语法： type：用于定义请求/响应体 service：定义HTTP服务 server：控制生成HTTP服务时候的meta信息根据api文档生成最小HTTP服务目录结构 api响应封装 api的语法： 首先定义一个api文档 type&#xff…

电磁兼容（EMC）：时钟电路PCB设计

目录 1. 布局 2. 布线时钟电路做为产品内部的强辐射源，在设计阶段已经选用展频或者分频方案后，见另外接下来就需要对PCB的耦合路径进行规划设计。时钟电路具体的PCB设计具体要求如下： 1. 布局结构干涉：时钟电路的晶振和法拉电…

K8s之ku-be admin部署安装

目录一、环境配置 1、机器部署 2、部署大致流程二、实验环境配置 1、所有节点关闭防火墙核心防护以及关闭swap交换 2、所有节点安装docker 3、所有节点安装kubeadm，kubelet和kubectl 4、部署K8s集群 5、设定kubectl 6、所有节点部署网络插件flannel 7、…