【论文+App试玩+图像到视频】2311.Animate-anyone:上传1张图片为任何人制作动画(用于角色动画的一致且可控的图像到视频合成)(暂未开源)

news2024/9/23 7:22:37

项目主页:https://humanaigc.github.io/animate-anyone/
论文: Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation
摩尔线程复现代码:https://github.com/MooreThreads/Moore-AnimateAnyone
摩尔windows一键运行包:https://www.bilibili.com/video/BV1S5411i7Cn/
原作者讲解(需要手机端看): https://mp.weixin.qq.com/s/bSV-dxA618LvN76tg4Z0kQ

其他教程视频: 用Comfy UI + Animate Anyone来一键制作抖音视频
demo:在通义前问app上可以试用 (可生成12秒)
在这里插入图片描述

文章目录

  • 简介
    • 实测: 鸣人跳兔子舞
    • 相关研究
    • 方法
    • Image Animation
    • 基于diffusion的图片生成模型0
    • 基于diffusion的视频生成
      • (DreamPose )
      • 23.07 DicCo(跳舞)
      • 图像生成一致性改进:TryonDiffusion
      • 视觉内容一致性: Emu Video
    • *时序的diffusion model (逐渐成熟)
    • 对上面方法总结
  • Animate Anyone 算法原理
    • 驱动2次元受到用户欢迎
    • 在量化的模特视频上
    • 应用案例
      • 试穿+电商
      • 数字人相关
      • 团队建设

简介

角色动画(Character Animation)是指在通过驱动信号从静止图像中生成角色视频。
图片到视频的难点在于:保持角色详细信息的一致性(consistency)
在这里插入图片描述

实测: 鸣人跳兔子舞

在这里插入图片描述

相关研究

  1. DreamPose 专注于时尚图像到视频的合成,并提出了一个适应模块来融合图像中的CLIP和VAE特征。但是缺点是需要微调模型来保持生成图片的一致性。

  2. DisCo : 探索人类的舞蹈生成,通过CLIP整合角色的特征(integrating character features),并通过ControlNet结合·背景特征·。然而,它在保留角色的细节方面存在缺陷,并且存在帧间抖动问题。

  3. AnimateDiff : Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
    能根据给的静态图片生成图片,未能从图像中捕获复杂的细节,提供更多的多样性,但缺乏精度,特别是在应用于角色动画时,导致角色外观的细粒度细节的时间变化

  4. ControlNet :Adding Conditional Control to Text-to-Image Diffusion Models 和 T2I-Adapter
    通过在stable diffusion上添加额外的编码层来生成视觉的可控性。促进各种条件下的受控生成,如姿势、蒙版、边缘和深度

  5. IP-Adapter : Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models
    使扩散模型能够保持给定图像的特点,生成提示指定的内容的图像。

  6. 23.02 GEN1 : Runway : 基于扩散模型的结构和内容引导视频合成 Structure and Content-Guided Video Synthesis with Diffusion Models

  7. TryOnDiffusion: 23.06 A Tale of Two UNets
    将扩散模型应用于虚拟服装试穿任务,并引入并行unet结构。

  8. Emu VideoMeta提出 23.11 Factorizing Text-to-Video Generation by Explicit Image Conditioning
    与之前的作品相比,该方法生成512像素、每秒16帧、4秒长视频,在Quality和Faithfulness上都取得了胜利:制作视频(MAV)、图像视频(Imagen)、Align Your Latents (AYL)、Reuse & Diffuse (R&D)、Cog Video (Cog)、Gen2和Pika Lab(Pika)

.

方法

  1. 为了解决复杂的(intricate)外观特征的一致性 (appearance features),设计了ReferenceNet,并通过空间注意力模块(spatial attention)合并细节特征。
    2.为了确保视频可控性和连续性(controllability and continuity),设计了姿态引导模块(pose guider)来指导角色的运动.
  2. 为了确保视频帧之间的平滑帧间转换 (smooth inter-frame transitions),采用一种有效的时间建模(temporal modeling)方法

姿态序列(pose sequence)最初使用Pose Guider进行编码,并与多帧噪声融合,然后进行去噪UNet进行视频生成去噪过程。去噪UNet的计算块由空间注意、交叉注意和时间注意组成,如右边的虚线框所示。参考图像的集成涉及两个方面。首先,通过 ReferenceNet 提取详细的特征并用于 Spatial-Attention。其次,通过CLIP图像编码器提取语义特征进行交叉注意。时间注意在时间维度上运行。最后,VAE 解码器将结果解码为视频剪辑。
在这里插入图片描述

原作者胡立讲解

Image Animation

分析关键点、对运动过程建模、驱动
2019 FOMM
2022 TPSMM
在这里插入图片描述

基于diffusion的图片生成模型0

代表工作为 stable diffusion +ControlNet (可控)
在这里插入图片描述

基于diffusion的视频生成

(DreamPose )

输入tuning
主要还是模特、连续性不好
在这里插入图片描述

23.07 DicCo(跳舞)

驱动跳舞、视频不连续, 一致性不好
在这里插入图片描述

图像生成一致性改进:TryonDiffusion

生成的效果特别好
有效的图片特征
在这里插入图片描述

视觉内容一致性: Emu Video

人物效果一般,长时一致性不厚好
在这里插入图片描述

*时序的diffusion model (逐渐成熟)

video LDM
Gen-1
videoComposer
AnimateDiff
在这里插入图片描述

对上面方法总结

diffusion模型的生成与可控能力,但是之前的方法效果不稳定

在这里插入图片描述

Animate Anyone 算法原理

ReferenceNet 、PoseGuider 、Temporal Layer

输入:任务参考图片、驱动任务pose序列
denosing unet 就是stable diffusion的扩展
CLIP 提取图片语意特征、ReferenceNet 提取的是图像细节
问题:看不见地方,手部的精细度

在这里插入图片描述
效果
在这里插入图片描述

驱动2次元受到用户欢迎

在这里插入图片描述

在量化的模特视频上

在这里插入图片描述

应用案例

结合换衣(outfit-anything),角色皮肤设计
在这里插入图片描述

试穿+电商

在这里插入图片描述

数字人相关

在这里插入图片描述

团队建设

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1409408.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[蓝桥杯]真题讲解:飞机降落(DFS枚举)

[蓝桥杯]真题讲解&#xff1a;飞机降落&#xff08;DFS枚举&#xff09; 一、视频讲解二、暴力代码&#xff08;也是正解代码&#xff09; 一、视频讲解 视频讲解 二、暴力代码&#xff08;也是正解代码&#xff09; //飞机降落&#xff1a; 暴力枚举DFS #include<bits/…

简化java代码:mapstruct + 策略模式

目录 目的 准备 注意 相同类型-属性名不同 实体类 映射 使用 验证-查看实现类 测试 不同类型(策略模式) 实体类 映射 工具类 使用&#xff1a;对象拷贝 验证-查看实现类 测试 使用&#xff1a;集合拷贝 测试 策略模式说明 准备-依赖 目的 简化 BeanUtils.…

如何降低微服务复杂度丨云栖大会微服务主题分享实录

作者&#xff1a;谢吉宝 本文整理自阿里云资深技术专家、中间件负责人谢吉宝在2023云栖大会《极简微服务模式&#xff0c;降低微服务复杂度的最佳实践》的分享 2023 云栖大会现场 当面临复杂的挑战时&#xff0c;"分而治之"的方法往往能取得显著的效果。微服务架构…

室外全彩LED显示屏尺寸与设计考量

在现代城市的建筑景观中&#xff0c;室外全彩LED显示屏以其鲜艳丰富的色彩和强大的视觉冲击力成为一种不可忽视的存在。然而&#xff0c;如何确定室外全彩LED显示屏的尺寸以及常见的尺寸比例是一个需要综合考虑多个因素的问题。 尺寸的确定与内容相关 首先&#xff0c;对于图文…

LabVIEW工业机器人系统

介绍了ABB工业机器人与LabVIEW之间进行数据交互的解决方案。通过使用TCP/IP协议的socket通信&#xff0c;实现了机器人坐标数据的读取&#xff0c;为人机交互提供了一个更便捷、更高效的新思路。 系统主要由ABB工业机器人、基于TCP/IP协议的通信接口和LabVIEW软件组成。工业机…

2023年第十六届中国系统架构师大会(SACC2023):核心内容与学习收获(附大会核心PPT下载)

大会以“数字转型 架构演进”为主题&#xff0c;聚焦系统架构在数字化转型中的演进和应用。 与往届相比&#xff0c;本届大会最大的变化是从原来的大会演讲模式变革为专题研讨会模式。专题研讨会主题内容紧扣行业落地实践痛点与难点&#xff0c;多角度聚焦行业的架构演进之路。…

基于Apache httpd为windows11搭建代理服务器

文章目录 一.概述二.检查电脑系统类型三.下载安装Apache Httpd四.代理服务配置五.代理服务安装六.报错解决方法七.测试是否运行成功7.1 本机测试7.2 局域网代理测试 八.设置特定ip可访问&#xff08;阻止其他ip访问&#xff09;九.参考文档 一.概述 出于某些原因&#xff0c;我…

如何使用phpStudy软件测试本地PHP及环境搭建

各位同学朋友们大家好&#xff01;我是咕噜铁蛋&#xff01;我们经常需要在本地进行PHP代码的开发和测试。而phpStudy作为一个集成了Apache、MySQL和PHP的软件套装&#xff0c;提供了方便快捷的环境搭建和测试工具。今天铁蛋为大家详细介绍如何使用phpStudy来测试本地PHP及环境…

Unity中URP下获取每一个额外灯数据

文章目录 前言一、我们先来看一下 SimpleLit 中的调用二、获取额外灯索引1、非移动平台2、非GLES平台3、大多数平台 三、获取额外灯数据 前言 在上一篇文章中&#xff0c;我们知道了URP下是怎么获取额外灯数量的。 Unity中URP下获取额外灯数量 在这篇文章中&#xff0c;我们…

Geogebra绘制正态分布曲线-学习b站何威老师视频

​ 参考资料 GeoGebra系列教程3——GGB与正态分布密度曲线_哔哩哔哩_bilibili 我要开始学习啦&#xff0c;吼吼~~~ 准备工作 https://www.geogebra.org/download 选择GeoGebra 经典 6 详细步骤 设计思路具体操作设计积分区间【a,b】创建滑动条a∈[-5,5]&#xff0c;增量是…

Linux 下查看端口以及释放端口

目录 一、查看端口是否被占用 1、使用 netstat 命令 2、使用 lsof 命令 二、释放端口 1、使用kill命令 2、使用 fuser 命令 三、netstat 四、lsof 五、fuser 一、查看端口是否被占用 在 Linux 系统上&#xff0c;你可以使用 netstat 或 lsof 命令来查看端口是否被占用。…

Goodbye! Xshell、iTerm2、FinalShell,mobaxterm,新一代开源免费的终端工具真香!

前言 众所周知&#xff0c;在数字化时代&#xff0c;远程连接成为工作和管理中不可或缺的一环。 而在这个领域&#xff0c;SSH&#xff08;Secure Shell&#xff09;一直是最常用的协议之一&#xff0c;为远程管理提供了安全的通信渠道。 然而&#xff0c;伴随着技术的发展和…

flutter tab页面切换练手,手势滑动、禁止滑动、page切换动画,禁止切换动画。

1&#xff1a;AppBar、TabBar、TabBarView实现页面切换&#xff0c;点击tab后tabBarView有左右切换动画&#xff0c;滑动page联动tabBar class DevicePage extends StatefulWidget {const DevicePage({super.key});overrideState<DevicePage> createState() > _Devic…

热门技术问答 | 请 GaussDB 用户查收

近年来&#xff0c;Navicat 与华为云 GaussDB 展开一系列技术合作&#xff0c;为 GaussDB 用户提供面向管理开发工具的生态工具。Navicat 现已完成 GaussDB 主备版&#xff08;单节点、多节点&#xff09;和分布式数据库的多项技术对接。Navicat 通过工具的流畅性和实用性&…

[蓝桥杯]真题讲解:景区导游(DFS遍历、图的存储、树上前缀和与LCA)

蓝桥杯真题讲解&#xff1a; 一、视频讲解二、暴力代码三、正解代码 一、视频讲解 视频讲解 二、暴力代码 //暴力代码&#xff1a;DFS #include<bits/stdc.h> #define endl \n #define deb(x) cout << #x << " " << x << \n; #de…

初识计算机网络 | 计算机网络的发展 | 协议初识

1.计算机网络的发展 “矛盾是普遍存在的&#xff0c;矛盾是事物联系的实质内容和事物发展的根本动力&#xff01;” 计算机在诞生之初&#xff0c;在军事上用来计算导弹的弹道轨迹&#xff01;在发展的过程中&#xff08;商业的推动&#xff0c;国家政策推动&#xff09;&…

嵌入式linux学习之系统烧录

1.所需文件 1. 开发板为正点原子stm32mp157,文件可按照linux驱动教程编译&#xff0c;也可在正点原子文档->08、系统镜像\02、出厂系统镜像中找到&#xff1a; 2.烧录 1.拨码开关为000(usb启动)&#xff0c;otg接口接入虚拟机&#xff0c;打开stm32cubeProgrammer: 2.页面…

2023年跨界融合创新应用合作发展大会:核心内容与学习收获(附大会核心PPT下载)

2023年跨界融合创新应用合作发展大会&#xff0c;主要聚焦于跨界融合和创新应用&#xff0c;旨在促进不同行业之间的交流与合作&#xff0c;推动各行业的创新发展。 会议主要围绕以下主题展开&#xff1a; 1、跨界融合&#xff1a;会议探讨不同行业之间的融合模式和合作方式&…

绝地求生:PUBG服务条款修订,是否因为PLAYERUNKNOWN礼包导致?

嗨&#xff0c;我是闲游盒~ PUBG全球的官网&#xff0c;刚刚更新了一条《PUBG: 绝地求生》。 通知内容大概如下 对所有平台的PUBG的服务条款进行修订&#xff0c;修订安排于2月7日后生效。 从修订的条款内容猜测&#xff0c;本次修订安排是因为PLAYERUNKNOWN礼包 记得预约荣…

【轮式平衡机器人】——TMS320F28069片内外设之GPIO

引入 接下来的几期博客会介绍轮式平衡机器人TMS320F28069片内外设&#xff0c;了解片内外设的基本原理&#xff0c;内容较为基础&#xff0c;都是些简单的simulink模型&#xff0c;旨在将复杂的原理过渡到simulink软件应用。足够了解的博友可跳过。 后续还将会结合MATLAB/Sim…