阿里Animate Anyone:任何静态图像都能动起来,让C罗、梅西、内马尔一起跳科目三!

news2024/9/23 9:27:02

目录

前言

相关链接

摘要        

方法

效果展示

为各种角色制作动画

比较

更多应用


前言

        2024年一开年,社交媒体和朋友圈就被一系列惊艳舞蹈视频占领了。钢铁侠跳起了科目三,马斯克也在摆着网红舞步,这些大约10秒的视频都是借助大模型技术制作的,轻松让任何人或角色变成舞蹈达人,掀起了一阵斗舞狂潮。

        2023年11月以来,阿里发布了Animate Anyone,只需一张人物照片,结合骨骼动画,就能生成人体动画视频。这个让图片动起来的创新工具在Twitter和YouTube上相关视频的播放量都突破了1亿次,而且在GitHub上的关注度也飙升,超过了1万Star。

图片

图片

相关链接

论文链接:https://arxiv.org/pdf/2311.17117.pdf

项目链接:https://humanaigc.github.io/animate-anyone

体验地址:https://huggingface.co/spaces/HumanAIGC/OutfitAnyone

摘要        

        角色动画旨在通过驱动信号从静止图像生成角色视频。目前,扩散模型因其强大的生成能力已成为视觉生成研究的主流。然而,图像到视频领域仍然存在挑战,特别是在角色动画中,暂时保持与角色详细信息的一致性仍然是一个艰巨的问题。在本文中,我们利用扩散模型的力量,提出了一个为角色动画量身定制的新颖框架。为了保持参考图像中复杂外观特征的一致性,Animate Anyone设计了 ReferenceNet 通过空间注意力来合并细节特征。为了确保可控性和连续性,我们引入了高效的姿势引导器来指导角色的运动,并采用有效的时间建模方法来确保视频帧之间平滑的帧间过渡。通过扩展训练数据,我们的方法可以对任意角色进行动画处理,与其他图像到视频方法相比,在角色动画方面产生更好的结果。此外,我们还根据时尚视频和人类舞蹈合成的基准评估了我们的方法,取得了最先进的结果。

图片

方法

图片

        方法概述:姿势序列最初使用 Pose Guider 进行编码,并与多帧噪声融合,然后由 Denoising UNet 进行视频生成的去噪过程。Denoising UNet 的计算模块由 Spatial-Attention、Cross-Attention 和 Temporal-Attention 组成,如右侧虚线框所示。参考图像的集成涉及两个方面。首先,通过ReferenceNet提取详细特征并用于空间注意力。其次,通过CLIP图像编码器提取语义特征进行交叉注意力。时间注意力在时间维度上运作。最后,VAE解码器将结果解码为视频剪辑。

效果展示

为各种角色制作动画

人类

图片

图片

人形

图片

动漫/卡通

        结合Animate Anyone技术,AI动漫人物绘画生成的门槛被大大降低,让普通人也能轻松创作出多样化的动漫角色。用户可以根据自己的偏好,自由搭配角色的面部、服装、配饰和背景,创造出具有个性和魅力的二次元角色。

图片

与之前工作效果比较

时尚视频合成

图片

时尚视频合成旨在使用驾驶姿势序列将时尚照片变成逼真的动画视频。使用相同的训练数据在 UBC 时尚视频数据集上进行实验。

人类舞蹈生成

图片

Human Dance Generation 专注于在现实世界的舞蹈场景中制作动画图像。使用相同的训练数据在 TikTok 数据集上进行实验。

更多应用

        结合在上篇博客中介绍的虚拟试衣间Outfit Anyone搭配上Animate Anyone,这款虚拟试衣间技术不仅使得个性化服装搭配变得易如反掌,这也意味着无论你是谁,无论你喜欢的风格如何,都可以找到适合你的虚拟试穿体验。而且它还能适应各种体型,从健身型到曲线型,甚至是娇小型,让每个人都能在这个虚拟试衣间找到适合自己的特色风格。

图片

图片

‍‍    ‍适合任何服装和任何人的超高质量虚拟试穿

        有兴趣的小伙伴快去体验一下吧,感谢你看到这里,也欢迎关注我的个人公众号:小白学AIGC,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion等相关技术。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1409373.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C# Socket通信从入门到精通(16)——单个同步UDP服务器监听多个客户端C#代码实现

前言: 我们在开发UDP通信程序时,有时候我们也需要开发UDP服务器程序,这个服务器只需要和一个客户端实现通信,比如这篇博文C# Socket通信从入门到精通(15)——单个同步UDP服务器监听一个客户端C#代码实现,但是在实际项目中有的时候需要和多个客户端进行通信,这时和一个…

Pandas实践指南:从基础到高级数据分析

Pandas实践指南:从基础到高级数据分析 引言Pandas基础1. 安装和基本配置2. DataFrame和Series的基础3. 基础数据操作 数据清洗与预处理1. 缺失值处理2. 数据转换3. 数据过滤 数据分析与操作1. 数据聚合和分组操作2. 时间序列数据处理3. 条件逻辑和数据分割 高级数据…

将AWS iot消息数据发送S3

观看此文章之前,请先学习AWS iot的数据收集: 使用Linux SDK客户端向AWS Iot发送数据-CSDN博客 上述的文章向大家展示了如何从客户端向AWS iot发送数据,那么数据收到之后,我们如何通过AWS的服务进行数据处理或者保存呢&#xff1…

Unity - gamma space下还原linear space效果

文章目录 环境目的环境问题实践结果处理要点处理细节【OnPostProcessTexture 实现 sRGB 2 Linear 编码】 - 预处理【封装个简单的 *.cginc】 - shader runtime【shader需要gamma space下还原记得 #define _RECOVERY_LINEAR_IN_GAMMA】【颜色参数应用前 和 颜色贴图采样后】【灯…

【C#】基础巩固

最近写代码的时候各种灵感勃发,有了灵感,就该实现了,可是,实现起来有些不流畅,总是有这样,那样的卡壳,总结下来发现了几个问题。 1、C#基础内容不是特别牢靠,理解的不到位&#xff…

vivo 海量基础数据计算架构应用实践

作者:来自 vivo 互联网大数据团队 本文根据刘开周老师在“2023 vivo开发者大会"现场演讲内容整理而成。公众号回复【2023 VDC】获取互联网技术分会场议题相关资料。 本文介绍了vivo在万亿级数据增长驱动下,基础数据架构建设的演进过程,…

如何创建以业务为中心的AI?

AI是企业的未来,这一趋势越来越明显。各种AI模型可以帮助企业节省时间、提高效率并增加收入。随着越来越多的企业采用AI,AI很快就不再是一种可有可无的能力,而是企业参与市场竞争的必备能力。 然而,作为一名业务决策者&#xff0c…

【jetson笔记】torchaudio报错

原因是因为pip安装的包与jetson不兼容导致 自己安装或者cmake编译也会报错 需要拉取官方配置好的docker镜像 拉取docker镜像 具体容器可以看官网,按照自己需求拉取即可 https://catalog.ngc.nvidia.com/orgs/nvidia/containers/l4t-ml 如果其他包不需要只需要torc…

【学习笔记】遥感影像分类相关精度指标

文章目录 0.混淆矩阵1. 精度名词解释2. Kappa系数3.举个栗子参考资料 0.混淆矩阵 混淆矩阵是分类精度的评定指标。是一个用于表示分为某一类别的像元个数与地面检验为该类别数的比较阵列。 对检核分类精度的样区内所有的像元,统计其分类图中的类别与实际类别之间的…

来自世坤!寻找Alpha 构建交易策略的量化方法

问:常常看到有人说Alpha seeking,这究竟是什么意思? 推荐这本《Finding Alphas: A Quantitative Approach to Building Trading Strategies》。我拿到的PDF是2019年的第二版。来自WorldQuant(世坤)的Igor Tulchinshky…

【数据结构与算法】栈(Stack)之 浅谈数组和链表实现栈各自的优缺点

文章目录 1.栈介绍2. 哪种结构实现栈会更优?3.栈代码实现(C语言) 往期相关文章: 线性表之顺序表线性表之链表 1.栈介绍 栈是一种特殊的线性表,只允许在栈顶(Top)进行插入和删除元素操作&#…

Toolbar

记录一下遇到的问题 Toolbal 使用过程中左右出现间隙 代码&#xff1a; <com.google.android.material.appbar.AppBarLayout xmlns:android"http://schemas.android.com/apk/res/android"xmlns:app"http://schemas.android.com/apk/res-auto"xmlns:t…

SAP 消息编号 KI235

在执行AFAB折旧运行的时候&#xff0c;折旧没有运行出来 通过AFBP查询&#xff0c;出现一下报错 原因是因为在ASCET当中没有配置科目分配对象&#xff0c;所以系统无法把折旧费和CO&#xff08;成本中心&#xff09;关联起来 “科目设置”必选勾选 重新运行AFAB &#xff0c;就…

【新书推荐】2.4节 数据宽度

本节内容&#xff1a;计算机受制于物理器件的制约&#xff0c;存储或读写数据的宽度是有长度限制的&#xff0c;通常我们使用数据位的位数来表示数据宽度&#xff0c;如8位、16位、32位、64位等。 ■计算机计数与数学计数的区别&#xff1a;数学中的数据可以是无穷大或无穷小&a…

01.领域驱动设计:微服务设计为什么要选择DDD学习总结

目录 1、前言 2、软件架构模式的演进 3、微服务设计和拆分的困境 4、为什么 DDD适合微服务 5、DDD与微服务的关系 6、总结 1、前言 我们知道&#xff0c;微服务设计过程中往往会面临边界如何划定的问题&#xff0c;不同的人会根据自己对微服务的理 解而拆分出不同的微服…

解读IP风险画像标签:深度洞察网络安全

在当今数字化的世界中&#xff0c;网络安全成为企业和个人关注的焦点。IP风险画像标签作为网络安全的利器&#xff0c;扮演着深度洞察网络风险的角色。本文将深入解读IP风险画像标签&#xff0c;揭示其在网络安全领域的重要性和功能。 1. IP风险画像标签是什么&#xff1f; I…

Kubernetes/k8s之安全机制:

k8s当中的安全机制 核心是分布式集群管理工具&#xff0c;容器编排&#xff0c;安全机制核心是:API SERVER作为整个集群内部通信的中介&#xff0c;也是外部控制的入口&#xff0c;所有的安全机制都是围绕api server开设计的。 请求api资源 1、认证 2、鉴权 3、准入机制 三…

Java设计模式-装饰器模式(10)

大家好,我是馆长!今天开始我们讲的是结构型模式中的装饰器模式。老规矩,讲解之前再次熟悉下结构型模式包含:代理模式、适配器模式、桥接模式、装饰器模式、外观模式、享元模式、组合模式,共7种设计模式。。 装饰器模式(Decorator Pattern) 定义 装饰(Decorator)模式…

npm安装卡住问题(最新版)

npm安装卡住问题(最新版) 背景&#xff1a; ​ 最近这两天用npm安装一些包的时候&#xff0c;发现一直卡住&#xff1a; 报错&#xff1a; idealTree:npm: sill idealTree buildDeps之前能用的现在不能用了&#xff0c;我一想&#xff0c;是不是源头的问题&#xff0c;还真是…

软考复习之UML设计篇

UML统一建模语言 构件图&#xff1a;描述系统的物理结构&#xff0c;它可以用来显示程序代码如何分解成模块 部署图&#xff1a;描述系统中硬件和软件的物理结构&#xff0c;它描述构成系统架构的软件构件&#xff0c;处理器和设备 用例图&#xff1a;描述系统与外部系统及用…