阿里Animate Anyone：任何静态图像都能动起来，让C罗、梅西、内马尔一起跳科目三！

news2025/2/24 3:48:26

前言

2024年一开年，社交媒体和朋友圈就被一系列惊艳舞蹈视频占领了。钢铁侠跳起了科目三，马斯克也在摆着网红舞步，这些大约10秒的视频都是借助大模型技术制作的，轻松让任何人或角色变成舞蹈达人，掀起了一阵斗舞狂潮。

2023年11月以来，阿里发布了Animate Anyone，只需一张人物照片，结合骨骼动画，就能生成人体动画视频。这个让图片动起来的创新工具在Twitter和YouTube上相关视频的播放量都突破了1亿次，而且在GitHub上的关注度也飙升，超过了1万Star。

摘要

角色动画旨在通过驱动信号从静止图像生成角色视频。目前，扩散模型因其强大的生成能力已成为视觉生成研究的主流。然而，图像到视频领域仍然存在挑战，特别是在角色动画中，暂时保持与角色详细信息的一致性仍然是一个艰巨的问题。在本文中，我们利用扩散模型的力量，提出了一个为角色动画量身定制的新颖框架。为了保持参考图像中复杂外观特征的一致性，Animate Anyone设计了 ReferenceNet 通过空间注意力来合并细节特征。为了确保可控性和连续性，我们引入了高效的姿势引导器来指导角色的运动，并采用有效的时间建模方法来确保视频帧之间平滑的帧间过渡。通过扩展训练数据，我们的方法可以对任意角色进行动画处理，与其他图像到视频方法相比，在角色动画方面产生更好的结果。此外，我们还根据时尚视频和人类舞蹈合成的基准评估了我们的方法，取得了最先进的结果。

方法

方法概述：姿势序列最初使用 Pose Guider 进行编码，并与多帧噪声融合，然后由 Denoising UNet 进行视频生成的去噪过程。Denoising UNet 的计算模块由 Spatial-Attention、Cross-Attention 和 Temporal-Attention 组成，如右侧虚线框所示。参考图像的集成涉及两个方面。首先，通过ReferenceNet提取详细特征并用于空间注意力。其次，通过CLIP图像编码器提取语义特征进行交叉注意力。时间注意力在时间维度上运作。最后，VAE解码器将结果解码为视频剪辑。