数字人解决方案——AniPortrait音频驱动的真实肖像动画合成

概述

在当今数字化时代，将静态图像和音频素材转化为动态、富有表现力的肖像动画，已经成为游戏、数字媒体、虚拟现实等多个领域的重要技术。然而，开发人员在创建既具有视觉吸引力又能保持时间一致性的高质量动画框架方面面临着巨大挑战。其中，嘴唇运动、头部位置和面部表情的复杂协调是造成这一复杂性的主要原因，这些元素需要精确同步以产生引人入胜的视觉效果。

本文将深入探讨AniPortrait，这是一个创新的框架，专注于生成由参考肖像图像和音频样本驱动的高质量动画。AniPortrait的工作流程分为两个主要阶段：

3D表示与2D面部标志的映射：首先，AniPortrait从音频样本中提取关键的3D中间表示，这些表示随后被映射到一系列2D面部标志上。这一步骤是将音频信号转换为视觉动画的关键环节。
扩散模型与运动模块的融合：接着，AniPortrait利用一个鲁棒的扩散模型，结合精心设计的头部运动模块，将面部标志的序列转换成既时间一致又逼真的动画。

实验结果表明，AniPortrait框架在生成具有卓越视觉质量、姿势多样性和面部自然度的高质量动画方面具有显著优势，极大地增强了用户的感知体验。此外，AniPortrait在可控性和灵活性方面也展现了巨大潜力，使其能够有效应用于面部重现、面部动作编辑等多个领域。

本文的目的是全面介绍AniPortrait框架，包括其内在机制、所采用的方法、整体架构，以及与当前最先进框架的比较分析。通过深入探讨，我们将揭示AniPortrait如何突破现有技术的局限，为数字肖像动画领域带来革命性的变革。

随着我们逐步深入AniPortrait的世界，您将了解到这一技术是如何将静态图像和音频转化为栩栩如生的动态肖像，以及它如何在多个应用场景中发挥其独特的价值。让我们一起探索AniPortrait如何通过先进的算法和创新的技术手段，为数字媒体创作者提供前所未有的创作自由度和表现力。

源码地址：https://github.com/Zejun-Yang/AniPortrait
整合包与技术交流群：787501969

演示视频：

数字人解决方案——AniPortrait音频驱动的真实肖像动

AniPortrait

创建逼真且富有表现力的肖像动画一直是数字艺术和技术研究的前沿领域，它在数字媒体、虚拟现实和游戏等多个行业展现出巨大的应用潜力。尽管如此，生成既具有视觉吸引力又保持时间一致性的高质量动画仍然是一个技术挑战。这主要是因为需要精确协调头部位置、视觉表达和嘴唇动作等多个复杂因素，以创造出引人入胜的视觉效果。传统的生成器，如NeRF、基于运动的解码器和生成对抗网络（GAN），在这方面存在泛化能力有限和生成稳定性不足的问题。然而，随着扩散模型的兴起，它们在生成高质量图像方面展现出了巨大潜力，为解决这一挑战提供了新的思路。
AniPortrait框架正是基于扩散模型的最新进展，旨在通过参考图像和音频样本来生成高质量的动画肖像。该框架的工作流程分为两个阶段：

音频到3D面部网格的转换：
- 在第一阶段，AniPortrait利用基于Transformer的模型从音频输入中提取3D面部网格和头部姿势，并将这些信息映射到2D面部标志序列上。
- 这一步骤不仅捕捉了音频中的嘴唇运动和微妙表情，还实现了与音频节奏同步的头部运动，为后续动画制作奠定了基础。
面部标志序列到动画的转换：
- 第二阶段，AniPortrait结合强大的扩散模型和运动模块，将面部标志序列转换成逼真且时间一致的动画肖像。
- 该框架借鉴了现有的AnimateAnyone模型的网络架构，采用了Stable Diffusion 1.5，这是一种高效的扩散模型，能够根据参考图像和身体运动序列生成逼真且流畅的图像。

AniPortrait框架在设计上进行了创新，特别是在处理嘴唇动作生成方面，通过重新设计网络中的姿态引导模块，不仅保持了轻量级的设计，还提高了生成唇形动作的精度。

实验结果：
实验结果显示，AniPortrait框架在生成具有高度面部自然度、出色视觉质量和多样化姿势的动画方面具有显著优势。通过采用3D面部表征作为中间特征，AniPortrait框架展现出了高度的灵活性，可以根据具体需求调整这些表征，显著增强了其在面部重演和面部动作编辑等领域的应用潜力。

AniPortrait框架的提出，不仅推动了肖像动画生成技术的发展，也为未来在更广泛的应用场景中实现个性化和高质量的动画制作提供了可能。随着技术的不断进步和优化，我们有理由相信，AniPortrait框架将在数字艺术创作和虚拟角色交互等领域发挥越来越重要的作用。

算法框架

所提出的 AniPortrait 框架包括两个模块，即 Lmk2Video 和 Audio2Lmk。 Audio2Lmk 模块尝试提取一系列地标序列，从音频输入中捕获复杂的嘴唇运动和面部表情，而 Lmk2Video 模块则使用此地标序列生成具有时间稳定性的高质量肖像视频。下图概述了 AniPortrait 框架的工作情况。可以看出，AniPortrait 框架首先从音频中提取 3D 面部网格和头部姿势，然后将这两个元素投影为 2D 关键点。在第二阶段，该框架采用扩散模型将二维关键点转换为肖像视频，两个阶段在网络中同时进行训练。

音频2Lmk

对于给定的语音片段序列，AniPortrait 框架的主要目标是通过平移和旋转的矢量表示来预测相应的 3D 面部网格序列。 AniPortrait框架采用预训练的wav2vec方法来提取音频特征，该模型具有高度的泛化性，能够准确地识别音频中的语调和发音，这对于生成音频数据起着至关重要的作用。通过利用获得的强大语音特征，AniPortrait 框架能够有效地采用由两个 fc 层组成的简单架构，将这些特征转换为 3D 面部网格。 AniPortrait 框架观察到，模型实现的这种简单设计不仅提高了推理过程的效率，而且保证了准确性。将音频转换为姿势时，AniPortrait 框架采用相同的 wav2vec 网络作为主干，尽管该模型不与音频到网格模块共享权重。这主要是因为姿势更多地与音频中存在的音调和节奏相关，与音频和网格任务相比，其侧重点不同。为了考虑先前状态的影响，AniPortrait 框架采用 Transformer 解码器来解码姿势序列。在此过程中，框架使用交叉注意机制将音频特征集成到解码器中，并且对于这两个模块，框架使用 L1 损失对其进行训练。一旦模型获得姿势和网格序列，它就会采用透视投影将这些序列转换为面部标志的二维序列，然后将其用作后续阶段的输入信号。

Lmk2视频

对于给定的参考肖像图像和面部标志序列，所提出的 Lmk2Video 模块创建时间一致的肖像动画，并且该动画将运动与标志序列对齐，并保持与参考图像一致的外观，最后，该框架将肖像动画表示为一系列肖像帧。 Lmk2Video网络结构的设计从现有的AnimateAnyone框架中寻求灵感。 AniPortrait 框架采用了稳定扩散1.5，一个极其有效的扩散模型作为其支柱，并结合了一个时间运动模块，可以有效地将多帧噪声输入转换为视频帧序列。同时，ReferencenNet网络组件镜像了Stable Diffusion 1.5的结构，并利用它从参考图像中提取外观信息，并将其集成到主干中。战略设计可确保面部 ID 在整个输出视频中保持一致。与 AnimateAnyone 框架不同，AniPortrait 框架增强了 PoseGuider 设计的复杂性。 AnimateAnyone 框架的原始版本仅包含几个卷积层，其中地标特征与主干输入层的潜在特征合并。 AniPortrait 框架发现该设计在捕捉复杂的嘴唇运动方面存在不足，为了解决这个问题，该框架采用了 ConvNet 架构的多尺度策略，并将相应尺度的标志性特征合并到主干的不同块中。此外，AniPortrait 框架通过将参考图像的地标作为附加输入引入了额外的改进。 PoseGuider组件的交叉注意力模块促进了每一帧的目标地标和参考地标之间的交互。这个过程为网络提供了额外的线索来理解外观和面部特征之间的相关性，从而有助于生成具有更精确运动的肖像动画。

实施结果

对于 Audio2Lmk 阶段，AniPortrait 框架采用 wav2vec2.0 组件作为骨干，并利用 MediaPipe 架构提取 3D 网格和 6D 姿势进行注释。该模型从其内部数据集获取 Audio2Mesh 组件的训练数据，该数据集包含来自单个说话者的近 60 分钟的高质量语音数据。为了确保 MediaPipe 组件提取的 3D 网格稳定，要求配音演员面向摄像机，并在整个录制过程中保持稳定的头部位置。对于 Lmk2Video 模块，AniPortrait 框架实现了两阶段训练方法。在第一阶段，该框架专注于训练ReferenceNet和PoseGuider（主干的2D组件），并省略了运动模块。第二步，AniPortrait框架冻结所有其他组件，并专注于训练运动模块。在这个阶段，该框架利用两个大规模高质量面部视频数据集来训练模型，并使用 MediaPipe 组件处理所有数据以提取 2D 面部标志。此外，为了增强网络对嘴唇运动的敏感度，AniPortrait 模型在从 2D 地标渲染姿势图像时，用不同的颜色区分上唇和下唇。

如下图所示，AniPortrait 框架生成一系列动画，展现出卓越的品质和真实感。

然后，该框架利用可编辑的中间 3D 表示来根据要求操作输出。例如，用户可以从某个来源提取地标并更改其 ID，从而允许 AniPortrait 框架创建面部重演效果。

总结

AniPortrait，这是一个新颖的框架，旨在生成由参考肖像图像和音频样本驱动的高质量动画。只需输入参考图像和音频剪辑，AniPortrait 框架就能够生成具有自然头部运动和平滑嘴唇运动特征的肖像视频。通过利用扩散模型强大的泛化能力，AniPortrait 框架生成的动画能够显示令人印象深刻的逼真图像质量和逼真的运动。 AniPortrait 框架的工作分为两个阶段。首先，AniPortrait 框架从音频样本中提取中间 3D 表示，并将它们投影到一系列 2D 面部标志中。接下来，该框架采用鲁棒的扩散模型与运动模块相结合，将地标序列转换为时间一致且逼真的动画。实验结果证明了 AniPortrait 框架的优越性和能力，可以生成具有卓越视觉质量、姿势多样性和面部自然度的高质量动画，从而提供增强和丰富的感知体验。此外，AniPortrait框架在可控性和灵活性方面具有显着的潜力，可以有效应用于面部重现、面部动作编辑等领域。