【数字人】7、GeneFace++ | 使用声音和面部运动系数的关系作为 condition 来指导 NeRF 重建说话头

news2025/4/13 12:58:52

在这里插入图片描述

论文：GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation

代码：https://genefaceplusplus.github.io/ [未开源]

出处：浙大 | 字节

时间：2023.10

论文：GENEFACE: GENERALIZED AND HIGH-FIDELITY AUDIO-DRIVEN 3D TALKING FACE SYNTHESIS

代码：https://github.com/yerfor/GeneFace

出处：ICLR2023 | 浙大、字节

时间：2023.01

talking face 生成任务期望能够实现对于任意的输入音频生成高质量高保真的说话视频

最近，NeRF 在这个领域受到了很大的关注，其只需要几分钟的训练视频，就可以渲染出高保真的 3D 说话视频

但是，基于 NeRF 的方法有以下几个挑战：

所以，GeneFace++ 做出了如下改进：

有了这些改进，GeneFace++ 成为首个实现稳定且实时的具有泛化音频-唇形同步功能的说话脸部生成的基于 NeRF 的方法

在唇部同步运动预测中，主要有两个挑战：

第一个挑战是所谓的一对多映射问题，这意味着同样的输入音频可能有几个合理的对应面部运动。早期的工作 [49, 47, 6] 直接使用回归损失（例如，L2）学习确定性模型，并因此导致过度平滑的唇部结果。Wav2Lip [30] 第一次利用判别同步专家实现更为清晰和准确的唇部运动，后续工作[48, 45, 22, 19, 34]也采用了这种方法。MemFace[36]引入音频到运动中的记忆检索以缓解一对多问题。
第二个挑战是在给定长时间输入音频时生成时间一致且稳定的运动序列。[24]采用自回归结构来模拟时间序列，但受限于慢速推理和误差累积。其他工作[41,12]使用并行结构（如1D卷积）与滑动窗口，这在一定程度上解决了自回归方法的不足。Transformer-s2a [7] 和 GeneFace [42] 使用前馈结构（自我注意力和卷积）来并行处理整个音频序列。这种框架具有高效率和建模长期信息能力，但在保持生成运动序列中时间连贯性和稳定性方面不太好。

动态人像合成的技术可以分为三类：

基于2D的方法：[39, 35, 30, 49, 46, 48]，他们采用GANs [10]或图像到图像转换[17]作为图像渲染器。虽然这些方法达到了良好的图像质量，但由于缺乏3D几何建模，它们无法生成可控制姿态的视频。
基于3D Morphable Model [29] (3DMM)的方法：基于3DMM的方法[41,38,44]通过使用3DMM系数作为辅助条件注入了对三维先验知识，但使用3DMM作为中间处理已知会导致信息丢失，并降低性能。
神经渲染法：神经渲染法[3、9、31、15、50] 采用 NeRF [25] 或其变种来对人像进行三维建模。AD-NeRF 是第一个基于NeRF进行面部语音合成的方法，它提出了一种端到端音频至视频 NeRF 渲染器来生成依赖于音频特征的人像，GeneFace[42] 引入 audio-to-motion 模块来改善NeRF基础上渲染器同步效果，AD-NeRF 采用离散可学习网格在 AD-NeRF 中进行训练和推理加速。

因此，GeneFace++ 使用了三部分来实现：