腾讯提出了一种新颖的框架-AniPortrait,用于生成由音频和参考肖像图像驱动的高质量动画。通俗讲,就是给张照片生成说话的视频。类似阿里的EMO,大家先可以简单看下效果。
相关链接
-
论文:arxiv.org/abs/2403.17694
-
代码:github.com/Zejun-Yang/AniPortrait
-
Jupyter:github.com/camenduru/AniPortrait-jupyter
论文阅读
AniPortrait:逼真的人像动画的音频驱动合成
摘要
这项研究提出了一个新的框架:AniPortrait。生成由音频和参考肖像图像驱动的高质量动画。方法分为两个阶段。
最初,我们从音频中提取 3D 中间表示并将其投影到一系列 2D 面部标志中。
随后,我们采用鲁棒的扩散模型,结合运动模块,将地标序列转换为逼真且时间一致的肖像动画。
实验结果证明了AniPortrait在面部自然度、姿势多样性和视觉质量方面的优越性,从而提供了增强的感知体验。
此外,我们的方法在灵活性和可控性方面表现出巨大的潜力,可以有效地应用于面部运动编辑或面部重演等领域。
方法
提出的方法概述:框架分为两个阶段。 首先,从音频中提取三维面部网格和头部姿态,然后将这两个元素投影到2D关键点中。在第二阶段,使用扩散模型将2D关键点转换为人像视频。这两个阶段是同时在框架内进行训练。
提出的框架包括两个模块:
-
Audio2Lmk:目的是提取一系列的地标,捕捉错综复杂的来自音频输入的面部表情和嘴唇动作。
-
Lmk2Video:利用了这个具有里程碑意义的序列,以产生高质量的肖像视频与时间的稳定性。
结果展示
AniPortrait方法生成一系列的动画在质量和现实主义两方面都引人注目。利用一个中间的三维表示AniPortrait可以编辑它以操纵最终输出。例如AniPortrait可以从来源中提取地标并更改其ID,从而能够创建面部重现效果。
结论
本研究提出了一种基于扩散模型的肖像动画框架-AniPortrait。通过简单地输入一个音频剪辑和一个参考图像,框架能够生成一个肖像视频,具有平滑的嘴唇运动和 自然的头部运动。
感谢你看到这里,也欢迎点击关注下方公众号,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~