Identity-Preserving Talking Face Generation with Landmark and Appearance Priors

news2025/1/11 8:51:51

主要问题:1)模型如何生成具有与输入音频一致的面部运动(特别是嘴部和下颌运动)的视频?2)模型如何在保留身份信息的同时生成视觉上逼真的帧?
摘要:
从音频生成说话脸部视频引起了广泛的研究兴趣。一些特定个人的方法可以生成生动的视频,但需要使用目标说话者的视频进行训练或微调。现有的通用方法在生成逼真和与嘴唇同步的视频同时保留身份信息方面存在困难。为了解决这个问题,我们提出了一个两阶段的框架,包括从音频到关键点的生成和从关键点到视频的渲染过程。首先,我们设计了一种基于Transformer的全新关键点生成器,用于从音频中推断出嘴唇和下颌的关键点。说话者面部的先前关键点特征被用来使生成的关键点与说话者的面部轮廓相吻合。然后,我们构建了一个视频渲染模型,将生成的关键点转化为面部图像。在这个阶段,我们从目标脸的下半部和静态参考图像中提取先前的外观信息,有助于生成逼真且保持身份信息的视觉内容。为了更有效地探索静态参考图像的先前信息,我们根据运动场将静态参考图像与目标脸的姿态和表情进行对齐。此外,我们重新使用音频特征以确保生成的面部图像与音频很好地同步。

  1. Introduction:
    音频驱动的说话脸部视频生成在许多应用中具有价值,如视觉配音,数字助理和动画电影。基于训练范例和数据需求,说话脸部生成方法通常可以分为特定个人和通用个人两种类型。特定个人的方法可以生成照片般逼真的说话脸部视频,但需要使用目标说话者的视频进行重新训练或微调,而这在某些真实场景中可能无法实现。因此,在这个领域中,学习生成通用个人的说话脸部视频是一个更为重要且具有挑战性的问题。这个主题也吸引了很多研究关注。在这篇论文中,我们专注于通过在音频数据和多个参考图像的指导下完成说话者原始视频的下半部分来解决通用个人说话脸部视频生成的问题。主要挑战包括两个方面:1)模型如何生成具有面部运动的视频,特别是与输入音频一致的口部和下颌运动?2)模型如何在保留身份信息的同时生成视觉逼真的帧?为了解决第一个问题,许多方法在生成通用个人说话脸部视频时利用面部关键点作为中间表示。
    由于输入的音频和中间的关键点没有固有的视觉内容信息,因此在保留身份信息的同时,从音频和中间关键点产生逼真的面部视频是非常具有挑战性的。

    我们使用来自上半部脸的姿势先验关键点和来自静态面部图像提取的参考关键点作为音频到关键点生成器的额外输入。对两种关键的的使用有助于防止生成器产生偏离说话者面部轮廓的结果。然后,我们基于多头自注意力模块构建了生成器的网络架构。与简单的串联或加法操作相比,我们的设计在捕获语音单元和关键点之间的关系方面更有优势 。此外,多个静态人脸图像被用来提取先前的外观信息,以生成真实且保留身份的人脸帧。
    我们使用基于运动场的对齐模块和面部图像翻译模块建立了关键点到视频渲染网络。对齐模块:将静态参考图像与由关键点生成器生成的关键点结果提供的面部姿势和表情进行对齐。具体实现方法:首先,针对每个静态参考图像,推断出该图像的运动场,即描述图像中不同区域运动情况的信息。然后,利用推断得到的运动场,对该图像以及图像的特征进行变换或扭曲,使其与由关键点生成器生成的面部姿势和表情一致。这样可以确保最终生成的面部图像与静态参考图像在姿势和表情上保持一致,产生逼真的结果。

    面部图像翻译模块通过整合来自推断的关键点、被遮挡的原始图像、对齐的参考图像和音频的多源特征来生成最终的面部图像。

方法:
给定音频序列和初始输入视频,我们的目标是通过以逐帧方式完善输入视频的下半部分遮挡的脸部,生成一个与音频同步的说话人面部视频。我们的方法概述如图2所示。
在这里插入图片描述
**音频到关键点生成阶段(Audio-To-Landmark Generation):左侧橙色部分。基于Transformer的关键点生成器以音频、参考关键点和姿势先验关键点为输入,预测嘴唇和下颌的关键点,然后与姿势先验关键点结合构建目标草图。为简单起见,省略了位置编码和模态编码。
关键点到视频渲染阶段(Landmark-To-Video Rendering):右侧蓝色部分。根据目标草图,对齐模块以多个参考图像及其草图作为输入,获取运动场,将参考图像及其特征扭曲到目标头部姿势和表情。借助音频特征、扭曲后的图像和特征,翻译模块将连接了下半部遮蔽目标脸的目标草图转化为最终的面部图像。
Overview of our framework. It can be divided into two stages: (1) Audio-To-Landmark Generation (left orange part). The
transformer-base landmark generator takes the audio, reference landmarks, and pose prior landmarks as input to predict the landmarks
of lip and jaw, which are then combined with pose prior landmarks to construct the target sketches. Positional encodings and modality
encodings are omitted for simplicity. (2) Landmark-To-Video Rendering (right blue part). According to target sketches, the alignment
module takes multiple reference images and their sketches as input to obtain the motion fields, which warp the reference images and their
features to target head pose and expression. With the assistance of audio features and warped images and features, the translation module
translates the target sketches concatenated with the lower-half masked target face to the resulted face image.

**

我们的框架由两个阶段组成。第一阶段将音频信号和说话者面部的先验关键点作为输入以预测嘴唇和下巴的界标。第二阶段由对齐模块和翻译模块组成。基于运动场,对齐模块将参考图像及其特征与目标脸部姿势和表情进行配准。翻译模块在音频特征的指导下,以及来自被遮挡的目标脸部和已配准的参考图像的先验外观信息的指导下,从关键点合成完整的面部图像。基于运动场,对齐模块将参考图像及其特征与目标脸部姿势和表情进行配准。翻译模块在音频特征的指导下,以及来自被遮挡的目标脸部和已配准的参考图像的先前外观信息的指导下,从关键点合成完整的面部图像。

3.1. Audio-To-Landmark Generation
在这个阶段,网络的目标是一次生成 T = 5 T = 5 T=5 个相邻帧的嘴唇 { l ^ l t ∈ R 2 × n l } t = 1 T \{\hat{l}_{lt} \in \mathbb{R}^{2 \times nl}\}_{t=1}^T { l^ltR2×nl}t=1T 和下颌 { j ^ l t ∈ R 2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1122712.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【tg】6: MediaManager的主要功能

【tg】2:视频采集的输入和输出 的管理者是 media manager‘ media 需要 network的支持:NetworkInterface friend class MediaManager::NetworkInterfaceImpl;NetworkInterfaceImpl 直接持有 MediaManager 的指针即可:发送rtp包、rtcp包、设置socket选项?

SpringMVC系列-5 消息转换器

背景 SpringMVC系列的第五篇介绍消息转换器,本文讨论的消息转换指代调用Controller接口后,对结果进行转换处理的过程。 内容包括介绍自定义消息转换器、SpringMVC常见的消息转换器、Spring消息转换器工作原理等三部分。 本文以 SpringMVC系列-2 HTTP请求…

Android Settings解析

首语 Android设置应用是Android系统中一个非常重要的系统应用,它允许用户调整和设置系统的各种参数和功能(系统设置/自定义设置/控制应用权限/开发者选项/系统信息等),使用户获得更好的使用体验。同时它一般也是Android系统开发者…

数据结构(递归,链表实现递归)

a.宏观描述:本质上说,递归将原问题转化为更小的同一问题。 b.递归本身也是一个函数,来完成某一功能。 1.递归终止的条件 2.递归操作 1.猴子吃桃问题 猴子第一天偷吃了该堆桃子的一半,觉得好吃多吃了一个;第二天吃了该堆…

【计算机网络】计算机网络中的一些基本概念

IP地址(互联网协议地址): IP地址是分配给连接到互联网的设备的唯一标识符。它是由四个数字(IPv4)或者由八个数字(IPv6)组成。这些数字是网络层协议的一部分,它定义了数据包的路由。…

源码解析SpringMVC处理请求的完整流程

1.WebMvcAutoConfiguration EnableWebMvcConfiguration自动装配类负责加载SpringMVC涉及的HandlerAdapter、HandlerMapping、ExceptionHandlerExceptionResolver等。 SpringMVC利用 DispatchServlet 处理上游Tomcat的请求时,会被HandlerMapping、HandlerAdapter的相关子类分别…

Java JDK环境变量配置

JDK 安装和配置完成后,可以测试其是否能够正常运行。选择“开始”|“运行”命令,在打开的“运行”对话框中输入 cmd 命令,按 Enter 键进入到 DOS 环境下。 在命令提示符后输入并执行java -version命令,系统如果输出类似图 1 所示的…

Java类的继承

继承: 类的继承基本思想是基于某个父类进行扩展,得到一个新的子类,子类可以继承父类的原有属性和方法,也可以增加原来父类所不具备的属性和方法,或者重写父类中的方法; 重写: 【重写】也可以称为【覆盖】&…

阿里云服务结构--长期更新

CNCF 全称Cloud Native Computing Foundation(云原生计算基金会),成立于 2015 年7月21日(于美国波特兰OSCON 2015上宣布),其最初的口号是坚持和整合开源技术来让编排容器作为微服务架构的一部分&#xff0…

基于​Segment-and-Track Anything与ProPainter实现视频一键目标移除与一键祛除水印

一、 ProPainter 1.算法简介 ProPainter是由新加坡南洋理工大学(Nanyang Technological University)的S-Lab团队开发的一款视频修复工具。它融合了图像和特征修复的优势,以及高效的Transformer技术,旨在提供高质量的视频修复效果…

SolidWorks模型导入到Gazebo中

首先建立好solidworks模型,然后另存为stl格式, 导出为STL文件时,文件名最好不要是中文,并且要将后缀STL改为stl,否则Gazebo无法识别 这是我创建好的机器人充电桩模型: 尺寸是单位是mm: 135mm …

C语言程序的翻译环境和执行环境

目录 一、概述:翻译环境、执行环境 1.翻译环境 2.执行环境(运行环境) 二、详述翻译环境——编译环境、链接环境 1.编译环境 2.链接环境 三、详述编译过程——预编译、编译、汇编 1.预编译(预处理) 2.编译&…

JVM 堆外内存查看方法

JVM 堆外内存查看方法 概述 是否曾经想过为什么Java应用程序通过众所周知的*-Xms和-Xmx调整标志消耗的内存比指定的数量大得多 ?由于各种原因和可能的优化,JVM可能会分配额外的本机内存。这些额外的分配最终可能使消耗的内存超出-Xmx* 限制。在本教程中…

第6周 .NET

好嘛!本来以为上周SQL Server环境配置等已经够恶心了,没想到这周又得去搞所谓的Microsoft Visual Studio 2005了。 首先非常离谱的是,这个Microsoft Visual Studio 2005如果就是指Visual Studio 2005,那么已经是8年前的老的不行的…

【技能树笔记】网络篇——练习题解析(八)

目录 前言 一、LAN技术 1.1 堆叠与集群 1.2 MSTP的特点 二、WAN技术 2.1 PPP链路建立 2.2 PPPoE 2.3 组播 2.3.1 组播的IP 2.3.2 组播分发树 2.3.3 组播协议 三、IPv6基础 3.1 IPv6地址 3.2 IPv6协议 3.3 IPv6过渡技术 总结 🌈嗨!我是Filotimo__&#x1…

快速拿下 AI Prompt 工程师证书攻略!

Datawhale干货 贡献者:许文豪、司玉鑫、甘元琦 Prompt 是 AI 2.0 时代打开大模型能力的金钥匙,它能够大大的提高工作效率。 如果把大语言模型 (LLM,Large Language Model) 具象成一个的员工,那 Prompt 提示词则好比是你给员工下的…

留意差距:弥合网络安全基础设施的挑战

您最近一直在关注日益增加的网络威胁吗?如果您发现自己沉浸在 IT 或技术中,那么您可能会永远追求与时俱进。每天都会出现新的漏洞,这对保持消息灵通提出了巨大的挑战。 构建和维护能够应对复杂攻击者的网络安全基础设施所面临的挑战是真实存…

idea的debug调试

目录 断点条件设置(condition) 断点表达式(evaluate expression) 断点回退(reset frame) 断点条件设置(condition) 条件断点,一般是满足我们设置的某个条件时,debug断点才会生效。这种条件断点设置,我们一般用在多重循环中。 这儿我们以li…

codeforces (C++ In Love )

题目: 翻译: 思路: 1、在一个集合中有多组线段,如果有不相交的两组线段,则输出YES,否则输出NO。 2、每次操纵可以选择增加一组线段或者删除一组线段后,输出YES或者NO。 3、用flag标记该线段是否…

数据结构: map与set的简单实现

目录 map与set的模拟实现 1.基本框架 2.模拟实现map与set所需要做的事 1.使用模板 , 达到泛性编程 2.比较问题 3.迭代器 RBTree中: operator operator-- 4.map [ ] 的实现 5.使用普通迭代器构造const迭代器 效果 map与set的模拟实现 1.基本框架 map set 2.模拟实…