ECCV2024,清华百度提出ReSyncer:可实现音频同步嘴唇动作视频生成。

news2024/11/18 3:25:19

清华&百度等联合提出了ReSyncer,可以实现更高稳定性和质量的口型同步,而且还支持创建虚拟表演者所必需的各种有趣属性,包括快速个性化微调、视频驱动的口型同步、说话风格的转换,甚至换脸。

ReSyncer的工作原理可以简单理解为:首先,它接收你要处理的音频。然后,它使用一个特别的程序来分析这个声音,并根据声音的特点生成一个3D面部模型。这部分被称为Style-SyncFormer。接下来,ReSyncer会用生成的3D面部模型和目标视频中的脸部图像相结合,制作出一个嘴唇动作同步、表情丰富的高质量视频。这样,创造出肌肉动态与音频配合得天衣无缝的虚拟人物便成为可能。

上面为ReSyncer生成的假唱/说话风格转换/换脸结果。该方法不仅可以产生高保真的口型视频 但音频可以进一步转移任何目标人的说话风格和身份。

亮点直击

  1. 提出了ReSyncer框架,该框架通过涉及具有简单重新配置的3D面部网格,展示了基于Style 的生成器在同步视听面部信息方面的强大功能。

  2. 我们提出了 Style-SyncFormer,它使用简单的 Transformer 块学习风格化的 3D 面部动态,从而实现广义的 3D 面部动画。

  3. ReSyncer不仅可以实现更高稳定性和质量的口型同步,而且还支持创建虚拟表演者所必需的各种有趣属性,包括快速个性化微调、视频驱动的口型同步、说话风格的转换,甚至换脸。

相关链接

论文地址:http://arxiv.org/abs/2408.03284v1

项目地址:https://guanjz20.github.io/projects/ReSyncer

论文阅读

ReSyncer:基于风格重新布线的统一视听同步面部表演者生成器

摘要

使用给定的音频对口型视频是各种应用的基础,包括创建虚拟主持人或表演者。虽然最近的研究探索了使用不同技术的高保真口型同步,但它们的任务导向模型要么需要长期视频进行特定片段的训练,要么保留可见的伪影。

在本文中,我们提出了一个统一有效的框架 ReSyncer,它可以同步广义的视听面部信息。关键设计是重新审视和重新连接基于风格的生成器,以有效采用由原则性风格注入的 Transformer 预测的 3D 面部动态。通过简单地重新配置噪声和风格空间内的信息插入机制,我们的框架将运动和外观与统一的训练融合在一起。

大量实验表明,ReSyncer 不仅可以根据音频制作高保真的口型同步视频,而且还支持多种适合创建虚拟主持人和表演者的吸引人的属性,包括快速个性化微调、视频驱动的口型同步、说话风格的转换,甚至换脸。

方法

ReSyncer框架主要包括两个阶段:

  • 第一阶段是风格注入唇同步变换器(Style-SyncFormer),其负责从音频输入预测3D面部动态;

  • 第二阶段是重新配置的基于风格的生成器,用以将3D动态渲染成高保真的面部图像。

具体实现中,Style-SyncFormer利用音频特征,通过简单的Transformer结构预测与说话风格相关的3D面部网格位移。在模型训练过程中,注入的3D面部网格严重影响生成的质量。此外,在基于风格的生成器中,通过简单插入机制与高质量的3D面部信息融合来生成最终图像,从而大幅提升了嘴唇同步的质量和稳定性。

换脸的Pipeline。 通过重新配置输入数据和额外的训练损失,可以同时实现口型同步和换脸。

效果

定性交叉同步结果。 顶行显示驾驶音频的口型同步视频。基于“模板”行的生成结果应具有与第一行“口型同步视频”相同的唇形。

HDTF 和 VoxCeleb2 的定量结果。对于 LMD 和 ∆Sync,越低越好,对于其他则越高越好。

换脸的定性结果。 身份交换的结果应该保留模板的表情和唇动。

换脸口型同步的结果。ID 交换结果由给定的音频驱动。我们将其与口型同步和换脸中的两种 SOTA 方法的组合进行了比较。我们的方法生成的结果以更好的保真度保留了细节,同时保持了与源相似的说话风格。

消融实验

消融实验。(a)3D 面部网格提供详细的空间引导,实现卓越的口型同步。(b)具有面部器官形状的网格也增强了换脸中的身份传输。

结论

本文重点介绍了 ReSyncer 框架的几个重要特性:

  1. 易于重新配置的特性进一步揭示了广泛研究的结构的潜力,从而可以实现具有网格表示的高质量广义口型同步结果。

  2. 我们的框架旨在采用外部身份信息,因此我们实现了与现有技术相当的换脸能力,同时将口型同步能力保持在一个统一的模型内。

  3. 网络支持说话风格转换、视频驱动的面部动画,并可应用于实时直播。这些特性互补地满足了不同情况下虚拟表演者创作的各种需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1991580.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

暑假看这个,一个月英语水平突飞猛进

恭喜考研党们尘埃落定,静等9月1号入学。 闲暇之余,可以看看各个领域的书,看优秀老师的讲课视频,尝试学习一门新技能....不仅能学到很多知识,还能让生活更加丰富。 推荐几个适合大部分人提升能力的网站。 1、中国大学MO…

JVM知识总结(即时编译)

文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 即时编译 Java编译器经过解释执行,其执行速度必然会比…

【Linux】学习Linux,需要借助具象化的思维

指令与图形化界面 导读一、命令行与图形化界面二、命令行与图形化界面的发展历程1.2.1 打字机的起源1.2.2 肖尔斯和格利登型打字机1.2.3 鼠标的发明1.2.4 图形化界面(GUI)的发展 三、命令行与图形化之间的联系3.1 图形化界面的人机交互3.2 命令行界面的人…

SOLIDWORKS 机电协同设计:无缝集成,提升创新速度

在现代制造业中,产品的复杂性和多样性日益增加,这要求设计团队能够在更短的时间内交付高质量的产品。为了应对这一挑战,越来越多的企业开始采用机电一体化的设计方法,其中SOLIDWORKS成为了实现这一目标的理想工具。作为SOLIDWORKS…

趋动科技联合超聚变,让超融合彻底释放算力潜能

近日,趋动科技联合超聚变推出基于FusionOne HCI超融合的AI算力资源池化解决方案。该方案基于业内领先的AI算力资源池化技术,实现智能调度、异构算力融合管理等功能,让客户能够低成本获取AI算力,便捷使用AI算力,加速AI业…

Linux中的无人职守安装脚本kickstart

一、linux中的无人职守安装脚本kickstart 作用:自动化装系统。就是创建虚拟机,建立完成以后,不需要再进入配置root等,直接就可以自动安装,快速装机。 1.1 提前准备 准备一台红帽linux7系统 linux7 下载图形化界面 […

Docker 常规安装简介

Docker常规安装简介 欢迎关注我的B站:https://space.bilibili.com/379384819 1. 安装mysql 1.1 docker hub上面查找mysql镜像 网址: https://hub.docker.com/_/mysql 1.2 从docker hub上(阿里云加速器)拉取mysql镜像到本地标…

【秋招笔试】2024-08-06-农商银行-三语言题解(CPP/Python/Java)

🍭 大家好这里是 春秋招笔试突围,一起备战大厂笔试 💻 ACM金牌团队🏅️ | 多次AK大厂笔试 | 编程一对一辅导 ✨ 本系列打算持续跟新 秋招笔试题 👏 感谢大家的订阅➕ 和 喜欢💗 和 手里的小花花🌸 ✨ 笔试合集传送们 -> 🧷春秋招笔试合集 🍒 小伙伴们心心…

CLM安装及运行、移植、编译、结果处理、可视化;CESM移植、安装及快速运行

NCAR陆面模式CLM (Community Land Model)是地球系统模式CESM (Community Earth System Model)中的陆面过程模式分量,是在结合了BATS、LSM和IAP94等众多陆面模式的优点后,加入水文过程而开发出的综合性陆面模式,是目前国际上发展最为完善且得到…

100个好用的智能体 | MBTI性格测试专家

今天要介绍的智能体是MBTI性格测试专家,这个是目前Coze里排名第一个的智能体。 默认一共会出8道题(这个可以进行修改) 回答完题目会总结出你的MBTI类型: 如何制作这个智能体? 非常简单,这个智能体只需要使…

论多源数据集成及应用写作框架软考高级论文系统架构设计师论文

论文真题 在如今信息爆炸的时代,企业、组织和个人面临着大量的数据。这些数据来自不同的渠道和资源,包括传感器、社交媒体、销售记录等,它们各自具有不同的数据格式、分布和存储方式。因此如何收集、整理和清洗数据,以建立一个一…

RocketMQ5.0课笔记-主从设计,持久化

rocketmq的副本分类 两副本三副本(两组副本写成功,可认为消息持久化成功)四副本 三副本:三副本的方式可以异步复制,远程容灾 rocketmq的复制方式 同步复制异步复制 云原生存储持久化可以保存时间:几个月…

【实现100个unity特效之19】使用ShaderGraph实现Unity 2D水

最终效果 文章目录 最终效果前言开始新增无光照影响的shaderGraph半透明效果,并且有一些颜色的变化其他办法参考完结 前言 先粗略记录一下,后面再补充 开始 我们新建一个render texture 设置尺寸 然后我要创建另外一个摄像机,将他的画面…

【原创】springboot+mysql法律咨询网设计与实现

个人主页:程序猿小小杨 个人简介:从事开发多年,Java、Php、Python、前端开发均有涉猎 博客内容:Java项目实战、项目演示、技术分享 文末有作者名片,希望和大家一起共同进步,你只管努力,剩下的交…

【Redis】Redis 数据类型

文章目录 前言1 通用知识1.1 基本全局命令1.2 数据结构和内部编码 2 String2.1 类型介绍2.2 相关命令2.2.1 SET/GET 系列命令2.2.2 INCR/DECR 计数系列命令2.2.3 其他命令2.2.4 命令小结 2.3 内部编码2.4 应用场景2.4.1 缓存功能2.4.2 计数功能2.4.3 共享会话2.4.4 验证码功能 …

4G工业路由器赋能智能停车场远程监控管理

随着城市化进程的加快和汽车保有量的不断增加,城市停车问题艰巨。传统停车场管理模式存在诸多弊端,如停车位信息不透明、寻找停车位耗时长、停车管理效率低下等。为了有效解决这些问题,提升城市停车管理水平,结合物联网技术4G工业…

计算机毕业设计Hadoop+Spark旅游景点推荐 旅游推荐系统 旅游可视化 景区游客满意度预测与优化 Apriori算法 景区客流量预测 旅游大数据

**开题报告** **题目:** Hadoop旅游推荐系统的设计与实现 **一、选题背景及意义** 随着互联网技术的发展和普及,越来越多的人选择利用网络平台进行旅游信息的获取和旅行计划的制定。然而,由于信息的多样性和用户个性化需求的增加&#xff…

HVV小科普:蓝方是什么?

正文共:12345 字 19 图,预估阅读时间:9 分钟 网络实战攻防演习,俗称“护网”、“HW”等,是指模拟真实网络环境中的攻击和防御行为,旨在提高网络安全防护能力和应急响应能力。这种演习通常由安全团队、军事组…

获取客户端真实IP

出于安全考虑,近期在处理一个记录用户真实IP的需求。本来以为很简单,后来发现没有本来以为的简单。这里主要备忘下,如果服务器处于端口回流(hairpin NAT),keepalived,nginx之后,如何取得客户端的…

springboot企业门户资讯网站-计算机毕业设计源码04252

基于springboot技术的企业门户资讯网站 摘 要 在当今数字化时代,企业门户资讯网站已成为企业展示形象、传递信息、吸引客户的重要渠道。随着技术的不断发展,传统的网站开发方式已经无法满足现代企业的需求。因此,基于Spring Boot技术的企业门…