Seeing What You Said Talking Face Generation Guided论文随记

news2024/9/20 11:11:58

Seeing What You Said Talking Face Generation Guided by a Lip Reading Expert

文章认为以往工作很少关注唇语清晰度,希望通过惩罚不准确结果来提升唇部区域动作的可理解性。

原文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Wang_Seeing_What_You_Said_Talking_Face_Generation_Guided_by_a_CVPR_2023_paper.pdf

文章目录

    • Seeing What You Said Talking Face Generation Guided by a Lip Reading Expert
      • 1.贡献
      • 3.方法
        • 3.1 lip-reading expert
        • 3.2. Audio encoder
        • 3.3. Video encoder
        • 3.4. Video generation
        • 3.5. Lip reading loss
        • 3.6. Contrastive loss
      • 4.实验
      • 5.结论

1.贡献

  • 通过利用唇读专家来解决语音驱动的说话面孔生成的阅读清晰度问题
  • 提出了一种新颖的跨模式对比学习策略,并由唇读专家协助
  • 采用同步训练的transformer编码器来考虑整个音频话语的全局时间依赖性
  • 提出了一个评测talking face generation的基准并开源代码

image-20240918183325454

3.方法

TalkLip 网络以图像作为身份和姿势参考,同时以连贯语音作为嘴唇运动参考。给定来自生成器的合成视频,唇读专家被用来通过唇读损失来惩罚不准确的嘴唇运动。

3.1 lip-reading expert

引入AV-Hubert解决数据缺少问题。

image-20240918185837723

然后,通过将视觉前端和在自监督中预训练的 Transformer 编码器与随机初始化的 Transformer 解码器相结合,构建唇读网络。 这个唇读网络在文本转录的监督下进行微调。 一旦微调完成,唇读网络就会被冻结,并充当说话人脸生成训练的专家,如图 1 所示。

3.2. Audio encoder

音频编码器对音素级嵌入进行编码,并将嵌入提供给生成器作为嘴形和嘴唇运动的参考。我们使用两种不同的音频编码器来提取嵌入。 我们将它们称为本地和全局音频嵌入。 使用基于 CNN 的网络提取本地音频嵌入。Transformer编码器将整个语音作为输入,生成所有帧的音频上下文特征。 然后,我们选择一帧上下文特征,它与姿势参考在时间上对齐作为全局音频嵌入,如图 2 所示。

3.3. Video encoder

视频编码器从图像中提取身份和姿势信息以形成统一的视觉嵌入,并将嵌入提供给生成器以合成与所提供的身份和姿势一致的图像。身份参考从一张随记图像中提取,姿势参考从遮盖了下半脸的图像中提取。

3.4. Video generation

生成器由转置的CNN块组成,并且在视频编码器和生成器之前采用了想u-net一样的跳跃连接,在重建效果和计算效率之间取了均衡。

应用两个生成损失来提高视频生成质量,重建损失和GAN损失。

image-20240919104450229

GAN可以增加生成人脸视频的真实感,并且性能出色,因此本文采用了GAN损失,D表示判别器。

image-20240919105007032

3.5. Lip reading loss

唇读专家应用于混合视频,即地面实况视频,其中一些帧被相应的合成图像替换。生成图像的梯度将反向传播以优化模型。

假设 Y ∈ R L × C Y \in \mathbb{R}^{L \times C} YRL×C 作为真实视频的文本内容,其中L和C表示文本长度和输出类别。

唇读专家包括:(1)一个3D卷积层和一个ResNet-18提取唇部运动特征(2)一个 Transformer 编码器,通过计算全局时间依赖性来生成上下文特征 R ∈ R T × f R \in R^{T \times f} RRT×f,其中 f 是特征维度;(3)一个 Transformer 解码器,用于预测文本 Y ^ ∈ R L × C \hat Y \in \mathbb{R}^{L \times C} Y^RL×C。唇读专家被冻结,使用交叉熵计算损失。

image-20240919111858993

3.6. Contrastive loss

给定来自音频编码器的音频嵌入 Ea 和来自唇读专家的视觉上下文特征 R,对比损失计算如下:

image-20240919112945918

公式5用于计算两个正或负样本之间的相似度。公式6的主要作用则是最大限度拉近正样本之间的距离,拉远正负样本之间的距离。

关于infoNCE,infoNCE。

模型网络总的loss如下:
image-20240919164229612

4.实验

image-20240919172113883

image-20240919172240312

5.结论

本文提出了 TalkLip 网络,用于合成具备高阅读可理解性和唇语同步的视频。TalkLip 利用预训练唇读模型纠正生成视频中的错误唇读预测,并通过单词准确率(ACC)和词错误率(WER)评估阅读可理解性。实验表明,TalkLip 在主观和客观评估中均优于其他方法。此外,通过对比学习和预训练音频编码器,进一步提升了唇语同步和音频嵌入效果。最终,TalkLip 能生成具有优越阅读可理解性、唇语同步性和视觉质量的说话人视频。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2148758.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【吊打面试官系列-MySQL面试题】LIKE 声明中的%和_是什么意思?

大家好,我是锋哥。今天分享关于【LIKE 声明中的%和_是什么意思?】面试题,希望对大家有帮助; LIKE 声明中的%和_是什么意思? %对应于 0 个或更多字符,_只是 LIKE 语句中的…

PSINS工具箱函数介绍——myfig

文章目录 关于工具箱使用方法与主要作用例程实践运行代码函数解析关于工具箱 myfig是关于绘图的函数,位置在: p s i n s / b a s e / p l o t psins/\ base/\ plot

深入理解 Linux 内核网络协议栈

Linux 作为全球广泛应用的操作系统,凭借其稳定、高效和开源的特点,已成为服务器、嵌入式系统和个人电脑等领域的首选系统。而在 Linux 系统的核心中,网络协议栈承担了网络数据通信的关键任务。理解 Linux 内核网络协议栈的工作原理&#xff0…

加密与安全_三种常见的注入攻击

文章目录 概述注入攻击类型及危害注入攻击的工作原理SQL注入代码注入XSS(跨站脚本) SQL注入SQ L注入攻击的本质常见误区及注入点误区1:SQL注入仅发生在GET请求中误区2:没有返回数据的接口不易受注入影响误区3:SQL注入的…

SpringSecurity原理解析(八):CSRF防御解析

一、CsrfFilter CsrfFilter 主要功能是用来防止csrf攻击 一、什么是CSRF攻击 跨站请求伪造(英语:Cross-site request forgery),也被称为 one-click attack 或者 session riding,通常缩写为 CSRF 或者 XSRF&#xff0c…

关于广告投放平台的设计

文章目录 广告投放平台的作用广告平台的核心功能 最近在看关于广告投放平台相关的设计,倒是没看到完整的案例介绍。整理一下收集的各种信息,假如需要设计一个广告投放系统,该怎么做? 广告投放平台的作用 要体现广告投放平台的作用…

如何实现LLM的通用function-calling能力?

众所周知,LLM的函数function-calling能力很强悍,解决了大模型与实际业务系统的交互问题。其本质就是函数调用。 从openai官网摘图: 简而言之: LLM起到决策的作用,告知业务系统应该调用什么函数,以及入参是…

动物识别系统Python+卷积神经网络算法+TensorFlow+人工智能+图像识别+计算机毕业设计项目

一、介绍 动物识别系统。本项目以Python作为主要编程语言,并基于TensorFlow搭建ResNet50卷积神经网络算法模型,通过收集4种常见的动物图像数据集(猫、狗、鸡、马)然后进行模型训练,得到一个识别精度较高的模型文件&am…

Android ImageView支持每个角的不同半径

Android ImageView支持每个角的不同半径 import android.annotation.SuppressLint; import android.content.Context; import android.content.res.ColorStateList; import android.content.res.Resources; import android.content.res.Resources.NotFoundException; import an…

css 控制虚线刻度尺寸

文章目录 css效果 css <div style"width: 100%; height: 1px;background-image: linear-gradient(to right, #545454 0%, #545454 80%, transparent 5%);background-size: 15px 10px;background-repeat: repeat-x; margin: 0 auto;"></div>效果

W外链如何实现长链接转短链接教程

要实现微信外链的长链接转短连接&#xff0c;可以借助专门的工具来简化流程并增加链接的安全性和稳定性。 以下是一个具体方案&#xff1a; 使用W外链工具 W外链是一款集成了多种功能的微信外链生成器&#xff0c;包括但不限于短链制作、活码生成、微信外链制作等。以下是使用…

设置PDF打开密码

为PDF文件设置打开密码是一种有效的保护措施&#xff0c;它能防止未经授权的用户访问文件内容。以下是一份专业指南&#xff0c;详细介绍如何为PDF文件设置打开密码。 打开pdf编辑器&#xff0c;我们点击工具栏中的【文件】功能&#xff0c;选择里面的【属性】 然后在属性设置…

英飞凌PSoC4000T的GPIO中断示例工程

关于PSoC4000T的初步介绍见:英飞凌MCU第五代高性能CAPSENSE技术PSoC4000T_psoc 4000t-CSDN博客 下面这个工程,在modustoolbox中可编译、下载到开发板、debug调试。 编译时会用到mtb_shared这个库: 已经pdl这个periperal driver library库:

SMS over IP原理

目录 1. 短消息业务的实现方式 2. 传统 CS 短消息业务中的发送与送达报告 3. MAP/CAP 信令常见消息 4. SMS over IP 特点概述 5. SMS over IP 中的主要流程 5.1 短消息注册流程(NR 或 LTE 接入) 5.2 短消息发送(MO)流程(NR 或 LTE 接入) 5.3 短消息接收(MT)流程(NR 或…

国际知名度最高的华人改名大师颜廷利:当代最牛的易经姓名学泰斗

国际知名度最高的华人改名大师颜廷利&#xff1a;当代最牛的易经姓名学泰斗 颜廷利教授&#xff0c;一位在姓名学领域享有盛誉的专家&#xff0c;其声誉根植于齐鲁大地&#xff0c;山东济南历城区唐王镇&#xff08;现升级为历城区唐王街道办事处&#xff09;。他的工作基地不仅…

YOLOv8改进系列,YOLOv8的Neck替换成AFPN(CVPR 2023)

摘要 多尺度特征在物体检测任务中对编码具有尺度变化的物体非常重要。多尺度特征提取的常见策略是采用经典的自上而下和自下而上的特征金字塔网络。然而,这些方法存在特征信息丢失或退化的问题,影响了非相邻层次的融合效果。一种渐进式特征金字塔网络(AFPN),以支持非相邻…

【Git原理与使用】版本管理与分支管理(1)

目录 一、基本操作 1、初识Git 2、Git安装[Linux-centos] 3、Git安装[ Linnx-ubuntu] 4、创建git本地仓库 5、配置Git 6、认识工作区、暂存区、版本库 7、添加文件 8、查看历史提交记录 9、查看.git文件目录结构 10、查看版本库对象的内容 11、小结&#xff08;在本地的.git仓库…

计算机毕业设计 服装生产管理系统 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

&#x1f34a;作者&#xff1a;计算机编程-吉哥 &#x1f34a;简介&#xff1a;专业从事JavaWeb程序开发&#xff0c;微信小程序开发&#xff0c;定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事&#xff0c;生活就是快乐的。 &#x1f34a;心愿&#xff1a;点…

什么是安全漏洞?最全的漏洞分类!

01 — “ 什么是漏洞**”** 漏洞是指一个系统存在的弱点或缺陷&#xff0c;系统对特定威胁攻击或危险事件的敏感性&#xff0c;或进行攻击的威胁作用的可能性。漏洞可能来自应用软件或操作系统设计时的缺陷或编码时产生的错误&#xff0c;也可能来自业务在交互处理过程中的设…

想要精益生产管理体系早落地,这些工作不能少!

精益生产管理体系是当代社会将企业管理的各种工具方法和理论、技术以及企业文化融为一体的产物。 推行精益生产管理体系时&#xff0c;企业一定要做好以下3个方面的工作&#xff1a; 1.改变观念&#xff0c;从管理层到员工层都必须深入的贯彻实施精益化生产的思想&#xff0c;…