音频驱动嘴形之CodeTalker

音频驱动嘴形之CodeTalker

news2025/7/16 1:12:20

论文发版：CVPR2023

应用：

Over the discrete motion space, a temporal autoregressive model is employed to sequentially synthesize facial motions from the input speech signal, which guarantees lip-sync as well as plausible facial expressions。语音信号->唇同步&面部表情
仓库地址：https://github.com/Doubiiu/CodeTalker

方法：

在这里插入图片描述
cross-modal decoder :embedding block +multi-layer transformer decoder+ pre-trained codebook +VQ-VAE decoder
训练过程两部分：1）Discrete Facial Motion Space
VQ-VAE ： encoder E+ decoder D+ context-rich codebook Z

输入：x = x - template；x:头模的顶点（vertices），shape[1,69,15069]
template:标准头模，shape[1,15069]
2）Speech-Driven Motion Synthesis
这部分包括：audio feature extractor(TCN)+transformer encoder+embedding block +multi-layer transformer decoder，其中
audio feature extractor(TCN)+transformer encoder，使用wav2vec 2.0作预训练模型，冻结第一步训练好的pre-trained codebook 和VQ-VAE decoder，训练embedding block +multi-layer transformer decoder。

评价指标：

1）Lip vertex error：计算每个帧的所有嘴唇顶点的最大L2误差，并取所有帧的平均值。
2）Upper-face dynamics deviation：measure the variation of facial dynamics for a motion sequence in comparison with that of the ground truth

驱动效果：

FaceTalk__audio

不同的人，说同一段话，嘴形驱动效果稍微有些差异。
请添加图片描述
使用chinese-wav2vec2-base替代wav2vec2-base-960h，同一段音频，嘴形驱动效果差不多。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/767119.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

TOWE智能PDU是如何帮助机房安然度夏的？

TOWE智能PDU是如何帮助机房安然度夏的？

最近，全国各地纷纷进入高温“火炉”模式，炎炎夏日，数据中心的工作温度不应该超过一定的限度。数据中心机房不仅要确保在高温多雨天气下安全、稳定的运维，还要承受降低企业总体运营成本的压力。这种需求下，相较于传统基…

阅读更多...

【C++修炼之路】类和对象（下）—— 完结篇

【C++修炼之路】类和对象（下）—— 完结篇

👑作者主页：安度因 🏠学习社区：StackFrame 📖专栏链接：C修炼之路文章目录一、再谈构造函数1、初始化列表2、explicit 关键字二、static 成员1、概念2、特性三、友元1、友元函数2、友元类四、内部类五…

阅读更多...

C++笔试常用函数整理

C++笔试常用函数整理

数组 #include <vector> push_back：向量尾部增加一个元素 pop_back：删除向量中最后一个元素 empty：判断向量是否为空，若为空，则向量中无元素 size : 输出队列中数据元素的个数 vector初始化相关&#xff1a…

阅读更多...

Java使用poi-tl1.9.1生成Word文档的几个小技巧

Java使用poi-tl1.9.1生成Word文档的几个小技巧

目录前言一、poi-tl简介 1、什么是poi-tl 2、常见的word生成对比 3、poi-tl功能点二、poi-tl文档生成 1、模板准备 2、目标参数填充 3、生成效果三、可能会遇到的问题 1、混合图表生成报错 2、图表参数设置技巧总结前言也许在您的工作当中会碰到如下的一些场景…

阅读更多...

python和django中安装mysqlclient失败的解决方案

在Pychram中和pip中安装mysqlclient都不成功，只能直接下载二进制包进行安装了，下载页面中根据python的版本选择对应WHL包下载，下载地址 mysqlclient PyPIhttps://pypi.org/project/mysqlclient/#files 通过pip命令进行安装 pip install d:\…

阅读更多...

基于javascript的简单拖拽排序

基于javascript的简单拖拽排序

基于javascript的简单拖拽排序效果示例图代码示例效果示例图代码示例 <!DOCTYPE html> <html><head><meta charset"utf-8"><title></title><style type"text/css">* {padding: 0px;margin: 0px;box-sizing:…

阅读更多...

网工内推 | 数通网工专场，HCNP/CCNP认证优先

网工内推 | 数通网工专场，HCNP/CCNP认证优先

01 天津海展会议展览有限公司招聘岗位：网络工程师（数通方向） 职责描述： 1、负责企业整体网络架构的设计、优化、部署及网络运维管理体系的的构建； 2、负责企业内网、外网、有线侧、无线侧网络策略的配置及调优&…

阅读更多...

虚拟主播动捕设备，满足不同应用领域的3d虚拟主播直播需求

虚拟主播动捕设备，满足不同应用领域的3d虚拟主播直播需求

随着移动互联网的普及，直播行业迅速发展，用户规模持续上升，一度成为平台经济领域的中流砥柱，其中虚拟主播成为了直播赛道中一种新的内容形式。 3d虚拟主播是通过计算机生成的数字人，它们可以在直播中通过虚拟主播动捕…

阅读更多...

Vue成绩案例实现添加、删除、显示无数据、添加日期、总分均分以及数据本地化等功能

Vue成绩案例实现添加、删除、显示无数据、添加日期、总分均分以及数据本地化等功能

一、成绩案例 ✅✅✅通过本次案例实现添加、删除、显示无数据、添加日期、总分均分以及数据本地化等功能。准备成绩案例模板，我们需要在这些模板上面进行功能操作。 <template><div class"score-case"><div class"table">…

阅读更多...

材料学博士生CSC资助德国联陪归来谈体会

材料学博士生CSC资助德国联陪归来谈体会

作者许潇洒，为西北工业大学材料学院材料学专业博士研究生，受CSC高水平大学公派研究生项目，于2022年至2023年赴德国德累斯顿工业大学开展了为期12个月博士联合培养学习。访学归来，其撰文谈感受，知识人网小编转载如下&am…

阅读更多...

润和软件与华秋达成生态共创合作，共同推动物联网硬件创新

润和软件与华秋达成生态共创合作，共同推动物联网硬件创新

7月11日，在2023慕尼黑上海电子展现场，江苏润开鸿数字科技有限公司(以下简称“润开鸿”)与深圳华秋电子有限公司(以下简称“华秋”)签署了生态共创战略合作协议，共同推动物联网硬件生态繁荣发展。当前双方主要基于润开鸿的硬件产品及解决方案开…

阅读更多...

如何通过smardaten无代码开发平台快速搭建数据中台？

如何通过smardaten无代码开发平台快速搭建数据中台？

目录一、数据中台是什么？二、数据中台的特点1、数据中台需要具备哪些特性？2、数据中台需要提供哪些服务？ 三、数据中台搭建工具四、如何用无代码快速搭建数据中台1、多源数据接入2、数据流（数据集成）3、数据资产管理4…

阅读更多...

el-table刷新后保持高亮并改变状态字段

el-table刷新后保持高亮并改变状态字段

一、需求： 1、点击左侧右边显示具体内容 2、点击右边确认左侧依旧高亮并且改变启动状态颜色 3、点击刷新、重置、高级搜索等不高亮右边也不显示具体内容二、效果图： 三、具体实施 1、定义highlight-current-row 是否高亮行 <el-table ref&quo…

阅读更多...

opencv -13 掩模

opencv -13 掩模

什么是掩膜？ 在OpenCV中，掩模（mask）是一个与图像具有相同大小的二进制图像，用于指定哪些像素需要进行操作或被考虑。掩模通常用于选择特定区域或进行像素级别的过滤操作。 OpenCV 中的很多函数都会指定一个掩模&…

阅读更多...

数据结构链表，结点的结构体定义以及增删改查的实现

数据结构链表，结点的结构体定义以及增删改查的实现

一、单链表的定义和表示线性表链式存储结构的特点是：用一组任意的存储单元存储线性表的数据元素（这组存储单元可以是连续的，也可以是不连续的）。因此，为了表示每个元素与其直接后继数据元素之间的逻辑关系&#xff0…

阅读更多...

基于G6的弓字形流程图

基于G6的弓字形流程图

需求现在有个需求是类似于步骤条、流程图，但是节点比较多。搜了很多类似组件，还是有各种问题。尝试过的已有组件一开始用的是element-ui自带的步骤条组件（下图所示），但是节点过多，宽度不够的时候&am…

阅读更多...

提升按钮效力：七大基本原则全面解析

提升按钮效力：七大基本原则全面解析

按钮是交互设计中的基本元素。他们在用户和系统之间扮演重要角色。在本文中，我们将一起思考创建有效按钮所需了解的七个基本原则。 ⬇⬇⬇点击获取更多设计资源 https://js.design/community?categorydesign&sourcecsdn&planbbqcsdn768 让按钮看起来像按…

阅读更多...

基于RASC的keil电子时钟制作(瑞萨RA)(1)----安装RASC

基于RASC的keil电子时钟制作(瑞萨RA)(1)----安装RASC

基于RASC的keil电子时钟制作_瑞萨RA_1安装RASC 概述硬件准备视频教程RA Smart Configurator软件下载RASC安装Keil下Renesas RA pack包安装概述 RA Smart Configurator"是一种基于"灵活组合软件"概念的代码生成辅助工具。它可以自动生成微控制器的初始配置程序…

阅读更多...

开源图片AI工具：推动计算机视觉领域的创新和合作

开源图片AI工具：推动计算机视觉领域的创新和合作

在当今数字化时代，人工智能技术的快速发展带来了许多令人兴奋的创新和应用。图片AI作为其中之一，为我们提供了全新的视觉体验和创作可能性。随着开源技术的推动，越来越多的图片AI工具被引入市场，为个人我们和开发者们带来了更多便…

阅读更多...

Kafka消息监控管理工具Offset Explorer的使用教程

Kafka消息监控管理工具Offset Explorer的使用教程

1、kafka监控管理工具 Offset Explorer是一款用于监控和管理Apache Kafka集群中消费者组偏移量的开源工具。它提供了一个简单直观的用户界面，用于查看和管理Kafka消费者组偏移量的详细信息。 Offset Explorer具有以下主要功能和特点： 实时监控&#x…

阅读更多...

推荐文章

最新文章