【数字人】9、DiffTalk | 使用扩散模型基于 audio-driven+对应人物视频 合成说话头(CVPR2023)

news2025/1/11 0:55:25

在这里插入图片描述

论文:DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven Portraits Animation

代码:https://sstzal.github.io/DiffTalk/

出处:CVPR2023

特点:需要音频+对应人物的视频来合成新的说话头视频,嘴部抖动严重

一、背景

talking head 合成任务相关的工作最近都集中于提升合成视频的质量或者提升模型的泛化性,很少有工作聚焦于同时提升这两个方面,而这对实际的使用很重要

所以,本文作者引入扩散模型来实现 audio-driven talking head,同时使用的声音信号、面部、关键点来作为驱动信号,可以在不同的的说话人上进行泛化

当前的研究现状:

  • 2D:主要是基于 GAN 来实现 audio-to-lip 的驱动,也就是主要是声音到嘴型的驱动,不同的模特都可以被驱动,能泛化于不同的模特之间(因为主要是驱动的嘴巴,其他部分还是保持视频原状即可)。但 GAN 训练容易坍塌,且生成的视频分辨率不高,看着比较模糊
  • 3D:如 NeRF,能够生成看起来质量较高的视频,但很难泛化,一般一个模型只能支持一个模特的渲染,泛化性较差

因此,作者选择了更好训练的扩散模型,将 audio-driven talking head 的合成看做一个 audio-driven 的连续时序的去噪过程

如图 1 所示,输入一个语音序列,DiffTalk 可以根据一个人物的一段视频来生成这个人物的新的说话视频

在这里插入图片描述

二、方法

DiffTalk 的整体结构如图 2 所示

在这里插入图片描述

2.1 针对 Talking head 的条件扩散模型

现在潜在扩散模型 LDM 应用很广泛,所以这里作者使用的也是 LDM

作者使用了一对儿训练好的 image encoder E I E_I EI 和 decoder D I D_I DI,在后续训练的时候固定权重不做训练

基于此,输入的人脸图片就会被编码到隐空间 z 0 = E I ( x ) ∈ R h × w × 3 z_0=E_I(x) \in R ^{h \times w \times 3} z0=EI(x)Rh×w×3,h 和 w 是原图大小 H 和 W 经过压缩后的大小,压缩倍数是下采样参数

一般的 LDM 都是一个时间序列的 UNet 去噪网络 M M M,学习的是反向去噪过程:

在这里插入图片描述

但在本文中,给定一个人物的 source identity 和 driven audio,本文的目标是训练一个模型能够生成和语音匹配的说话头视频,且要保留原始 identity 信息

所以,语音信号是一个基础条件来控制如何去噪

2.2 Identity-Preserving Model Generalization

在学习音频到唇部翻译的同时,另一个重要任务是在保留源图像中完整身份信息的同时实现模型的泛化。泛化的身份信息包括面部外观、头部姿态和图像背景。

为此,作者设计了一个参考机制,使模型能够泛化到训练中未见过的新个体

如图 2 所示,选择一个随机的源身份面部图像 xr 作为参考,其中包含外观和背景信息。为了防止训练中的捷径,会限制选择的 xr 与目标图像相距 60 帧以上。然而,由于真实的面部图像与 xr 的姿态完全不同,模型预期在没有任何先验信息的情况下将 xr 的姿态转移到目标面部上。

因此,作者将掩蔽的真实图像 xm 作为另一个参考条件来提供目标头部姿态的指导。xm 的嘴部区域被完全掩盖,以确保网络看不到真实的唇部动作。这样,参考 xr 专注于提供嘴部外观信息,这也降低了训练的难度。

同时,还使用 MLP encoder E L E_L EL 对面部关键点(除过嘴部)进行了编码,也作为条件

所以整个输入条件就变成了:

在这里插入图片描述
整个优化目标就是:

在这里插入图片描述

三、效果

数据:

  • HDTF 数据集,包括 16 小时视频,分辨率为 720P 或 1080P 的,超过 300 个人物
  • 作者随机选择了 100 个视频,抽取了约 100 min 时长的视频作为训练
  • resize 输入数据到 256x256,隐空间编码大小为 64x64x3,如果要训练大分辨率模型,输入是 512x512,隐空间编码大小同样为 64x64x3

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1376911.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于python的Hurst计算预测未来发展趋势(长时序栅格影像)

1.Hurst指数反映了时间序列长期记忆性的程度,即过去的信息对未来的影响程度。Hurst指数的取值范围为0到1之间,当Hurst指数等于0.5时,时间序列被认为是一种随机漫步,即具有随机性;当Hurst指数大于0.5时,时间…

JAVA基础学习笔记-day17-反射

JAVA基础学习笔记-day17-反射 1. 反射(Reflection)的概念1.1 反射的出现背景1.2 反射概述1.3 Java反射机制研究及应用1.4 反射相关的主要API1.5 反射的优缺点 2. 理解Class类并获取Class实例2.1 理解Class2.1.1 理论上2.1.2 内存结构上 2.2 获取Class类的实例(四种方法)2.3 哪些…

【MySQL】本地创建MySQL数据库详解

文章目录 下载MySQL安装重置密码本地连接 下载MySQL 下载网址:https://dev.mysql.com/downloads/mysql/ 安装 将下载好的压缩包解压到D盘。 在解压好的文件夹中创建my.ini文件。 将以下代码复制粘贴到创建好的my.ini文件中。注意修改文件路径。 [mysqld] #设置…

重生奇迹MU装备升级材料的获取

在重生奇迹MU中,装备升级需要使用各种材料,包括经验章、神秘石、宝石、元素石等。以下是各种材料的获取方法。 经验章:经验章是装备升级的基础材料,可以通过打怪掉落、任务奖励、商城购买等方式获得。建议玩家们多参加游戏中的活…

Python——python练习题

1.小明身高1.75,体重80.5kg。请根据BMI公式(体重除以身高的平方)帮小明计算他的BMI指数,并根据BMI指数: 低于18.5:过轻 18.5-25:正常 25-28:过重 28-32:肥胖 高于32&…

(Arcgis)matlab编程批量处理hdf4格式转换为tif格式

国家青藏高原科学数据中心 中国区域1km无缝地表温度数据集(2002-2020) 此代码仅用于该数据集处理 版本:arcgis10.2 matlab2020 参考:MATLAB hdf(h5)文件转成tif图片格式(批量处理) 此代码仅用于该数据集处…

SecLists:安全测试人员的必备手册 | 开源日报 No.144

danielmiessler/SecLists Stars: 50.9k License: MIT SecLists 是安全测试人员的伴侣,它是一个收集了多种类型列表的项目,用于安全评估。这些列表包括用户名、密码、URL、敏感数据模式、模糊负载、Web shell 等。其目标是使安全测试人员能够将该存储库拉…

SV-9001 壁挂式网络采播终端

SV-9001 壁挂式网络采播终端 一、描述 SV-9001是深圳锐科达电子有限公司的一款壁挂式网络采播终端,具有10/100M以太网接口,配置一路线路输入和一组麦克风输入,可以直接连接音源输出设备或麦克风,将采集音源编码后发送至网络播放终…

腾讯云COS桶文件上传下载工具类

1&#xff0c;申请key和密钥 2&#xff0c;引入依赖 <dependency><groupId>com.qcloud</groupId><artifactId>cos_api</artifactId><version>5.6.24</version></dependency>3&#xff0c;工具类 package com.example.activi…

跨境商城系统如何开发代购商城、国际物流、一件代发等功能?

跨境商城系统的开发涉及到多个方面&#xff0c;其中代购商城、国际物流和一件代发等功能是其中的重要组成部分。本文将详细介绍如何开发这些功能&#xff0c;以帮助跨境商城系统更好地满足市场需求。 一、代购商城的开发 代购商城是跨境商城系统中的重要功能之一&#xff0c;它…

怎么将文件批量重命名为不同名称?

怎么将文件批量重命名为不同名称&#xff1f;有许多情况下可以考虑对文件进行批量重命名为不同名称&#xff0c;文件分类和整理&#xff1a;当您需要对一组文件进行分类、整理或重新组织时&#xff0c;可以考虑将它们批量重命名为不同的名称。这有助于更好地组织文件并使其更易…

【JaveWeb教程】(22) MySQL数据库开发之多表查询:内连接、外连接、子查询 详细代码示例讲解(最全面)

目录 数据库开发-MySQL1. 多表查询1.1 概述1.1.1 数据准备1.1.2 介绍1.1.3 分类 1.2 内连接1.3 外连接1.4 子查询1.4.1 介绍1.4.2 标量子查询1.4.3 列子查询1.4.4 行子查询1.4.5 表子查询 1.5 案例 数据库开发-MySQL 1. 多表查询 1.1 概述 1.1.1 数据准备 SQL脚本&#xff…

品牌出海新篇章:DTC营销与红人矩阵的完美结合

随着全球市场的竞争日益激烈&#xff0c;品牌在出海过程中面临着前所未有的挑战。传统的销售渠道逐渐显得滞后&#xff0c;DTC模式正成为品牌开拓国际市场的新趋势。在这一趋势中&#xff0c;结合红人矩阵的DTC营销策略备受关注&#xff0c;为品牌打开了一扇通向全球市场的大门…

【笔记------freemodbus】一、stm32的裸机modbus-RTU从机移植(HAL库)

freemodbus的官方介绍和下载入口&#xff0c;官方仓库链接&#xff1a;https://github.com/cwalter-at/freemodbus modbus自己实现的话往往是有选择的支持几条指令&#xff0c;像断帧和异常处理可能是完全不处理的&#xff0c;用freemodbus实现的话要简单很多&#xff0c;可移植…

2023年国庆节深圳市节假日人口迁出数据,shp/excel格式

基本信息 数据名称: 深圳市节假日人口迁出数据 数据格式: Shp、excel 数据时间: 2023年国庆节 数据几何类型: 线 数据坐标系: WGS84 数据来源&#xff1a;网络公开数据 数据字段&#xff1a; 序号字段名称字段说明1a0928迁出人口占迁出深圳市人口的比值&#xff08…

大模型实战作业03

大模型实战作业03 注&#xff1a; 因为微调数据较少&#xff0c;没有显示出个人助手的名字

GIS融合之路(五)番外-山海鲸的体积云又又又升级了

一转眼自上一篇文章已经过去半年之久&#xff0c;承诺的CesiumJS的天气文章竟然又又又又跳票了&#xff0c;没办法。开发任务时间紧&#xff0c;任务重。GIS的进一步整合进入深水区&#xff0c;每向前迈一步都是步履维艰&#xff0c;好不容易把体积雾&#xff0c;接触阴影&…

[SpringBoot]如何在一个普通类中获取一个Bean

最近在项目中出现了一个这种情况&#xff1a;我一顿操作猛如虎的写了好几个设计模式&#xff0c;然后在设计模式中的类中想将数据插入数据库&#xff0c;因此调用Mapper持久层&#xff0c;但是数据怎么都写不进去&#xff0c;在我一顿操作猛如虎的查找下&#xff0c;发现在普通…

创新奖肯定,这家LIMS您要留意了

近日&#xff0c;龙源电力的“风电化学监督LIMS信息化管理系统的研发与应用”项目荣获中国电力技术市场协会2023年电力行业技术监督创新成果一等奖。系统可为风电设备经济、环保、长周期安全运行提供保障&#xff0c;是国内首套新能源行业油液监测信息管理系统&#xff0c;经中…

Mysql查询与更新语句的执行

一条SQL查询语句的执行顺序 FROM&#xff1a;对 FROM 子句中的左表<left_table>和右表<right_table>执行笛卡儿积&#xff08;Cartesianproduct&#xff09;&#xff0c;产生虚拟表 VT1 ON&#xff1a;对虚拟表 VT1 应用 ON 筛选&#xff0c;只有那些符合<join_…