人机交互系统中的人脸讲话生成系统调研

news2025/1/10 21:31:24

《Human-Computer Interaction System: A Survey of Talking-Head Generation》
在这里插入图片描述
图片源:https://github.com/Yazdi9/Talking_Face_Avatar


目录

  • 前言
  • 摘要
  • 一、背景介绍
  • 二、人机交互系统体系结构
    • 2.1. 语音模块
    • 2.2. 对话系统模块
    • 2.3. 人脸说话动作生成
  • 三 人脸动作生成
    • 1 基于2D的方法。
    • 2 基于3D的方法。
    • 3.1 问题公式化
    • 3.2. 管道
      • 3.2.1. 基于标记点的方法
      • 3.2.2. 基于系数的方法
      • 3.2.3.基于顶点的方法
    • 3.3. 端到端
  • 4. 数据集和评价指标
  • 5. 未来方向数据集的构建和使用较少样本进行学习的方法
  • 6.结论
  • 总结


前言

来自中国传媒大学团队的调研工作,Talking Face generation,TFG,是当前一个非常火热的研究方向。TFG发展到哪一步了,未来的发展趋势是如何的,如何进行TFG的研究工作,希望本篇解读能够解答问题。感谢团队Liu Ning同学的参与贡献。


摘要

随着人工智能技术的飞速发展,虚拟人在个人辅助、智能客服、在线教育等领域得到了广泛的应用。
拟人化数字人可以快速与人联系,增强人机交互的用户体验。作者设计了人机交互系统的框架,其中包括语音识别,文本到语音,对话系统,虚拟人生成。 然后,作者通过虚拟人深度生成框架对说话头视频生成模型进行了分类。同时,本文系统地回顾了近五年来在人脸说话视频生成方面的技术进展和发展趋势,重点介绍了其中的关键性工作,并对数据集进行了总结。

一、背景介绍

随着人工智能技术迅速发展,虚拟人不断应用于各种场景,包括虚拟主播、虚拟客服、在线教育等。在人机交互中,有一种拟人化的数字人,可以快速与用户建立联系,提升用户体验。同时,多模态人机交互也是虚拟人的应用方向之一。该系统旨在使用深度学习模型生成具有自然特征的交互对象,包括语音识别、对话系统、文本到语音和虚拟人视频合成。其中,虚拟人视频生成主要分为2D/3D人脸重建、人脸说话动作生成、身体运动和人体运动。同时,在人脸说话动作生成任务中,需要考虑嘴唇形状和面部表情、眼动等面部属性的听觉一致性。

在人脸说话动作生成的研究中,音频驱动的唇动合成是一个热门的研究方向,通过输入相应的音频和任意的网格顶点、人脸图像或视频,合成唇动的人说话视频。换句话说,该模型动态地将低维语音或文本信号映射到较高维视频信号。请注意,文本驱动的嘴唇合成是该任务的自然扩展。

传统的方法:在深度学习普及之前,许多研究人员主要采用跨模态检索方法[1-4]和隐马尔可夫模型(HMM)来解决这个问题[5]。然而,基于语素和视位之间映射关系的跨模态检索方法没有考虑语音的上下文语义信息。同样,许多因素,如先验假设,也限制了基于HMM的方法的应用。
在这里插入图片描述
图1 近年来关于人脸说话动作生成的研究综述

随着计算能力的快速提升,基于深度学习的Talking Head生成任务引起了广泛关注,推动了该领域的蓬勃发展。本文主要对近五年来基于深度学习的说话人头视频合成模型进行了系统的回顾。**图1显示了Talking-Head生成的文献图。**沿着时间轴,近年来作品数量急剧增加。

在这里插入图片描述
2 对人脸说话视频生成方法的分类

根据模型输入的内容,我们可以分为基于2D的方法和基于3D的方法的说话头生成模型。根据模型的方法结构,我们可以将说话头生成技术分为管道和端到端类型,如图2所示。然而,在合成说话头视频时,大多数模型需要相对较长的时间来生成视频,只有一小部分模型,如DCK [6],可以在短时间内输出结果。本文第三部分对这一问题进行了详细的讨论。

在整个任务的研究过程中,数据集和其评估指标对于训练一个人脸说话动作生成的通用模型来说不可或缺。在深度学习方法的广泛应用过程中,大规模数据集的出现推动了人脸说话动作视频生成模型的进一步发展,并成为衡量和比较不同算法的通用平台。但是,科技有两面性,比如deepfake。为了防止技术被用于危害国家和社会,只有一小部分数据集是完全开源的,还有一部分是通过应用获得的(注:这部分数据的应用权限只对高校、科研院所、企业的科研人员、教师、工程师开放。禁止学生申请。)。在第四部分中,我们回顾了常用的数据集,包括统计数据、亮点和下载链接。

本文的贡献
现在,我们可以在本文中总结我们的主要贡献:
1、本文提出了一个多模态人机交互的系统框架,为人脸说话动作生成模型的应用提供了一个新思路。
2、本文提出了两种分类法,对具有重要参考意义的方法进行了分类,并分析了代表性方法的优缺点及其潜在联系。
3、我们总结了说话人脸说话动作生成模型常用的数据集和评估指标。同时,我们强调了生成视频所消耗的时间作为衡量模型性能的重要性

论文结构:

  • 第二部分介绍了一个多通道人机交互系统的体系结构,包括语音模块、对话系统和说话人生成模块。
  • 第三部分介绍了近五年来两种不同的虚拟说话人生成方法:流水线和端到端。
  • 第四部分讨论了用于训练虚拟人说话头生成模型的数据集和用于评价模型性能的指标;
  • 在第五节中描述了三种提高虚拟人说话头生成模型速度的潜在方法;
  • 第六节中总结。

二、人机交互系统体系结构

**目的:**该系统基于自然语言处理、语音和图像处理等人工智能技术,追求与低延迟和高保真拟人化虚拟人的多模态交互。

如图3所示,该系统主要由四个模块组成:

  1. 系统通过自动语音识别(ASR)模块将用户输入的语音信息转换为文本信息;
  2. 对话系统(DS)将ASR模块输出的文本信息作为输入;
  3. 文字语音转换(TTS)模块将DS输出的文本转换为真实的语音信息;
  4. 说话头生成模块预处理作为模型输入的图片、视频或混合形状以提取其面部特征。
  5. 然后,该模型通过TTS模块将低维语音信号映射到高维视频信号,包括嘴部、表情、运动等。
  6. 最后,该模型使用渲染系统融合特征和多模态输出视频并在用户端显示。

在这里插入图片描述
图3 多通道人机交互的系统架构

2.1. 语音模块

语音模块的ASR和TTS分别对应于人的听觉和语言功能。 经过几十年的研究,语音识别和文本到语音合成已经广泛应用于各种商业产品中。我们使用百度开源的PaddleSpeech [32]。一个模型可以同时完成ASR和TTS任务,这大大降低了模型部署的复杂性,并可以更好地与其他模块协作。此外,我们还可以选择商业公司提供的API服务,如百度、搜狗、科大讯飞等。

2.2. 对话系统模块

我们的对话系统模块需要有能力进行多轮对话。该系统需要回答特定领域的问题,并满足用户的聊天需求。如图3所示,在用户的语音通过ASR之后,问题被传递到对话模块。对话模块必须根据用户的问题从知识库中检索或生成匹配的答案。然而,在特定领域的多回合对话中不可能完全依赖模型来生成答案。在某些场景下,为了更好地考虑上下文信息,上述信息将被聚合以识别用户的意图并以QA的方式返回答案。

2.3. 人脸说话动作生成

说话人头部生成模块中的面部外观数据主要来自真人照片、视频或blendshape人物模型系数。以视频为例,我们首先对这些人脸外观数据进行视频预处理,然后将图3中TTS的音频信号映射到人脸唇形、面部表情、面部动作等更高维的信号,最后使用神经网络。该模型执行视频渲染并输出多模式视频数据。

在人机交互中,及时的响应可以改善用户体验。但是,整个系统的时延等于每个数据处理模块所消耗的时间之和。其中,语音模块和对话模块已经被广泛的用户商用,能够满足人机交互的实时性要求。目前,说话人头部生成模型渲染和输出多模态视频需要较长时间。因此,需要提高说话人头部生成模型的数据处理效率,减少多模态视频的渲染时间,减少人机交互系统扩展的响应时间。虽然虚拟人已经在一些商业产品中实现了低延迟响应,如JD的ViDA-MAN [33]等。生产周期长、成本高、便携性差也是不容忽视的问题。

三 人脸动作生成

定义: 谈话头视频生成,即唇动序列生成,旨在合成与驱动源(音频或文本片段)相对应的唇动序列。在合成唇动的基础上,谈话头的视频合成还需要考虑其面部属性,例如面部表情和头部运动。

早期的方法:在早期的谈话头视频生成方法中,研究人员主要使用跨模态检索和基于HMM(隐马尔可夫模型)的方法[34]来实现驱动源与唇动数据的动态映射。然而,这些方法对模型的应用环境、视觉音素标注等有相对较高的要求。Thies等人[3]引入了一种基于图像的唇动合成方法,通过从离线样本中检索和选择最佳唇形来生成真实的口腔。然而,该方法是基于文本-音素-音素的映射检索,未能真正考虑语音的上下文信息。Zhang等人[30]提出了关键姿态插值和平滑模块,以基于跨模态检索合成姿态序列,并使用GAN(生成对抗网络)模型生成视频。

深度学习的方法
近年来,深度学习技术的快速发展为谈话头视频生成提供了技术支持,并促进了谈话头视频生成方法的蓬勃发展。图1显示了谈话头的图像维度可以分为基于2D和基于3D的方法。图2显示了基于深度学习的谈话头视频生成框架大致可以分为两种类型:管线式和端到端。

表1总结了谈话头视频生成的代表性工作。表1.这是近年来谈话头生成的主要模式。ID:模型可分为三种类型:身份依赖型(D)、身份无关型(I)和混合型(H)。驱动数据:音频(A)、文本(T)和视频(V)。
在这里插入图片描述

1 基于2D的方法。

在基于2D的方法中,TFG主要使用标记点、语义图或其他类似图像的表示来解决问题,这可以追溯到Bregler等人1997年的工作[4]。在谈话头部视频生成中,Chen等人[17]使用标记点作为从低维音频映射到高维视频的中间层,并将整个方法分为两个阶段。Chung等人[9]使用两个解码器来解耦声音和说话者身份,从而在不受说话者身份影响的情况下生成视频。唇部合成也可以使用图像到图像的翻译方法来生成[35],这是一种方法的扩展。Zhou等人[16]和Song等人[15]使用了独立的音视频表示和神经网络的组合来优化合成。

2 基于3D的方法。

早期的3D方法预先构建特定人物的3D模型,然后渲染这些模型。相比于2D方法,这种方法可以更好地控制动作。然而,这类3D模型的构建成本相对较高,且更换新身份的效果无法保证。在合成奥巴马的视频时,这些工作[8,11]通过预构建3D面部模型并学习将音频序列映射到视频序列来驱动模型,以合成逼真的说话面部视频。此外,还有许多基于3DMM参数的生成性谈话头模型[10,19,20,23],以及模型如blendshape[19]、flame[36]和3D网格[37],这些模型使用音频作为输入。其中,VOCA[16]使用角色头部的blendshape来创建模型。Meshtalk[37]使用中性面模板网格作为基础来生成谈话头视频。然而,具有中间参数3DMM的模型会带来一定的信息损失。此外,VOCA是一个独立的3D谈话头合成模型,可以捕捉不同的说话风格,而Meshtalk可以解析出与音频相关和音频无关的面部运动的绝对潜在空间。

目前大多数方法直接从训练视频重建3D模型。NVP(神经语音木偶) 从此设计了Audio 2 ExpressionNet和独立身份的3D模型。NeRF(Neural Radiance Fields)[38-41]模拟MLP的隐式表示,可以存储3D空间坐标和外观信息,并用于大分辨率场景。为了减少信息损失,AD-NeRF [25]训练了两个NeRF用于说话头合成的头部和驱动渲染,并获得了良好的视觉效果。在实际应用场景中,许多模型需要不受限制的通用身份和语音作为输入。Prajwal等人。[22,42]将任何未识别的视频和任意语音作为输入来合成不受限制的讲话头部视频。本节将主要介绍问题公式化和使用管道和端到端生成谈话头的框架。

3.1 问题公式化

在这里插入图片描述

在从语音到视频的渲染网络中,现有的模型分别引入了U-Net、GAN、Vision Transformer(ViT)以及新兴的NeRF等网络结构。(这篇综述还是缺少对3DGS相关的报道,我们可以给予这个重点去总结调研的方向)

1、在使用GAN生成说话头部视频时,wav2lip [22]提出了基于SyncNet的专家唇同步算法,公式如下:
在这里插入图片描述

2、在使用ViT生成说话头部视频时,FaceFormer [28]提出了一种新的seq2seq架构来自回归预测面部运动,公式如下:
在这里插入图片描述

3.NeRF的方法,用于3D生成
在这里插入图片描述

3.2. 管道

Pipeline方法主要分为两个步骤:将低维驱动源数据映射到面部参数;然后使用GPU渲染、视频编辑或GAN将学习到的面部参数转换为高维视频输出。

根据人脸参数的数据类型,管道方法可以分为基于标记点的方法,基于系数的方法和基于顶点的方法。

3.2.1. 基于标记点的方法

面部标记点广泛应用于各种面部分析任务中,包括头部视频合成。在他们的开创性工作中,Suwajanakorn等人[8]使用单层LSTM将低维语音数据映射到非线性唇部关键点,然后依次进行面部纹理合成、视频重定时和目标视频合成。Kumar等人[11]提出了LSTM+UNet架构,并使用Pix2Pix代替基于管道的视频合成方法来改进模型。同时,LSTM+UNet架构也被广泛应用于许多工作中s [21,44]。
由于谈话头合成视频的应用场景广泛,需要一种不受输入语音和身份限制的方法。因此,仅使用奥巴马讲话视频作为数据的工作[8,11]无法满足业务需求,也无法合成其他人物或语音。Jalalifar等人[45]引入了基本条件生成对抗网络(C-GAN)作为音频到视频映射问题的独立模块,用于生成给定面部标记点的视频。由于这两个模块是独立的,模型可以使用任何音频作为驱动源来合成新视频。Chen等人[17]进一步考虑了合成过程前后视频帧之间的相关性。他们提出了一种动态像素级损失来解决目标区域的像素抖动问题。

然而,在模型的生成对抗网络部分,由于dlib[46]检测器唇部标记点精度不足,与数据集的唇部标记数据存在误差,影响了模型输出视频的效果。除了用于2D标记点的方法外,低维驱动源数据到高维3D标记点的映射也得到了广泛研究。语音信号不仅包含语义层次的信息,还包含语音、语音风格和情感等信息。Zhou等人[21]使用神经网络学习独立的语音内容和身份特征,用语音内容特征预测3D标记点,并用UNet风格的生成器合成谈话头视频。

3.2.2. 基于系数的方法

基于2D系数。 主动外观模型(AAM)是最常用的面部系数模型之一,代表形状、纹理及其相关性的变化。

Fan等人[47]使用重叠的三音子作为双层Bi-LSTM模型的数据输入,以学习唇部区域的AAM系数,然后将学习到的数据映射到面部图像中,以合成谈话头视频。然而,AAM系数在将参考面部转换为新对象时可能导致潜在错误和灵活性受限。
基于3D系数。 除了2D面部系数模型,[48,49]提出了基于CNN+RNN的模型,将低维语音信号映射到3D面部的混合形状系数。Thies等人[23]提出了基于CNN的Audio2Expression网络和内容感知过滤网络,可以将任何人的讲话语音序列映射到能够代表特定人讲话风格的3D混合形状。同时,NVP方法[23]首先从语音中推断情感,从而渲染高质量的说话头视频。
许多方法仅控制和生成唇部运动和面部表情,但这些方法无法在完全3D头部控制下合成完整的谈话头视频。Kim等人[13]将3D可变模型(3DMM,一种更密集的3D面部参数表示) [50]引入谈话头生成,该方法可以完全控制动作参数,例如面部运动、表情和眼睛,或仅调整面部表情参数并保持其他不变。

3DMM系数包括刚性头部姿态参数、面部识别系数、表情系数、双目注视方向参数和球面谐波光照系数。 Zhang等人[51]提出了一个具有特定风格动画生成器和流引导视频生成器的框架,以合成高视觉质量的视频。其中,特定风格的动画生成器可以成功将唇部运动与眉毛和头部姿态分离。由于该方法未考虑时间一致性,生成的谈话头视频中的唇部可能会受到干扰。同时,正则化的头部姿态和眼球运动参数限制了整个3D头部的运动空间。Ji等人.[52]提出了一种情感视频肖像(EVP),用于实现能够控制谈话头和面部情感的语音驱动视频合成。

3.2.3.基于顶点的方法

3D面部顶点是用于讲话头部视频合成的其他常用3D模型。例如,Karras等人。[10]使用深度神经网络来学习从输入音频到对应于固定拓扑网格的3D顶点坐标的非线性映射。同时,设计了一个额外的情感代码,用于从训练数据中学习相应的情感状态,以控制说话头部的面部表情。然而,许多提出的模型主要是针对具有特定身份的扬声器音频。为了解决这个问题,Cudeiro等人[19]提出了VOCA模型,该模型将DeepSpeech提取的音频特征与不同说话者的特征向量融合,并输出3D顶点的位移数据。VOCA算法的主要贡献在于解决了人脸识别与人脸运动的耦合问题,利用识别控制参数改变其视觉动力学特性。由于该方法在实验室中使用高清4D数据集,因此无法使用野生视频进行训练。Fan等人[28]提出了一种基于Transformer的FaceFormer模型,该模型对长期音频的上下文信息进行编码,并通过自回归预测一系列动画3D人脸网格。
Richard等人。[37]提出了一种基于跨模态损失的面部动画分类的潜在空间,不仅可以解开音频相关和音频无关的信息,如面部动作(眨眼和眉毛的运动)。然而,一些研究人员引入了具有附加跳跃连接的UNet风格解码器的神经网络架构。该方法可以预测3D顶点坐标,解开的上下表面区域的运动,并防止过度平滑,合成一个更合理的,现实的说话头视频。为了保证高保真视频质量,该模型需要大规模的高清3D训练数据集。

3.3. 端到端

在2018年之前,会说话头视频生成的流水线方法是一个主要研究方向。然而,这种基于流水线的方法具有复杂的处理流程、昂贵且耗时的面部参数标注以及额外的辅助技术,如面部地标检测和3D/4D/5D面部重建。因此,许多研究者开始探索端到端的说话人视频合成方法。端到端方法指的是直接从驱动源生成说话唇(面部)视频而不涉及任何中间链接的面部参数的架构。

**Chung等人提出的Specch2vid是最早探索端到端合成人脸视频的框架之一。**如图4所示,它由四个模块组成:音频编码器、身份图像编码器、说话人面部图像解码器和去模糊模块。语音编码器用于从原始音频中提取语音特征;身份图像编码器用于从输入图像中提取身份特征;说话人人脸图像解码器以语音和身份特征为输入,通过转置卷积和上采样方法进行特征融合,输出合成图像。然而,在获得高质量图像的上述处理中,该模型用L1损失函数代替了通常在图像生成和自动编码器中使用的L2损失函数。另外,基于CNN的去模糊模块被单独训练以提高输出图像的质量…但该模型的缺点也很明显:(1)由于Specch 2 vid没有考虑时间序列的连续性,会产生跳帧或抖动的不连贯视频序列;(2)L1重构损失是在整个人脸上进行的,很难从单个音频中推断出一个人的多个面部表情。注:本文中用于学术研究的政治人物奥巴马的图像主要来源于数据集。

在这里插入图片描述
图4 Specch2vid结构的概述。

为了克服Speech 2 Vid的上述限制,许多研究人员通过利用生成对抗训练策略[56]提出了新的解决方案[16,53 -55]。以音频驱动的说话人视频生成模型为例,一段音频包含语音、情感、说话风格等各种信息。因此,解耦的复杂的音频信息是一个显着的问题,在说话的头视频任务。为了缓解这个问题,Zhou等人[16]提出了可拆卸视听系统(DAVS)。监督对抗训练模型比以前的方法更专注于提取语音和身份特征信息。然而,这些方法在训练阶段过于依赖额外的Word-ID和Person-ID标签。这种方法忽略了头部姿势和音频之间的相关性[57]。Si等人。[53]使用知识蒸馏在预训练的情感识别教师网络和预训练的面部识别教师网络的帮助下从音频输入中分离情感,身份和语音特征。最近,许多研究人员在模型中引入了编码属性,如面部表情,头部姿势和眨眼频率,以生成更自然的说话头部。例如,参考文献[58,59]将情感编码器引入模型,[60]将隐式姿势编码模块设计到生成管道中。Ji等人。[61]设计了一个Audio 2Facial-Dynamics模块来学习面部关键点的运动和音频中隐含情绪的位移。Biswas等人[62]提出了一种语音驱动的合成说话人脸的方法,可以实现连贯的头部运动、准确的口型同步、自然眨眼和高保真纹理。Waibel等人。[63]提出了一种端到端神经系统,用于将视频的嘴唇同步翻译为另一种语言的视频。

基于GAN的方法专注于为说话头视频生成模型定制更有效的学习目标,以避免仅使用图像重建损失的缺点。 Prajwal等人。[22,42]介绍了一种简单的视听同步器,用于合成语音和对口型讲话头部视频。此外,Chen等人。[12]提出了视听导数相关损失,以优化特征空间中两种模态的一致性。他们提出了一种三流GAN视频,以强制从输入音频信号Talking Mouth Video生成。Biswas等人。[62]提出了一种基于注意力的GAN网络来识别与头部运动相关的音频特征,并且还可以学习语音的韵律特征与嘴唇同步,眨眼和头部运动之间的重要相关性。

除了基于GAN的端到端方法外,研究人员还受到神经辐射场(NeRF)的启发[38]。Guo等人[25]提出了音频驱动神经辐射场(AD-NeRF)模型。AD-NeRF集成的DeepSpeech音频特征用作条件输入,以学习隐式神经场景表示函数,该函数将音频特征映射到动态神经辐射场,用于扬声器面部渲染。ADNeRF可以通过学习两个独立的神经辐射场来对头部和上身进行建模,并且还可以操纵动作姿势和背景替换等属性,但该方法无法推广不匹配的驾驶语音和说话人。

然而,ADNeRF在渲染阶段经常遭受头部和躯干分离,导致不自然的合成视频。因此,Liu等人。[27]提出了一种称为语义感知说话肖像NeRF(SSP-NeRF)的方法,该方法使用语音的语义感知来解决局部面部动态和全局头部-躯干之间的不协调问题。同时,NeRF的绘制速度慢也是一个不容忽视的问题。这些方法[41,64 -66]提高了NeRF的渲染速度。与以前的流水线方法的融合策略不同,Ye等人。[6]提出了一种具有动态卷积核(DCK)的全卷积神经网络,用于跨模态特征融合和音频驱动的多模态任务的面部视频生成,并且对不同的身份,头部姿势和音频具有鲁棒性。由于简单高效的网络架构,大大提高了说话人视频生成模型的实时性。

Yao等人。[67]提出了一种基于神经辐射场的新框架。其中,唇动是直接从输入音频中预测出来的,实现了声音和图像的同步。设计了一种基于高斯过程采样的Transformer变分自动编码器,用于学习合理自然的个性化属性,如头部姿态和眨眼等。

4. 数据集和评价指标

参考论文。

5. 未来方向数据集的构建和使用较少样本进行学习的方法

**高质量的数据集有利于模型生成逼真、生动和人性化的说话头部视频。**现有的开源数据集主要由野生视频组成,有些用于视觉语音识别任务。此外,当前方法的一个局限性是,基于深度学习的说话头视频生成方法主要依赖于标记数据。最近,一些工作已经开始探索其他有效的学习范式,如知识蒸馏和少镜头学习,研究说话头视频生成任务的价值。与此同时,一些研究人员已经开始构建具有隐藏特征(如语义和情感注释)的高质量视觉语音数据集。

具有自发运动的真实的说话头视频生成。人类对合成视频中的任何动作变化都很敏感,他们会无意识地关注嘴唇、眼睛、眉毛和自发的头部运动。

挑战
具有视听一致性的嘴唇运动是讲话头部视频生成的不可或缺的部分,并且隐含的特征,例如眼睛和头部运动以及情感特征,很少可以从音频中推断出来。 近年来,基于对嘴唇运动的研究,许多研究开始探索眨眼和头部姿态等内隐特征在生成说话头部视频中的应用。在研究中引入这些隐含特征可以使视频更真实。特别是在人机对话系统中,TTS模块合成的语音不如野生音频所包含的信息丰富。

说话人视频生成技术的发展已经严重威胁到社会的发展。滥用谈话头视频生成技术和人的图片或视频可能会降低虚假信息的生产成本,促进其传播,并造成严重的道德和法律的问题,特别是对名人或政治家。

说话人视频生成、假视频识别和检测是自然的共生任务。与此同时,说话人视频生成模型输出的内容自然逼真,给相关取证工作带来了很大的困难和挑战,引起了众多研究者的关注。现有的方法大多是对模型性能进行改进,忽略了模型可解释性差的问题.此外,大多数方法只在固定数据集上进行优化,对野生数据的影响是负面的。可解释且鲁棒的说话头部视频生成检测对于加速技术发展和防止技术滥用是重要的。

多人讲话头视频生成。在语音识别任务中,ASR模型可以根据输入语音的声纹差异识别说话人的数量,并划分说话人和语音内容。多人讲话头部视频的生成是一项具有挑战性的任务,它将一段具有不同声纹的语音映射到不同讲话头部的面部关键点信息。它可以应用于生活中的许多场景,例如广播新闻时的新闻连接。 然而,将单个讲话头部视频生成方法转移到多个讲话头部视频生成任务可能不是最佳的。最近,这项任务开始引起研究人员的注意。考虑到基于深度学习的说话人生成模型的实时性问题无法解决,这方面还有很大的研究空间。

下面,我们提供一些想法,并讨论潜在的方法来解决说话头生成模型的实时性能差

一种基于CG的话头生成方法。 随着虚拟世界概念的引入,用于在游戏、电影和其他场景中创建虚拟角色的计算图形(CG)公司已经推出了虚拟人生成程序。目前,可用于创建虚拟人谈话负责人的程序,包括2022年12月30日访问的Audio2Face(NVIDIA NIM | audio2face。)在NVIDIA Omniverse中,元人类创造者(MetaHuman | 逼真人类创建器 - 虚幻引擎 - Unreal Engine,于2022年12月30日访问。)在Epic的虚幻引擎中,数字人类(观察敌人 - 最先进的数字人类 | Unity 演示,于2022年12月30日访问。)在Unity3D和3D Engine(3D Engine - 华为开发者联盟 (huawei.com),中,于2022年12月30日访问。)在华为的HMS核心中。现在,基于CG程序的虚拟人说话头部的实时渲染具有结合Audio2Face和Meta-Human Creator来输出渲染视频的方式。与此同时,一些研究人员通过让模型学习来学习语音、嘴唇和表情参数。它将虚拟人的动作生成算法与3D引擎相结合,实时输出渲染的卡通图像视频,如华为的手语数字化和基于3D人体网格的姿势制导生成[79]。对于说话头的深度生成,将深度学习方法与CG程序相结合,保证了视频渲染的实时性。虽然它具有巨大的应用潜力,但高昂的成本是虚拟人对讲机视频输出的一个缺点。语音到动画(S2A)技术是一种根据给定语音自动估计同步的面部动画参数并基于诸如虚幻引擎4(UE4)的渲染引擎利用这些预测参数生成最终动画化身的方法。在S2a的基础上,Chen et al.[31]结合MOE变换对上下文进行建模,提高了模型的推理速度。

一种基于NeRF(Neural Radiance Fields)渲染的方法。 在计算机视觉领域,利用深度神经网络对物体和场景进行编码是一个新的研究方向。NeRF是一种隐式神经表示,可以从多个角度的图像中呈现任何视角的锐利照片。其中,AD-NeRF将NeRF引入到头显视频生成中。尽管原生NeRF算法的缓慢渲染速度阻止其在真实的时间内生成讲话头部视频,但许多研究人员已经提出了许多方法来提高NeRF的渲染速度[64- 66,80]。例如,DONeRF可以在单个GPU上每秒渲染20帧,Plenoctrees [66]比传统的NeRF快3000倍以上。

一种融合语音识别和计算机视觉的方法。 随着输入语音数据量的不断增加,流式自动语音识别系统能够真实的实时输出语音识别的文本结果。其中,流解码器CTC [81]、RNN-T [82]、LAC [83]的发展推动了Streaming ASR的快速发展。相比之下,在深度生成的计算机视觉领域,没有一个模型能够真实的实时输出会说话的头部视频。因此,在实时的说头视频生成研究中,可以将ASR领域的流式解码器引入说头视频生成模型中,以降低视频生成的实时率。其中,实时率(RTF)是模型处理时间与音频之间的比值。例如,处理3秒的音频需要6秒,RTF = 6秒/3秒= 2。由于模型是对历史输入进行建模,因此历史输入将随着时间的推移继续增长,使模型的计算负载加倍,RTF也将相应增加。如果RTF > 1.0,则模型太迟,无法处理音频缓冲区。因此,可以通过将由讲话头部生成的视频的RTF减小到小于1.0来实现实时流输出。

6.结论

本文提出了一个多模态人机交互的系统框架,为说话人生成模型的应用提供了一种新的思路。它回顾了基于深度学习的Talking-Head生成模型,包括数据集,评估协议,代表方法等,我们分析了代表方法的优缺点及其潜在的联系。

得益于深度学习的惊人发展,我们见证了说话头视频模型的快速发展,从生成低分辨率和粗糙的图像到生成高分辨率、细节和逼真的图像。然而,说话人视频生成方法的实时性仍有待提高。不能排除利用虚拟人声头合成技术进行欺诈、诽谤、恶意传播等恶意活动的可能性。我们强烈反对滥用这项技术。


总结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2112735.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于人工智能的语音情感识别系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 语音情感识别是人工智能的一项重要应用,旨在通过分析语音信号中的特征来判断说话者的情感状态,如“愤怒”、“…

1800 万,财务自由了

《黑神话:悟空》 距离《黑神话:悟空》上线(8 月 20 日)上线已过去半个月,从刚开始全网热议,连官方都下场点评,到现在的逐渐回归平静。 不是游戏圈或是对数据不敏感的网友,可能会落入…

【路径规划】 使用计算机视觉和机器人操纵器绘制肖像

摘要 本项目展示了使用计算机视觉和机械臂绘制肖像的完整流程。系统利用网络摄像头获取肖像图像,经过图像处理后生成路径,然后利用逆向运动学将路径转化为机械臂的运动轨迹,最终在硬件机器人上执行绘制。实验结果表明,该系统能够…

【人工智能学习笔记】2_数据处理基础

数据的概述 数据(Data)的定义 用于表示客观事物的未经加工的原始素材不仅指狭义上的数字,也只具有一定意义的文字、字母、数字符号的组合客观事物的属性、数量、位置及其相互关系的抽象表示 在计算机科学与技术领域中,数据是指…

微信小程序和普通网页有什么不同

微信小程序和普通网页的区别主要体现在文件后缀、运行原理、运行环境、开发规则以及标签名等方面。微信小程序于2016年推出,依托微信庞大的用户基础,迅速成为移动应用中的佼佼者,而普通网页则基于传统的HTML、CSS和JavaScript技术构建。以下将…

2024年四川省安全员B证证考试题库及四川省安全员B证试题解析

题库来源:安全生产模拟考试一点通公众号小程序 2024年四川省安全员B证证考试题库及四川省安全员B证试题解析是安全生产模拟考试一点通结合(安监局)特种作业人员操作证考试大纲和(质检局)特种设备作业人员上岗证考试大…

C语言深度剖析--不定期更新的第三弹

hello,everybody!最近又更新了哈,希望对大家有所帮助 switch case关键字 基本语法: switch(整型变量/常量/整型表达式){case 1:var 1;break;case 2:var 2;break;case 3:var 3;break;default:break; }switch case语句也和if语句一样具有判断和分支的功…

第4章-02-用WebDriver驱动浏览器页面截图

🏆作者简介,黑夜开发者,CSDN领军人物,全栈领域优质创作者✌,CSDN博客专家,阿里云社区专家博主,2023年CSDN全站百大博主。 🏆数年电商行业从业经验,历任核心研发工程师,项目技术负责人。 🏆本文已收录于专栏:Web爬虫入门与实战精讲,后续完整更新内容如下。 文章…

NX重要操作函数调用流程

1.文件打开 2.鼠标移动操作 3.定时器

Vue3+Ts封装类似于Element-plus的图片预览组件

组件目录结构如下: options.ts文件用来存储配置文件, 代码如下: import {isFirefox} from ./tools;export type ImageViewerAction = zoomIn | zoomOut | clocelise | anticlocelise;export const mousewheelEventName = isFirefox() ? DOMMouseScroll : mousewheel;// 键…

自然语言处理系列五十三》文本聚类算法》文本聚类介绍及相关算法

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】 文章目录 自然语言处理系列五十三文本聚类算法》文本聚类介绍及相关算法K…

isalnum函数讲解 <ctype.h>头文件函数

目录 ​1.头文件 2.isalnum函数讲解​​​​​​​ 方源一把抓住VS2022&#xff0c;顷刻 炼化&#xff01; 1.头文件 以上函数都需要包括头文件<ctype.h> &#xff0c;其中包括 isalnum 函数 #include<ctype.h> 2.isalnum函数讲解 isalnum函数是一种判断字符…

解决:Module build failed (from ./node_modules/sass-loader/dist/cjs.js)问题

一、问题 Module build failed (from ./node_modules/sass-loader/dist/cjs.js): Error: Cannot find module sass 二、解决方法 1.清除缓存 npm cache clean --force2.重构项目 npm install 3.更新&#xff08;获取最新的&#xff09;node-sass和sass-loader依赖包 npm …

OpenAI SORA团队负责人 通往智能的方式 报告笔记

OpenAI SORA团队负责人 通往智能的方式 报告笔记 这个报告其实是2024年智源大会的主旨报告&#xff0c;OpenAI SORA和DALL-E团队负责人Aditya Ramesh给出的一段有关多模态大模型的报告。我去听了现场&#xff0c;感觉倍受启发&#xff0c;但是感觉很多并不能当场理解&#xff…

赢麻了!算法学不懂都来翻烂这本书,吊打国内所有晦涩难懂的毒教材!!

这本书巧妙的运用了简洁的图表和示意图&#xff0c;帮助读者更加直观的理解各种机器学习算法的工作原理和应用场景。 就是一本既全面又容易上手的机器学习宝典&#xff0c;适合各种水平的读者&#xff0c;不管你是对AI感兴趣的爱好者&#xff0c;还是正在从事相关工作的专业人…

Linux系统应用(5)——编译器gcc

个人内容简介&#xff1a; &#x1f343;个人主页&#xff1a;诉清风2023 &#x1f388;逆转时间的公式&#xff0c;就是珍惜现在ദ്ദി˶&#xff70;̀֊&#xff70;́ ) ✧ 目录 个人内容简介&#xff1a; &#x1f388;逆转时间的公式&#xff0c;就是珍惜现在ദ്ദ…

局域网一套键鼠控制两台电脑(台式机和笔记本)

服务端&#xff08;有键盘和鼠标的电脑作为服务端&#xff09; 下载软件 分享文件&#xff1a;BarrierSetup-2.3.3.exe 链接&#xff1a;https://pan.xunlei.com/s/VO66rAZkzxTxVm-0QRCJ33mMA1?pwd4jde# 配置服务端 一&#xff0c; 二&#xff0c; 客户端屏幕名称一定要和…

springboot+vue+mybatis智慧篮球馆预约+PPT+论文+讲解+售后

近些年来&#xff0c;随着科技的飞速发展&#xff0c;互联网的普及逐渐延伸到各行各业中&#xff0c;给人们生活带来了十分的便利&#xff0c;智慧篮球馆预约利用计算机网络实现信息化管理&#xff0c;使整个智慧篮球馆预约的发展和服务水平有显著提升。 本文拟采用Eclipse开发…

虚拟机ubuntu配置opencv和opencv_contrib

前期准备 1.下载opencv和opencv_contrib源码 opencv-4.6.0&#xff1a;https://opencv.org/releases/ opencv_contrib-4.6.0&#xff1a;https://github.com/opencv/opencv_contrib 在ubuntu直接下载或者在window上下好传到虚拟机里都可以 自己找个地方把他们解压&#xf…

[项目][CMP][Thread Cache]详细讲解

目录 1.设计&结构2.申请内存3.释放内存4.框架 1.设计&结构 Thread Cache是哈希桶结构&#xff0c;每个桶是一个按桶位置映射大小的内存块对象的自由链表 每个线程都会有一个Thread Cache对象&#xff0c;这样每个线程在这里获取对象和释放对象时是无锁的 TLS – Thr…