第二期

ICASSP 2023 论文预讲会是由CCF语音对话与听觉专委会、语音之家主办，旨在为学者们提供更多的交流机会，更方便、快捷地了解领域前沿。活动将邀请 ICASSP 2023 录用论文的作者进行报告交流。

ICASSP 2023 论文预讲会邀请到清华大学人机语音交互实验室（THUHCSI）在5月11日、5月12日分别做两期专场分享，欢迎大家预约观看。

实验室概况

清华大学人机语音交互实验室（THUHCSI）聚焦人工智能场景下的智能语音交互技术研究，包括语音合成、语音识别、说话人识别、语音增强、情感计算、自然语言理解与生成、数字人建模与生成、多模态人机交互等。实验室与香港中文大学联合成立了“清华大学-香港中文大学媒体科学、技术与系统联合研究中心”，与国内外多个重点大学、互联网智能语音交互公司有着紧密的友好合作关系。

清华大学人机语音交互实验室（THUHCSI）专场（上）

时间：5月11日（周四） 18:30 ~ 21:10

形式：线上

议程：每位嘉宾分享20分钟（含5分钟QA）

嘉宾&主题

嘉宾简介：雷舜，清华大学深圳国际研究生院二年级硕士生，研究方向是语音合成、歌唱合成，舞蹈生成等，曾发表多篇ICASSP/InterSpeech论文。

分享主题：面向有声读物合成的上下文感知连贯性说话风格预测方法

Context-aware Coherent Speaking Style Prediction with Hierarchical Transformers for Audiobook Speech Synthesis

摘要：如何为有声读物中多句连续文本生成符合上下文语境且具有连贯性的说话风格，对提升有声读物合成语音的表现力至关重要。本文为有声读物合成提出了一种结合多模态、多句子上下文信息的说话风格预测方法。我们设计了一个基于层级变换器（Hierarchical Transformer）的上下文感知风格预测器，在混合注意力掩码机制的帮助下同时考虑文本侧的上下文信息和语音侧的历史语音风格信息，以更好地预测上下文中每句话的说话风格。在此基础上，我们提出的模型可以逐句生成具有连贯说话风格和韵律的长篇语音。实验表明，该方法可以为单一句子和多个连续句子生成比基线更具有表现力和连贯性的语音。

嘉宾简介：陈杰，清华大学深圳国际研究生院计算机技术方向三年级研究生，研究方向为语音合成。

分享主题：LightGrad: 基于DDPM的轻量化语音合成声学模型

LightGrad: Lightweight Diffusion Probabilistic Model for Text-to-Speech

摘要：部署在终端设备上的轻量化语音合成系统具有广泛的应用前景和迫切的应用需求。相比其他生成式模型，扩散概率模型的训练更加稳定，且模型参数更少。目前，基于扩散概率模型的声学模型的合成质量已经超越Tacotron，FastSpeech和Glow-TTS等模型，将其部署在终端设备能够为用户提供质量更高的语音合成服务。但是，将基于扩散概率模型的声学模型部署在终端设备时面临两个关键问题：参数量多，推理速度慢。

本工作从解决上述两个问题的角度出发，提出基于Grad-TTS的轻量化声学模型LightGrad。该模型采用深度可分离卷积、快速采样算法和流式合成降低模型参数并加快推理速度。LightGrad 使用 4 步去噪合成的语音与 Grad-TTS 使用 10 步去噪合成的语音质量相近。与 Grad-TTS 相比，LightGrad 减少了 65.7% 的推理时延和 62.2% 的参数量，能够在单个 CPU 线程上实时合成语音。

嘉宾简介：王子林，清华大学深圳国际研究生院二年级硕士生，研究方向是语音技术处理，语音合成及语音增强。

分享主题：面向神经声码器训练的一种合成语料生成方法

A Synthetic Corpus Generation Method for Neural Vocoder Training

摘要：神经声码器因其合成高保真音频的能力而受到青睐。然而，训练一个神经声码器需要大量高质量的真实音频语料库，且音频录制过程往往需要大量的人力物力财力。为此，我们提出了一种用于神经声码器训练的合成语料库生成方法，它可以在几乎没有成本的情况下轻松生成数量不限的合成音频。我们同时对多个目标领域的音频的先验特征进行建模（例如演讲、歌唱的声音和器乐作品等），使生成的音频数据具备这些特征。通过该方法，在不需要任何真实音频的情况下，使用我们的合成语料库训练神经声码器就可以取得非常有竞争力的合成结果。为了验证我们所提出方法的有效性，我们对语音和音乐语料进行了主观和客观指标的实证实验。结果表明，用我们的方法产生的合成语料库所训练的神经声码器可以泛化到多个目标场景，并具有出色的歌唱声音（MOS：4.20）和器乐作品（MOS：4.00）的合成结果。

嘉宾简介：周绍焕，清华大学深圳国际研究生院二年级硕士生，研究方向是歌声合成。

分享主题：基于旋律无监督预训练策略以增强歌声合成音域范围

Enhancing the Vocal Range of Single-Speaker Singing Voice Synthesis with Melody-Unsupervised Pre-Training

摘要：基于单歌手数据所训练出来的歌声合成模型往往受限于单歌手的音域范围，无法较好地合成音域之外的歌声。我们的工作提出了一种在多歌手数据集上进行旋律无监督预训练的方法，以提高单歌手的歌唱音域范围，同时不降低音色的相似度。具体来说，在预训练阶段，我们设计了一个音素预测器来预测帧级别的音素信息，一个说话人编码器用于建模不同歌手的声音，并且直接从音频中预测f0值以提供音高信息。这些预先训练好的模型参数作为先验知识被送入到微调阶段，以提高单歌手的音域范围。此外，我们的工作还有助于提高合成歌声的声音质量和韵律自然度：通过首次引入一个可微分的时长调节器来提升韵律自然度，以及一个双向流模型来提高声音质量。实验结果表明，所提出的歌声合成系统在更高的音域范围上其歌声质量和自然度方面都优于基线模型。

嘉宾简介：清华大学深圳国际研究生院二年级硕士生，研究方向是数字人生成。

分享主题：WavSyncSwap：端到端的语音驱动肖像定制数字人生成

WavSyncSwap: End-to-End Portrait-Customized Audio-Driven Talking Face Generation

摘要：具有肖像定制功能的音频驱动数字人生成，可以增强数字人在不同场景下应用的灵活性，如在线会议、混合现实和数据生成等。在现有方法中，音频驱动数字人生成和身份替换通常被视为两个不同的独立任务，其通过级联的方式以实现相应的目标。在使用最先进的Wav2Lip和SimSwap方法来实现该目标的过程中，我们遇到了一些问题：受影响的口型同步、丢失的纹理信息和缓慢的推理速度等。为了解决这些问题，我们提出了一种结合了两种方法优点的端到端模型。所提方法借助预训练的语音-口型同步判别器生成高度同步的口型。此外，我们引入ArcFace和身份注入模块以提供身份信息，因为它与面部纹理具有很强的相关性。实验结果表明，我们的方法实现了与真实视频相当的口型同步准确度，并且相比级联方法保留了更多的纹理细节，并提高了推理速度。

嘉宾简介：庄昊霖，清华大学深圳国际研究生院二年级硕士生，研究方向是音乐驱动舞蹈生成。

分享主题：GTN-Bailando: 基于预训练的流派令牌网络的3D舞蹈生成

GTN-Bailando: Genre Consistent Long-Term 3D Dance Generation based on Pre-trained Genre Token Network

摘要：音乐驱动舞蹈生成是近年热门研究方向。现有大多数舞蹈生成方案缺乏对舞蹈流派信息（Genre）的考虑，导致生成舞蹈动作中流派不一致，影响观感。此外，舞蹈流派与音乐相关性也未考虑。基于此，我们提出了舞蹈生成框架GTN-Bailando，通过流派令牌网络（Genre Token Network）从音乐推断流派，再将流派信息引入舞蹈生成框架，保持流派一致。其次，为了提升流派令牌网络的泛化能力，我们对其采用了预训练和微调的策略。在AIST++数据集上的实验结果表明，所提出方案在舞蹈质量和流派一致方面皆优于现有最佳的舞蹈生成方案。

嘉宾简介：叶梓杰，清华大学计算机系三年级博士生，研究方向为人体动作建模与生成。

分享主题：基于离散动作表示的说话手势生成

Salient Co-Speech Gesture Synthesizing with Discrete Motion Representation

摘要：由于语言上下文到说话手势的映射具有不确定性，说话手势颇具挑战性。在演讲时，人们不仅会做出轻柔而有节奏的手势，还会做出运动幅度大且具有明确语义的手势。然而，以前的大多数研究工作都忽略了说话手势的这一性质，采用了确定性的建模方法，产生了过度平滑的动作，合成结果的表现力有限。为了解决这个问题，我们提出了一种新的说话手势生成方法，产生高质量的具有突出语义的手势。具体来说，我们建立了一个离散动作表示（DMR）空间来连接语音-手势映射和手势生成阶段。DMR的加入使运动空间的随机采样成为可能，并避免了语音-手势映射中的过度平滑问题。在DMR的基础上，我们设计了一个多模态语音手势合成模型（MCGT）。MCGT对DMR的分类分布进行了显式的建模，从复杂的上下文生成与上下文同步的语义凸显的手势。相较于其它说话手势合成方法，我们的模型在语义匹配度和动作自然度上都有显著提升。

嘉宾简介：黄烁，清华大学计算机系一年级博士生，研究方向为人体动作建模和人体重建。

分享主题：基于乱序自回归的动作插值

Shuffled Autoregression For Motion Interpolation

摘要：动作插值旨在生成自然和直接的运动来填补所提供关键帧之间缺失的间隙，对于角色动画至关重要。最近，一些工作有助于解决不同问题设置下的运动补全任务。相比之下，以前的解决方案需要连续序列而不是孤立的关键帧，并且对于动作插值任务不可行。本研究认为，未来和过去的信息对插值任务具有相同的重要性，这取决于时间距离。为了实现这一插值本质，我们提出使用乱序自回归来解决运动插值问题。特别是，我们提出了一种新的深层结构，该结构配备了使用乱序自回归的时空二维的动作transformer。该新模型将关键帧插值、逐帧生成和平滑组装到端到端可训练管线中，以确保高性能动作插值。我们还从AMASS数据集中构建了一个包含丰富振幅运动的大规模数据集，并对其进行了广泛的实验评估。我们的模型只从一个开始帧到一个结束帧生成生动而连贯的运动，并且大大优于最先进的动作中间连接方法。该模型还可以扩展到多个关键帧的动作插值任务和其他领域的插值。