第二期 | ICASSP 2023 论文预讲会

news2025/1/24 1:38:07

ICASSP 2023 论文预讲会是由CCF语音对话与听觉专委会语音之家主办,旨在为学者们提供更多的交流机会,更方便、快捷地了解领域前沿。活动将邀请 ICASSP 2023 录用论文的作者进行报告交流。

ICASSP 2023 论文预讲会邀请到清华大学人机语音交互实验室(THUHCSI)在5月11日、5月12日分别做两期专场分享,欢迎大家预约观看。

实验室概况

清华大学人机语音交互实验室(THUHCSI)聚焦人工智能场景下的智能语音交互技术研究,包括语音合成、语音识别、说话人识别、语音增强、情感计算、自然语言理解与生成、数字人建模与生成、多模态人机交互等。实验室与香港中文大学联合成立了“清华大学-香港中文大学媒体科学、技术与系统联合研究中心”,与国内外多个重点大学、互联网智能语音交互公司有着紧密的友好合作关系。

第二期

清华大学人机语音交互实验室(THUHCSI)专场(上)

时间:5月11日(周四) 18:30 ~ 21:10

形式:线上

议程:每位嘉宾分享20分钟(含5分钟QA)

嘉宾&主题

嘉宾简介:雷舜,清华大学深圳国际研究生院二年级硕士生,研究方向是语音合成、歌唱合成,舞蹈生成等,曾发表多篇ICASSP/InterSpeech论文。

分享主题:面向有声读物合成的上下文感知连贯性说话风格预测方法

Context-aware Coherent Speaking Style Prediction with Hierarchical Transformers for Audiobook Speech Synthesis

摘要:如何为有声读物中多句连续文本生成符合上下文语境且具有连贯性的说话风格,对提升有声读物合成语音的表现力至关重要。本文为有声读物合成提出了一种结合多模态、多句子上下文信息的说话风格预测方法。我们设计了一个基于层级变换器(Hierarchical Transformer)的上下文感知风格预测器,在混合注意力掩码机制的帮助下同时考虑文本侧的上下文信息和语音侧的历史语音风格信息,以更好地预测上下文中每句话的说话风格。在此基础上,我们提出的模型可以逐句生成具有连贯说话风格和韵律的长篇语音。实验表明,该方法可以为单一句子和多个连续句子生成比基线更具有表现力和连贯性的语音。

嘉宾简介:陈杰,清华大学深圳国际研究生院计算机技术方向三年级研究生,研究方向为语音合成。

分享主题:LightGrad: 基于DDPM的轻量化语音合成声学模型

LightGrad: Lightweight Diffusion Probabilistic Model for Text-to-Speech

摘要:部署在终端设备上的轻量化语音合成系统具有广泛的应用前景和迫切的应用需求。相比其他生成式模型,扩散概率模型的训练更加稳定,且模型参数更少。目前,基于扩散概率模型的声学模型的合成质量已经超越Tacotron,FastSpeech和Glow-TTS等模型,将其部署在终端设备能够为用户提供质量更高的语音合成服务。但是,将基于扩散概率模型的声学模型部署在终端设备时面临两个关键问题:参数量多,推理速度慢。

本工作从解决上述两个问题的角度出发,提出基于Grad-TTS的轻量化声学模型LightGrad。该模型采用深度可分离卷积、快速采样算法和流式合成降低模型参数并加快推理速度。LightGrad 使用 4 步去噪合成的语音与 Grad-TTS 使用 10 步去噪合成的语音质量相近。与 Grad-TTS 相比,LightGrad 减少了 65.7% 的推理时延和 62.2% 的参数量,能够在单个 CPU 线程上实时合成语音。

嘉宾简介:王子林,清华大学深圳国际研究生院二年级硕士生,研究方向是语音技术处理,语音合成及语音增强。

分享主题:面向神经声码器训练的一种合成语料生成方法

A Synthetic Corpus Generation Method for Neural Vocoder Training

摘要:神经声码器因其合成高保真音频的能力而受到青睐。然而,训练一个神经声码器需要大量高质量的真实音频语料库,且音频录制过程往往需要大量的人力物力财力。为此,我们提出了一种用于神经声码器训练的合成语料库生成方法,它可以在几乎没有成本的情况下轻松生成数量不限的合成音频。我们同时对多个目标领域的音频的先验特征进行建模(例如演讲、歌唱的声音和器乐作品等),使生成的音频数据具备这些特征。通过该方法,在不需要任何真实音频的情况下,使用我们的合成语料库训练神经声码器就可以取得非常有竞争力的合成结果。为了验证我们所提出方法的有效性,我们对语音和音乐语料进行了主观和客观指标的实证实验。结果表明,用我们的方法产生的合成语料库所训练的神经声码器可以泛化到多个目标场景,并具有出色的歌唱声音(MOS:4.20)和器乐作品(MOS:4.00)的合成结果。

嘉宾简介:周绍焕,清华大学深圳国际研究生院二年级硕士生,研究方向是歌声合成。

分享主题:基于旋律无监督预训练策略以增强歌声合成音域范围

Enhancing the Vocal Range of Single-Speaker Singing Voice Synthesis with Melody-Unsupervised Pre-Training

摘要:基于单歌手数据所训练出来的歌声合成模型往往受限于单歌手的音域范围,无法较好地合成音域之外的歌声。我们的工作提出了一种在多歌手数据集上进行旋律无监督预训练的方法,以提高单歌手的歌唱音域范围,同时不降低音色的相似度。具体来说,在预训练阶段,我们设计了一个音素预测器来预测帧级别的音素信息,一个说话人编码器用于建模不同歌手的声音,并且直接从音频中预测f0值以提供音高信息。这些预先训练好的模型参数作为先验知识被送入到微调阶段,以提高单歌手的音域范围。此外,我们的工作还有助于提高合成歌声的声音质量和韵律自然度:通过首次引入一个可微分的时长调节器来提升韵律自然度,以及一个双向流模型来提高声音质量。实验结果表明,所提出的歌声合成系统在更高的音域范围上其歌声质量和自然度方面都优于基线模型。

嘉宾简介:清华大学深圳国际研究生院二年级硕士生,研究方向是数字人生成。

分享主题:WavSyncSwap:端到端的语音驱动肖像定制数字人生成

WavSyncSwap: End-to-End Portrait-Customized Audio-Driven Talking Face Generation

摘要:具有肖像定制功能的音频驱动数字人生成,可以增强数字人在不同场景下应用的灵活性,如在线会议、混合现实和数据生成等。在现有方法中,音频驱动数字人生成和身份替换通常被视为两个不同的独立任务,其通过级联的方式以实现相应的目标。在使用最先进的Wav2Lip和SimSwap方法来实现该目标的过程中,我们遇到了一些问题:受影响的口型同步、丢失的纹理信息和缓慢的推理速度等。为了解决这些问题,我们提出了一种结合了两种方法优点的端到端模型。所提方法借助预训练的语音-口型同步判别器生成高度同步的口型。此外,我们引入ArcFace和身份注入模块以提供身份信息,因为它与面部纹理具有很强的相关性。实验结果表明,我们的方法实现了与真实视频相当的口型同步准确度,并且相比级联方法保留了更多的纹理细节,并提高了推理速度。

嘉宾简介:庄昊霖,清华大学深圳国际研究生院二年级硕士生,研究方向是音乐驱动舞蹈生成。

分享主题:GTN-Bailando: 基于预训练的流派令牌网络的3D舞蹈生成

GTN-Bailando: Genre Consistent Long-Term 3D Dance Generation based on Pre-trained Genre Token Network 

摘要:音乐驱动舞蹈生成是近年热门研究方向。现有大多数舞蹈生成方案缺乏对舞蹈流派信息(Genre)的考虑,导致生成舞蹈动作中流派不一致,影响观感。此外,舞蹈流派与音乐相关性也未考虑。基于此,我们提出了舞蹈生成框架GTN-Bailando,通过流派令牌网络(Genre Token Network)从音乐推断流派,再将流派信息引入舞蹈生成框架,保持流派一致。其次,为了提升流派令牌网络的泛化能力,我们对其采用了预训练和微调的策略。在AIST++数据集上的实验结果表明,所提出方案在舞蹈质量和流派一致方面皆优于现有最佳的舞蹈生成方案。

嘉宾简介:叶梓杰,清华大学计算机系三年级博士生,研究方向为人体动作建模与生成。

分享主题:基于离散动作表示的说话手势生成

Salient Co-Speech Gesture Synthesizing with Discrete Motion Representation

摘要:由于语言上下文到说话手势的映射具有不确定性,说话手势颇具挑战性。在演讲时,人们不仅会做出轻柔而有节奏的手势,还会做出运动幅度大且具有明确语义的手势。然而,以前的大多数研究工作都忽略了说话手势的这一性质,采用了确定性的建模方法,产生了过度平滑的动作,合成结果的表现力有限。为了解决这个问题,我们提出了一种新的说话手势生成方法,产生高质量的具有突出语义的手势。具体来说,我们建立了一个离散动作表示(DMR)空间来连接语音-手势映射和手势生成阶段。DMR的加入使运动空间的随机采样成为可能,并避免了语音-手势映射中的过度平滑问题。在DMR的基础上,我们设计了一个多模态语音手势合成模型(MCGT)。MCGT对DMR的分类分布进行了显式的建模,从复杂的上下文生成与上下文同步的语义凸显的手势。相较于其它说话手势合成方法,我们的模型在语义匹配度和动作自然度上都有显著提升。

嘉宾简介:黄烁,清华大学计算机系一年级博士生,研究方向为人体动作建模和人体重建。

分享主题:基于乱序自回归的动作插值

Shuffled Autoregression For Motion Interpolation

摘要:动作插值旨在生成自然和直接的运动来填补所提供关键帧之间缺失的间隙,对于角色动画至关重要。最近,一些工作有助于解决不同问题设置下的运动补全任务。相比之下,以前的解决方案需要连续序列而不是孤立的关键帧,并且对于动作插值任务不可行。本研究认为,未来和过去的信息对插值任务具有相同的重要性,这取决于时间距离。为了实现这一插值本质,我们提出使用乱序自回归来解决运动插值问题。特别是,我们提出了一种新的深层结构,该结构配备了使用乱序自回归的时空二维的动作transformer。该新模型将关键帧插值、逐帧生成和平滑组装到端到端可训练管线中,以确保高性能动作插值。我们还从AMASS数据集中构建了一个包含丰富振幅运动的大规模数据集,并对其进行了广泛的实验评估。我们的模型只从一个开始帧到一个结束帧生成生动而连贯的运动,并且大大优于最先进的动作中间连接方法。该模型还可以扩展到多个关键帧的动作插值任务和其他领域的插值。

参与方式

直播将通过CSDN进行直播,手机端、PC端可同步观看

👇👇👇

https://live.csdn.net/room/weixin_48827824/yQJhBXbZ

论文征集

ICASSP 2023 论文预讲会面向全球线上招募,结合定向邀请与自选投稿的方式,来选择预讲会的嘉宾

为了共创高质量的论文预讲会,我们诚挚邀请所有 ICASSP 2023 作者参与到会议中来,也欢迎大家推荐适此会议论文分享的学者。

投稿邮箱:jack@speechhome.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/510478.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

单细胞跨模态分析综述

单细胞技术的最新进展使跨模态和组织位置的细胞高通量分子分析成为可能。单细胞转录组数据现在可以通过染色质可及性、表面蛋白表达、适应性免疫受体库分析和空间信息进行补充。跨模态单细胞数据的可用性越来越高,推动出新的计算方法,以帮助科学家获得生…

图的遍历——深度优先搜索(DFS)与广度优先搜索(BFS)(附带C语言源码)

个人主页:【😊个人主页】 系列专栏:【❤️数据结构与算法】 学习名言:天子重英豪,文章教儿曹。万般皆下品,惟有读书高——《神童诗劝学》 系列文章目录 第一章 ❤️ 学前知识 第二章 ❤️ 单向链表 第三章…

mysql数据迁移与同步常用解决方案总结

目录 一、前言 二、数据迁移场景 2.1 整库迁移 2.2 表数据迁移 2.3 mysql版本变更 2.4 mysql数据迁移至其他存储介质 2.5 自建数据到上云环境 2.6 mysql数据到其他国产数据库 三、数据库物理迁移实施方案 3.1 数据库物理迁移概述 3.1.1 物理迁移适用场景 3.1.2 物理…

杂记 2023.5.10

目录 韦伯和斯托亚科维奇是谁? 介绍一下kali FastDFS和Sentinel是什么? Inferno 找工作的影响因素 1. 背景: 2. 学习过程: 2.1 计算机基础: 2.2 语言: 2.3 数据库等: 2.4 JVM&#…

月薪17k需要什么水平?98年测试员的面试全过程…

我的情况 大概介绍一下个人情况,男,本科,三年多测试工作经验,懂python,会写脚本,会selenium,会性能,然而到今天都没有收到一份offer!从年后就开始准备简历,年…

Linux操作系统如何查看CPU型号信息?一条命令搞定

Linux操作系统服务器如何查看CPU处理器信息?使用命令cat /proc/cpuinfo可以查看CPU详细信息,包括CPU核数、逻辑CPU、物理CPU个数、CPU是否启用超线程等,阿里云服务器网分享Linux服务器查看CPU信息命令: 目录 Linux服务器查看CPU…

Visual Studio Code 1.78 发布!

欢迎使用 Visual Studio Code 2023 年 4 月版。一些主要亮点包括: 辅助功能改进 - 更好的屏幕阅读器支持、新的音频提示。新颜色主题 - “现代”浅色和深色主题默认设置。配置文件模板 - Python、Java、数据科学等的内置模板。拖放选择器 - 选择您希望如何将项目链…

【AI】YOLOV2原理详解

1、简介 Yolov2采用了Darknet-19特征提取网络,包括19个卷积层和5个maxpooling层,网络结构如下: 也有尝试使用ResNet-50作为特征提取的模型,网络结构如下: 2、YOLOV2的改进 2.1 加入批归一化(Batch Nomalization) 对数据进行预处理(统一格式、均衡化、去噪等)…

隐语团队研究成果再创佳绩,两篇论文分别被USENIX ATC‘23和IJCAI‘23接收!

‍“USENIX ATC‍年度技术会议”(USENIX ATC,USENIX Annual Technical Conference)是计算机系统领域的顶级学术会议之一。本年度 USENIX ATC’23将于7月10日至12日在美国波士顿召开。本次会议共投稿353篇论文,接收65篇&#xff0c…

【Redis】电商项目秒杀问题之超卖问题与一人一单问题

目录 一、超卖问题 1、背景 2、产生原因以及线程安全问题 3、解决 1.悲观锁 2.乐观锁 4、新的问题 5、解决 二、一人一单 1、背景 2、产生原因以及线程安全问题 3、解决 4、新的问题----集群下的并发安全问题 5、解决 三、集群下的并发问题 1、说明 2、解决 一…

如何将ChatGPT训练成某个领域的专家!附完整示例!

背景 最近听了 八叉的一个ChatGPT讲座,讲的是如何将ChatGPT训练成领域专家,这样我们就可以用它来解决该领域的各种问题。 整个讲座中最让我印象深刻的就是训练方法,它是通过让ChatGPT向我们提问,然后由我们给出答案的方式进行训…

牛客 BM40 重建二叉树

描述 给定节点数为 n 的二叉树的前序遍历和中序遍历结果,请重建出该二叉树并返回它的头结点。 例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6},则重建出如下图所示。 提示: 1.vin.length pre.length 2.pre 和 vin 均无重复元素…

Redis未授权漏洞复现

Redis简介 Redis是C语言开发的一个开源高性能(key-value)键值对类型的内存NoSQL数据库,可以用作数据库、缓存、信息中间件(性能非常优秀,支持持久化到硬盘且高可用)。由于其自身特点,可以广泛应用在数据集群&#xff…

threeJs进阶 让模型沿着指定轨迹移动与转向

效果图: 涉及相关知识点: 欧拉对象和四元数主要用来表达对象的旋转信息。 关键词:欧拉Euler、四元数Quaternion、矩阵Matrix4 欧拉对象Euler 欧拉角描述一个旋转变换,通过指定轴顺序和其各个轴向上的指定旋转角度来旋转一个物体…

小红书达人等级有哪些,达人种草力度判断

小红书对于产品及品牌的传播作用,来自于达人自身的分享。以笔记为媒介,对产品进行情景化展示,从而吸引消费,就被称作是种草。而种草力度的强弱,则与达人等级息息相关。下面,就来跟详细为大家解读。 一、小红…

VHDL的基本语法(一)

1 VHDL基本结构 1 实体 Entity:描述所设计的系统的外部接口信号,定义电路设计中所有的输入和输出端口 2 结构体 Architecture:描述系统内部的结构和行为 3 包集合 package:存放各设模块能共享的数据类型、常数和子程序等&#xf…

一百一十、Hive时间转换——from_unixtime踩坑(不要用from_unixtime,而是用from_utc_timestamp)

1.详情 从kettle转换任务得到时间戳为13位,1683701579457。想看看这个时间戳与createTime字段的关系,于是一开始使用了from_unixtime,结果踩坑了 2.运行问题(晚8个小时) hive> select from_unixtime(cast(1683701…

产品经理怎样活着走出需求评审会?

需求评审是产品经理工作的重要环节,是团队成员间衔接需求的重要桥梁,产品经理的方案能准确落地的重要保障。 一场成功的需求评审会,是能够完整清晰传递产品目标、产品功能,能获得团队认同,并且会后团队能够配合实施的…

orin配置系统

查看linux下的opencv安装版本: pkg-config --modversion opencv查看linux下的opencv安装路径: sudo find / -iname "*opencv*"可知opencv安装在/usr/local/lib里面。 在~/.bashrc中配置如下 在刷机完成的Orin,执行如下命令以安装…

uboot下内存操作mw和md命令详解

mw简介 u-boot 中的 mw 命令是用于向内存写入数据的命令,它有4种形式: mw.b - 写入 1 个字节(8 比特)的数据mw.w - 写入 1 个字(2 字节,16 比特)的数据mw.l - 写入 1 个长字(4 字节,32 比特)的数据mw.q - 写入 1 个四字(8 字节,64 比特)的数据 它们的语法格式是: mw.b addres…