由CCF语音对话与听觉专委会 、中国人工智能产业发展联盟(AIIA)评估组、火山语音、语音之家、希尔贝壳共同主办的【语音之家】AI产业沙龙——解读火山语音团队在国际顶会ACL2023的创新突破,将于2023年6月14日19:00-20:20线上直播。
沙龙简介
目前ACL 2023的论文录用结果公布,火山语音团队多篇论文成功入选,内容涵盖音频合成、歌声合成以及语音翻译等多个技术领域的创新,通过本次线上沙龙活动可以更细致了解这些前沿技术突破。
报告嘉宾
嘉宾简介:任意,火山语音团队研究员,著名语音合成框架FastSpeech系列作者,曾在人工智能顶会发表论文50余篇,谷歌学术引用超过2800。主要研究方向为语音合成和虚拟人生成。
分享主题:结合视觉信息的端到端语音翻译
摘要:语音到语音翻译(S2ST)对于打破语言壁垒与沟通障碍非常有益。近年来业内利用自监督模型获得的离散单元,构建无文本且端到端的 S2ST 系统逐渐成为主流,但当前的S2ST模型在带噪的环境中仍然存在明显退化,并且无法翻译视觉语音(即唇动)。在这项工作提升中,火山语音团队联合浙江大学提出了AV-TranSpeech,业内首个借助视频信息的无文本语音到语音翻译(AV-S2ST)模型,通过视觉信息补充音频流,以提高系统的稳健性,并开辟了一系列应用前景,例如口述、为档案电影配音等。
嘉宾简介:叶振辉,浙江大学计算机学院三年级直博生,目前实习于火山语音团队,曾获得国家奖学金、腾讯奖学金等奖项,在ICLR、ACL、IJCAI等人工智能顶会发表论文10余篇,主要研究方向为语音合成和虚拟人生成。
分享主题:利用文本-语音对比学习提出针对语音合成的韵律文本表征
摘要:提高文本表征是实现富有韵律的语音合成系统的重要途径,然而现有的工作通常采用基于语言模型 (BERT) 的文本表征来提升合成语音的韵律的方法,这就带来了使用预测掩码标记(masked token prediction)任务进行预训练,更关注的却是文本的语义信息而非语音的韵律,从而导致训练效率低以及韵律建模困难等问题。基于上述观察,火山语音团队联合浙江大学提出了CLAPSpeech,这是一个跨文本-语音模态的对比预训练方法。与现有工作不同,它从相同文本标记在不同语境下的韵律变化中学习,因而能够显式高效地从文本中提取韵律相关的信息。
嘉宾简介:江子越,浙江大学计算机学院二年级直博生,实习于火山语音团队,在NIPS、ACL、IJCAI等人工智能顶会发表论文5余篇,主要研究方向为语音合成。
分享主题:针对口吃语音提出的自动化语音编辑系统
摘要:最近基于文本的语音编辑受到业界的广泛关注,其中口吃消除作为语音编辑的一个关键子任务,有着十分广泛的应用场景,然而之前的语音编辑工作仍然存在诸多不足之处,例如:音质较低、没有针对口吃语音进行设计、口吃区域需要手动定位等。对此该论文首创性地针对口吃语音提出了一个自动化语音编辑系统,也就是FluentSpeech。这是首个针对口吃消除任务进行优化的语音编辑系统,可以自动检测口吃区域将其去除,并同时生成具有丰富细节的流畅语音。此外它也在其他语音编辑任务(如增、删、改等)达到了SOTA效果,能够完成多场景下的零样本语音编辑,极大节省了配音人员、媒体制作者的人力投入。
嘉宾简介:李瑞琦,浙江大学硕士研究生,主要研究方向为语音与歌声合成、风格迁移等。
分享主题:基于跨模态对齐的从语音到歌声转换
摘要:语音到歌声转换(STS)任务是给定目标音高序列和一段源语音,合成出符合该音高要求和源语音内容的歌声信号。STS 任务的主要挑战在于,在没有给定文本信息的情况下,目标音高序列和源语音内容之间的对齐关系是很难学习的。本工作基于显式建模跨模态对齐提出了新的 STS 任务解决方案,AlignSTS。本工作使用一种新型且有效的 Rhythm 表示来连接语音内容和音高之间的模态差异,并采用了 Rhythm Adaptor 来预测目标的 Rhythm 表示。本工作还设计了一个跨模态对齐模块来根据生成的目标 Rhythm 表示对语音内容特征进行重排序,并使用了模态融合来进行歌声的合成。实验结果表明,AlignSTS 在主观和客观测试中都获得了更好的表现。
沙龙议程
参加方式
直播将通过CSDN进行直播,手机端、PC端可同步观看
👇👇👇
https://live.csdn.net/room/weixin_48827824/iHqZxdys