【语音之家】AI产业沙龙 —— 解读火山语音团队在国际顶会ACL2023的创新突破

news2025/2/24 11:17:44

由CCF语音对话与听觉专委会 、中国人工智能产业发展联盟（AIIA）评估组、火山语音、语音之家、希尔贝壳共同主办的【语音之家】AI产业沙龙——解读火山语音团队在国际顶会ACL2023的创新突破，将于2023年6月14日19:00-20:20线上直播。

沙龙简介

目前ACL 2023的论文录用结果公布，火山语音团队多篇论文成功入选，内容涵盖音频合成、歌声合成以及语音翻译等多个技术领域的创新，通过本次线上沙龙活动可以更细致了解这些前沿技术突破。

报告嘉宾

嘉宾简介：任意，火山语音团队研究员，著名语音合成框架FastSpeech系列作者，曾在人工智能顶会发表论文50余篇，谷歌学术引用超过2800。主要研究方向为语音合成和虚拟人生成。

分享主题：结合视觉信息的端到端语音翻译

摘要：语音到语音翻译（S2ST）对于打破语言壁垒与沟通障碍非常有益。近年来业内利用自监督模型获得的离散单元，构建无文本且端到端的 S2ST 系统逐渐成为主流，但当前的S2ST模型在带噪的环境中仍然存在明显退化，并且无法翻译视觉语音（即唇动）。在这项工作提升中，火山语音团队联合浙江大学提出了AV-TranSpeech，业内首个借助视频信息的无文本语音到语音翻译（AV-S2ST）模型，通过视觉信息补充音频流，以提高系统的稳健性，并开辟了一系列应用前景，例如口述、为档案电影配音等。

嘉宾简介：叶振辉，浙江大学计算机学院三年级直博生，目前实习于火山语音团队，曾获得国家奖学金、腾讯奖学金等奖项，在ICLR、ACL、IJCAI等人工智能顶会发表论文10余篇，主要研究方向为语音合成和虚拟人生成。

分享主题：利用文本-语音对比学习提出针对语音合成的韵律文本表征

摘要：提高文本表征是实现富有韵律的语音合成系统的重要途径，然而现有的工作通常采用基于语言模型 (BERT) 的文本表征来提升合成语音的韵律的方法，这就带来了使用预测掩码标记（masked token prediction）任务进行预训练，更关注的却是文本的语义信息而非语音的韵律，从而导致训练效率低以及韵律建模困难等问题。基于上述观察，火山语音团队联合浙江大学提出了CLAPSpeech，这是一个跨文本-语音模态的对比预训练方法。与现有工作不同，它从相同文本标记在不同语境下的韵律变化中学习，因而能够显式高效地从文本中提取韵律相关的信息。

嘉宾简介：江子越，浙江大学计算机学院二年级直博生，实习于火山语音团队，在NIPS、ACL、IJCAI等人工智能顶会发表论文5余篇，主要研究方向为语音合成。

分享主题：针对口吃语音提出的自动化语音编辑系统

摘要：最近基于文本的语音编辑受到业界的广泛关注，其中口吃消除作为语音编辑的一个关键子任务，有着十分广泛的应用场景，然而之前的语音编辑工作仍然存在诸多不足之处，例如：音质较低、没有针对口吃语音进行设计、口吃区域需要手动定位等。对此该论文首创性地针对口吃语音提出了一个自动化语音编辑系统，也就是FluentSpeech。这是首个针对口吃消除任务进行优化的语音编辑系统，可以自动检测口吃区域将其去除，并同时生成具有丰富细节的流畅语音。此外它也在其他语音编辑任务（如增、删、改等）达到了SOTA效果，能够完成多场景下的零样本语音编辑，极大节省了配音人员、媒体制作者的人力投入。

嘉宾简介：李瑞琦，浙江大学硕士研究生，主要研究方向为语音与歌声合成、风格迁移等。

分享主题：基于跨模态对齐的从语音到歌声转换

摘要：语音到歌声转换（STS）任务是给定目标音高序列和一段源语音，合成出符合该音高要求和源语音内容的歌声信号。STS 任务的主要挑战在于，在没有给定文本信息的情况下，目标音高序列和源语音内容之间的对齐关系是很难学习的。本工作基于显式建模跨模态对齐提出了新的 STS 任务解决方案，AlignSTS。本工作使用一种新型且有效的 Rhythm 表示来连接语音内容和音高之间的模态差异，并采用了 Rhythm Adaptor 来预测目标的 Rhythm 表示。本工作还设计了一个跨模态对齐模块来根据生成的目标 Rhythm 表示对语音内容特征进行重排序，并使用了模态融合来进行歌声的合成。实验结果表明，AlignSTS 在主观和客观测试中都获得了更好的表现。