AI视野·今日CS.Sound 声学论文速览
Mon, 18 Sep 2023
Totally 1 papers
👉上期速览✈更多精彩请移步主页
Daily Sound Papers
Audio-Visual Active Speaker Extraction for Sparsely Overlapped Multi-talker Speech Authors Junjie Li, Ruijie Tao, Zexu Pan, Meng Ge, Shuai Wang, Haizhou Li 目标说话者提取旨在从辅助参考指定的多说话者混合物中提取特定说话者的语音。大多数研究都集中在目标语音与干扰语音高度重叠的场景。然而,这种场景只占现实世界对话的一小部分。在本文中,我们针对稀疏重叠的场景,其中辅助参考需要同时执行两项任务:检测目标说话者的活动并将活动语音与任何干扰语音分开。我们提出了一种名为 ActiveExtract 的视听说话人提取模型,该模型利用视听活动说话人检测 ASD 中的说话活动。 ASD 直接提供目标说话者的帧级活动,而其中间特征表示经过训练以区分可用于说话者解缠结的语音唇形同步。 |
Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩请移步主页
pic from pexels.com