【AI视野·今日Sound 声学论文速览第二十五期】Fri, 13 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Fri, 13 Oct 2023
Totally 8 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Impact of time and note duration tokenizations on deep learning symbolic music modeling
Authors Nathan Fradet, Nicolas Gutowski, Fabien Chhel, Jean Pierre Briot
符号音乐广泛应用于各种深度学习任务，包括生成、转录、合成和音乐信息检索 MIR 。它主要用于像变形金刚这样的离散模型，这些模型需要将音乐标记化，即格式化为称为标记的不同元素的序列。标记化可以通过不同的方式执行。由于 Transformer 在推理方面可能会遇到困难，但可以更轻松地捕获显式信息，因此研究此类模型的信息表示方式如何影响其性能非常重要。在这项工作中，我们分析了常见的标记化方法，并对时间和音符持续时间表示进行了实验。我们比较了这两个有影响力的标准在多项任务上的表现，包括作曲家和情感分类、音乐生成和序列表示学习。

Crowdsourced and Automatic Speech Prominence Estimation
Authors Max Morrison, Pranav Pawar, Nathan Pruyne, Jennifer Cole, Bryan Pardo
口语单词的突出程度是指普通母语听众认为该单词相对于其上下文而言突出或强调的程度。语音重要性估计是为话语中每个单词的重要性分配数值的过程。这些突出标签对于语言分析以及训练自动化系统以执行重点控制的文本到语音或情感识别非常有用。手动注释突出性既耗时又昂贵，这促使了语音突出性估计自动化方法的开发。然而，使用机器学习方法开发这样的自动化系统需要人工注释的训练数据。使用我们的系统来获取此类人工注释，我们收集并开源 LibriTTS 数据集一部分的众包注释。我们使用这些注释作为基本事实来训练神经语音突出估计器，该估计器可以推广到看不见的说话者、数据集和说话风格。

A cry for help: Early detection of brain injury in newborns
Authors Charles C. Onu, Samantha Latremouille, Arsenii Gorin, Junhao Wang, Uchenna Ekwochi, Peter O. Ubuane, Omolara A. Kehinde, Muhammad A. Salisu, Datonye Briggs, Yoshua Bengio, Doina Precup
自 20 世纪 60 年代以来，新生儿临床医生已经知道，患有某些神经系统疾病的新生儿会表现出哭泣模式的改变，例如出生窒息时的高亢哭声。尽管每年有超过 150 万婴儿死亡和残疾，但早期发现窒息引起的新生儿脑损伤仍然是一项挑战，特别是在发展中国家，因为大多数新生儿的出生都没有经过培训的医生接生。在这里，我们报告了第一个洲际临床研究，证明可以使用我们称为 Roseline 的人工智能算法从记录的婴儿哭声中可靠地确定新生儿脑损伤。之前和最近的工作因缺乏大型、高质量的哭泣记录临床数据库而受到限制，限制了最先进的机器学习的应用。我们为基于音频的病理检测模型开发了一种新的训练方法，并在从 3 大洲的 5 家不同地理位置的医院获取的新生儿哭声大型数据库上评估该系统。我们的系统提取可解释的声学生物标志物，支持临床决策，并能够准确检测新生儿哭声引起的神经损伤，AUC 灵敏度为 92.5 88.7，特异性为 80。基于哭泣的神经系统监测为低成本、易于使用、非侵入性和无接触式高危婴儿筛查打开了大门，特别是当集成到智能手机或新生儿 ICU 监视器等简单设备中时。这将在没有其他选择的情况下提供可靠的工具，同时也减少了定期对新生儿进行体力消耗或辐射暴露评估（例如脑部 CT 扫描）的需要。

Multimodal Variational Auto-encoder based Audio-Visual Segmentation
Authors Yuxin Mao, Jing Zhang, Mochu Xiang, Yiran Zhong, Yuchao Dai
我们提出了一种用于视听分割AVS的显式条件多模变分自动编码器ECMVAE，旨在分割视频序列中的声源。现有的 AVS 方法侧重于隐式特征融合策略，其中模型经过训练以适应数据集中的离散样本。由于数据集有限且多样性较低，所得到的性能通常不能令人满意。相反，我们从有效表示学习的角度解决这个问题，旨在明确地建模每种模态的贡献。具体来说，我们发现音频包含声音产生者的关键类别信息，视觉数据提供候选声音产生者。他们共享的信息对应于视觉数据中显示的目标声音产生者。在这种情况下，跨模态共享表示学习对于 AVS 尤为重要。为了实现这一目标，我们的 ECMVAE 将每种模态的表示分解为模态共享表示和模态特定表示。在共享表示和特定表示之间应用正交性约束，以维持因式分解的潜在代码的排他属性。此外，引入了互信息最大化正则化器来实现对每种模态的广泛探索。

A Single Speech Enhancement Model Unifying Dereverberation, Denoising, Speaker Counting, Separation, and Extraction
Authors Kohei Saijo, Wangyou Zhang, Zhong Qiu Wang, Shinji Watanabe, Tetsunori Kobayashi, Tetsuji Ogawa
我们提出了一种多任务通用语音增强 MUSE 模型，该模型可以执行五种语音增强 SE 任务：去混响、去噪、语音分离 SS、目标说话人提取 TSE 和说话人计数。这是通过将两个模块集成到 SE 模型中来实现的：1 一个内部分离模块，负责说话者计数和分离；2 一个 TSE 模块，使用目标说话者提示从内部分离输出中提取目标语音。如果给出目标说话者提示，则训练模型执行 TSE，否则执行 SS。通过训练模型去除噪声和混响，我们允许模型用单个模型解决上述五个任务，但目前尚未完成。

Fast Word Error Rate Estimation Using Self-Supervised Representations For Speech And Text
Authors Chanho Park, Chengsong Lu, Mingjie Chen, Thomas Hain
自动语音识别 ASR 的质量通常通过单词错误率 WER 来衡量。 WER 估计是一项旨在在给定语音和转录的情况下预测 ASR 系统的 WER 的任务。随着先进的 ASR 系统接受大量数据的训练，这项任务越来越受到关注。在这种情况下，WER 估计在许多场景中变得必要，例如，选择转录质量未知的训练数据或估计没有真实转录的 ASR 系统的测试性能。面对大量数据，WER估计器的计算效率在实际应用中变得至关重要。然而，以前的作品通常没有将其视为优先事项。本文介绍了一种使用自监督学习表示 SSLR 的快速 WER 估计器 Fe WER。该估计器建立在通过平均池聚合的 SSLR 之上。结果表明，Fe WER 在 Ted Lium3 上的均方根误差和皮尔逊相关系数两个评估指标上分别比 e WER3 基线高出 19.69 和 7.16。此外，当目标为 10.88 时，按持续时间加权的估计为 10.43 。

On the Relevance of Phoneme Duration Variability of Synthesized Training Data for Automatic Speech Recognition
Authors Nick Rossenbach, Benedikt Hilmes, Ralf Schl ter
文本转语音 TTS 系统生成的合成数据可用于改进低资源或域不匹配任务中的自动语音识别 ASR 系统。事实证明，TTS 生成的输出仍然不具有与真实数据相同的质量。在这项工作中，我们重点关注合成数据的时间结构及其与 ASR 训练的关系。通过使用新颖的预言机设置，我们展示了非自回归 NAR TTS 中的持续时间建模对合成数据质量下降的影响有多大。为了获得参考音素持续时间，我们使用两种常见的对齐方法：隐马尔可夫高斯混合模型 HMM GMM 对齐器和神经联结时间分类 CTC 对齐器。

Voice Conversion for Stuttered Speech, Instruments, Unseen Languages and Textually Described Voices
Authors Matthew Baas, Herman Kamper
语音转换旨在以目标说话人的录音为参考，将源语音转换为目标语音。较新的模型正在产生越来越真实的输出。但是，当模型输入非标准数据（例如来自有语言障碍的用户的语音）时会发生什么我们研究了最近的语音转换模型在非标准下游语音转换任务上的执行情况。我们使用一种简单但稳健的方法，称为 k 最近邻语音转换 kNN VC 。我们看一下四种非标准应用程序：口吃语音转换、跨语言语音转换、乐器转换和文本到语音转换。后者涉及转换为通过文本描述指定的目标语音，例如一个声音高亢的年轻人。与已建立的基线相比，我们发现 kNN VC 在口吃和跨语言语音转换方面保留了高性能。乐器和文本到语音转换任务的结果更加复杂。例如，kNN VC 在鼓等某些乐器上效果很好，但在其他乐器上效果不佳。尽管如此，这表明语音转换模型，尤其是 kNN VC 越来越适用于一系列非标准下游任务。但当样本距离训练分布很远时，仍然存在局限性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com