【AI视野·今日Sound 声学论文速览第十六期】Mon, 2 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Mon, 2 Oct 2023
Totally 13 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Improving Audio Captioning Models with Fine-grained Audio Features, Text Embedding Supervision, and LLM Mix-up Augmentation
Authors Shih Lun Wu, Xuankai Chang, Gordon Wichern, Jee weon Jung, Fran ois Germain, Jonathan Le Roux, Shinji Watanabe
自动音频字幕 AAC 旨在为自然和/或人类活动的各种声音生成信息丰富的描述。近年来，AAC 迅速引起了研究兴趣，最先进的系统现在依赖于由 Transformers 等强大模型支持的序列到序列 seq2seq 主干网。顺应应用机器学习研究的宏观趋势，在这项工作中，我们努力通过广泛利用预训练模型和大型语言模型LLM来提高seq2seq AAC模型的性能。具体来说，我们利用 BEAT 来提取细粒度的音频特征。然后，我们使用 Instructor LLM 获取字幕的文本嵌入，并通过辅助 InfoNCE 损失函数将其语言模态知识注入 BEAT 音频特征中。此外，我们提出了一种新颖的数据增强方法，该方法使用 ChatGPT 来生成字幕混合，即两个字幕的语法和紧凑组合，与相应的音频混合一起，不仅增加了训练数据的数量，还增加了训练数据的复杂性和多样性。在推理过程中，我们建议采用核采样和混合重排序算法，这在 AAC 研究中尚未探索过。

RTFS-Net: Recurrent time-frequency modelling for efficient audio-visual speech separation
Authors Samuel Pegg, Kai Li, Xiaolin Hu
视听语音分离方法旨在集成不同的模态以生成高质量的分离语音，从而提高语音识别等下游任务的性能。大多数现有的最先进的 SOTA 模型都在时域中运行。然而，他们过于简单化的声学特征建模方法通常需要更大、计算量更大的模型才能实现 SOTA 性能。在本文中，我们提出了一种新颖的时频域视听语音分离方法循环时频分离网络RTFS Net，该方法将其算法应用于短时傅立叶变换产生的复杂时频箱。我们使用多层 RNN 沿着每个维度独立地建模和捕获音频的时间和频率维度。此外，我们引入了一种独特的基于注意力的融合技术，用于音频和视觉信息的有效集成，以及一种新的掩模分离方法，该方法利用声学特征的固有频谱性质来实现更清晰的分离。 RTFS Net 仅使用 10 个参数和 18 个 MAC，性能优于之前的 SOTA 方法。

AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition
Authors Andrew Rouditchenko, Ronan Collobert, Tatiana Likhomanenko
视听语音包含同步的音频和视觉信息，提供跨模式监督来学习自动语音识别 ASR 和视觉语音识别 VSR 的表示。我们引入了用于视听语音识别的连续伪标记 AV CPL，这是一种半监督方法，用于在标记和未标记视频与连续再生伪标签的组合上训练视听语音识别 AVSR 模型。我们的模型经过训练，可以根据视听输入进行语音识别，并且可以使用音频和视觉模态或仅使用一种模态来执行语音识别。我们的方法使用相同的视听模型进行监督训练和伪标签生成，从而减少了外部语音识别模型生成伪标签的需要。 AV CPL 在 LRS3 数据集上获得了 VSR 性能的显着改进，同时保持了实用的 ASR 和 AVSR 性能。

Toward Universal Speech Enhancement for Diverse Input Conditions
Authors Wangyou Zhang, Kohei Saijo, Zhong Qiu Wang, Shinji Watanabe, Yanmin Qian
过去十年，由于深度学习，数据驱动的语音增强 SE 技术取得了大幅增长。虽然现有方法在一些常见数据集中表现出了令人印象深刻的性能，但大多数方法仅针对单一条件（例如单通道、多通道或固定采样频率）而设计，或者仅考虑单个任务（例如去噪或去混响）。目前，还没有通用的 SE 方法可以用单一模型有效处理不同的输入条件。在本文中，我们首次尝试调查这一研究方向。首先，我们设计了一个独立于麦克风通道、信号长度和采样频率的 SE 模型。其次，我们结合现有的公共语料库和多种条件，设计了一个通用的SE基准。

LRPD: Large Replay Parallel Dataset
Authors Ivan Yakovlev, Mikhail Melnikov, Nikita Bukhal, Rostislav Makarov, Alexander Alenin, Nikita Torgashov, Anton Okhotnikov
语音反欺骗VAS领域的最新研究表明，深度神经网络DNN在演示攻击检测任务中优于GMM等经典方法。然而，DNN 需要大量数据才能收敛，并且仍然缺乏泛化能力。为了促进神经网络系统的进步，我们引入了大型重放并行数据集 LRPD，旨在检测重放攻击。 LRPD 包含由 19 个录音设备在 17 个不同环境中收集的超过 100 万条话语。我们还提供了 PyTorch 1 中的示例训练管道和基线系统，该系统在 LRPD 评估子集上实现了 0.28 等错误率 EER，在公开可用的 ASVpoof 2017 2 评估集上实现了 11.91 EER。这些结果表明，使用 LRPD 数据集训练的模型在完全未知的条件下具有一致的性能。我们的数据集免费用于研究目的，并托管在 GDrive 上。

Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR Customization
Authors Alexandra Antonova
我们提出了第一个大规模公共合成数据集，用于自动语音识别 ASR 的上下文拼写检查定制，重点关注各种罕见和词汇外的 OOV 短语，例如专有名称或术语。所提出的方法允许创建数百万个损坏的 ASR 假设的实际示例，并为定制任务模拟非平凡的偏差列表。此外，我们建议将两种类型的硬负例注入到训练示例中的模拟偏差列表中，并描述我们自动挖掘它们的程序。

Style Transfer for Non-differentiable Audio Effects
Authors Kieran Grant
音频工程师广泛使用数字音频效果来改变音频数据的声学和时间质量。然而，这些效果可能具有大量参数，这使得初学者难以学习并阻碍专业人士的创造力。最近，人们已经做出了许多努力，利用深度学习的进展，通过最小化输入和参考轨道之间的目标函数来获取音频效果的低级参数配置，通常称为风格迁移。然而，当前的方法使用不灵活的黑盒技术或要求在自动微分框架中实现所考虑的效果。在这项工作中，我们提出了一种用于音频制作风格匹配的深度学习方法，该方法可与在一些最广泛使用的框架中实现的效果一起使用，仅要求所考虑的参数具有连续域。此外，我们的方法包括各种效果类别的风格匹配，其中许多效果很难或不可能使用可微函数来紧密近似。我们展示了我们的音频嵌入方法创建了音色信息的逻辑编码，可用于许多下游任务。

Low-Resource Self-Supervised Learning with SSL-Enhanced TTS
Authors Po chun Hsu, Ali Elkahky, Wei Ning Hsu, Yossi Adi, Tu Anh Nguyen, Jade Copet, Emmanuel Dupoux, Hung yi Lee, Abdelrahman Mohamed
自监督学习SSL技术在各种语音处理任务中取得了显着的成果。尽管如此，减少预训练对大量语音数据的依赖仍然是一个重大挑战。本文建议通过利用合成语音来增强低资源预训练语料库来应对这一挑战。我们利用 SSL 特征以有限的资源构建了一个高质量的文本转语音 TTS 系统，并生成了一个用于预训练的大型合成语料库。实验结果表明，我们提出的方法有效地将语音数据的需求减少了 90，而性能仅略有下降。

Synthetic Speech Detection Based on Temporal Consistency and Distribution of Speaker Features
Authors Yuxiang Zhang, Zhuo Li, Jingze Lu, Wenchao Wang, Pengyuan Zhang
当前的合成语音检测 SSD 方法在某些数据集上表现良好，但仍然面临鲁棒性和可解释性问题。一个可能的原因是这些方法没有分析合成语音的缺陷。本文分析了文本转语音TTS过程中说话人特征固有的缺陷。由于 TTS 中缺乏对说话人特征的细粒度控制，因此出现了话语内说话人特征的时间一致性差异。由于 TTS 中的说话人表示基于编码器提取的说话人嵌入，因此合成语音和真实语音之间的说话人特征分布不同。基于这些分析，提出了一种基于时间一致性和说话人特征分布的SSD方法。一方面，对说话者内部特征的时间一致性进行建模可以帮助语音反欺骗。另一方面，说话者特征之间的分布差异可以用于SSD。

Enhancing Code-switching Speech Recognition with Interactive Language Biases
Authors Hexin Liu, Leibny Paola Garcia, Xiangyu Zhang, Andy W. H. Khong, Sanjeev Khudanpur
语言通常在多语言语音信号内切换，尤其是在双语社会中。这种现象被称为代码切换CS，使得自动语音识别ASR在多语言场景下具有挑战性。我们建议通过使用包含框架和标记级语言后验的多级语言信息来偏置混合 CTC 注意力 ASR 模型来改进 CS ASR。这项工作随后探讨了各种语言偏见解决方案之间的相互作用。我们对 ASRU 2019 代码转换挑战赛的数据集进行了实验。与基线相比，所提出的交互式语言偏见 ILB 方法取得了更高的性能，并且消融研究突出了不同语言偏见及其相互作用的影响。

SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition
Authors Hongfei Xue, Qijie Shao, Kaixun Huang, Peikun Chen, Lei Xie, Jie Liu
多语言自动语音识别 ASR 系统因其扩大全球语言覆盖范围的潜力而受到关注。虽然自监督学习 SSL 已证明其在多语言 ASR 中的有效性，但值得注意的是 SSL 的各个层表示可能包含尚未充分利用的不同信息。在这项研究中，我们提出了一种利用自监督分层表示 SSHR 来微调多语言 ASR 的新颖方法。我们首先分析 SSL 模型的不同层以获取语言相关和内容相关信息，发现显示出更强相关性的层。然后，我们从相关中间层中提取语言相关框架，并通过自注意力机制指导特定内容提取。此外，我们使用我们提出的 Cross CTC 引导模型在最后层获取更多内容相关信息。

Towards High Resolution Weather Monitoring with Sound Data
Authors Enis Berk oban, Megan Perra, Michael I. Mandel
在各个研究领域，遥感天气产品对于回答许多科学问题很有价值，但它们的时间和空间分辨率往往太粗糙，无法回答许多问题。例如，在野生动物研究中，在研究动物运动和行为时，进行精细化、高度局部化的天气观测至关重要。本文利用声学数据来识别不同阈值下的降雨、风和气温的变化，其中降雨是最成功的预测。仅根据声学数据训练模型会产生最佳结果，但需要劳动密集型样本标记。与此同时，MERRA 2 系统每小时的卫星数据虽然足以完成某些任务，但在预测这些声学标签时产生的预测明显不太准确。我们发现可以根据 MERRA 2 数据训练声学分类器，该分类器比原始 MERRA 2 数据本身更准确。通过使用 MERRA 2 粗略地识别声学数据中的降雨，我们能够在不使用人工验证标签的情况下生成功能模型。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com