【AI视野·今日Sound 声学论文速览第三十七期】Tue, 31 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Tue, 31 Oct 2023
Totally 11 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

DCHT: Deep Complex Hybrid Transformer for Speech Enhancement
Authors Jialu Li, Junhui Li, Pu Wang, Youshan Zhang
当前大多数基于深度学习的语音增强方法仅在频谱图或波形域中运行。尽管已经提出了结合波形域和频谱图域输入的跨域变压器，但其性能还可以进一步提高。在本文中，我们提出了一种新颖的深度复杂混合变压器，它集成了频谱图和波形域方法来提高语音增强的性能。所提出的模型由两部分组成：频谱图域中的复杂 Swin Unet 和波形域中的双路径变压器网络 DPTnet。我们首先在频谱图域中构建复杂的 Swin Unet 网络，并在复杂的音频频谱中进行语音增强。然后，我们通过添加内存压缩注意力来引入改进的 DPT。我们的模型能够学习多域特征，以互补的方式减少不同域上的现有噪声。

DPATD: Dual-Phase Audio Transformer for Denoising
Authors Junhui Li, Pu Wang, Jialu Li, Xinzhe Wang, Youshan Zhang
最近基于高性能变压器的语音增强模型表明，时域方法可以实现与时频域方法相似的性能。然而，时域语音增强系统通常接收由大量时间步长组成的输入音频序列，这使得对极长序列进行建模并训练模型以充分执行变得具有挑战性。在本文中，我们利用较小的音频块作为输入来实现音频信息的有效利用，以解决上述挑战。我们提出了一种用于去噪的双相音频变压器 DPATD，这是一种在深层结构中组织变压器层的新颖模型，以学习干净的音频序列以进行去噪。 DPATD 将音频输入分割成更小的块，其中输入长度可以与原始序列长度的平方根成正比。与常用的自注意力模块相比，我们的内存压缩可解释注意力非常高效并且收敛速度更快。

JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation
Authors Yao Yao, Peike Li, Boyu Chen, Alex Wang
随着生成人工智能的快速发展，文本到音乐合成任务已成为从头开始生成音乐的一个有前途的方向。然而，对多轨生成的更细粒度控制仍然是一个开放的挑战。现有模型表现出强大的原始生成能力，但缺乏创作单独曲目并以可控方式组合它们的灵活性，这与人类作曲家的典型工作流程不同。为了解决这个问题，我们提出了 JEN 1 Composer，这是一个统一的框架，可以通过单个模型有效地模拟多轨音乐的边际分布、条件分布和联合分布。 JEN 1 Composer 框架展示了无缝整合任何基于扩散的音乐生成系统（例如 textit）的能力。 Jen 1，增强了其多功能多轨音乐生成的能力。我们引入了一种课程培训策略，旨在逐步指导模型从单轨生成过渡到多轨组合的灵活生成。在推理过程中，用户能够迭代地制作和选择满足其偏好的音乐曲目，随后按照提议的人类人工智能协同创作工作流程逐步创建整个音乐作品。定量和定性评估展示了可控和高保真多轨音乐合成的最先进性能。拟议的 JEN 1 Composer 代表了交互式 AI 促进音乐创作和作曲的重大进步。

Deep Audio Analyzer: a Framework to Industrialize the Research on Audio Forensics
Authors Valerio Francesco Puglisi, Oliver Giudice, Sebastiano Battiato
Deep Audio Analyzer 是一个开源语音框架，旨在简化神经语音处理管道的研究和开发过程，允许用户以快速且可重复的方式构思、比较和共享结果。本文描述了旨在支持音频取证领域共同感兴趣的多项任务的核心架构，展示了创建新任务从而定制框架的可能性。借助深度音频分析器，执法机构和研究人员等取证检查人员将能够可视化音频特征，轻松评估预训练模型的性能，只需点击几下鼠标即可组合深度神经网络模型来创建、导出和共享新的音频分析工作流程。该工具的优点之一是加快音频取证分析领域的研究和实际实验，从而通过导出和共享管道来提高实验的可重复性。所有功能均在模块中开发，用户可以通过图形用户界面访问。

Feature Aggregation in Joint Sound Classification and Localization Neural Networks
Authors Brendan Healy, Patrick McNamee, Zahra Nili Ahmadabadi
这项研究探讨了深度学习技术在联合声音信号分类和定位网络中的应用。当前最先进的声源定位深度学习网络在其架构中缺乏特征聚合。特征聚合通过整合来自不同特征尺度的信息来增强模型性能，从而提高特征的鲁棒性和不变性。这在 SSL 网络中尤其重要，因为 SSL 网络必须区分直接和间接声信号。为了解决这一差距，我们将特征聚合技术从计算机视觉神经网络应用到信号检测神经网络。此外，我们提出了用于特征聚合的尺度编码网络 SEN，以对不同尺度的特征进行编码，压缩网络以提高计算效率的聚合。为了评估 SSL 网络中特征聚合的功效，我们将以下计算机视觉特征聚合子架构集成到 SSL 控制架构中：路径聚合网络 PANet、加权双向特征金字塔网络 BiFPN 和 SEN。使用两个信号分类指标和两个到达方向回归指标来评估这些子架构。 PANet 和 BiFPN 是计算机视觉模型中已建立的聚合器，而所提出的 SEN 是更紧凑的聚合器。结果表明，在声音信号分类和定位方面，包含特征聚合的模型优于控制模型、声音事件定位和检测网络 SELDnet。

Exploring the Emotional Landscape of Music: An Analysis of Valence Trends and Genre Variations in Spotify Music Data
Authors Shruti Dutta, Shashwat Mookherjee
本文使用 Spotify 音乐数据对音乐情感和趋势进行了复杂的分析，包括通过 Spotipi API 提取的音频特征和价分数。该研究采用回归模型、时间分析、情绪转变和流派调查，揭示了音乐情感关系中的模式。采用线性回归模型、支持向量、随机森林和岭回归模型来预测效价分数。时间分析揭示了效价分布随时间的变化，而情绪转变探索则阐明了播放列表中的情绪动态。

Seeing Through the Conversation: Audio-Visual Speech Separation based on Diffusion Model
Authors Suyeon Lee, Chaeyoung Jung, Youngjoon Jang, Jaehun Kim, Joon Son Chung
这项工作的目标是使用视觉提示从混合声音中提取目标说话者的声音。现有的视听语音分离工作已经证明了其具有良好的清晰度的性能，但保持自然度仍然是一个挑战。为了解决这个问题，我们提出了 AVDiffuSS，一种基于扩散机制的视听语音分离模型，该机制以其生成自然样本的能力而闻名。为了有效融合两种扩散模式，我们还提出了一种基于交叉注意力的特征融合机制。该机制是专门为语音领域量身定制的，用于在语音生成中集成来自视听对应的语音信息。通过这种方式，融合过程保持了特征的高时间分辨率，而无需过多的计算要求。

Sound of Story: Multi-modal Storytelling with Audio
Authors Jaeyeon Bae, Seokhoon Jeong, Seokun Kang, Namgi Han, Jae Yon Lee, Hyounghun Kim, Taehwan Kim
现实世界中讲故事是多模式的。当一个人讲故事时，可以将所有的可视化和声音与故事本身一起使用。然而，先前关于讲故事数据集和任务的研究很少关注声音，尽管声音也传达了故事的有意义的语义。因此，我们建议通过建立一个称为背景声音的新组件来扩展故事理解和讲述领域，该组件是基于故事上下文的音频，没有任何语言信息。为此，我们引入了一个名为 Sound of Story SoS 的新数据集，它将图像和文本序列与故事的相应声音或背景音乐配对。据我们所知，这是最大的精心策划的声音讲故事数据集。我们的 SoS 数据集包含 27,354 个故事，每个故事有 19.6 张图像，以及 984 小时的语音解耦音频（例如背景音乐和其他声音）。作为用声音和数据集讲故事的基准任务，我们提出了模态之间的检索任务，以及图像文本序列的音频生成任务，为它们引入了强大的基线。我们相信所提出的数据集和任务可能有助于阐明声音叙事的多模式理解。

Pre-trained Speech Processing Models Contain Human-Like Biases that Propagate to Speech Emotion Recognition
Authors Isaac Slaughter, Craig Greenberg, Reva Schwartz, Aylin Caliskan
之前的研究已经证实，一个人的人口统计特征和言语风格会影响语音处理模型的表现。但这种偏差从何而来在这项工作中，我们提出了语音嵌入关联测试 SpEAT，这是一种用于检测用于许多语音任务预训练模型的一类模型中的偏差的方法。 SpEAT 的灵感来自自然语言处理中的词嵌入关联测试，该测试量化模型表示不同概念（例如种族或效价、某些事物的愉快或不愉快）的内在偏差，并捕获模型在大规模社交网络上训练的程度。文化数据已经了解了类似人类的偏见。使用 SpEAT，我们测试了 16 个英语语音模型中的六种类型的偏差，其中包括 4 个也接受多语言数据训练的模型，这些模型来自 wav2vec 2.0、HuBERT、WavLM 和 Whisper 模型系列。我们发现，有 14 个或更多的模型揭示了与有能力的人相比于残疾人、与欧洲裔美国人相对于非裔美国人、女性相对于男性、美国口音者相对于非美国口音者以及年轻人相对老年人的正价愉快关联。除了建立包含这些偏差的预训练语音模型之外，我们还表明它们可以对现实世界产生影响。我们将预训练模型中发现的偏差与适应语音情绪识别 SER 任务的下游模型中的偏差进行比较，发现在执行的 69 项 96 项测试中的 66 项中，与 SpEAT 所示的正效价更相关的组也倾向于被下游模型预测为具有更高的化合价。我们的工作提供的证据表明，与基于文本和图像的模型一样，基于预先训练的语音的模型经常学习类似人类的偏见。

MUST: A Multilingual Student-Teacher Learning approach for low-resource speech recognition
Authors Muhammad Umar Farooq, Rehan Ahmad, Thomas Hain
学生教师学习或知识蒸馏 KD 先前已被用于解决语音识别 ASR 系统训练的数据稀缺问题。然而，KD 训练的一个限制是学生模型类必须是教师模型类的正确或不正确的子集。如果字符集不相同，它甚至可以防止从声音上相似的语言中进行蒸馏。在这项工作中，通过提出一种利用后验映射方法的多语言学生教师必须学习来解决上述限制。使用预先训练的映射模型将后验从教师语言映射到学生语言 ASR。这些映射的后验被用作 KD 学习的软标签。实验了各种教师集成方案来训练低资源语言的 ASR 模型。

Audio-Visual Instance Segmentation
Authors Ruohao Guo, Yaru Chen, Yanyu Qi, Wenzhen Yue, Dantong Niu, Xianghua Ying
在本文中，我们提出了一种新的多模态任务，即视听实例分割AVIS，其目标是同时识别、分割和跟踪可听视频中的各个发声对象实例。据我们所知，这是实例分割首次扩展到视听领域。为了更好地促进这项研究，我们构建了第一个视听实例分割基准 AVISeg 。具体来说，AVISeg 由来自 YouTube 和公共视听数据集的 1,258 个平均时长为 62.6 秒的视频组成，其中 117 个视频使用基于 Segment Anything Model SAM 的交互式半自动标记工具进行了注释。此外，我们还为 AVIS 任务提供了一个简单的基线模型。我们的新模型向 Mask2Former 引入了音频分支和跨模态融合模块来定位所有发声对象。最后，我们在 AVISeg 上使用两个骨干网评估所提出的方法。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com