【AI视野·今日Sound 声学论文速览第五十二期】Tue, 5 Mar 2024

AI视野·今日CS.Sound 声学论文速览
Tue, 5 Mar 2024
Totally 18 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

SA-SOT: Speaker-Aware Serialized Output Training for Multi-Talker ASR
Authors Zhiyun Fan, Linhao Dong, Jun Zhang, Lu Lu, Zejun Ma
多方自动语音识别在会议、对话等涉及多方交互的场景中发挥着至关重要的作用。由于其固有的复杂性，这项任务越来越受到关注。值得注意的是，序列化输出训练 SOT 因其简单的架构和卓越的性能而在各种方法中脱颖而出。然而，令牌级别 SOT t SOT 中说话人的频繁变化给自回归解码器在有效利用上下文来预测输出序列方面带来了挑战。为了解决这个问题，我们引入了一个 masked t SOT 标签，它作为辅助训练损失的基石。此外，我们利用说话人相似度矩阵来完善解码器的自注意力机制。这种策略调整增强了同一说话者令牌内的上下文关系，同时最大限度地减少了不同说话者令牌之间的交互。我们将我们的方法表示为说话人感知 SOT SA SOT 。 Librispeech 数据集上的实验表明，我们的 SA SOT 在多说话者测试集上获得了从 12.75 到 22.03 的相对 cpWER 降低。

Fine-Grained Quantitative Emotion Editing for Speech Generation
Authors Sho Inoue, Kun Zhou, Shuai Wang, Haizhou Li
如何在语音生成中定量控制语音情感的表达仍然是一个重大挑战。在这项工作中，我们提出了一种操纵情感渲染以生成语音的新颖方法。我们提出了一种分层情感分布提取器，即分层 ED，它可以量化不同粒度级别的情感强度。支持向量机 SVM 用于对情感强度进行排序，从而产生分层情感嵌入。随后，分层 ED 被集成到 FastSpeech2 框架中，指导模型学习音素、单词和话语级别的情绪强度。在合成过程中，用户可以手动编辑生成声音的情感强度。

A robust audio deepfake detection system via multi-view feature
Authors Yujie Yang, Haochen Qin, Hang Zhou, Chengcheng Wang, Tianyu Guo, Kai Han, Yunhe Wang
随着生成建模技术的进步，合成人类语音与真实语音变得越来越难以区分，音频深度伪造检测 ADD 系统面临棘手的挑战。在本文中，我们利用音频特征来提高 ADD 系统的通用性。 ADD 任务性能的调查是在广泛的音频特征上进行的，包括各种手工特征和基于学习的特征。实验表明，在大量数据上预训练的基于学习的音频特征比域外场景中手工制作的特征具有更好的泛化能力。随后，我们使用提出的多特征方法来合并来自不同视图特征的补充信息，进一步提高了 ADD 系统的泛化性。

ConSep: a Noise- and Reverberation-Robust Speech Separation Framework by Magnitude Conditioning
Authors Kuan Hsun Ho, Jeih weih Hung, Berlin Chen
由于时域方法中使用的细粒度视觉，语音分离最近取得了重大进展。然而，多项研究表明，在遇到噪声或混响等更恶劣的条件时，采用短时傅里叶变换 STFT 进行特征提取可能会很有帮助。因此，我们提出了一个幅度条件时域框架 ConSep 来继承有益的特性。

What do neural networks listen to? Exploring the crucial bands in Speech Enhancement using Sinc-convolution
Authors Kuan Hsun Ho, Jeih weih Hung, Berlin Chen
本研究引入了一种改进的 Sinc 卷积 Sincconv 框架，专为语音增强 SE 深度网络的编码器组件而定制。改进后的 Sincconv 基于参数化 sinc 函数作为带通滤波器，在训练效率、滤波器多样性和可解释性方面具有显着的优势。改进后的 Sinc 转换与各种 SE 模型结合进行评估，展示了其提升 SE 性能的能力。此外，改进后的 Sincconv 为 SE 场景中优先考虑的特定频率组件提供了宝贵的见解。

Robust Wake Word Spotting With Frame-Level Cross-Modal Attention Based Audio-Visual Conformer
Authors Haoxu Wang, Ming Cheng, Qiang Fu, Ming Li
近年来，基于神经网络的唤醒词识别在干净的音频样本上取得了良好的性能，但在嘈杂的环境中却表现不佳。视听唤醒词识别 AVWWS 受到广泛关注，因为视觉嘴唇运动信息不受复杂声学场景的影响。以前的工作通常使用简单的加法或串联来进行多模态融合。模式间的相关性仍然相对未被探索。在本文中，我们提出了一种称为帧级交叉模态注意力 FLCMA 的新颖模块，以提高 AVWWS 系统的性能。该模块可以通过同步嘴唇运动和语音信号帮助在帧级别对多模态信息进行建模。我们训练基于端到端 FLCMA 的视听 Conformer，并通过针对 AVWWS 任务微调预训练的单模态模型来进一步提高性能。

Enhancing Audio Generation Diversity with Visual Information
Authors Zeyu Xie, Baihan Li, Xuenan Xu, Mengyue Wu, Kai Yu
近年来，音频和声音生成引起了人们的广泛关注，主要关注点是提高生成音频的质量。然而，关于增强生成音频的多样性的研究有限，特别是在特定类别的音频生成方面。当前的模型倾向于在一个类别内产生同质的音频样本。这项工作旨在通过提高生成的音频与视觉信息的多样性来解决这一限制。我们提出了一种基于聚类的方法，利用视觉信息来指导模型在每个类别中生成不同的音频内容。七个类别的结果表明，额外的视觉输入可以很大程度上增强音频生成的多样性。

Automatic Speech Recognition using Advanced Deep Learning Approaches: A survey
Authors Hamza Kheddar, Mustapha Hemis, Yassine Himeur
深度学习 DL 的最新进展对自动语音识别 ASR 提出了重大挑战。 ASR 依赖于广泛的训练数据集（包括机密数据集），并且需要大量的计算和存储资源。启用自适应系统可提高动态环境中的 ASR 性能。深度学习技术假设训练和测试数据来自同一域，但这并不总是正确的。深度迁移学习 DTL、联邦学习 FL 和强化学习 RL 等先进的 DL 技术可以解决这些问题。 DTL 允许使用小型但相关的数据集进行高性能模型，FL 可以在不拥有数据集的情况下对机密数据进行训练，而 RL 可以优化动态环境中的决策，从而降低计算成本。这项调查对基于 DTL、FL 和 RL 的 ASR 框架进行了全面回顾，旨在提供对最新发展的见解，并帮助研究人员和专业人士了解当前的挑战。此外，变压器是在拟议的 ASR 框架中大量使用的先进深度学习技术，在本次调查中被考虑，因为它们能够捕获输入 ASR 序列中的广泛依赖性。本文首先介绍 DTL、FL、RL 和 Transformers 的背景，然后采用精心设计的分类法来概述最先进的方法。随后，进行批判性分析以确定每个框架的优点和缺点。

Scaling Up Adaptive Filter Optimizers
Authors Jonah Casebeer, Nicholas J. Bryan, Paris Smaragdis
我们引入了一种新的在线自适应滤波方法，称为监督多步自适应滤波器 SMS AF。我们的方法使用神经网络来控制或优化线性多延迟或多通道频域滤波器，并且可以以增加计算为代价灵活地扩展性能，这是 AF 文献中很少提及的属性，但对于许多应用来说至关重要。为此，我们通过一系列改进扩展了最近的工作，包括特征修剪、监督损失和每个时间范围的多个优化步骤。这些改进以一种有凝聚力的方式发挥作用，以解锁扩展。此外，我们还展示了我们的方法如何与卡尔曼滤波和元自适应滤波相关，从而使其无缝适用于各种 AF 任务。我们在声学回声消除 AEC 和多通道语音增强任务上评估我们的方法，并与标准合成数据集和现实世界数据集上的几个基线进行比较。

Structuring Concept Space with the Musical Circle of Fifths by Utilizing Music Grammar Based Activations
Authors Tofara Moyo
在本文中，我们探讨了离散神经网络（例如尖峰网络）的结构与钢琴曲的构成之间有趣的相似之处。虽然两者都涉及顺序或并行激活的节点或音符，但后者受益于丰富的音乐理论来指导有意义的组合。我们提出了一种新颖的方法，利用音乐语法来调节尖峰神经网络中的激活，从而允许将符号表示为吸引子。通过应用音乐理论中的和弦进行规则，我们演示了某些激活如何自然地跟随其他激活，类似于吸引力的概念。此外，我们引入了调制键的概念来导航网络内不同的吸引力盆地。

Speech emotion recognition from voice messages recorded in the wild
Authors Luc a G mez Zaragoz , scar Valls, Roc o del Amor, Mar a Jos Castro Bleda, Valery Naranjo, Mariano Alca iz Raya, Javier Mar n Morales
用于语音情绪识别 SER 的情绪数据集通常包含表演或诱发的语音，限制了它们在现实世界场景中的适用性。在这项工作中，我们使用了情感语音消息 EMOVOME 数据库，包括来自 100 个西班牙语使用者在消息应用程序上对话的自发语音消息，由专家和非专家注释者以连续和离散的情感进行标记。我们使用 eGeMAPS 功能、基于变压器的模型及其组合创建了与说话人无关的 SER 模型。我们将结果与参考数据库进行比较，并分析注释者和性别公平的影响。预训练的 Unispeech L 模型及其与 eGeMAPS 的组合取得了最高的结果，3 类效价和唤醒预测的未加权准确度 UA 分别为 61.64 和 55.57，比基线模型提高了 10 倍。对于情感类别，获得了 42.58 UA。 EMOVOME 的性能低于 RAVDESS 数据库的性能。引出的 IEMOCAP 数据库在情绪类别的预测方面也优于 EMOVOME，而在效价和唤醒方面也获得了相似的结果。此外，EMOVOME 结果随注释者标签的不同而变化，在结合专家和非专家注释时显示出更好的结果和更好的公平性。

Brilla AI: AI Contestant for the National Science and Maths Quiz
Authors George Boateng, Jonathan Abrefah Mensah, Kevin Takyi Yeboah, William Edor, Andrew Kojo Mensah Onumah, Naafi Dasana Ibrahim, Nana Sam Yeboah
非洲大陆缺乏足够的合格教师，这阻碍了提供足够的学习支持。人工智能可能会增强有限数量教师的工作量，从而带来更好的学习成果。为此，这项工作描述并评估了 NSMQ 人工智能大挑战赛的第一个关键成果，它为这样的人工智能提出了一个强大的、现实世界的基准，构建一个人工智能，以在加纳国家科学和数学测验 NSMQ 竞赛中现场竞争并获胜在比赛的各个轮次和阶段都比最好的选手表现更好。 NSMQ 是加纳一年一度的高中生现场科学和数学竞赛，由 2 名学生组成的 3 支队伍进行比赛，分 5 个阶段回答生物、化学、物理和数学方面的问题，分 5 轮进行，直至获胜团队加冕那一年。在这项工作中，我们构建了 Brilla AI，这是一个人工智能参赛者，我们部署它来非正式地进行远程比赛，并现场参加 2023 年 NSMQ 总决赛的谜语轮比赛，这是该比赛 30 年历史上的首次此类比赛。 Brilla AI 目前以网络应用程序形式提供，可直播谜语比赛回合，并运行 4 个机器学习系统：1 个语音转文本、2 个问题提取、3 个问题回答和 4 个文本转语音，这些系统实时协同工作，快速准确地提供回答，然后用加纳口音说出来。在首次亮相时，我们的人工智能领先于 3 支人类参赛队解答了 4 个谜题之一，非正式地获得并列第二名。

6DoF SELD: Sound Event Localization and Detection Using Microphones and Motion Tracking Sensors on self-motioning human
Authors Masahiro Yasuda, Shoichiro Saito, Akira Nakayama, Noboru Harada
我们的目标是使用可穿戴设备对移动的人（例如行人）进行声音事件定位和检测 SELD。传统的 SELD 任务仅处理位于静态位置的麦克风阵列。然而，可穿戴麦克风阵列应考虑具有三个旋转自由度和三个平移自由度 6DoF 的自运动。仅使用固定位置麦克风阵列的数据集进行训练的系统将无法适应与自运动相关的声音事件的快速相对运动，从而导致 SELD 性能下降。为了解决这个问题，我们为可穿戴系统设计了 6DoF SELD 数据集，这是第一个考虑麦克风自运动的 SELD 数据集。此外，我们提出了一种联合利用音频和运动跟踪传感器信号的多模态 SELD 系统。这些传感器信号有望帮助系统根据当前的自运动状态找到有用的 SELD 声学线索。

PAVITS: Exploring Prosody-aware VITS for End-to-End Emotional Voice Conversion
Authors Tianhua Qi, Wenming Zheng, Cheng Lu, Yuan Zong, Hailun Lian
在本文中，我们提出了用于情感语音转换EVC的韵律感知VITS PAVITS，旨在实现EVC高内容自然度和高情感自然度的两大目标，这对于满足人类感知的需求至关重要。为了提高转换后音频的内容自然度，我们受 VITS 高音频质量的启发，开发了端到端 EVC 架构。通过无缝集成声学转换器和声码器，我们有效地解决了现有 EVC 模型中普遍存在的情感韵律训练和运行时转换之间不匹配的常见问题。为了进一步增强情感自然度，我们引入了情感描述符来模拟不同语音情感的微妙韵律变化。此外，我们提出了一个韵律预测器，它根据提供的情感标签预测文本的韵律特征。值得注意的是，我们引入了韵律对齐损失，以在两种不同模式的潜在韵律特征之间建立联系，确保有效的训练。实验结果表明 PAVITS 的性能优于最先进的 EVC 方法。

MPIPN: A Multi Physics-Informed PointNet for solving parametric acoustic-structure systems
Authors Chu Wang, Jinhong Wu, Yanzhi Wang, Zhijian Zha, Qi Zhou
机器学习用于求解由一般非线性偏微分方程 PDE 控制的物理系统。然而，复杂的多物理系统（例如声结构耦合）通常由一系列包含可变物理量的偏微分方程来描述，这些偏微分方程被称为参数系统。缺乏解决由涉及显式和隐式量的偏微分方程控制的参数系统的策略。本文提出了一种基于深度学习的多物理信息点网MPIPN来求解参数声学结构系统。首先，MPIPN 引入了增强的点云架构，其中包含计算域的显式物理量和几何特征。然后，MPIPN 提取重建点云的局部和全局特征，分别作为参数系统求解标准的一部分。此外，通过编码技术嵌入隐式物理量作为求解准则的另一部分。最后，将表征参数系统的所有求解标准合并，形成独特的序列作为 MPIPN 的输入，其输出是系统的解。所提出的框架通过相应计算域的自适应物理通知损失函数进行训练。该框架被推广以处理系统的新参数条件。通过应用 MPIPN 求解由亥姆霍兹方程控制的稳定参数声结构耦合系统，验证了 MPIPN 的有效性。已经实施了消融实验，以证明物理信息影响与少数监督数据的有效性。

Towards Accurate Lip-to-Speech Synthesis in-the-Wild
Authors Sindhu Hegde, Rudrabha Mukhopadhyay, C.V. Jawahar, Vinay Namboodiri
在本文中，我们介绍了一种新颖的方法来解决仅基于嘴唇运动从任何野外说话者的无声视频中合成语音的任务。直接从唇形视频生成语音的传统方法面临着无法仅从语音中学习鲁棒语言模型的挑战，导致结果不令人满意。为了克服这个问题，我们建议使用最先进的唇语到文本网络来纳入噪声文本监督，将语言信息注入到我们的模型中。噪声文本是使用预先训练的唇形到文本模型生成的，使我们的方法在推理过程中无需文本注释即可工作。我们设计了一个视觉文本到语音网络，利用视觉流生成准确的语音，与无声输入视频同步。我们进行了广泛的实验和消融研究，证明我们的方法在各种基准数据集上优于当前最先进的方法。此外，我们通过为失去声音但可以进行嘴巴运动的 ALS 患者生成语音来展示我们的方法在辅助技术中的重要实际应用。

SEGAA: A Unified Approach to Predicting Age, Gender, and Emotion in Speech
Authors Aron R, Indra Sigicharla, Chirag Periwal, Mohanaprasad K, Nithya Darisini P S, Sourabh Tiwari, Shivani Arora
人声的解释在各种应用中都具有重要意义。这项研究尝试根据声音线索预测年龄、性别和情绪，这是一个有着广泛应用的领域。语音分析技术的进步跨越多个领域，从改善客户互动到增强医疗保健和零售体验。辨别情绪有助于心理健康，而年龄和性别检测在各种情况下都至关重要。探索这些预测的深度学习模型涉及比较本文重点介绍的单输出、多输出和顺序模型。采购合适的数据带来了挑战，导致 CREMA D 和 EMO DB 数据集合并。先前的工作显示了个体预测的希望，但有限的研究同时考虑了所有三个变量。本文指出了个体模型方法的缺陷，并提倡我们新颖的多输出学习架构基于语音的情感性别和年龄分析 SEGAA 模型。

Speaker-Independent Dysarthria Severity Classification using Self-Supervised Transformers and Multi-Task Learning
Authors Lauren Stumpf, Balasundaram Kadirvelu, Sigourney Waibel, A. Aldo Faisal
构音障碍是一种因神经系统疾病导致言语肌肉控制受损而导致的疾病，严重影响患者的沟通和生活质量。该情况的复杂性、人工评分和多样化的呈现方式使其评估和管理具有挑战性。这项研究提出了一个基于变压器的框架，用于根据原始语音数据自动评估构音障碍的严重程度。与需要人类专家评估员的传统方法相比，它可以提供客观、可重复、可访问、标准化和成本效益的评估。我们开发了一个名为“与说话人无关的潜在正则化 SALR”的变压器框架，它结合了多任务学习目标和对比学习，用于与说话人无关的多类构音障碍严重程度分类。多任务框架旨在减少对说话者特定特征的依赖，并解决构音障碍语音的内在类内变异性。我们使用留一个说话人交叉验证对通用访问语音数据集进行评估，我们的模型表现出优于传统机器学习方法的性能，准确度为 70.48，F1 分数为 59.23。我们的 SALR 模型还超过了之前使用支持向量机的基于 AI 的分类基准 16.58。我们通过可视化潜在空间来打开模型的黑匣子，在其中我们可以观察模型如何大幅减少特定于说话者的线索并放大特定于任务的线索，从而显示其稳健性。总之，SALR 使用生成人工智能在独立于说话者的多类构音障碍严重程度分类方面建立了新的基准。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com