【AI视野·今日Sound 声学论文速览第四十四期】Tue, 9 Jan 2024

AI视野·今日CS.Sound 声学论文速览
Tue, 9 Jan 2024
Totally 27 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

DJCM: A Deep Joint Cascade Model for Singing Voice Separation and Vocal Pitch Estimation
Authors Haojie Wei, Xueke Cao, Wenbo Xu, Tangpeng Dan, Yueguo Chen
歌声分离和音调估计是音乐信息检索中的关键任务。现有的同时提取干净人声和音调的方法可以分为两类：管道方法和朴素联合学习方法。然而，这些方法的功效受到以下问题的限制：一方面，管道方法独立地为每个任务训练模型，导致训练和测试时的数据分布不匹配。另一方面，朴素的联合学习方法只是增加了两个任务的损失，可能导致每个任务的不同目标之间的不一致。为了解决这些问题，我们提出了一种用于歌声分离和音高估计的深度联合级联模型 DJCM。 DJCM 采用新颖的联合级联模型结构来同时训练这两个任务。此外，任务特定权重用于调整两项任务的不同目标。实验结果表明，DJCM 在这两项任务上都实现了最先进的性能，在歌声分离的信号失真比 SDR 方面大幅提高了 0.45，在音调估计的总体精度 OA 方面大幅提高了 2.86。此外，广泛的消融研究验证了我们提出的模型的每种设计的有效性。

An audio-quality-based multi-strategy approach for target speaker extraction in the MISP 2023 Challenge
Authors Runduo Han, Xiaopeng Yan, Weiming Xu, Pengcheng Guo, Jiayao Sun, He Wang, Quan Lu, Ning Jiang, Lei Xie
本文描述了我们在基于多模态信息的语音处理 MISP 2023 挑战赛中用于视听目标说话人提取 AVTSE 任务的基于音频质量的多策略方法。具体来说，我们的方法根据音频质量采用不同的提取策略，在干扰去除和语音保留之间取得平衡，这有利于后端自动语音识别ASR系统。

ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition Challenge
Authors He Wang, Pengcheng Guo, Yue Li, Ao Zhang, Jiayao Sun, Lei Xie, Wei Chen, Pan Zhou, Hui Bu, Xin Xu, Binbin Zhang, Zhuo Chen, Jian Wu, Longbiao Wang, Eng Siong Chng, Sun Li
为推动驾驶场景下的语音处理和识别研究，我们在ISCSLP 2022上举办的智能座舱语音识别挑战赛ICSRC取得成功的基础上，推出了ICASSP 2024车载多通道自动语音识别ICMC ASR挑战赛。本次挑战赛收集了新能源汽车内记录的超过 100 小时的多通道语音数据和 40 小时的噪声进行数据增强。建立了自动语音识别ASR和自动语音分类与识别ASDR两个轨道，分别以字符错误率CER和级联最小排列字符错误率cpCER作为评价指标。总体而言，ICMC ASR 挑战赛吸引了 98 支参赛队伍，并在两个赛道上收到了 53 份有效成绩。

MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition
Authors He Wang, Pengcheng Guo, Pan Zhou, Lei Xie
虽然自动语音识别 ASR 系统在噪声环境中性能会显着下降，但视听语音识别 AVSR 系统旨在用噪声不变的视觉提示来补充音频流，并提高系统的鲁棒性。然而，当前的研究主要集中在融合良好学习的模态特征，例如模态特定编码器的输出，而没有考虑模态特征学习期间的上下文关系。在本研究中，我们提出了一种基于 AVSR MLCA AVSR 的多层交叉注意融合方法，该方法通过将每种模态融合在不同级别的视听编码器上来促进每种模态的表示学习。 MISP2022 AVSR Challenge 数据集上的实验结果表明了我们提出的系统的有效性，在评估集上实现了 30.57 的级联最小排列字符错误率 cpCER，与我们之前排名第二的系统相比，相对改进高达 3.17挑战。

Bridging Modalities: Knowledge Distillation and Masked Training for Translating Multi-Modal Emotion Recognition to Uni-Modal, Speech-Only Emotion Recognition
Authors Muhammad Muaz, Nathan Paull, Jahnavi Malagavalli
本文提出了一种创新方法来解决将多模态情感识别模型转换为更实用和资源效率更高的单模态模型的挑战，特别关注纯语音情感识别。从语音信号中识别情绪是人机交互、情感计算和心理健康评估中应用的一项关键任务。然而，现有的最先进的模型通常依赖于多模式输入，合并来自多个来源（例如面部表情和手势）的信息，这在现实世界场景中可能不容易获得或不可行。

An AI-enabled Bias-Free Respiratory Disease Diagnosis Model using Cough Audio: A Case Study for COVID-19
Authors Tabish Saeed, Aneeqa Ijaz, Ismail Sadiq, Haneya N. Qureshi, Ali Rizwan, Ali Imran
使用人工智能对呼吸道疾病 RD 进行基于咳嗽的诊断引起了相当大的关注，但许多现有研究忽视了其预测模型中的混杂变量。这些变量可能会扭曲咳嗽记录输入数据和 RD 状态输出变量之间的关系，从而导致有偏差的关联和不切实际的模型性能。为了解决这一差距，我们提出了 Bias Free Network RBFNet，这是一种端到端的解决方案，可以有效减轻训练数据分布中混杂因素的影响。 RBFNet 确保准确且公正的 RD 诊断特征，并通过在本研究中纳入 COVID19 数据集来强调其相关性。该方法旨在通过应对混杂变量带来的挑战，提高基于人工智能的 RD 诊断模型的可靠性。为 RBFNet 的特征编码器模块提出了卷积神经网络 CNN 和长短期记忆 LSTM 网络的混合。分类方案中纳入了一个额外的偏差预测器，以制定条件生成对抗网络 cGAN，这有助于消除 RD 预测中混杂变量的影响。在使用大规模专有咳嗽数据集创建的不同不平衡 COVID 19 数据集上进行训练后，将分类性能与最先进的 SoTA 深度学习 DL 模型 CNN LSTM 进行比较，证明了 RBFNet 的优点。 RBF Net 对于以下混杂变量性别、年龄和吸烟状况分别实现了 84.1、84.6 和 80.5 的测试集准确率，证明了其针对极端偏差训练场景的鲁棒性。

Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification
Authors Wentao Zhu
近年来，研究人员将音频和视频信号结合起来，以应对视觉提示无法很好地表示或捕获动作的挑战。然而，如何有效利用这两种模式仍在研究中。在这项工作中，我们开发了一种利用分层表示学习的多尺度多模态 Transformer MMT。具体地，MMT由新颖的多尺度音频Transformer MAT和多尺度视频Transformer 43组成。为了学习有区别的跨模态融合，我们进一步设计了多模态监督对比目标，称为音频视频对比损失 AVC 和模内对比损失 IMC，它们可以稳健地对齐两种模态。在没有外部训练数据的情况下，MMT 在 Kinetics Sounds 和 VGGSound 的 top 1 准确度方面比之前最先进的方法高出 7.3 和 2.1。

Exploratory Evaluation of Speech Content Masking
Authors Jennifer Williams, Karla Pizzi, Paul Gauthier Noe, Sneha Das
最近的语音隐私工作主要集中在对声学说话者属性进行匿名化，但尚未有足够多的研究来保护信息免受语音内容的影响。我们引入了一个玩具问题，该问题探讨了一种新兴的隐私类型，称为内容屏蔽，它隐藏了语音中选定的单词和短语。在定义这个问题空间的过程中，我们评估了一种介绍性基线掩蔽技术，该技术基于修改离散音素表示音素代码的序列，这些音素表示音素代码是由预先训练的矢量量化变分自动编码器 VQ VAE 生成的，并使用 WaveRNN 重新合成。我们研究了三种不同的掩蔽位置和三种类型的掩蔽策略：噪声替换、单词删除和音素序列反转。我们的工作试图描述掩蔽如何影响两个下游任务自动语音识别 ASR 和自动说话人验证 ASV。

Inverse Nonlinearity Compensation of Hyperelastic Deformation in Dielectric Elastomer for Acoustic Actuation
Authors Jin Woo Lee, Gwang Seok An, Jeong Yun Sun, Kyogu Lee
本文深入研究了预应力理想介电弹性体中介电驱动引起的非线性变形的分析。它基于介电应力下的超弹性模型，制定了控制这种变形的非线性常微分方程。通过数值积分和神经网络近似，建立了电压和拉伸之间的关系。采用神经网络来近似通过显式龙格库塔方法获得的电压拉伸和拉伸电压变换的解。这些近似的有效性通过利用它们通过输入信号的波形整形来补偿非线性来证明。比较分析强调了近似解决方案相对于基线方法的卓越准确性，从而在使用介电弹性体作为声学执行器时最大限度地减少谐波失真。

Creating Personalized Synthetic Voices from Articulation Impaired Speech Using Augmented Reconstruction Loss
Authors Yusheng Tian, Jingyu Li, Tan Lee
这项研究是关于为头颈癌幸存者创建个性化合成声音。它特别关注言语可能表现出严重发音障碍的舌癌患者。我们的目标是恢复合成语音的正常发音，同时最大限度地保留目标说话者在音色和说话风格方面的个性。这被表述为从噪声标签中学习的任务。我们建议用两个附加项来增强常用的语音重建损失。第一项构成正则化损失，可以减轻训练语音中发音失真的影响。第二项是一致性损失，它鼓励生成的语音中正确的发音。这些额外的损失项是从原始语音和生成语音的帧级清晰度分数获得的，这些分数是使用单独训练的电话分类器导出的。对舌癌患者真实病例的实验结果证实，合成语音的清晰度质量可与未受损的自然语音相媲美，同时有效保持目标说话者的个性。

LUPET: Incorporating Hierarchical Information Path into Multilingual ASR
Authors Wei Liu, Jingyong Hou, Dong Yang, Muyong Cao, Tan Lee
许多因素分别显示了它们对改善多语言 ASR 的有效性。它们包括语言身份LID和音素信息、语言特定处理模块和跨语言自监督语音表示等。然而，很少有研究致力于将它们协同组合以提供统一的解决方案，这仍然是一个悬而未决的问题。为此，提出了一种将分层信息路径 LUPET 合并到多语言 ASR 中的新观点。 LUPET 是从浅层到深层编码器层以不同粒度对多种信息进行编码的路径。该路径中的早期信息有利于导出后来发生的信息。具体来说，输入从 LID 预测到声学单元发现，然后是音素共享，然后由专家混合动态路由以进行最终的标记识别。对 10 种语言的 Common Voice 进行的实验检验了 LUPET 的优越性能。

BS-PLCNet: Band-split Packet Loss Concealment Network with Multi-task Learning Framework and Multi-discriminators
Authors Zihan Zhang, Jiayao Sun, Xianjun Xia, Chuanzeng Huang, Yijian Xiao, Lei Xie
丢包是网络电话 VoIP 系统中常见且不可避免的问题。为了解决这个问题，我们提出了一种频带分割丢包隐藏网络BS PLCNet。具体来说，我们将全频段信号分为宽带 0 8kHz 和高频段 8 24kHz 。宽带信号由门控卷积循环网络 GCRN 处理，而高频带信号由简单的 GRU 网络处理。为了确保高语音质量和自动语音识别 ASR 兼容性，使用了多任务学习 MTL 框架，包括基频 f0 预测、语言感知和多判别器。

DDD: A Perceptually Superior Low-Response-Time DNN-based Declipper
Authors Jayeon Yi, Junghyun Koo, Kyogu Lee
削波是一种常见的非线性失真，只要音频系统的输入或输出超出支持的范围，就会发生削波。这种现象不仅破坏了对语音质量的感知，而且破坏了利用中断信号的下游过程。因此，需要一种实时、鲁棒且低响应时间的语音去削波 SD 方法。在这项工作中，我们引入了 DDD Demucs Discriminator Declipper，这是一种实时语音去削波深度神经网络 DNN，其设计所需的响应时间较短。我们首先观察到之前未经测试的实时 DNN 模型 Demucs 表现出合理的去剪裁性能。然后，我们利用对抗性学习目标来提高输出语音的感知质量，而无需额外的推理开销。对严重削波语音的主观评估表明，DDD 在语音质量方面大幅优于基线。我们执行详细的波形和频谱分析，以深入了解 DDD 与基线相比的输出行为。

Hyperbolic Distance-Based Speech Separation
Authors Darius Petermann, Minje Kim
在这项工作中，我们探索了在双曲流形上定义的基于分层距离的语音分离任务。基于最近在非欧几里得空间中执行的音频相关任务的出现，我们建议利用庞加莱球来有效地揭示复杂扬声器混合物中的固有层次结构。我们设计了两组实验，其中基于距离的父声音类（即近和远）最多可以包含两个或三个扬声器，即每个子扬声器。我们表明，我们的双曲线方法适合从问题定义中揭示层次结构，从而改善子级分离。

Transfer the linguistic representations from TTS to accent conversion with non-parallel data
Authors Xi Chen, Jiakun Pei, Liumeng Xue, Mingyang Zhang
口音转换旨在将源语音的口音转换为目标口音，同时保留说话者的身份。本文介绍了一种用于口音转换的新型非自回归框架，该框架学习口音不可知的语言表示并利用它们来转换源语音中的口音。具体来说，所提出的系统将语音表示与从文本到语音 TTS 系统获得的语言表示对齐，从而能够在非并行数据上训练口音语音转换模型。此外，我们研究了我们提出的框架内对本机数据和不同声学特征的预训练策略的有效性。我们使用主观和客观指标进行全面评估，以评估我们方法的性能。

DiarizationLM: Speaker Diarization Post-Processing with Large Language Models
Authors Quan Wang, Yiling Huang, Guanlong Zhao, Evan Clark, Wei Xia, Hank Liao
在本文中，我们介绍了 DiarizationLM，这是一个利用大型语言模型 LLM 对说话者二值化系统的输出进行后处理的框架。使用所提出的框架可以实现各种目标，例如提高分类记录的可读性，或降低单词分类错误率 WDER 。在此框架中，自动语音识别 ASR 和说话人分类系统的输出表示为紧凑的文本格式，该格式包含在可选微调 LLM 的提示中。 LLM 的输出可用作具有所需增强功能的细化二值化结果。作为后处理步骤，该框架可以轻松应用于任何现成的 ASR 和说话人分类系统，而无需重新训练现有组件。我们的实验表明，经过微调的 PaLM 2 S 模型可以将 WDER 降低 rel。 Fisher 电话对话数据集上的 25.9 和 rel。

EAT: Self-Supervised Pre-Training with Efficient Audio Transformer
Authors Wenxi Chen, Yuzhe Liang, Ziyang Ma, Zhisheng Zheng, Xie Chen
音频自监督学习 SSL 预训练，旨在从未标记的音频中学习良好的表示，已经取得了显着的进展。然而，预训练过程中大量的计算需求对音频 SSL 模型的潜在应用和优化构成了重大障碍。在本文中，受到 data2vec 2.0 在图像模态和音频 MAE 在音频模态中成功的启发，我们引入了 Efficient Audio Transformer EAT，以进一步提高音频 SSL 的有效性和效率。所提出的 EAT 在音频领域采用引导自监督训练范例。一种新颖的话语框架目标UFO旨在增强声学事件的建模能力。此外，我们还发现掩蔽策略在音频 SSL 预训练中至关重要，并且可以使用大的逆块掩蔽来获得出色的音频表示。实验结果表明，EAT 在一系列音频相关任务（包括 AudioSet AS 2M、AS 20K、ESC 50 和 SPC 2）上实现了最先进的 SOTA 性能，并且与现有音频 SSL 相比，预训练速度显着提高了 15 倍

Theory and investigation of acoustic multiple-input multiple-output systems based on spherical arrays in a room
Authors Hai Morgenstern, Boaz Rafaely, Franz Zotter
使用麦克风和扬声器阵列广泛研究了室内声学的空间属性。然而，结合两个阵列的系统（称为多输入多输出 MIMO 系统）在这方面仅进行了有限程度的研究。由于能够同时控制两个阵列，这些系统可以为室内声学分析提供强大的工具。本文提供了使用由球形扬声器和麦克风阵列组成的 MIMO 系统对封闭声场进行空间分析的理论框架。系统传递函数在自由场条件下以矩阵形式表示，并使用线性代数工具研究其性质。无论阵列类型如何，该系统都具有单位秩，并且其奇异向量分别与麦克风和扬声器阵列的到达和辐射方向相关。然后使用图像源方法将该公式推广到房间。在这种情况下，系统的等级与显着反射的数量相关。

Freetalker: Controllable Speech and Text-Driven Gesture Generation Based on Diffusion Models for Enhanced Speaker Naturalness
Authors Sicheng Yang, Zunnan Xu, Haiwei Xue, Yongkang Cheng, Shaoli Huang, Mingming Gong, Zhiyong Wu
当前的说话化身大多基于话语的音频和文本生成共同语音手势，而不考虑说话者的非说话动作。此外，之前关于协同语音手势生成的工作都是基于单个手势数据集设计网络结构，这导致数据量有限、通用性受损和说话者运动受到限制。为了解决这些问题，我们引入了 FreeTalker，据我们所知，它是第一个用于生成自发（例如共同演讲手势）和非自发（例如在讲台演讲者周围移动）的框架。具体来说，我们训练了一个基于扩散的扬声器运动生成模型，该模型采用语音驱动手势和文本驱动运动的统一表示，利用来自各种运动数据集的异构数据。在推理过程中，我们利用无分类器指导来高度控制剪辑中的风格。此外，为了在剪辑之间创建平滑的过渡，我们利用 DoubleTake，这是一种利用生成先验并确保无缝运动混合的方法。大量实验表明，我们的方法可以产生自然且可控的扬声器运动。

Multichannel AV-wav2vec2: A Framework for Learning Multichannel Multi-Modal Speech Representation
Authors Qiushi Zhu, Jie Zhang, Yu Gu, Yuchen Hu, Lirong Dai
自监督语音预训练方法近年来发展迅速，对于许多近场单通道语音任务非常有效。然而，远场多通道语音处理面临着标记多通道数据稀缺和复杂环境噪声的困扰。自监督学习对于远场多通道和多模态语音处理的功效尚未得到很好的探索。考虑到视觉信息有助于提高噪声场景中的语音识别性能，在这项工作中，我们提出了一种多通道多模态语音自监督学习框架 AV wav2vec2，它利用视频和多通道音频数据作为输入。首先，我们提出了一种多路径结构来并行处理多通道音频流和视觉流，以通道内和通道间对比损失作为训练目标，以充分利用多通道语音数据中的时空信息。其次，基于对比学习，我们使用额外的单通道音频数据，对其进行联合训练以提高语音表示的性能。

Modal smoothing for analysis of room reflections measured with spherical microphone and loudspeaker arrays
Authors Hai Morgenstern, Boaz Rafaely
室内声学的空间分析是一个正在进行的研究课题。麦克风阵列已用于空间分析，其重要目标是使用房间脉冲响应 RIR 估计直达声和早期房间反射的到达方向 DOA。 DOA估计的最佳方法是多信号分类算法。当考虑 RIR 时，该方法通常会由于房间反射的相关性而失败，从而导致互谱矩阵的秩不足。例如，专门针对球形阵列提出了用于秩恢复的预处理方法，其可能涉及频率平均。然而，这些方法在具有相同时间延迟的反射的情况下会失败，这在实践中可能会出现并且可能令人感兴趣。本文提出了一种用于组合球形麦克风阵列和球形扬声器阵列的系统的方法，称为多输入多输出系统。这种方法被称为模态平滑，它利用额外的空间多样性来恢复排名，并在以前的方法失败的地方取得了成功，正如模拟研究所证明的那样。

Single-Microphone Speaker Separation and Voice Activity Detection in Noisy and Reverberant Environments
Authors Renana Opochinsky, Mordehay Moradi, Sharon Gannot
语音分离涉及从多扬声器音频信号中提取单个扬声器的声音。现实世界环境日益复杂，多个说话者可能同时交谈，这凸显了有效语音分离技术的重要性。这项工作提出了一种针对嘈杂和混响环境的具有 TF 注意力的单麦克风扬声器分离网络。我们将这种新架构称为分离 TF 注意力网络 Sep TFAnet。

Spatial Reverberation and Dereverberation using an Acoustic Multiple-Input Multiple-Output System
Authors Hai Morgenstern, Boaz Rafaely
提出了通过采用具有可调节方向性的扬声器来修改房间内声场混响特性的方法，并通过紧凑的球形扬声器阵列 SLA 实现。这些方法基于清晰度和直接与混响声音比率的最小化和最大化。正如模拟研究所示，这些方法可以显着改变混响。正在研究的系统包括球形麦克风阵列和由多输入多输出系统组成的 SLA。还研究了这些方法对系统识别错误的鲁棒性。

Design framework for spherical microphone and loudspeaker arrays in a multiple-input multiple-output system
Authors Hai Morgenstern, Boaz Rafaely, Markus Noisternig
球形麦克风阵列 SMA 和球形扬声器阵列 SLA 因其提供的三维分析而促进了室内声学研究。最近，由于增加了空间分集，已经提出了结合两个阵列的系统，称为多输入多输出 MIMO 系统。该文献提供了分别设计 SMA 和 SLA 的框架，包括定义阵列工作频率范围 OFR 的误差分析。然而，对于组成 MIMO 系统的 SMA 和 SLA 的联合设计，不存在这样的框架。本文开发了一个基于模型的 MIMO 系统设计框架，该模型可解决错误并强调匹配设计的重要性。扩展自由场假设，为每个阵列单独合并误差并定义误差范围，从而促进系统的误差分析。研究了误差范围对 SLA 和 SMA 参数的依赖性，并建议选择参数以确保 MIMO 系统设计中阵列的 OFR 匹配。

Theoretical Framework for the Optimization of Microphone Array Configuration for Humanoid Robot Audition
Authors Vladimir Tourbabin, Boaz Rafaely
人形机器人的一个重要方面是试听。之前的工作已经提出了能够基于具有各种配置的麦克风阵列进行声音定位和源分离的机器人系统。然而，尚未提出这些阵列设计的理论框架。在本文中，提出了一种基于新颖的阵列质量测量的设计框架。该测量基于由广义头部相关传递函数 GHRTF 组成的矩阵的有效秩，该矩阵考虑了除耳朵之外的麦克风位置。该测量结果在理论上与标准阵列性能测量（例如波束成形鲁棒性和 DOA 估计精度）相关。然后，应用该方法来生成麦克风阵列的样本设计。

TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in End-to-End ASR
Authors Nagarathna Ravi, Thishyan Raj T, Vipul Arora
端到端端到端自动语音识别 ASR 模型的预测置信度估计有利于 ASR 的下游和上游任务。基于类别概率的置信度分数不能准确代表过度自信的 ASR 预测的质量。辅助置信估计模型 CEM 校准预测。最先进的 SOTA 解决方案使用二进制目标分数进行 CEM 训练。然而，二进制标签不会揭示预测单词的粒度信息，例如参考和假设之间的时间对齐以及预测单词是否完全不正确或包含拼写错误。为了解决这个问题，我们提出了一种新颖的时间词素相似度 TeLeS 置信度分数来训练 CEM。为了解决训练 CEM 时目标分数的数据不平衡问题，我们使用收缩损失来关注难以学习的数据点，并最大限度地减少容易学习的数据点的影响。我们对用三种语言（即印地语、泰米尔语和卡纳达语）训练的 ASR 模型进行了实验，训练数据大小各不相同。实验表明 TeLeS 可以很好地跨领域推广。为了证明所提出方法的适用性，我们制定了基于 TeLeS 的 Acquisition TeLeS A 函数，用于对主动学习中的不确定性进行采样。

StreamVC: Real-Time Low-Latency Voice Conversion
Authors Yang Yang, Yury Kartynnik, Yunpeng Li, Jiuqiang Tang, Xing Li, George Sung, Matthias Grundmann
我们推出了 StreamVC，这是一种流式语音转换解决方案，可以保留任何源语音的内容和韵律，同时匹配任何目标语音的音质。与以前的方法不同，StreamVC 即使在移动平台上也能以低延迟从输入信号生成结果波形，使其适用于呼叫和视频会议等实时通信场景，并解决这些场景中的语音匿名等用例。我们的设计利用 SoundStream 神经音频编解码器的架构和训练策略来实现轻量级高质量语音合成。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com