【AI视野·今日Sound 声学论文速览第四十五期】Wed, 10 Jan 2024

AI视野·今日CS.Sound 声学论文速览
Wed, 10 Jan 2024
Totally 12 papers
👉上期速览✈更多精彩请移步主页

Daily Sound Papers

Masked Audio Generation using a Single Non-Autoregressive Transformer
Authors Alon Ziv, Itai Gat, Gael Le Lan, Tal Remez, Felix Kreuk, Alexandre D fossez, Jade Copet, Gabriel Synnaeve, Yossi Adi
我们引入了 MAGNeT，一种直接在多个音频标记流上运行的掩码生成序列建模方法。与之前的工作不同，MAGNeT 由单级非自回归变压器组成。在训练过程中，我们预测从掩码调度程序获得的掩码令牌的范围，而在推理过程中，我们使用几个解码步骤逐渐构建输出序列。为了进一步提高生成音频的质量，我们引入了一种新颖的重新评分方法，其中我们利用外部预训练模型对 MAGNeT 的预测进行重新评分和排名，然后将其用于后续的解码步骤。最后，我们探索了 MAGNeT 的混合版本，其中我们融合自回归和非自回归模型，以自回归方式生成前几秒，同时并行解码序列的其余部分。我们展示了 MAGNeT 在文本到音乐和文本到音频生成任务中的效率，并考虑了客观指标和人类研究，进行了广泛的实证评估。所提出的方法与评估的基线相当，同时比自回归基线快 7 倍。通过消融研究和分析，我们阐明了组成 MAGNeT 的每个组件的重要性，并指出了自回归和非自回归建模之间的权衡，考虑了延迟、吞吐量和生成质量。

HyperGANStrument: Instrument Sound Synthesis and Editing with Pitch-Invariant Hypernetworks
Authors Zhe Zhang, Taketo Akama
GANStrument 利用具有音高不变特征提取器和实例调节技术的 GAN，在合成真实乐器声音方面表现出了卓越的能力。为了进一步提高重建能力和音调准确性，以增强用户提供的声音的可编辑性，我们提出了 HyperGANStrument，它引入了音调不变超网络，以在给定一次性声音作为输入的情况下调制预训练的 GANStrument 生成器的权重。超网络调制为重建输入声音的发生器提供反馈。此外，我们利用超网络的对抗性微调方案来提高生成器的重建保真度和生成多样性。实验结果表明，该模型不仅增强了GANStrument的生成能力，而且显着提高了合成声音的可编辑性。

RaD-Net: A Repairing and Denoising Network for Speech Signal Improvement
Authors Mingshuai Liu, Zhuangqi Chen, Xiaopeng Yan, Yuanjun Lv, Xianjun Xia, Chuanzeng Huang, Yijian Xiao, Lei Xie
本文介绍了我们针对 ICASSP 2024 语音信号改进 SSI 挑战赛的修复和降噪网络 RaD Net。我们基于两阶段网络扩展了之前的框架，并提出了升级模型。具体来说，我们用 TEA PSE 的 COM Net 替换修复网络。此外，在训练阶段采用多分辨率判别器和多频带判别器。最后，我们使用三步训练策略来优化我们的模型。我们提交了两个具有不同参数集的模型来满足两个轨道的 RTF 要求。

Cross-Speaker Encoding Network for Multi-Talker Speech Recognition
Authors Jiawen Kang, Lingwei Meng, Mingyu Cui, Haohan Guo, Xixin Wu, Xunying Liu, Helen Meng
端到端多说话者语音识别作为直接转录多个说话者重叠语音的有效方法引起了人们的极大兴趣。当前的方法通常采用具有分支编码器的 1 个单输入多输出 SIMO 模型，或基于具有串行输出训练 SOT 的基于注意力的编码器解码器架构的 2 个单输入单输出 SISO 模型。在这项工作中，我们提出了一种跨说话人编码 CSE 网络，通过聚合跨说话人表示来解决 SIMO 模型的局限性。此外，CSE模型与SOT集成，以利用SIMO和SISO的优点，同时减轻它们的缺点。据我们所知，这项工作代表了集成 SIMO 和 SISO 以实现多说话者语音识别的早期努力。在两个说话人的 LibrispeechMix 数据集上进行的实验表明，CES 模型在 SIMO 基线的基础上将单词错误率 WER 降低了 8 个。

Zero Shot Audio to Audio Emotion Transfer With Speaker Disentanglement
Authors Soumya Dutta, Sriram Ganapathy
音频到音频 A2A 风格转换的问题涉及用目标音频的风格特征替换源音频的风格特征，同时保留源音频的内容相关属性。在本文中，我们提出了一种有效的方法，称为零样本情感风格转移 ZEST，它允许将给定源音频中存在的情感内容与目标音频中嵌入的情感内容进行传输，同时保留源中的说话者和语音内容。所提出的系统建立在将语音分解为语义标记、说话者表示和情感嵌入的基础上。利用这些因素，我们提出了一个框架来重建给定语音信号的音调轮廓并训练重建语音信号的解码器。该模型使用基于自我监督的重建损失进行训练。在转换过程中，情感嵌入仅从目标音频中导出，而其余因素则从源音频中导出。

Class-Incremental Learning for Multi-Label Audio Classification
Authors Manjunath Mulimani, Annamaria Mesaros
在本文中，我们提出了一种潜在重叠声音的类增量学习方法，用于解决一系列多标签音频分类任务。我们设计了一个增量学习器，可以独立于旧课程学习新课程。为了保留有关旧类的知识，我们提出了一种基于余弦相似性的蒸馏损失，可以最大限度地减少后续学习者特征表示中的差异，并将其与基于 Kullback Leibler 散度的蒸馏损失一起使用，以最大限度地减少各自输出的差异。实验在包含 50 个声音类别的数据集上进行，初始分类任务包含 30 个基类和 4 个增量阶段，每个阶段包含 5 个类别。每个阶段之后，都会对系统进行多标签分类测试，并使用迄今为止学到的整套类别。该方法在五个阶段获得的平均 F1 分数为 40.9，范围从第 0 阶段 30 个班级的 45.2 到第 4 阶段 50 个班级的 36.3。

SonicVisionLM: Playing Sound with Vision Language Models
Authors Zhifeng Xie, Shengye Yu, Mengtian Li, Qile He, Chaofeng Chen, Yu Gang Jiang
人们对为无声视频生成声音的任务越来越感兴趣，主要是因为它在简化视频后期制作方面的实用性。然而，现有的视频声音生成方法试图直接从视觉表示创建声音，由于难以将视觉表示与音频表示对齐，这可能具有挑战性。在本文中，我们提出了 SonicVisionLM，这是一种新颖的框架，旨在通过利用视觉语言模型生成各种声音效果。我们没有直接从视频生成音频，而是使用强大的视觉语言模型 VLM 的功能。当提供无声视频时，我们的方法首先使用 VLM 识别视频中的事件，以建议与视频内容匹配的可能声音。这种方法的转变将图像和音频对齐的挑战性任务转变为通过流行的扩散模型将图像与文本以及文本与音频对齐的更深入研究的子问题。为了提高法学硕士的音频推荐质量，我们收集了一个广泛的数据集，将文本描述映射到特定的声音效果，并开发了时间控制的音频适配器。我们的方法超越了当前将视频转换为音频的最先进方法，从而增强了与视觉效果的同步并改善了音频和视频组件之间的对齐。

FADI-AEC: Fast Score Based Diffusion Model Guided by Far-end Signal for Acoustic Echo Cancellation
Authors Yang Liu, Li Wan, Yun Li, Yiteng Huang, Ming Sun, James Luan, Yangyang Shi, Xin Lei
尽管扩散模型在语音增强方面具有潜力，但它们在声学回声消除 AEC 中的部署受到了限制。在本文中，我们提出了 DI AEC，开创了一种专用于 AEC 的基于扩散的随机再生方法。此外，我们提出了 FADI AEC，基于快速评分的扩散 AEC 框架，以节省计算需求，使其有利于边缘设备。它的突出之处在于每帧运行一次评分模型，实现了处理效率的显着提升。除此之外，我们引入了一种新颖的噪声生成技术，其中利用远端信号，结合远端和近端信号来提高评分模型的准确性。

High-precision Voice Search Query Correction via Retrievable Speech-text Embedings
Authors Christopher Li, Gary Wang, Kyle Kastner, Heng Su, Allen Chen, Andrew Rosenberg, Zhehuai Chen, Zelin Wu, Leonid Velikovich, Pat Rondon, Diamantino Caseiro, Petar Aleksic

FunnyNet-W: Multimodal Learning of Funny Moments in Videos in the Wild
Authors Zhi Song Liu, Robin Courant, Vicky Kalogeiton
自动理解有趣的时刻，即观看喜剧时让人发笑的时刻具有挑战性，因为它们与各种特征有关，例如肢体语言、对话和文化。在本文中，我们提出了FunnyNet W，这是一种依赖于视觉、音频和文本数据的交叉和自注意力来预测视频中有趣时刻的模型。与大多数依赖字幕形式的真实数据的方法不同，在这项工作中，我们利用视频自然产生的模式，视频帧因为它们包含场景理解所必需的视觉信息，b音频因为它包含与有趣相关的更高级别的线索诸如语调、音高和停顿之类的时刻以及使用语音转文本模型自动提取的 c 文本，因为它在由大型语言模型处理时可以提供丰富的信息。为了获取训练标签，我们提出了一种无监督的方法，可以发现并标记有趣的音频时刻。我们提供了五个数据集的实验：情景喜剧 TBBT、MHD、MUStARD、Friends 和 TED 演讲 URunny。大量的实验和分析表明，FunnyNet W 成功地利用视觉、听觉和文本线索来识别有趣的时刻，而我们的研究结果表明，FunnyNet W 具有预测野外有趣时刻的能力。

Efficient Selective Audio Masked Multimodal Bottleneck Transformer for Audio-Video Classification
Authors Wentao Zhu
音频和视频是主流媒体平台（例如 YouTube）中最常见的两种形式。为了有效地学习多模态视频，在这项工作中，我们提出了一种新颖的音频视频识别方法，称为音频视频 Transformer，AVT，利用视频 Transformer 的有效时空表示来提高动作识别的准确性。对于多模态融合，简单地在跨模态 Transformer 中连接多模态标记需要大量的计算和内存资源，相反，我们通过音频视频瓶颈 Transformer 来降低跨模态复杂性。为了提高多模态 Transformer 的学习效率，我们将自监督目标（即音视频对比学习、音视频匹配和屏蔽音视频学习）集成到 AVT 训练中，将不同的音频和视频表示映射到公共多模态表示空间中。我们进一步提出了一种屏蔽音频片段损失来学习 AVT 中的语义音频活动。对三个公共数据集和两个内部数据集的广泛实验和消融研究一致证明了所提出的 AVT 的有效性。具体来说，AVT 在动力学声音方面比之前最先进的同类产品高出 8 倍。通过利用音频信号，AVT 还超越了 VGGSound 上之前最先进的视频 Transformers 25 x 10 之一。

Using perceptive subbands analysis to perform audio scenes cartography
Authors Laurent Millot IDEAC , G rard Pel IDEAC , Mohammed Elliq
提出了真实或模拟立体声录音的音频场景制图。该音频场景分析是连续执行感知 10 个子带分析、使用短时间恒定场景假设和通道互相关来计算每个子带的两个通道之间的相对延迟和增益的时间规律，这允许在其移动源中跟踪移动源。移动，计算全局和子带直方图，其峰值给出固定源的发生信息。由 2 至 4 个固定源或由一个固定源和一个移动源组成的音频场景已经成功测试。将讨论进一步的扩展和应用。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com