【AI视野·今日Sound 声学论文速览 第二十七期】Tue, 17 Oct 2023

news2025/1/16 15:44:35

AI视野·今日CS.Sound 声学论文速览
Tue, 17 Oct 2023
Totally 15 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

LocSelect: Target Speaker Localization with an Auditory Selective Hearing Mechanism
Authors Yu Chen, Xinyuan Qian, Zexu Pan, Kainan Chen, Haizhou Li

BeatDance: A Beat-Based Model-Agnostic Contrastive Learning Framework for Music-Dance Retrieval
Authors Kaixing Yang, Xukun Zhou, Xulong Tang, Ran Diao, Hongyan Liu, Jun He, Zhaoxin Fan
舞蹈与音乐是密切相关的表现形式,舞蹈视频与音乐的相互检索是教育、艺术、体育等各个领域的一项基本任务。然而,现有的方法经常遭受不自然的生成效应或无法充分探索音乐和舞蹈之间的相关性。为了克服这些挑战,我们提出了 BeatDance,一种新颖的基于节拍的模型不可知对比学习框架。 BeatDance 结合了节拍感知音乐舞蹈信息提取器、跨颞节拍混合器和节拍增强中心度减速器,通过利用音乐节拍和舞蹈动作之间的对齐来提高舞曲检索性能。我们还引入了 Music Dance MD 数据集,这是一个包含超过 10,000 个音乐舞蹈视频对的大规模集合,用于训练和测试。 MD 数据集上的实验结果证明了我们的方法相对于现有基线的优越性,实现了最先进的性能。

Joint Music and Language Attention Models for Zero-shot Music Tagging
Authors Xingjian Du, Zhesong Yu, Jiaju Lin, Bilei Zhu, Qiuqiang Kong
音乐标签是预测音乐录音标签的任务。然而,以前的音乐标签研究主要集中在封闭的音乐标签任务上,不能推广到新的标签。在这项工作中,我们提出了一种由联合音乐和语言注意 JMLA 模型建模的零样本音乐标签系统,以解决开放集音乐标签问题。 JMLA 模型由一个由预训练屏蔽自动编码器建模的音频编码器和一个由 Falcon7B 建模的解码器组成。我们引入了接收器重采样器来将任意长度的音频转换为固定长度的嵌入。我们在编码器层和解码器层之间引入密集的注意力连接,以改善编码器层和解码器层之间的信息流。我们从互联网上收集了大量的音乐和描述数据集。我们建议使用 ChatGPT 将原始描述转换为形式化且多样化的描述来训练 JMLA 模型。

MERTech: Instrument Playing Technique Detection Using Self-Supervised Pretrained Model With Multi-Task Finetuning
Authors Dichucheng Li, Yinghao Ma, Weixing Wei, Qiuqiang Kong, Yulun Wu, Mingjin Che, Fan Xia, Emmanouil Benetos, Wei Li
乐器演奏技巧 IPT 构成了音乐表达的关键组成部分。然而,自动 IPT 检测方法的发展面临着有限的标记数据和固有的类别不平衡问题。在本文中,我们建议应用在大规模未标记音乐数据上预训练的自监督学习模型,并在 IPT 检测任务上对其进行微调。这种方法解决了数据稀缺和类别不平衡的挑战。认识到音调在捕捉 IPT 细微差别中的重要性以及起始点在定位 IPT 事件中的重要性,我们研究了以音调和起始点检测作为辅助任务的多任务微调。此外,我们应用后处理方法进行事件级别预测,其中仅当起始输出确认该帧中的起始时,IPT 激活才会启动事件。我们的方法在多个 IPT 基准数据集的帧级和事件级指标方面都优于先前的方法。

CoCoFormer: A controllable feature-rich polyphonic music generation method
Authors Jiuyang Zhou, Tengfei Niu, Hong Zhu, Xingping Wang
本文探讨了复调音乐序列的建模方法。由于Transformer模型在音乐生成方面的巨大潜力,可控音乐生成越来越受到关注。在复调音乐任务中,目前的可控生成研究主要集中在控制和弦的生成上,而缺乏对合唱音乐织体的可控生成的精确调节。本文提出了 Condition Choir Transformer CoCoFormer,它通过在细粒度级别控制和弦和节奏输入来控制模型的输出。本文采用自监督方法改进损失函数,通过条件控制输入和无条件输入训练进行联合训练。为了缓解教师强制训练造成的生成样本缺乏多样性的问题,本文增加了对抗性训练方法。 CoCoFormer 通过对和弦和节奏的显式和隐式输入来增强模型性能。本文通过实验证明CoCoFormer已经达到了目前比现有模型更好的水平。

SelfVC: Voice Conversion With Iterative Refinement using Self Transformations
Authors Paarth Neekhara, Shehzeen Hussain, Rafael Valle, Boris Ginsburg, Rishabh Ranjan, Shlomo Dubnov, Farinaz Koushanfar, Julian McAuley
我们提出了 SelfVC,一种通过自我合成示例迭代改进语音转换模型的训练策略。以前在语音转换方面的努力主要集中在明确地解开语音表示,以分别对说话者特征和语言内容进行编码。然而,使用特定于任务的损失项来解开语音表示以捕获此类属性可能会因丢弃原始信号的更细微差别而导致信息丢失。在这项工作中,我们没有明确地将属性与损失项分开,而是提出了一个框架,用于在从自监督学习和说话人验证模型派生的纠缠语音表示上训练可控语音转换模型。首先,我们开发从音频信号和 SSL 表示中导出韵律信息的技术,以训练合成模型中的预测子模块。接下来,我们提出了一种训练策略,通过使用自我合成的示例创建具有挑战性的训练目标,迭代改进语音转换的合成模型。在这种训练方法中,合成模型的当前状态用于生成话语的语音转换变体,这些变体作为重建任务的输入,确保模型的连续和有目的的细化。我们证明,与仅在启发式扰动输入上训练的基线语音转换模型相比,在训练期间合并此类自合成示例可以提高生成语音的说话者相似度。 SelfVC 在没有任何文本的情况下进行训练,适用于一系列任务,例如零样本语音转换、跨语言语音转换以及具有音调和速度修改的可控语音合成。

Dynamic Prediction of Full-Ocean Depth SSP by Hierarchical LSTM: An Experimental Result
Authors Jiajun Lu, Wei Huang, Hao Zhang
SSP分布影响水声信号的传播方式,是水下定位、导航和授时PNT的重要参数。为了准确预测未来声速分布,我们提出了一种用于未来声速预测的分层长短期记忆 H LSTM 神经网络,探索声速在时间维度上的分布模式。为了验证可行性和有效性,我们进行了模拟和真实实验。

Advancing Test-Time Adaptation for Acoustic Foundation Models in Open-World Shifts
Authors Hongfu Liu, Hengguan Huang, Ye Wang
测试时间适应 TTA 是解决推理过程中分布变化的关键范例,尤其是在视觉识别任务中。然而,虽然声学模型由于测试时语音的分布变化而面临类似的挑战,但专门为开放世界数据变化背景下的声学建模而设计的 TTA 技术仍然很少。当考虑声学基础模型的独特特征时,这种差距会进一步加剧:1它们主要建立在具有层归一化的变压器架构上,2它们以非平稳方式处理不同长度的测试时语音数据。这些方面使得直接应用以视觉为中心的 TTA 方法不可行,这些方法主要依赖于批量归一化并假设独立样本。在本文中,我们深入研究了面向开放世界数据变化的预训练声学模型的 TTA。我们发现嘈杂、高熵的语音帧(通常是非静音的)携带着关键的语义内容。传统的 TTA 方法可能会使用可能存在缺陷的启发法无意中过滤掉这些信息。作为回应,我们引入了一种启发式自由、基于学习的适应方法,通过信心增强来丰富。注意到语音信号表示短期一致性,我们还在测试时间优化期间应用一致性正则化。

Generation or Replication: Auscultating Audio Latent Diffusion Models
Authors Dimitrios Bralios, Gordon Wichern, Fran ois G. Germain, Zexu Pan, Sameer Khurana, Chiori Hori, Jonathan Le Roux
音频潜在扩散模型的引入能够根据文本描述按需生成逼真的声音片段,有可能彻底改变我们处理音频的方式。在这项工作中,我们初步尝试通过研究音频潜在扩散模型的音频输出与训练数据的比较来理解音频潜在扩散模型的内部工作原理,类似于医生通过聆听患者器官的声音来听诊患者的方式。使用在 AudioCaps 数据集上训练的文本到音频潜在扩散模型,我们系统地分析了记忆行为作为训练集大小的函数。我们还评估了训练数据记忆证据的不同检索指标,发现梅尔谱图之间的相似性在检测匹配方面比学习的嵌入向量更强大。

Advancing Audio Emotion and Intent Recognition with Large Pre-Trained Models and Bayesian Inference
Authors Dejan Porjazovski, Yaroslav Getman, Tam s Gr sz, Mikko Kurimo
大型预训练模型在副语言系统中至关重要,可以证明情感识别和口吃检测等任务的有效性。在本文中,我们为 ACM 多媒体计算副语言挑战赛采用大型预训练模型,解决请求和情感分享任务。我们探索利用音频和文本模式的纯音频和混合解决方案。我们的实证结果一致表明混合方法相对于纯音频模型的优越性。此外,我们引入贝叶斯层作为标准线性输出层的替代。多模式融合方法在 HC 请求方面实现了 85.4 UAR,在 HC 投诉方面实现了 60.2 UAR。 Emotion Share 任务的集成模型产生最佳 rho 值 0.614。本研究中探索的贝叶斯 wav2vec2 方法使我们能够轻松构建集成,但代价是仅微调一个模型。

End-to-end Multichannel Speaker-Attributed ASR: Speaker Guided Decoder and Input Feature Analysis
Authors Can Cui MULTISPEECH , Imran Ahamad Sheikh, Mostafa Sadeghi MULTISPEECH , Emmanuel Vincent MULTISPEECH
我们提出了一种端到端多通道说话人属性自动语音识别 MC SA ASR 系统,该系统将基于 Conformer 的编码器与多帧跨通道注意和说话人属性 Transformer 的解码器相结合。据我们所知,这是第一个在多通道设置中有效集成 ASR 和说话人识别模块的模型。在 LibriSpeech 数据的模拟混合中,与之前提出的单通道和多通道方法相比,我们的系统分别将字错误率 WER 降低了 12 和 16。此外,我们研究了不同输入特征(包括多通道幅度和相位信息)对 ASR 性能的影响。

Real-time Speech Enhancement and Separation with a Unified Deep Neural Network for Single/Dual Talker Scenarios
Authors Kashyap Patel, Anton Kovalyov, Issa Panahi
本文介绍了一种实用方法,利用实时深度学习模型根据输入混合物是否包含一个或两个活动说话者在语音增强和联合语音增强和分离之间进行交替。尺度不变信号失真比 SI SDR 已被证明是时域语音分离中的高效训练措施。然而,SI SDR 度量对于零能量目标信号的定义不明确,这在使用不同数量的说话者的话语来训练语音分离模型时会出现问题。与专注于修改损失函数以适应零能量目标信号的现有解决方案不同,所提出的方法通过训练模型在其两个输出通道上提取语音来规避此问题,无论输入是单说话者还是双说话者混合。还引入了轻量级说话者重叠检测 SOD 模块,以实时区分单和双说话者片段。所提出的模块利用新的公式,直接对分离模型给出的分离掩模进行操作,而不是对原始混合物进行操作,从而有效地简化了检测任务。

Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring
Authors Ankitha Sudarshan, Vinay Samuel, Parth Patwa, Ibtihel Amara, Aman Chadha
自动语音识别 ASR 引起了广泛的研究兴趣。最近的突破给 ASR 系统带来了不同的前景,例如忠实地转录口语,这是构建会话代理的关键进步。然而,准确识别上下文相关的单词和短语仍然面临着迫在眉睫的挑战。在这项工作中,我们提出了一种新方法,通过语义格处理增强 ASR 系统内的上下文识别,利用深度学习模型的力量,在各种词汇和说话风格中准确地提供准确的转录。我们的解决方案包括使用隐马尔可夫模型和高斯混合模型 HMM GMM 以及深度神经网络 DNN 模型,集成语言和声学建模以提高准确性。我们使用基于变压器的模型为我们的网络注入正确的重新评分词格,实现了显着降低词错误率 WER 的卓越功能。

SALM: Speech-augmented Language Model with In-context Learning for Speech Recognition and Translation
Authors Zhehuai Chen, He Huang, Andrei Andrusenko, Oleksii Hrinchuk, Krishna C. Puvvada, Jason Li, Subhankar Ghosh, Jagadeesh Balam, Boris Ginsburg
我们提出了一种新颖的语音增强语言模型 SALM,具有 em 多任务和 em 上下文学习功能。 SALM 包括冻结文本 LLM、音频编码器、模态适配器模块和 LoRA 层,以容纳语音输入和相关任务指令。统一的 SALM 不仅实现了与自动语音识别 ASR 和语音翻译 AST 的特定任务 Conformer 基线相当的性能,而且还展示了上下文学习能力中的零样本,这通过 ASR 和 AST 的关键字提升任务得到了证明。此外,提出了上下文训练中的 em 语音监督,以弥合 LLM 训练和下游语音任务之间的差距,从而进一步提高语音到文本模型的上下文学习能力。

CORN: Co-Trained Full-Reference And No-Reference Audio Metrics
Authors Pranay Manocha, Donald Williamson, Adam Finkelstein
感知评估构成了各种音频处理任务的一个重要方面。完全参考 FR 或基于相似性的度量依赖于高质量的参考录音,可以将其与较低质量或损坏的录音版本进行比较以进行评估。相比之下,没有任何参考 NR 指标可以在不依赖参考的情况下评估录音。 FR 和 NR 方法都具有各自的优点和缺点。在本文中,我们提出了一个名为 CORN 的新颖框架,它合并了这些双重方法,同时一起训练 FR 和 NR 模型。训练完成后,模型可以独立应用。我们通过预测几个常见的客观指标并跨两种不同的架构来评估 CORN。使用 CORN 训练的 NR 模型可以在训练期间访问参考记录,因此,正如人们所期望的那样,它始终优于独立训练的基线 NR 模型。也许更值得注意的是,CORN FR 模型也优于其基线模型,尽管它依赖于相同的训练数据和相同的模型架构。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1111403.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python逆向爬虫案例: 某网站AES逆向解密

前言 嗨喽,大家好呀~这里是爱看美女的茜茜呐 环境使用: Python 3.8 Pycharm 👇 👇 👇 更多精彩机密、教程,尽在下方,赶紧点击了解吧~ python源码、视频教程、插件安装教程、资料我都准备好了&#xff0…

了解 AI :了解 AI 方面的一些术语 (中英文对照)

本心、输入输出、结果 文章目录 了解 AI :了解 AI 方面的一些术语 (中英文对照)前言AI 方面的一些术语 (中英文对照)AI 方面的一些术语 (中英文对照) - 文字版弘扬爱国精神 了解 AI &#xff1a…

网工内推 | IT主管、高级网工,上市公司,必须持有HCIE认证

01 深圳市飞荣达科技股份有限公司 招聘岗位:高级网络工程师 职责描述: 1. 参与、负责集团公司IT基础技术架构的规划设计、实施及维护、性能优化,包括数据中心机房、网络架构、虚拟化平台、信息安全设备及灾备系统等; 2. 负责集团…

如何给Github上的开源项目提交PR?

前言 对于一个热爱开源的程序员而言,学会给GitHub上的开源项目提交PR这是迈出开源的第一步。今天我们就来说说如何向GitHub的开源项目提交PR,当然你提交的PR可以是一个项目的需求迭代、也可以是一个Bug修复、再或者是一些内容文本翻译等等,并…

安装VSCode,提升工作效率!iPad Pro生产力进阶之路

文章目录 前言1. 本地环境配置2. 内网穿透2.1 安装cpolar内网穿透(支持一键自动安装脚本)2.2 创建HTTP隧道 3. 测试远程访问4. 配置固定二级子域名4.1 保留二级子域名4.2 配置二级子域名 5. 测试使用固定二级子域名远程访问6. iPad通过软件远程vscode6.1 创建TCP隧道 7. ipad远…

MyBatisPlus(二十一)乐观锁

使用场景 用于当有多个用户同时修改同一条数据的时候,只允许有一个修改成功。 实现原理 使用一个字段,用于记录数据的版本。 当修改数据时,会去检测当前版本是否是正在修改的版本,同时修改成功后会把 版本号 1。 实现方式 配…

Go学习第一章——开发环境安装以及快速入门(GoLand)

Go开发环境安装以及快速入门 一、环境配置1.1 go开发工具1.2 go sdk下载3.1 go相关命令行 二、快速入门2.1 创建项目2.2 创建.go程序文件2.3.配置 mod 的开启与关闭2.4 用 GoLand 写第一份代码2.5.代码静态检测(此部分非必要) 三、初步了解3.1 代码解释以…

设计模式:单例模式(C#、JAVA、JavaScript、C++、Python、Go、PHP)

大家好!本节主要介绍设计模式中的单例模式。 简介: 单例模式,它是一种常用的软件设计模式,它属于创建类型。单例模式的主要目的是确保一个类仅有一个实例,并提供一个全局访问点。 在单例模式中,一个类只有…

python控制Windows桌面程序自动化模块uiautomation

github仓库地址:GitHub - yinkaisheng/Python-UIAutomation-for-Windows: (Donot use 3.7.6,3.8.1):snake:Python 3 wrapper of Microsoft UIAutomation. Support UIAutomation for MFC, WindowsForm, WPF, Modern UI(Metro UI), Qt, IE, Firefox, Chrome ... uiaut…

【OJ比赛日历】快周末了,不来一场比赛吗? #10.21-10.27 #11场

CompHub[1] 实时聚合多平台的数据类(Kaggle、天池…)和OJ类(Leetcode、牛客…)比赛。本账号会推送最新的比赛消息,欢迎关注! 以下信息仅供参考,以比赛官网为准 目录 2023-10-21(周六) #2场比赛2023-10-22…

硬件成本节省60%,四川华迪基于OceanBase的健康大数据数仓建设实践

导语:本文为四川华迪数据计算平台使用 OceanBase 替代 Hadoop 的实践,验证了 OceanBase 在性能和存储成本方面的优势:节省了 60% 的硬件成本,并将运维工作大幅减少,从 Hadoop 海量组件中释放出来;一套系统处…

【Python】文件操作

一、文件的编码 思考:计算机只能识别:0和1,那么我们丰富的文本文件是如何被计算机识别,并存储在硬盘中呢? 答案:使用编码技术( 密码本)将内容翻译成0和1存入 编码技术即:翻译的规则,记录了如何将内容翻译成二进制,以及如何将二…

2022年下半年 软件设计师 上午试卷(41题—75题)

UML活动图用于建模 (41) 。以下活动图中,活动A1之后,可能的活动执行序列顺序是 (42) 。 (41) A. 系统在它的周边环境的语境中所提供的外部可见服务 B. 某一时刻一组对象以及它们之间…

【代码随想录】算法训练营 第七天 第三章 哈希表 Part 2

454. 四数相加 题目 思路 这道题相当于是两数相加的加强版,其实大体思路是一致的,只不过这道题里先把四个数组中的数两两相加,把和作为map的key值,把和出现的次数作为value,这样先遍历完前两个数组,后面再…

nginx平滑升级添加echo模块、localtion配置、rewrite配置

nginx平滑升级添加echo模块、location配置、rewrite配置 文章目录 nginx平滑升级添加echo模块、location配置、rewrite配置1.环境说明:2.nginx平滑升级原理:3.平滑升级nginx,并添加echo模块3.1.查看当前nginx版本以及老版本编译参数信息3.2.下…

【LeetCode-数组】--搜索插入位置

搜索插入位置 class Solution {public int searchInsert(int[] nums, int target) {int n nums.length;int left 0,right n-1;while(left < right){int mid (left right) / 2;if(nums[mid] target){return mid;}else if(nums[mid] > target){right mid - 1;}else…

【一:实战开发testng的介绍】

目录 1、主要内容1.1、为啥要做接口测试1.2、接口自动化测试落地过程1.3、接口测试范围1.4、手工接口常用的工具1.5、自动化框架的设计 2、testng自动化测试框架基本测试1、基本注解2、忽略测试3、依赖测试4、超时测试5、异常测试6、通过xml文件参数测试7、通过data实现数据驱动…

边写代码边学习之mlflow

1. 简介 MLflow 是一个多功能、可扩展的开源平台&#xff0c;用于管理整个机器学习生命周期的工作流程和工件。 它与许多流行的 ML 库内置集成&#xff0c;但可以与任何库、算法或部署工具一起使用。 它被设计为可扩展的&#xff0c;因此您可以编写插件来支持新的工作流程、库和…

Go学习第二章——变量与数据类型

Go变量与数据类型 1 变量1.1 变量概念1.2 变量的使用步骤1.3 变量的注意事项1.4 ""的使用 2 数据类型介绍3 整数类型3.1 有符号整数类型3.2 无符号整数类型3.3 其他整数类型3.4 整型的使用细节 4 小数类型/浮点型4.1 浮点型的分类4.2 简单使用 5 字符类型5.1 字符类型…

【LeetCode】 412. Fizz Buzz

题目链接 文章目录 Python3 【O(n) O(1)】C.emplace_back() 【C 11 之后】 Python3 【O(n) O(1)】 初始版本 class Solution:def fizzBuzz(self, n: int) -> List[str]:ans []for i in range(1, n1):if i % 5 0 and i % 3 0:ans.append("FizzBuzz")elif i % …