【AI视野·今日Sound 声学论文速览 第十九期】Thu, 5 Oct 2023

news2025/1/20 3:42:12

AI视野·今日CS.Sound 声学论文速览
Thu, 5 Oct 2023
Totally 13 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Multi-resolution HuBERT: Multi-resolution Speech Self-Supervised Learning with Masked Unit Prediction
Authors Jiatong Shi, Hirofumi Inaguma, Xutai Ma, Ilia Kulikov, Anna Sun
现有的语音自监督学习 SSL 模型通常以 20 毫秒的固定分辨率处理语音信号。这种方法忽略了语音信号中不同分辨率下存在的不同信息内容。相比之下,本文旨在将多分辨率信息纳入语音自监督表示学习中。我们引入了一种 SSL 模型,该模型利用分层 Transformer 架构,并辅以 HuBERT 风格的屏蔽预测目标,以处理多种分辨率的语音。实验结果表明,所提出的模型不仅实现了更有效的推理,而且在各种任务上都表现出了优于原始 HuBERT 模型或相当的性能。

BA-MoE: Boundary-Aware Mixture-of-Experts Adapter for Code-Switching Speech Recognition
Authors Peikun Chen, Fan Yu, Yuhao Lian, Hongfei Xue, Xucheng Wan, Naijun Zheng, Huan Zhou, Lei Xie
基于专家的混合模型利用语言专家有效地提取语言特定表示,已在代码切换自动语音识别中得到很好的应用。然而,由于不同语言之间的相似发音可能会导致无效的多语言建模和不准确的语言边界估计,因此仍有很大的改进空间。为了消除这些缺点,我们提出了一种跨层语言适配器和边界感知训练方法,即边界感知混合专家 BA MoE 。具体来说,我们引入了特定于语言的适配器来分离特定于语言的表示,并引入了统一的门控层来融合每个编码器层内的表示。其次,我们计算每种语言特定适配器的平均输出的语言适应损失,以改进适配器模块的语言特定表示学习。此外,我们利用边界感知预测器来学习边界表示以处理语言边界混淆。

Improving severity preservation of healthy-to-pathological voice conversion with global style tokens
Authors Bence Mark Halpern, Wen Chin Huang, Lester Phillip Violeta, R.J.J.H. van Son, Tomoki Toda
在健康到病态语音转换 H2P VC 中,健康语音被转换为病态语音,同时保留身份。本文改进了 H2P VC 的前两阶段方法,其中 1 首先创建具有适当严重性的语音,2 然后转换语音的说话者身份,同时保留语音的严重性。具体来说,我们建议通过使用语音后验图 PPG 和全局样式标记 GST 对 2 进行改进。此外,我们提出了一个新的数据集,其中包含具有相同身份的病态和健康说话者的并行录音,可以进行更精确的评估。专业听众的听力测试表明,该框架在对目标说话者的声音进行建模的同时,保留了源样本的严重性。

Shaping the Epochal Individuality and Generality: The Temporal Dynamics of Uncertainty and Prediction Error in Musical Improvisation
Authors Tatsuya Daikoku
音乐即兴创作,就像即兴演讲一样,揭示了即兴演奏者的心态和情感特征的复杂方面。然而,揭示这种个性的具体音乐成分在很大程度上仍未被探索。在大脑统计学习和预测处理的框架内,这项研究检查了一段音乐即兴创作中的不确定性和意外预测误差的时间动态。本研究采用 HBSL 模型分析了 1905 年至 2009 年间 78 位不同爵士音乐家的 456 首爵士即兴创作的语料库。结果表明了令人惊讶和不确定性的独特时间模式,特别是在音高和音高节奏序列中,揭示了从 20 世纪初期到 21 世纪的时代特定特征。相反,节奏序列在不同时代表现出一致程度的不确定性。此外,不同时期的声学特性保持不变。这些发现凸显了即兴音乐中惊喜和不确定性的时间动态如何随时间变化的重要性,深刻影响了每个时代艺术家即兴创作所采用的独特方法。此外,有人认为即兴音乐的发展可以归因于大脑的适应性统计学习机制,它不断完善内部模型以反映各自时代的文化和情感细微差别。

Towards an Interpretable Representation of Speaker Identity via Perceptual Voice Qualities
Authors Robin Netzorg, Bohan Yu, Andrea Guzman, Peter Wu, Luna McNulty, Gopala Anumanchipalli
与文本和视觉等其他数据模式不同,语音本身并不容易解释。虽然外行人可以理解如何通过感知来描述图像或句子,但非专家的语音描述通常以高级人口统计信息结束,例如性别或年龄。在本文中,我们提出了一种基于感知语音质量 PQ 的说话者身份的可能可解释表示。通过将性别 PQ 添加到以病理学为中心的语音 CAPE V 共识听觉感知评估协议中,我们基于 PQ 的方法提供了成人声音特征的感知潜在空间,该空间是高水平人口统计数据和低水平声学、物理、或习得的表征。

Prompting Audios Using Acoustic Properties For Emotion Representation
Authors Hira Dhamyal, Benjamin Elizalde, Soham Deshmukh, Huaming Wang, Bhiksha Raj, Rita Singh
情绪是一个连续体,但当前的模型将情绪视为有限值的离散变量。这种表示没有捕捉到情感表达的多样性。为了更好地表达情感,我们建议使用自然语言描述或提示。在这项工作中,我们解决了自动生成这些提示并训练模型以更好地从音频和提示对中学习情感表示的挑战。我们使用与情绪相关的声学特性(如音调、强度、语速和发音速率)来自动生成提示,即声学提示。我们使用对比学习目标将语音映射到各自的声音提示。我们评估我们的情感音频检索和语音情感识别模型。我们的结果表明,声音提示显着提高了模型在 EAR 中的各种 Precision K 指标的性能。

Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages
Authors Kuan Po Huang, Chih Kai Yang, Yu Kuan Fu, Ewan Dunbar, Hung yi Lee
我们引入了一种新的零资源代码切换语音基准测试,旨在直接评估自监督语音编码器的代码切换能力。我们展示了离散单元上的语言建模基线系统,以演示如何以零资源方式评估语音编码器的代码切换能力。我们的实验涵盖各种众所周知的语音编码器,包括 Wav2vec 2.0、HuBERT、XLSR 等。我们检查预训练语言和模型大小对基准性能的影响。

UniverSLU: Universal Spoken Language Understanding for Diverse Classification and Sequence Generation Tasks with a Single Network
Authors Siddhant Arora, Hayato Futami, Jee weon Jung, Yifan Peng, Roshan Sharma, Yosuke Kashiwagi, Emiru Tsunoo, Shinji Watanabe
最近的研究表明,通过采用具有多任务处理能力的大型语言模型,可以取得有希望的结果。他们利用提示来指导模型的行为并超越特定任务模型的性能。受此启发,我们问是否可以构建一个单一模型来联合执行各种口语理解 SLU 任务。为了解决这个问题,我们利用预先训练的自动语音识别 ASR 模型,并采用各种任务和数据集说明符作为离散提示。我们展示了我们的单一多任务学习 MTL 模型 UniverSLU 对于跨 17 个数据集和 9 种语言的 12 种不同语音分类和序列生成任务的有效性。结果表明,UniverSLU 实现了有竞争力的性能,甚至超越了特定任务模型。

Discriminative Training of VBx Diarization
Authors Dominik Klement, Mireia Diez, Federico Landini, Luk Burget, Anna Silnova, Marc Delcroix, Naohiro Tawara
x 向量序列 VBx 的贝叶斯 HMM 聚类已成为出版物和挑战中广泛采用的二值化基线模型。它使用 HMM 对说话者轮流进行建模,使用生成训练的概率线性判别分析 PLDA 进行说话者分布建模,并使用贝叶斯推理来估计 x 向量对说话者的分配。本文提出了一种使用判别训练更新 VBx 参数的新框架,该框架直接优化预定义的损失。我们还提出了一种新的损失,与二值化端到端系统的默认选择二进制交叉熵 unicode x2013 相比,它与二值化错误率更好地相关。三个数据集 AMI、CALLHOME 和 DIHARD II 的概念验证结果证明了该方法自动查找超参数的能力,实现了与广泛网格搜索所找到的性能相当的性能,后者通常需要额外的超参数行为知识。此外,我们表明 PLDA 的判别性微调可以进一步提高模型的性能。

End-to-End Training of a Neural HMM with Label and Transition Probabilities
Authors Daniel Mann, Tina Raissi, Wilfried Michel, Ralf Schl ter, Hermann Ney
我们研究了一种使用隐马尔可夫模型 HMM 进行端到端神经网络训练的新颖建模方法,其中隐藏状态之间的转移概率被显式建模和学习。大多数当代序列到序列模型允许通过对给定拓扑中所有可能的标签分段求和来从头开始训练。在我们的方法中,片段之间的转换有明确的、可学习的概率,而不是隐式编码持续时间统计数据的空白标签。我们实现了一种基于 GPU 的前向后向算法,可以同时训练标签和转移概率。我们研究识别结果以及模型的维特比对齐。我们发现,虽然转换模型训练不会提高识别性能,但它对对齐质量有积极的影响。

ResidualTransformer: Residual Low-rank Learning with Weight-sharing for Transformer Layers
Authors Yiming Wang, Jinyu Li
在这些设备上部署语音处理模型时,始终在线设备的内存限制是主要问题之一。虽然使用足够多的数据训练的较大模型通常表现更好,但使它们适合设备内存是一项艰巨的挑战。在本文中,我们的目标是通过重新参数化 Transformer 编码器层的模型权重并假设特殊的权重组成和结构来减小模型大小。更具体地说,受 ResNet 和最近的 LoRA 工作的启发,我们提出了一种名为 ResidualTransformer 的方法,其中 Transformer 层中的每个权重矩阵包含 1 个与其相邻层共享的全秩分量,以及 2 个自身独特的低秩分量。低秩矩阵仅导致模型大小的少量增加。此外,我们添加对角权重矩阵来提高低秩矩阵的建模能力。

Unsupervised Speech Recognition with N-Skipgram and Positional Unigram Matching
Authors Liming Wang, Mark Hasegawa Johnson, Chang D. Yoo
由于 GAN 相关的不稳定性、语音和文本之间的错位以及大量的内存需求,训练无监督语音识别系统面临着挑战。为了应对这些挑战,我们引入了一种新颖的 ASR 系统 ESPUM。该系统利用低阶 N 个 Skipgram 直至 N 3 的功能,并结合从小批量样本收集的位置一元组统计数据。根据 TIMIT 基准进行评估,我们的模型展示了 ASR 和音素分割任务中的竞争性能。

End-to-End Continuous Speech Emotion Recognition in Real-life Customer Service Call Center Conversations
Authors Yajing Feng CNRS LISN , Laurence Devillers CNRS LISN, SU
呼叫中心对话中的语音情感识别 SER 已成为评估客户和座席之间交互质量的宝贵工具。与受控的实验室环境相比,现实生活中的对话是在不受控制的条件下进行的,并且受到影响情绪表达的情境因素的影响。在本文中,我们提出了构建大规模现实数据集 CusEmo 的方法,以在客户服务呼叫中心对话中实现连续 SER。我们采用维度情感标注方法来捕捉现实生活中呼叫中心对话中情感的微妙性、复杂性和连续性,同时标注上下文信息。该研究还解决了端到端E2E SER系统应用于数据集过程中遇到的挑战,包括确定适当的标签采样率和输入段长度,以及使用不同的权重整合上下文信息对话者的性别和同理心水平多任务学习。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1064256.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

虫情测报系统——农业害虫的监测解决方案

KH-CQPest虫情测报系统,是以物联网技术、传感器技术、光控技术为基础,针对昆虫害监测和报告的解决方,它能够为农田或果园的昆虫害防护工作提供实时、准确的情报。 虫情测报系统能够通过虫情测报仪的诱虫功能吸引害虫并进行捕获,利…

redis学习(二)——redis常见命令及基础数据类型

数据类型 基础数据类型 字符串 String abcMap集合 Hsah {name:“zhangsan”,age:18}列表 List [a, b, c, d]Set集合 Set {a,b,c}有序Set集合 SortSet {a:1,b:2,c:3} 特殊数据类型 GEO 地理坐标 {A:(100.2,35.1)}BitMap 位图,只存储0和1 01101011101HyperLog 基数…

遵循这些守则,PCB布局就不会差

PCB设计中,首先要做的就是对于PCB布局,它是将整个板子中的元器件进行排布,位置分布,一个好的布局,可以让板子结构清晰,并且在布线的时候也会更加方便与明朗,达到事半功倍的效果。 对于PCB布局&a…

【短文】Linux怎么读取文件大小

2023年10月6日,周五晚上 使用如下命令即可: du -h filenamedu命令在Linux/Unix系统中的英文全称是"disk usage"。即磁盘使用量的意思。 du命令用来显示文件和目录占用磁盘空间的大小。 du命令的巧用: ls | du -h 通过这条命令…

ChatGLM2-6B的通透解析:从FlashAttention、Multi-Query Attention到GLM2的微调、源码解读

前言 本文最初和第一代ChatGLM-6B的内容汇总在一块,但为了阐述清楚FlashAttention、Multi-Query Attention等相关的原理,以及GLM2的微调、源码解读等内容,导致之前那篇文章越写越长,故特把ChatGLM2相关的内容独立抽取出来成本文 …

测试时间不够,你会如何处理?

工作中经常会遇到测试时间不够充分的情况,当测试时间不足的情况下,如何做到不延误测试进度,又能保证测试质量? 1、根据测试目标和需求,确定测试的优先级,首先测试最重要和核心的功能和场景。 确保关键功能…

测试员最爱犯的十个思想问题

1、测试应该找到所有bug,只要线上出现bug就是罪大恶极 测试新人最容易出现此类思想,认为测试就应该发现所有bug,生产环境出现bug就是测试的锅。这种想法不能说完全错误,相反,包括很多不懂行的领导认为这相当正确。但我…

SpringMVC系列-4 参数解析器

背景: 本文作为SpringMVC系列的第四篇,介绍参数解析器。本文讨论的参数解析表示从HTTP消息中解析出JAVA对象或流对象并传参给Controller接口的过程。 本文内容包括介绍参数解析器工作原理、常见的参数解析器、自定义参数解析器等三部分。其中&#xff0…

css实现不规则图片文字环绕效果

依旧,先上效果图,可以看见,文字环绕这个椭圆形的图片, 依旧是遵循开源精神,代码就直接放下面了 (点个赞或者给个评论啥的吧,我就发现我的文章全是光看不点赞,不评论的的) <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8&quo…

【重拾C语言】六、批量数据组织(二)线性表——分类与检索(主元排序、冒泡排序、插入排序、顺序检索、对半检索)

目录 前言 六、批量数据组织——数组 6.4 线性表——分类与检索 6.4.1 主元排序 6.4.2 冒泡排序 6.4.3 插入排序 6.4.4 顺序检索&#xff08;线性搜索&#xff09; 6.4.5 对半检索&#xff08;二分查找&#xff09; 算法比较 前言 线性表是一种常见的数据结构&#xf…

Linux网络编程系列之TCP协议编程

一、什么是TCP协议 TCP&#xff08;Transmission Control Protocol&#xff09;协议是一种面向连接的、可靠的、基于字节流的传输控制协议&#xff0c;属于传输层。TCP协议可以通过错误检测、重传丢失的数据包、流量控制、拥塞控制等方式来实现可靠传输&#xff0c;同时也具有较…

string和const char*参数类型选择的合理性对比

在编程中&#xff0c;我们经常需要处理字符串类型的参数。在C中&#xff0c;有两种常见的表示字符串的参数类型&#xff0c;即string和const char*。本文将对比这两种参数类型的特点&#xff0c;分析其在不同情况下的合理性&#xff0c;以便程序员能够根据实际需求做出正确的选…

超赞极简奶油风装修攻略~速来抄作业

如果您想将极简奶油风应用于自家装修&#xff0c;以下是小编的一些优化建议&#x1f3e0;✨&#xff1a;色彩选择&#x1f3a8;&#xff1a;主色调应选择简洁、柔和的颜色&#xff0c;如白色☁、米色☕、淡灰色&#x1f32b;等。在这些基础颜色中适度添加1-2个饱和度较高的活力…

接收机灵敏度和动态范围定义

一、接收机灵敏度 灵敏度是来自天线的最小信号电平的特定值&#xff0c;在该特定值处接收器可以提供足够的输出信噪比&#xff08;SNR&#xff09;。最小可辨别信号&#xff08;MDS&#xff09;是0dB射频信噪比&#xff08;RFSNR&#xff09;的信号电平。MDS通常以dBm表示。 图…

【kubernetes】kubernetes中的应用配置(ConfigMap和Secret)

目录 1 为什么需要ConfigMap和Secret2 k8s中给容器传递配置的方式3 ConfigMap的基本使用4 ConfigMap的实践5 Secret的基本使用6 ConfigMap和Secret的对比 1 为什么需要ConfigMap和Secret 应用程序启动过程中通常需要传递参数&#xff0c;当参数较多时会将参数保存到配置文件中…

Parse [5/10/2020 7:05:04 PM] with format [yyyy-MM-dd] error!

项目场景&#xff1a; 对日期格式转化报错&#xff1a; Parse [5/10/2020 7:05:04 PM] with format [yyyy-MM-dd] error! 问题描述 例如&#xff1a;数据日期格式无法强行转化为常见格式 String releaseDate"5/10/2020 7:05:04 PM";String format DateUtil.format…

C++设计模式-适配器(Adapter)

目录 C设计模式-适配器&#xff08;Adapter&#xff09; 一、意图 二、适用性 三、结构 四、参与者 五、代码 C设计模式-适配器&#xff08;Adapter&#xff09; 一、意图 将一个类的接口转换成客户希望的另外一个接口。Adapter模式使得原本由于接口不兼容而不能一起工…

Python: 库decimal()用于浮点数相加

from decimal import Decimal a1.1 b2.2 print(Decimal(2.2)Decimal(1.1))结果为&#xff1a;3.3 Pyhton中浮点数是不能直接相加的。 可以看到结果并不对。 因此需要用到decimal 可以看到ac时不计算的结果是正确的。 因此在python中&#xff0c;计算浮点数时&#xff0c;一部…

SpringCloud学习一

单体应用存在的问题 随着业务的发展&#xff0c;开发变得越来越复杂。 修改、新增某个功能&#xff0c;需要对整个系统进行测试、重新部署。 一个模块出现问题&#xff0c;很可能导致整个系统崩溃。 多个开发团队同时对数据进行管理&#xff0c;容易产生安全漏洞。 各个模块…

王道考研操作系统——文件管理

磁盘的基础知识 .txt用记事本这个应用程序打开&#xff0c;文件最重要的属性就是文件名了 保护信息&#xff1a;操作系统对系统当中的各个用户进行了分组&#xff0c;不同分组的用户对文件的操作权限是不一样的 文件的逻辑结构就是文件内部的数据/记录应该被怎么组织起来&…