【AI视野·今日Sound 声学论文速览 第二十五期】Fri, 13 Oct 2023

news2025/1/11 5:20:01

AI视野·今日CS.Sound 声学论文速览
Fri, 13 Oct 2023
Totally 8 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Impact of time and note duration tokenizations on deep learning symbolic music modeling
Authors Nathan Fradet, Nicolas Gutowski, Fabien Chhel, Jean Pierre Briot
符号音乐广泛应用于各种深度学习任务,包括生成、转录、合成和音乐信息检索 MIR 。它主要用于像变形金刚这样的离散模型,这些模型需要将音乐标记化,即格式化为称为标记的不同元素的序列。标记化可以通过不同的方式执行。由于 Transformer 在推理方面可能会遇到困难,但可以更轻松地捕获显式信息,因此研究此类模型的信息表示方式如何影响其性能非常重要。在这项工作中,我们分析了常见的标记化方法,并对时间和音符持续时间表示进行了实验。我们比较了这两个有影响力的标准在多项任务上的表现,包括作曲家和情感分类、音乐生成和序列表示学习。

Crowdsourced and Automatic Speech Prominence Estimation
Authors Max Morrison, Pranav Pawar, Nathan Pruyne, Jennifer Cole, Bryan Pardo
口语单词的突出程度是指普通母语听众认为该单词相对于其上下文而言突出或强调的程度。语音重要性估计是为话语中每个单词的重要性分配数值的过程。这些突出标签对于语言分析以及训练自动化系统以执行重点控制的文本到语音或情感识别非常有用。手动注释突出性既耗时又昂贵,这促使了语音突出性估计自动化方法的开发。然而,使用机器学习方法开发这样的自动化系统需要人工注释的训练数据。使用我们的系统来获取此类人工注释,我们收集并开源 LibriTTS 数据集一部分的众包注释。我们使用这些注释作为基本事实来训练神经语音突出估计器,该估计器可以推广到看不见的说话者、数据集和说话风格。

A cry for help: Early detection of brain injury in newborns
Authors Charles C. Onu, Samantha Latremouille, Arsenii Gorin, Junhao Wang, Uchenna Ekwochi, Peter O. Ubuane, Omolara A. Kehinde, Muhammad A. Salisu, Datonye Briggs, Yoshua Bengio, Doina Precup
自 20 世纪 60 年代以来,新生儿临床医生已经知道,患有某些神经系统疾病的新生儿会表现出哭泣模式的改变,例如出生窒息时的高亢哭声。尽管每年有超过 150 万婴儿死亡和残疾,但早期发现窒息引起的新生儿脑损伤仍然是一项挑战,特别是在发展中国家,因为大多数新生儿的出生都没有经过培训的医生接生。在这里,我们报告了第一个洲际临床研究,证明可以使用我们称为 Roseline 的人工智能算法从记录的婴儿哭声中可靠地确定新生儿脑损伤。之前和最近的工作因缺乏大型、高质量的哭泣记录临床数据库而受到限制,限制了最先进的机器学习的应用。我们为基于音频的病理检测模型开发了一种新的训练方法,并在从 3 大洲的 5 家不同地理位置的医院获取的新生儿哭声大型数据库上评估该系统。我们的系统提取可解释的声学生物标志物,支持临床决策,并能够准确检测新生儿哭声引起的神经损伤,AUC 灵敏度为 92.5 88.7,特异性为 80。基于哭泣的神经系统监测为低成本、易于使用、非侵入性和无接触式高危婴儿筛查打开了大门,特别是当集成到智能手机或新生儿 ICU 监视器等简单设备中时。这将在没有其他选择的情况下提供可靠的工具,同时也减少了定期对新生儿进行体力消耗或辐射暴露评估(例如脑部 CT 扫描)的需要。

Multimodal Variational Auto-encoder based Audio-Visual Segmentation
Authors Yuxin Mao, Jing Zhang, Mochu Xiang, Yiran Zhong, Yuchao Dai
我们提出了一种用于视听分割AVS的显式条件多模变分自动编码器ECMVAE,旨在分割视频序列中的声源。现有的 AVS 方法侧重于隐式特征融合策略,其中模型经过训练以适应数据集中的离散样本。由于数据集有限且多样性较低,所得到的性能通常不能令人满意。相反,我们从有效表示学习的角度解决这个问题,旨在明确地建模每种模态的贡献。具体来说,我们发现音频包含声音产生者的关键类别信息,视觉数据提供候选声音产生者。他们共享的信息对应于视觉数据中显示的目标声音产生者。在这种情况下,跨模态共享表示学习对于 AVS 尤为重要。为了实现这一目标,我们的 ECMVAE 将每种模态的表示分解为模态共享表示和模态特定表示。在共享表示和特定表示之间应用正交性约束,以维持因式分解的潜在代码的排他属性。此外,引入了互信息最大化正则化器来实现对每种模态的广泛探索。

A Single Speech Enhancement Model Unifying Dereverberation, Denoising, Speaker Counting, Separation, and Extraction
Authors Kohei Saijo, Wangyou Zhang, Zhong Qiu Wang, Shinji Watanabe, Tetsunori Kobayashi, Tetsuji Ogawa
我们提出了一种多任务通用语音增强 MUSE 模型,该模型可以执行五种语音增强 SE 任务:去混响、去噪、语音分离 SS、目标说话人提取 TSE 和说话人计数。这是通过将两个模块集成到 SE 模型中来实现的:1 一个内部分离模块,负责说话者计数和分离;2 一个 TSE 模块,使用目标说话者提示从内部分离输出中提取目标语音。如果给出目标说话者提示,则训练模型执行 TSE,否则执行 SS。通过训练模型去除噪声和混响,我们允许模型用单个模型解决上述五个任务,但目前尚未完成。

Fast Word Error Rate Estimation Using Self-Supervised Representations For Speech And Text
Authors Chanho Park, Chengsong Lu, Mingjie Chen, Thomas Hain
自动语音识别 ASR 的质量通常通过单词错误率 WER 来衡量。 WER 估计是一项旨在在给定语音和转录的情况下预测 ASR 系统的 WER 的任务。随着先进的 ASR 系统接受大量数据的训练,这项任务越来越受到关注。在这种情况下,WER 估计在许多场景中变得必要,例如,选择转录质量未知的训练数据或估计没有真实转录的 ASR 系统的测试性能。面对大量数据,WER估计器的计算效率在实际应用中变得至关重要。然而,以前的作品通常没有将其视为优先事项。本文介绍了一种使用自监督学习表示 SSLR 的快速 WER 估计器 Fe WER。该估计器建立在通过平均池聚合的 SSLR 之上。结果表明,Fe WER 在 Ted Lium3 上的均方根误差和皮尔逊相关系数两个评估指标上分别比 e WER3 基线高出 19.69 和 7.16。此外,当目标为 10.88 时,按持续时间加权的估计为 10.43 。

On the Relevance of Phoneme Duration Variability of Synthesized Training Data for Automatic Speech Recognition
Authors Nick Rossenbach, Benedikt Hilmes, Ralf Schl ter
文本转语音 TTS 系统生成的合成数据可用于改进低资源或域不匹配任务中的自动语音识别 ASR 系统。事实证明,TTS 生成的输出仍然不具有与真实数据相同的质量。在这项工作中,我们重点关注合成数据的时间结构及其与 ASR 训练的关系。通过使用新颖的预言机设置,我们展示了非自回归 NAR TTS 中的持续时间建模对合成数据质量下降的影响有多大。为了获得参考音素持续时间,我们使用两种常见的对齐方法:隐马尔可夫高斯混合模型 HMM GMM 对齐器和神经联结时间分类 CTC 对齐器。

Voice Conversion for Stuttered Speech, Instruments, Unseen Languages and Textually Described Voices
Authors Matthew Baas, Herman Kamper
语音转换旨在以目标说话人的录音为参考,将源语音转换为目标语音。较新的模型正在产生越来越真实的输出。但是,当模型输入非标准数据(例如来自有语言障碍的用户的语音)时会发生什么我们研究了最近的语音转换模型在非标准下游语音转换任务上的执行情况。我们使用一种简单但稳健的方法,称为 k 最近邻语音转换 kNN VC 。我们看一下四种非标准应用程序:口吃语音转换、跨语言语音转换、乐器转换和文本到语音转换。后者涉及转换为通过文本描述指定的目标语音,例如一个声音高亢的年轻人。与已建立的基线相比,我们发现 kNN VC 在口吃和跨语言语音转换方面保留了高性能。乐器和文本到语音转换任务的结果更加复杂。例如,kNN VC 在鼓等某些乐器上效果很好,但在其他乐器上效果不佳。尽管如此,这表明语音转换模型,尤其是 kNN VC 越来越适用于一系列非标准下游任务。但当样本距离训练分布很远时,仍然存在局限性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1091122.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Sentinel-2 命名规则(Naming Convention)

下述命名规则是2019年12月6日颁布的&#xff0c;自此之后的L1C级别产品都按照这个规则命名&#xff08;其他级别的产品官网没说&#xff09;。 下载下来的文件是个zip&#xff0c;解压后是个与zip同名的 .SAFE 文件。 MMM_MSIXXX_YYYYMMDDHHMMSS_Nxxyy_ROOO_Tnnmab_<Produ…

Modelsim查看波形窗口内断言(SVA)消息指示器

步骤1&#xff1a;创建工程并编译完成 在相应目录下创建好工程并编译无错误后&#xff1b; 步骤二&#xff1a; 在菜单栏中选择“Simulate”—>“Start Simulation”—>“Others”,在“Others Vsim Options”中输入 -msgmode both -displaymsgmode both 步骤三&#xf…

Leetcode——数组的改变、移动练习

453. 最小操作次数使数组元素相等 本人答案超时 class Solution { public:int minMoves(vector<int>& nums) {int len nums.size();int count 0;if (len 1) {count 0;}else {while (nums[0] ! nums[1] || nums[len - 2] ! nums[len - 1]) {for (int i 0; i <…

搭建一个vscode+uni+vue的小程序项目

我们使用 vue2 创建工程作为示例&#xff0c;uni-app中Vue2版的组件库和插件也比较多&#xff0c;稳定、问题少&#xff0c;可以先参考下官方文档:uni-app官网 既然是使用vue脚手架&#xff0c;那肯定要全局安装vue/cli&#xff0c;已安装的可以跳过。 注意&#xff1a;Vue2创…

面试题-React(十二):React中不可变数据的力量

一、不可变数据的概念 不可变数据意味着数据一旦创建&#xff0c;就不能被更改。在React中&#xff0c;每次对数据的修改都会返回一个新的数据副本&#xff0c;而不会改变原始数据。这种方式确保了数据的稳定性和一致性。 二、Props中的不可变数据 在React中&#xff0c;组件…

【数据结构】:二叉树与堆排序的实现

1.树概念及结构(了解) 1.1树的概念 树是一种非线性的数据结构&#xff0c;它是由n&#xff08;n>0&#xff09;个有限结点组成一个具有层次关系的集合把它叫做树是因为它看起来像一棵倒挂的树&#xff0c;也就是说它是根朝上&#xff0c;而叶朝下的有一个特殊的结点&#…

湖南省人才档案查询

湖南省人才档案查询 微信中查询智慧人社公众号 进入智慧人社公众号&#xff0c;点击智慧人社按钮 点击人才档案查询 查看档案信息

chapter8 Dimensionality Reduction(降维)

设置 首先&#xff0c;确保代码在python2和python3中都能正常工作&#xff0c;导入一些通用模块&#xff0c;确保MatplotLib以内联方式绘制图形&#xff0c;并准备一个函数来保存这些图形: from __future__ import division,print_function,unicode_literalsimport numpy as …

异星工场入门笔记-01

两年前玩过一点&#xff0c;不看教程&#xff0c;单纯地开放世界自己探索&#xff0c;没有同类游戏经验&#xff0c;因此很难有获得感所以放弃了。现在正版游戏涨到130&#xff0c;看在逆势上涨的份上&#xff0c;我倒想继续探索下这个游戏的价值。 玩魔方&#xff0c;记教程步…

深度学习之使用CSDN的InsCode的服务器

CSDN开启了一个InsCode的栏目&#xff0c;在里面可以部署自己的项目&#xff0c;同时可以租赁GPU服务器&#xff1a; 由于博主在CSDN有些积蓄&#xff0c;因此便来测评一下&#xff0c;博主购买了3090这个型号 接下来便是登录使用了&#xff0c;博主使用的是Mobaxterm这个软件&…

彻底解决Qt中文乱码以及汉字编码的问题(UTF-8/GBK)

彻底解决Qt中文乱码以及汉字编码的问题&#xff08;UTF-8/GBK&#xff09; Chapter1 (彻底解决Qt中文乱码以及汉字编码的问题&#xff08;UTF-8/GBK&#xff09;一、Qt Creator环境设置二、编码知识科普Qt常见的两种编码是:UTF-8和GBK 三、编码转换四、QString显示中文乱码的原…

铜死亡+多组机器学习+WGCNA+分型

今天给同学们分享一篇铜死亡多组机器学习WGCNA分型的生信文章“Machine learning screening for Parkinsons disease-related cuproptosis-related typing development and validation and exploration of personalized drugs for cuproptosis genes”&#xff0c;这篇文章于20…

3.3 封装性

思维导图&#xff1a; 3.3.1 为什么要封装 ### 3.3.1 为什么要封装 **封装**&#xff0c;在Java的面向对象编程中&#xff0c;是一个核心的思想。它主要是为了保护对象的状态不被外部随意修改&#xff0c;确保数据的完整性和安全性。 #### **核心思想&#xff1a;** - 保护…

TSINGSEE青犀智能分析网关如何助力别墅区域监控智能化信息化发展?

谈到别墅&#xff0c;大家一般都会想到花园、草坪、泳池等等&#xff0c;联想到的都是舒适放松的环境。别墅优美环境是不可否认的&#xff0c;但是别墅占地大、空间广、人员稀少也使得常常被盗贼“光顾”&#xff0c;即使别墅一般都会配备保安进行巡逻检查&#xff0c;但传统人…

【python编程】python无法import模块的一种原因分析

python系统路径添加错误 报错原因原因分析解决办法补充 最近写代码的时候遇到一个问题&#xff0c;就是想添加工程下fu_convert文件夹下自己编写的convert_fw.py模块&#xff0c;但是出现报错&#xff0c;是个比较低级的问题&#xff0c;但还是简单记录一下 报错原因 无法找到…

PHP遇见错误了看不懂?这些错误提示你必须搞懂

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏:《速学数据结构》 《C语言进阶篇》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 文章目录 一、错误分类二、系统错误&#xff1a;2.1 编译错误2.2 致命错误2.3 警告错误2.4 通知错误 三、用户错误3.1 错…

GitLab使用步骤

GitLab使用步骤 1 注册用户 1 访问&#xff1a;http://10.0.0.203/users/sign_up地址 2 填入注册信息&#xff0c;注册成功&#xff0c;需要管理员审核 3 用root登录&#xff0c;地址&#xff1a;http://10.0.0.203/users/sign_in账号&#xff1a;root密码&#xff1a;xxxx…

接口测试总结及其用例设计方法

接口测试的总结文档 第一部分&#xff1a;主要从问题出发&#xff0c;引入接口测试的相关内容并与前端测试进行简单对比&#xff0c;总结两者之前的区别与联系。但该部分只交代了怎么做和如何做&#xff1f;并没有解释为什么要做&#xff1f; 第二部分&#xff1a;主要介绍为什…

指针(2)

1.数组名的理解 一般数组名就是数组首元素的地址 但是有2个例外&#xff1a;1.sizeof&#xff08;数组名&#xff09; 这里面数组名表示的是整个数组&#xff0c;计算整个数组的大小&#xff0c;单位为字节。 …