【AI视野·今日Sound 声学论文速览 第二十八期】Wed, 18 Oct 2023

news2025/1/12 1:51:37

AI视野·今日CS.Sound 声学论文速览
Wed, 18 Oct 2023
Totally 12 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles
Authors Fernando L pez, Jordi Luque, Carlos Segura, Pablo G mez
基于语音的接口依靠唤醒词机制来发起与设备的通信。然而,实现稳健、节能且快速的检测仍然是一个挑战。本文通过时间对齐增强数据并使用基于多分辨率两阶段的检测来满足这些实际生产需求。它采用两种模型,一种是用于实时处理音频流的轻量级设备模型,另一种是服务器端的验证模型,它是细化检测的异构架构的集合。该方案允许优化两个操作点。为了保护隐私,音频功能而不是原始音频被发送到云端。该研究研究了用于特征提取的不同参数配置,以选择一种用于设备检测,另一种用于验证模型。此外,还对十三种不同的音频分类器的性能和推理时间进行了比较。

High-Fidelity Noise Reduction with Differentiable Signal Processing
Authors Christian J. Steinmetz, Thomas Walther, Joshua D. Reiss
基于深度学习的降噪技术在提高录制语音的整体质量方面表现出了令人印象深刻的性能。虽然这些方法具有高性能,但它们在音频工程中的应用可能由于多种因素而受到限制。这些包括仅对语音进行操作而不支持音乐、缺乏实时功能、缺乏可解释的控制参数、以较低采样率进行操作以及引入伪影的倾向。另一方面,基于信号处理的降噪算法提供了对广泛内容的细粒度控制和操作,但是,它们通常需要手动操作才能获得最佳结果。为了解决这两种方法的局限性,在这项工作中,我们引入了一种利用基于信号处理的降噪器的方法,该降噪器与神经网络控制器结合使用时,可以对语音和音乐信号实现全自动、高保真度的降噪。我们通过客观指标和感知听力测试来评估我们提出的方法。我们的评估表明,语音增强模型可以扩展到音乐,但是训练模型以仅消除静态噪声至关重要。此外,我们提出的方法实现了与深度学习模型相当的性能,同时在某些情况下效率显着提高并且引入的工件更少。

Serenade: A Model for Human-in-the-loop Automatic Chord Estimation
Authors Hendrik Vincent Koops, Gianluca Micchi, Ilaria Manco, Elio Quinton
计算和声分析对于自动分割、语料库分析和自动和弦标签估计等 MIR 任务非常重要。然而,最近对音乐和声的模糊性的研究表明,准确度等常见指标存在玻璃天花板,导致评估者之间的一致性有限。通常,这些问题可以在训练数据本身中通过创建多数规则注释来解决,也可以在训练阶段通过学习软目标来解决。我们提出了一种新颖的替代方法,其中人类和自回归模型共同为音轨创建谐波注释。自动生成和声预测后,人类会稀疏地注释模型置信度较低的部分,然后模型会根据人类的指导调整其预测。我们在流行音乐数据集上评估我们的模型,并表明,通过这种人机交互方法,和声分析性能比仅模型方法有所提高。

Leveraging Content-based Features from Multiple Acoustic Models for Singing Voice Conversion
Authors Xueyao Zhang, Yicheng Gu, Haopeng Chen, Zihao Fang, Lexiao Zou, Liumeng Xue, Zhizheng Wu
歌声转换SVC是一种使任意歌手能够演唱任意歌曲的技术。为了实现这一目标,从源音频中获取与说话人无关的表示非常重要,这是一项具有挑战性的任务。常见的解决方案是从预训练的声学模型中提取基于内容的特征,例如 PPG。然而,声学模型的选择多种多样。不同声学模型的内容特征有何特点,以及整合多个内容特征是否可以互相帮助,还有待探索。受此启发,本研究调查了三种不同的内容特征,分别源自 WeNet、Whisper 和 ContentVec。我们探讨了它们在 SVC 的可理解性、韵律和转换相似性方面的互补作用。通过将多个内容特征与基于扩散的 SVC 模型相集成,与单一内容特征源相比,我们的 SVC 系统在客观和主观评估方面都实现了卓越的转换性能。

Lyricist-Singer Entropy Affects Lyric-Lyricist Classification Performance
Authors Mitsuki Morita, Masato Kikuchi, Tadachika Ozono
尽管歌词是音乐的重要组成部分,但很少有关于作词者特征的音乐信息处理研究。由于这些特征对于音乐应用(例如推荐)可能很有价值,因此值得进一步研究。我们考虑了一种潜在的方法,可以从歌词中提取代表作词者特征的特征。由于必须在提取之前识别这些特征,因此我们重点关注具有易于识别特征的作词者。我们相信歌手们需要表演具有该歌手特定特征的独特歌曲。因此,我们假设作词者解释了他们为其写歌词的歌手的独特特征。换句话说,作词者分类表现或从歌词中捕捉作词者特征的容易程度可能取决于歌手的多样性。在这项研究中,我们观察了词作者熵或与单个词作者和词词作者分类表现相关的歌手种类之间的关系。举个例子,当作词者只为一位歌手写歌词时,作词者歌手的熵最小。在我们的实验中,我们根据作词歌手熵将作词者分为五组,并评估每组内的作词者分类表现。因此,作词歌手熵最低的组获得了最好的 F1 分数。

A High Fidelity and Low Complexity Neural Audio Coding
Authors Wenzhe Liu, Wei Xiao, Meng Wang, Shan Yang, Yupeng Shi, Yuyong Kang, Dan Su, Shidong Shang, Dong Yu
音频编码是实时通信系统中必不可少的模块。由于深度神经网络强大的建模和生成能力,神经音频编解码器可以以低比特率压缩音频样本。针对高频表达较差、计算成本和存储消耗较高的问题,我们提出了一种综合框架,利用神经网络对宽带分量进行建模,并根据心理听觉知识采用传统信号处理来压缩高频带分量。受听觉感知理论的启发,设计了基于感知的损失函数来改进谐波建模。此外,首次提出针对神经音频编解码器的生成对抗网络 GAN 压缩。

Unsupervised Lead Sheet Generation via Semantic Compression
Authors Zachary Novack, Nikita Srivatsan, Taylor Berg Kirkpatrick, Julian McAuley
主奏表在生成音乐研究中已变得司空见惯,被用作多轨音乐生成和自动编排等下游任务的初始压缩表示。尽管如此,研究人员在寻找配对铅表和满分时,经常依靠确定性约简方法(例如天际线算法)来生成铅表,而很少关注铅表本身的质量以及它们如何准确地反映其精心策划的结果。同行。为了解决这些问题,我们提出了条件主奏表生成问题,即在给定完整乐谱版本的情况下生成主奏表,并表明该任务可以表示为无监督音乐压缩任务,其中主奏表代表了压缩的潜在版本分数。我们引入了一种称为 Lead AE 的新颖模型,该模型将引导片建模为原始序列的离散子选择,使用可微分的前 k 运算符来允许可控的局部稀疏性约束。

Long-form Simultaneous Speech Translation: Thesis Proposal
Authors Peter Pol k
同步语音翻译 SST 旨在提供口语的实时翻译,甚至在说话者说完句子之前也是如此。传统上,SST 主要通过级联系统来解决,这些系统将任务分解为子任务,包括语音识别、分割和机器翻译。然而,深度学习的出现引发了人们对端到端端到端系统的极大兴趣。然而,当前文献中报道的大多数 E2E SST 方法的一个主要限制是,它们假设源语音被预先分割成句子,这对于实际的、现实世界的应用来说是一个重大障碍。本论文提案解决了端到端同步语音翻译问题,特别是在长格式设置中,即没有预分割的情况下。

VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System
Authors Abdul Waheed, Bashar Talafha, Peter Suvellin, Abdelrahman Elmadney, Muhammad Abdul Mageed
阿拉伯语是一种复杂的语言,有多种变体和方言,全世界有超过 4.5 亿人使用。由于语言的多样性和变化,为阿拉伯语构建一个强大且通用的 ASR 系统具有挑战性。在这项工作中,我们通过开发和演示一个名为 VoxArabica 的系统来解决这一差距,该系统用于方言识别 DID 以及阿拉伯语的自动语音识别 ASR。我们在阿拉伯语 DID 和 ASR 任务的监督环境中训练了各种模型,例如 HuBERT DID、Whisper 和 XLS R ASR。我们的 DID 模型经过训练,可以识别除 MSA 之外的 17 种不同方言。我们根据 MSA、埃及、摩洛哥和混合数据微调我们的 ASR 模型。此外,对于 ASR 中的其余方言,我们提供了在零样本设置中选择各种模型的选项,例如 Whisper 和 MMS。我们将这些模型集成到一个具有多种功能的 Web 界面中,例如录音、文件上传、模型选择以及针对错误输出提出标记的选项。总体而言,我们相信 VoxArabica 对于关注阿拉伯语研究的广大受众来说将是有用的。

Correction Focused Language Model Training for Speech Recognition
Authors Yingyi Ma, Zhe Liu, Ozlem Kalinli
语言模型 LM 已被普遍采用来提高自动语音识别 ASR 的性能,特别是在领域适应任务中。传统的 LM 训练方式对语料库中的所有单词一视同仁,导致 ASR 性能的提升不够理想。在这项工作中,我们引入了一种新颖的专注于纠正的 LM 训练方法,旨在优先考虑 ASR 错误单词。单词级 ASR 易错性分数(代表 ASR 错误识别的可能性)被定义并形成为先验单词分布,以指导 LM 训练。为了使用纯文本语料库进行以校正为重点的训练,通过多任务微调,大型语言模型法学硕士被用作易错分数预测器和文本生成器。领域适应任务的实验结果证明了我们提出的方法的有效性。与传统的 LM 相比,以纠正为重点的训练在足够的文本场景下实现了相对 5.5 的单词错误率 WER 降低。

Spatial HuBERT: Self-supervised Spatial Speech Representation Learning for a Single Talker from Multi-channel Audio
Authors Antoni Dimitriadis, Siqi Pan, Vidhyasaharan Sethu, Beena Ahmed
自监督学习已被用来利用未标记的数据,通过表示模型的训练来提高语音系统的准确性和泛化性。虽然最近的许多工作都试图在各种声学领域、语言、模式甚至同时说话者之间产生有效的表示,但这些研究都仅限于单通道录音。本文提出了 Spatial HuBERT,这是一种自监督语音表示模型,它通过使用多通道音频输入来学习潜在噪声环境中单个说话者的声学和空间信息。 Spatial HuBERT 学习的表示在各种空间下游任务上优于最先进的单通道语音表示,特别是在混响和噪声环境中。我们还演示了 Spatial HuBERT 学习到的表示在语音定位下游任务中的实用性。

Optimized Tokenization for Transcribed Error Correction
Authors Tomer Wullach, Shlomo E. Chazan
语音识别系统面临的挑战,例如发音变化、不利的音频条件和标记数据的稀缺,强调了纠正重复错误的后处理步骤的必要性。先前的研究已经证明了采用专用纠错模型的优势,但训练此类模型需要大量不易获得的标记数据。为了克服这一限制,通常使用合成的转录类似数据,然而,弥合转录错误和合成噪声之间的分布差距并非易事。在本文中,我们证明仅使用合成数据进行训练可以显着提高校正模型的性能。具体来说,我们凭经验表明 1 使用从一组转录数据导出的误差分布生成的合成数据优于应用随机扰动的常见方法 2 对 BPE 分词器的词汇应用特定于语言的调整在适应看不见的分布和保留转录错误的知识。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1128086.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

当数据库遇上深度学习:AI DataLoader 助力因子管理模型训练全流程

深度学习模型有能力自动发现变量之间的关系,而这些关系通常是不可见的,这使得深度学习可以挖掘新的因子和规律,为量化投资策略提供更多可能性。在传统的量化策略开发流程中,通常会使用 Python 或第三方工具生成因子,并…

什么是电源高压测试标准?如何测试?测试时要注意什么?

电源高压测试也叫电源耐压测试,是为了检测电源产品绝缘结构是否能够承受电力系统的内部过电压,进而防止安全事故的发生。不同技术规格的产品,高压测试的标准也不同。对于一般设备来说,以两倍于被测物的工作电压再加1000V作为测试的…

访问控制1

文章目录 主要内容一.ServiceAccount1.示例:在一个名为acctests的namespace中,创建一个名为udbs的serviceAccount代码如下(示例): 2.解释 二.Role和ClusterRole1.在名为test的namespace中创建一个名为test-role的角色,以及创建一个…

vue3+ts父子组件以及单页面刷新的方法

父子组件刷新页面: 父组件定义函数reset,子组件props接收 示例一: 父组件 //ts删减部分: import { deleteCompanyById, findAllCompanys } from /api/company import { usePureFetch } from /nexus/useFetch import type Compa…

2023 | 组蛋白乳酸化如何影响免疫、自噬最新发现!

乳 酸 乳酸是人体循环系统最丰富的代谢产物之一。乳酸由糖酵解的终产物丙酮酸盐通过乳酸脱氢酶(LDH)产生。有氧条件下,丙酮酸盐可以穿梭进入线粒体,以促进生物合成途径和ATP产生。当氧气不足时,丙酮酸转化为乳酸&…

asp.net文档管理系统VS开发sqlserver数据库web结构c#编程Microsoft Visual Studio

一、源码特点 asp.net文档管理系统是一套完善的web设计管理系统,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为vs2010,数据库为sqlserver2008,使用c#语言开发 asp.net文档管理系统 二、功能介绍 (1…

如何系列 如何玩转远程调用之OpenFegin+SpringBoot(非Cloud)

文章目录 简介原生Fegin示例基础契约日志重试编码器/解码器自定义解码器 请求拦截器响应拦截器表单文件上传支持错误解码器断路器指标metrics客户端 配合SpringBoot(阶段一)配合SpringBoot(阶段二)1.EnableLakerFeignClients2.Lak…

spring cloud Eureka集群模式搭建(IDEA中运行)《一》

spring cloud Eureka集群模式搭建(IDEA中运行) 新建springboot 工程工程整体目录配置文件IDEA中部署以jar包形式启动总结 新建springboot 工程 新建一个springboot 工程,命名为:eureka_server。 其中pom.xml文件为: …

Mask Free VIS笔记(CVPR2023 不需要mask标注的实例分割)

paper: Mask-Free Video Instance Segmentation github 一般模型学instance segmentation都是要有mask标注的, 不过mask标注既耗时又枯燥,所以paper中仅用目标框的标注来实现实例分割。 主要针对视频的实例分割。 之前也有box-supervised实例分割&…

去除QPushButton边框上的白点

使用border:3px solid #35FFFAF0; 出现上面一行border上白点。 使用border:3px solid rgb(89,87,84); 没有白点。

1.java环境搭建与eclipse安装和配置

JDK(JAVA开发工具包):提供给java开发人员使用的,其中包含了java的开发工具,也包括了JRE所以安装了JDK,就不用单独安装JTE了,其中的开发工具:编译工具(javac.exe) 打包工具(jar.exe)等JRE(JAVA运…

什么年代了还在手工写接口测试文档吗?

01 前言 接口文档,顾名思义就是对接口说明的文档。好的接口文档包含了对接口URL,参数以及输出内容的说明,我们参照接口文档就能编写出一个个的测试用例。而且接口文档详细的话,测试用例编写起来就会比较简单,不容易…

MES 漫谈123

我们从Know-How出发 Know:什么是 MES 制造执行系统MES是一套工具,旨在支持产品达到预期的质量、安全和合规水平,以及生产的预期性能水平。MES是支持工厂质量标准和企业卓越运营计划的关键要素。在工厂层面,MES不是通过“最后一天…

Telegram 引入了国产小程序容器技术

Telegram 宣布为其开发者提供了一项“能够在 App 中运行迷你应用”的新功能( 迷你应用即 Mini App,下文中以“小程序”代替)。 在一篇博客文章中,Telegram 的开发者写到“小程序提供了可替代互联网网站的灵活界面(cre…

DataX 数据迁移

1、前期准备 Linux系统 Python(最好是2) Jdk 1.8以上 2、安装Python2 --更新软件包 sudo apt update --安装python2 sudo apt install python2 --查看python版本 python2 --version 3、下载DataX Linux下载DataX wget http://datax-opensource.o…

攻防世界-Ph0en1x-100

第一次独立使用frida解安卓题,没分析代码 Steps 使用jadx打开apk分析主要代码 最主要的就是这个if判断了,安装apk后,有一个输入框和一个check按钮,会根据输入的结果Toast:Success or Failed。 getSecret(getFlag()).eq…

深入了解JavaScript中的AJAX和HTTP请求

在现代Web开发中,AJAX(Asynchronous JavaScript and XML)和HTTP请求被广泛应用于实现动态交互式网页。本文将深入探讨AJAX的概念、工作原理以及使用方法。 什么是AJAX? AJAX是一种利用JavaScript和HTTP请求与服务器进行异步通信的…

基于公开数据集,5 分钟生成个性可视化数据报告

云布道师 简介: 本次活动将基于内置电商、广告、出行、汽车、国内生产总值等公开数据集,通过DataWorks 与 MaxCompute 搭建可视化数据报告。 活动时间 2023 年 10 月 8 日-2023 年 11 月 10 日 参赛者首先前往参赛页面领取产品免费资源,依…

Redis基于布隆过滤器解决缓存穿透问题(15)

Redis基于布隆过滤器解决缓存穿透问题 1.布隆过滤器基本介绍2.布隆过滤器的优缺点3.布隆过滤器的原理4.缓存穿透问题5.解决Redis缓存穿透问题 1.布隆过滤器基本介绍 布隆过滤器适用于判断某个数据是否在集合中存在,可能存在一定的误判, Bloom Filter基本…

教育行业如何通过互联网推广品牌?媒介盒子告诉你

近年来,国民对教育的重视程度日趋上升,教育行业也日益壮大,数字化时代的来临也使教育行业推广品牌的方式更加多样化,接下来媒介盒子就和大家分享:教育行业如何通过互联网推广品牌。 一、 发布软文进行品牌推广 数字…