【AI视野·今日Sound 声学论文速览 第三十四期】Thu, 26 Oct 2023

news2025/1/13 2:47:17

AI视野·今日CS.Sound 声学论文速览
Thu, 26 Oct 2023
Totally 9 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Dynamic Processing Neural Network Architecture For Hearing Loss Compensation
Authors Szymon Drgas, Lars Bramsl w, Archontis Politis, Gaurav Naithani, Tuomas Virtanen
本文提出了用于补偿感音神经性听力损失的神经网络。听力损失补偿任务的目的是在由听力障碍者进一步处理后,对语音信号进行转换以提高语音清晰度,该任务通过听力损失模型进行建模。我们提出了一种称为动态处理网络的可解释模型,其结构类似于带状动态压缩器。该网络是可微分的,因此允许学习其参数以最大化语音清晰度。还测试了基于卷积层的更通用模型。使用谱时客观指数 STOI 以及听力阈值噪声和助听器语音清晰度 HASPI 指标来评估测试架构的性能。与流行的压缩增益处方规则 Camfit 相比,动态处理网络对 STOI 和 HASPI 有了显着的改进。足够大的卷积网络可以超越可解释模型,但代价是更大的计算负载。

AccoMontage-3: Full-Band Accompaniment Arrangement via Sequential Style Transfer and Multi-Track Function Prior
Authors Jingwei Zhao, Gus Xia, Ye Wang
我们提出了 AccoMontage 3,这是一种符号音乐自动化系统,能够根据带有和弦的主旋律(即主奏表)的输入生成多轨、全乐队伴奏。该系统包含三个模块化组件,每个组件都模拟了整个乐队组合的重要方面。第一个组件是钢琴编曲器,它通过使用潜在和弦纹理解缠和纹理捐赠者的启发式检索将纹理风格转移到和弦,为主奏板生成钢琴伴奏。第二个组件根据各个轨道功能编码的编曲风格将钢琴伴奏乐谱编排成全乐队编曲。第三个组件连接前两个组件,是一个先验模型,描述整首音乐的管弦乐风格的全局结构。从头到尾,系统学习以自我监督的方式生成全乐队伴奏,在复调作曲纹理和编排两个层面上应用风格转移。

Towards Streaming Speech-to-Avatar Synthesis
Authors Tejas S. Prabhune, Peter Wu, Bohan Yu, Gopala K. Anumanchipalli
将语音流传输到虚拟人物合成中,可以根据音频数据为虚拟角色创建实时动画。准确的语音化身表征对于语言学、语音学和音系学中的声音可视化、辅助第二语言习得的视觉反馈以及瘫痪患者的虚拟体现非常重要。之前的作品强调了深度关节反转的能力,可以使用电磁关节描记术 EMA 功能执行高质量的头像动画。然而,这些模型侧重于通过录音进行离线头像合成,而不是实时音频,而实时音频是实时头像可视化或体现所必需的。为了解决这个问题,我们提出了一种使用发音反转来从实时音频流式传输高质量面部和内嘴头像动画的方法。我们的方法实现了每 0.1 秒音频的平均流延迟为 130 毫秒,与真实发音的相关性为 0.792。

Complex Image Generation SwinTransformer Network for Audio Denoising
Authors Youshan Zhang, Jialu Li
在现实应用中实现高性能音频降噪仍然是一项具有挑战性的任务。现有的时频方法常常忽略生成的频域图像的质量。本文将音频去噪问题转化为图像生成任务。我们首先开发一个复杂图像生成 SwinTransformer 网络,以从复杂傅里叶域捕获更多信息。然后,我们施加结构相似性和详细的损失函数来生成高质量图像并开发 SDR 损失以最小化去噪音频和干净音频之间的差异。

ArTST: Arabic Text and Speech Transformer
Authors Hawau Olamide Toyin, Amirbek Djanibekov, Ajinkya Kulkarni, Hanan Aldarmaki
我们推出了 ArTST,一种经过预训练的阿拉伯语文本和语音转换器,用于支持阿拉伯语的开源语音技术。该模型架构遵循最近发布的英语统一模态框架 SpeechT5,重点关注现代标准阿拉伯语 MSA,并计划在未来版本中将该模型扩展到方言和代码交换阿拉伯语。我们在 MSA 语音和文本数据上从头开始对模型进行预训练,并针对以下任务对其进行微调:自动语音识别 ASR、文本到语音合成 TTS 和口语方言识别。在我们将 ArTST 与 SpeechT5 进行比较的实验中,以及与之前报告的这些任务的结果相比,ArTST 在所有三项任务中的表现均达到或超过了当前最先进的水平。此外,我们发现我们的预训练有利于泛化,这在低资源 TTS 任务中尤其明显。

Back Transcription as a Method for Evaluating Robustness of Natural Language Understanding Models to Speech Recognition Errors
Authors Marek Kubis, Pawe Sk rzewski, Marcin Sowa ski, Tomasz Zi tkiewicz
在口语对话系统中,NLU 模型之前是语音识别系统,这可能会降低自然语言理解的性能。本文提出了一种研究语音识别错误对自然语言理解模型性能影响的方法。所提出的方法将反转录过程与细粒度技术相结合,用于对影响 NLU 模型性能的错误进行分类。该方法依赖于使用合成语音进行 NLU 评估。

A Novel Approach for Object Based Audio Broadcasting
Authors Mohammad Reza Hasanabadi
基于对象的音频 OBA 提供了一种新型音频体验,为观众提供个性化和定制他们的聆听体验,并让他们选择收听什么内容以及如何收听音频内容。 OBA可以应用于不同的平台,例如广播、流媒体和电影声音。本文提出了一种在制作端创建基于对象的音频的新颖方法。此处的方法逐个示例地介绍基于对象的音频 SSOBA 嵌入。 SSOBA 放置音频对象样本的方式使观众可以根据自己的兴趣和需求轻松个性化他们选择的音频源。 SSOBA 是一项额外服务,而不是替代服务,因此它也兼容传统音频播放器。 SSOBA 的最大优点是它不需要广播链中任何特殊的额外硬件,因此很容易实现并为传统播放器和解码器配备增强的功能。输入音频对象、输出通道数和采样率是影响 SSOBA 性能并指定其无损或有损的三个重要因素。 SSOBA在解码器侧采用插值来补偿被消除的样本。进行主观和客观实验来评估每一步的输出结果。编码步骤后进行的 MUSHRA 主观实验表明,SSOBA 具有多达五个对象的良好质量性能。解码和插值后进行的信噪比测量和客观实验表明音频对象的恢复和分离取得了显着的成功。

Generative Pre-training for Speech with Flow Matching
Authors Alexander H. Liu, Matt Le, Apoorv Vyas, Bowen Shi, Andros Tjandra, Wei Ning Hsu
近年来,生成模型因其在需要估计和采样数据分布以生成高保真合成数据的任务中取得的显着成功而受到越来越多的关注。在语音领域,文本到语音合成和神经声码器是生成模型大放异彩的好例子。虽然生成模型已应用于语音的不同应用,但不存在直接对语音进行建模的通用生成模型。在这项工作中,我们向这个方向迈出了一步,展示了单个预训练的生成模型可以适应不同的下游任务,并具有强大的性能。具体来说,我们使用流匹配和屏蔽条件,在 6 万小时的未转录语音上预训练了一个名为 SpeechFlow 的生成模型。实验结果表明,预训练的生成模型可以使用特定于任务的数据进行微调,以匹配或超越现有的语音增强、分离和合成专家模型。

IA Para el Mantenimiento Predictivo en Canteras: Modelado
Authors Fernando Marcos, Rodrigo Tamaki, Mateo C mara, Virginia Yag e, Jos Luis Blanco
对原材料的依赖,特别是在采矿业,是当今经济的一个关键部分。骨料至关重要,是仅次于水的第二大使用原材料。该行业的数字化转型是优化运营的关键。然而,由于该行业、机械和环境条件的特​​殊性,监督和维护的预测和纠正是该行业很少探讨的挑战。尽管在其他场景中使用声学和接触传感器进行监控取得了成功,但所有这些都是如此。我们提出了一种无监督学习方案,该方案在一组声音记录上训练变分自动编码器模型。这是在加工厂运营期间收集的第一个此类数据集,包含来自加工线不同点的信息。我们的结果证明了该模型能够在潜在空间中重建和表示记录的声音、操作条件以及不同设备之间的差异。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1216649.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

多标签页文件管理器 - Win系统

多标签页文件管理器 - Win系统 前言My Files-X Free360文件夹升级Win11 前言 Win10系统自带的文件管理器不支持多标签页功能,本文推荐几款多标签页文件管理器,可以在一个文件管理器窗口中打开多个标签页。 My Files-X Free 此文件管理器支持多标签页&…

Linux友人帐之网络编程基础邮件服务器与DHCP服务器

一、邮件服务器概述 1.1邮件服务基础 邮件服务器是一种计算机程序,它通过电子邮件协议接收、存储、处理和发送电子邮件。邮件服务器可以与电子邮件客户端程序(如Outlook、Thunderbird等)或Web邮件界面(如Gmail、Outlook.com等&am…

非常经典的一道SQL报错注入题目[极客大挑战 2019]HardSQL 1(两种解法!)

题目环境: 没错,又是我,这群该死的黑客竟然如此厉害,所以我回去爆肝SQL注入,这次,再也没有人能拿到我的flag了 做了好多这个作者出的题了,看来又要上强度了 判断注入类型 username:a…

CSAPP第四章:Y86 SEQ(指令顺序执行)的硬件结构

SEQ硬件结构的抽象表示。 程序计数器放在寄存器中(左下角,起点)。先向上,再向右 取指:将程序计数器寄存器作为地址,指令存储器读取一个指令的字节,PC增加器计算valP(程序计数器增加后的值)。 解码:寄存器…

产品经理如何独立从0-1着手甲方项目,或者负责一个产品?

作为产品经理,独立从0到1着手甲方项目或负责一个产品是一项重要的任务。以下是一些步骤和建议,可以帮助产品经理成功地完成这个任务。 1. 研究市场和竞争对手:在开始任何项目之前,产品经理应该对市场进行深入研究,并了…

PyTorch:GPU的使用

在深度学习领域,神经网络模型训练所需的计算量巨大,这就对计算资源提出了高要求。为了处理这一问题,图形处理器(GPU)被引入到深度学习中,其并行计算能力可以极大加速神经网络的训练过程。PyTorch作为一款出…

【数据分享】1961—2022年全国范围的逐日降水栅格数据

降水数据是我们在各项研究中最常用的气象指标之一!之前我们给大家分享过来源于国家青藏高原科学数据中心发布的1901-2022年1km分辨率逐月降水栅格数据以及1901-2022年1km分辨率逐年降水栅格数据(均可戳我跳转)!很多小伙伴拿到数据…

【Qt之QWizard问题】setPixmap()设置logo、background、watermark无效不显示解决方案

问题原因: 使用QWizard或者QWizardPage设置像素图,结果设置完不显示效果。 设置示例: setPixmap(QWizard::WatermarkPixmap, QPixmap("xxx/xxx/xxx.png"));setPixmap(QWizard::BackgroundPixmap, QPixmap("xxx/xxx/xxx.png&…

【星海出品】云存储 ceph

https://ceph.com/en/ 建议运行带有两个网络的Ceph存储集群:公共(前端)网络和集群(后端)网络。为了支持两个网络,每个Ceph节点都需要有多个NIC。 Monitor 一个Ceph集群需要多个Monitor组成的小集群&#x…

【C++】【Opencv】cv::GaussianBlur、cv::filter2D()函数详解和示例

本文通过函数详解和运行示例对cv::GaussianBlur和cv::filter2D()两个函数进行解读,最后综合了两个函数的关系和区别,以帮助大家理解和使用。 目录 cv::GaussianBlur()函数详解运行示例 filter2D()函数详解运行示例 总结两个函数联…

关于 Git 你了解多少?

1. 什么是Git? Git 是一个版本控制系统,由林纳斯托瓦兹创建。它旨在管理项目代码的更改,以便团队成员可以协作开发和维护代码库。Git 可以让用户跟踪代码的更改、回滚错误的更改、合并代码等。Git 还具有分支和标签的功能,使得团队成员可以在…

002 OpenCV dft 傅里叶变换

目录 一、傅里叶变换 1.1 傅里叶变换概念 1.2 opencv中傅里叶变换 二、实验代码 一、环境 本文使用环境为: Windows10Python 3.9.17opencv-python 4.8.0.74 二、傅里叶变换 2.1 傅里叶变换概念 傅里叶变换(Fourier Transform)是一种…

手把手教你搭建属于自己的快递小程序

在数字化时代,小程序已经成为各行各业连接用户、提供服务、创造价值的重要工具。其中,快递寄件小程序因其实用性和广泛的需求,成为很多企业和开发者关注的焦点。本文将详细介绍如何快速创建快递寄件小程序,以及如何利用它实现盈利…

Zabbix钉钉机器人告警

目录 一.在钉钉群里添加机器人 二.配置钉钉告警脚本 1.安装python依赖模块python-requests 2.配置钉钉告警配置脚本zabbix_ding.conf 3.创建告警日志并且授权。 4.配置钉钉告警执行脚本dingding.py 5.测试 三.配置zabbix告警 1.创建媒介 2.给用户添加报警媒介 3.配置…

day28_JQuery

今日内容 零、 复习昨日 一、正则表达式 二、JQuery 零、 复习昨日 js已经学完,js是让页面动态变化 1) 基本语法(变量,运算,逻辑,函数) 2) 事件(给标签绑定不同的事件) 3) dom(改变标签内容,属性,样式)一、引言 1.1 jQuery概述 原生js获得dom对象: var obj document.getElem…

2018年五一杯数学建模A题徐州潘安湖风景区游览路线设计解题全过程文档及程序

2019年五一杯数学建模 A题 徐州潘安湖风景区游览路线设计 原题再现 徐州是一个老工业基地和资源型城市,煤炭开采历史长达130年。长期煤炭开采在徐州累计形成采煤塌陷区达数十万亩。位于徐州市贾汪区西南部、紧邻马庄的潘安湖湿地公园原来就是徐州最大的、塌陷最严…

你知道如何科学的学习吗?-关于个人成长的思考

背景 最近在翻看自己工作后的笔记,从有道云笔记到印象笔记,到本地笔记,到自己使用github搭建的博客,到语雀笔记,使用了不同的平台工具;零零总总记录了许多学习笔记、个人成长笔记、职业规划等内容。现在看…

十、http客户端Feign

目录 一、使用Feign客户端 1、修改pom文件 2、在启动类OrderApplication中加入注释 3、创建客户端接口 4、装配UserClient,并且进行远程调用 5、发送请求,查看服务调用情况 二、定义Feigin的配置 方式一:配置文件方式 (1&…

项目Git分支管理规范

Git 是一个开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。 一、分支管理 项目中,一般会创建三个常用分支: develop:开发环境的稳定分支,公共开发环境基于该分支构建。pre-release:测试…

单脉冲测角-和差比幅法

和差比幅法单脉冲测角 单脉冲测角的类型阵列接收模型和差波束构造方法和差比幅测角仿真 单脉冲测角的类型 传统的单脉冲测向方法主要有3种,分别是半阵法、加权法和和差比幅法。其实这3种方法都需要形成和波束和差波束,只是波束形成的方法不同&#xff0…