【AI视野·今日Sound 声学论文速览 第十七期】Tue, 3 Oct 2023

news2025/1/12 8:42:00

AI视野·今日CS.Sound 声学论文速览
Tue, 3 Oct 2023
Totally 15 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation
Authors Roi Benita, Michael Elad, Joseph Keshet
最近已证明扩散模型与高质量语音生成相关。大多数工作都集中在生成频谱图,因此,他们进一步需要后续模型将频谱图转换为波形,即声码器。这项工作提出了一种用于生成原始语音波形的扩散概率端到端模型。所提出的模型是自回归的,顺序生成重叠帧,其中每个帧都以先前生成的帧的一部分为条件。因此,我们的模型可以有效地合成无限的语音持续时间,同时保持高保真合成和时间相干性。我们实现了所提出的无条件和条件语音生成模型,其中后者可以由音素、幅度和音调值的输入序列驱动。直接处理波形具有一些经验优势。具体来说,它允许创建局部声学行为,例如声音炸裂,这使得整体波形听起来更自然。此外,所提出的扩散模型是随机的而不是确定性的,因此,每个推论都会生成略有不同的波形变化,从而实现丰富的有效实现。

uSee: Unified Speech Enhancement and Editing with Conditional Diffusion Models
Authors Muqiao Yang, Chunlei Zhang, Yong Xu, Zhongweiyang Xu, Heming Wang, Bhiksha Raj, Dong Yu
语音增强旨在提高语音信号的质量和清晰度,而语音编辑是指根据特定用户需求对语音进行编辑的过程。在本文中,我们提出了一种带有条件扩散模型的统一语音增强和编辑 uSee 模型,以生成的方式同时处理各种任务。具体来说,通过向基于分数的扩散模型提供包括自监督学习嵌入和适当的文本提示在内的多种类型的条件,我们可以实现统一语音增强和编辑模型的可控生成,以对源语音执行相应的操作。我们的实验表明,与其他相关的生成语音增强模型相比,我们提出的 uSee 模型可以在语音去噪和去混响方面实现优异的性能,并且可以在给定所需的环境声音文本描述、信噪比 SNR 和房间脉冲响应 RIR 的情况下执行语音编辑。

F0 analysis of Ghanaian pop singing reveals progressive alignment with equal temperament over the past three decades: a case study
Authors Iran R. Roman, Daniel Faronbi, Isabelle Burger Weiser, Leila Adu Gilmore
当代加纳流行歌曲融合了欧洲和加纳传统的影响。我们假设,随着时间的推移,获得嵌入平等律的技术促进了加纳歌唱与平等律音阶的逐步结合。为了验证这一点,我们研究了加纳歌手 Daddy Lumba,他的作品涵盖了从 20 世纪 80 年代末最早的加纳电子风格至今。将一位音乐家作为案例研究可以让我们在不过度解释研究结果的情况下完善我们的分析。我们整理了他的歌曲集,在 1989 年至 2016 年间发行,以从孤立的人声中提取 F0 值。我们使用高斯混合建模 GMM 来近似每首歌曲的音阶,发现音高方差随着时间的推移而减小。我们还确定了 GMM 分量是否遵循等律音阶中观察到的算术关系,并观察到近年来 Daddy Lumba 的演唱更符合等律音阶。总之,结果揭示了暴露于等律音阶的影响,导致伦巴爸爸的歌唱中微音调内容减少。

UniAudio: An Audio Foundation Model Toward Universal Audio Generation
Authors Dongchao Yang, Jinchuan Tian, Xu Tan, Rongjie Huang, Songxiang Liu, Xuankai Chang, Jiatong Shi, Sheng Zhao, Jiang Bian, Xixin Wu, Zhou Zhao, Helen Meng
语言模型 LM 已经展示了处理各种生成任务的能力。本文介绍了 UniAudio 系统,与之前的特定于任务的方法不同,该系统利用 LM 技术在给定的输入条件下生成多种类型的音频,包括语音、声音、音乐和歌唱。 UniAudio 1 首先将所有类型的目标音频以及其他条件模态标记化,2 将源目标对连接为单个序列,3 使用 LM 执行下一个标记预测。此外,还提出了多尺度 Transformer 模型来处理标记化中基于残差矢量量化的神经编解码器引起的过长序列。 UniAudio 的训练扩展到 165K 小时的音频和 1B 参数,基于所有生成任务,旨在获得足够的先验知识,不仅在音频的内在属性上,而且在音频与其他模态之间的相互关系上。因此,经过训练的UniAudio模型有潜力成为通用音频生成的基础模型,它在所有经过训练的任务中表现出强大的能力,并且在简单的微调后可以无缝支持新的音频生成任务。实验表明,UniAudio 在 11 项任务中的大多数任务上都取得了最先进的结果,或者至少取得了有竞争力的结果。

Pianist Identification Using Convolutional Neural Networks
Authors Jingjing Tang, Geraint Wiggins, Gyorgy Fazekas
本文使用卷积神经网络 CNN 和表达特征对富有表现力的钢琴演奏中的自动表演者识别进行了全面的研究。我们的工作解决了识别钢琴演奏家这一具有挑战性的多类别分类任务,这对于构建具有智能和智能音乐系统的动态乐器具有重大意义。结合最新的进展,我们利用了大规模富有表现力的钢琴演奏数据集和深度学习技术。我们通过扩大重复和修饰来改进分数,以实现更准确的特征提取。我们展示了一维 CNN 根据表达特征识别钢琴家的能力,并分析了输入序列长度和不同特征的影响。所提出的模型优于基线,在 6 路识别任务中达到 85.3 的准确率。事实证明,我们精炼的数据集更适合训练强大的钢琴家识别器,为自动演奏者识别领域做出了重大贡献。

Active Learning Based Fine-Tuning Framework for Speech Emotion Recognition
Authors Dongyuan Li, Yusong Wang, Kotaro Funakoshi, Manabu Okumura
语音情感识别SER因其在人机交互中的应用而受到越来越多的关注。然而,现有的SER方法忽略了预训练语音识别任务和下游SER任务之间的信息差距,导致性能次佳。此外,它们需要大量时间来微调每个特定的语音数据集,从而限制了它们在具有大规模噪声数据的现实场景中的有效性。为了解决这些问题,我们提出了一种基于主动学习 AL 的 SER 微调框架,该框架利用任务适应预训练 TAPT 和 AL 方法来提高性能和效率。具体来说,我们首先使用 TAPT 来最小化预训练和下游任务之间的信息差距。然后,使用 AL 方法迭代选择信息最丰富且多样化的样本子集进行微调,从而减少时间消耗。实验证明仅使用 20 pt。样本提高了 8.45 点。准确率降低 79 分。

GASS: Generalizing Audio Source Separation with Large-scale Data
Authors Jordi Pons, Xiaoyu Liu, Santiago Pascual, Joan Serr
通用源分离的目标是分离任意混合的音频源,消除对语音或音乐等特定领域进行操作的限制。然而,通用源分离的潜力是有限的,因为大多数现有工作都集中于以声音事件为主的混合,并且小型训练数据集也限制了其监督学习的潜力。在这里,我们研究了一个通用音频源分离 GASS 模型,该模型经过训练,可以使用大规模数据集以监督方式分离语音、音乐和声音事件。我们在不同的任务集上评估 GASS 模型。我们强大的分布结果表明了 GASS 模型的可行性,并且在声音事件和语音分离方面的竞争性分布性能显示了其泛化能力。然而,对于 GASS 模型来说,推广分离发行的电影和音乐内容是一项挑战。我们还在每个数据集上微调 GASS 模型,并始终优于未经预训练的模型。

Fewer-token Neural Speech Codec with Time-invariant Codes
Authors Yong Ren, Tao Wang, Jiangyan Yi, Le Xu, Jianhua Tao, Chuyuan Zhang, Junzuo Zhou
基于语言模型的文本转语音 TTS 模型(如 VALL E)因其在零样本场景下出色的上下文学习能力而受到关注。神经语音编解码器是这些模型的关键组件,它可以将语音转换为离散的标记表示。然而,来自编解码器的过多标记序列可能会对预测准确性产生负面影响,并限制基于语言模型的 TTS 模型的进展。为了解决这个问题,本文提出了一种新颖的时不变代码神经语音编解码器,名为 TiCodec。通过将时不变信息编码和量化为单独的代码,TiCodec 可以减少需要编码的帧级信息量,从而有效减少作为语音代码的令牌数量。此外,本文引入了时不变编码一致性损失,以增强话语内时不变代码的一致性,并迫使其捕获更多全局信息,这有利于零样本 TTS 任务。

Scaling Up Music Information Retrieval Training with Semi-Supervised Learning
Authors Yun Ning Hung, Ju Chiang Wang, Minz Won, Duc Le
在数据驱动的音乐信息检索 MIR 时代,标记数据的稀缺性一直是 MIR 任务成功的主要问题之一。在这项工作中,我们利用半监督师生培训方法来改进 MIR 任务。为了进行训练,我们将未标记的音乐数据扩展到 24 万小时,这比任何公共 MIR 数据集都要大得多。我们在嘈杂的师生训练过程中迭代地创建和完善伪标签。还探索了知识扩展,以迭代方式将模型大小从小于 3M 的参数扩展到近 100M 的参数。我们在实验中研究数据大小和模型大小之间的性能相关性。通过扩大模型大小和训练数据,与以监督方式训练或基于自监督预训练模型的模型相比,我们的模型在多个 MIR 任务上取得了最先进的结果。

Towards human-like spoken dialogue generation between AI agents from written dialogue
Authors Kentaro Mitsui, Yukiya Hono, Kei Sawada
大型语言模型法学硕士的出现使得在两个代理之间生成自然的书面对话成为可能。然而,从这些书面对话中生成类似人类的口头对话仍然具有挑战性。口语对话有几个独特的特征,它们经常包括私下谈话和笑声,轮流的流畅程度显着影响对话的流畅性。本研究提出 CHATS CHatty Agents Text to Speech 是一种基于离散令牌的系统,旨在根据书面对话生成口头对话。我们的系统可以同时为说话者侧和听者侧生成语音,仅使用说话者侧的转录,从而消除了对反向通道或笑声转录的需要。此外,CHATS 有助于自然轮流,在没有重叠的情况下,它确定每次话语后适当的沉默持续时间,并且在重叠的情况下,它根据下一个话语的音素序列启动重叠语音的生成。

Evaluating Speech Synthesis by Training Recognizers on Synthetic Speech
Authors Dareen Alharthi, Roshan Sharma, Hira Dhamyal, Soumi Maiti, Bhiksha Raj, Rita Singh
现代语音合成系统已得到显着改进,合成语音与真实语音无法区分。然而,对合成语音的有效和全面的评估仍然是一个重大挑战。使用平均意见分数 MOS 进行人工评估是理想的,但由于成本高而效率低下。因此,研究人员开发了诸如单词错误率 WER 之类的辅助自动指标来衡量清晰度。先前的工作重点是基于预先训练的语音识别模型来评估合成语音,然而,这可能是有限的,因为这种方法主要测量语音清晰度。在本文中,我们提出了一种评估技术,涉及在合成语音上训练 ASR 模型并评估其在真实语音上的性能。我们的主要假设是,通过在合成语音上训练 ASR 模型,真实语音的 WER 反映了分布之间的相似性,这是对超出可理解性的合成语音质量的更广泛的评估。

Music- and Lyrics-driven Dance Synthesis
Authors Wenjie Yin, Qingyuan Yao, Yi Yu, Hang Yin, Danica Kragic, M rten Bj rkman
歌词常常传达超出听觉维度的歌曲信息,丰富动作和音乐主题的语义。这些见解在舞蹈编排领域非常重要。然而,大多数现有的舞蹈合成方法主要关注音乐到舞蹈的生成,而没有考虑语义信息。为了补充它,我们引入了 JustLMD,这是一个包含音乐和歌词的 3D 舞蹈动作的新多模态数据集。据我们所知,这是第一个包含三元组信息的数据集,包括舞蹈动作、音乐和歌词。此外,我们还展示了一个基于跨模式扩散的网络,旨在根据音乐和歌词生成 3D 舞蹈动作。

Time-Variant Overlap-Add in Partitions
Authors Hagen Jaeger, Uwe Simmer, J rg Bitzer, Matthias Blau
虚拟现实和增强现实在建筑、生产、培训和教育、心理治疗、游戏等许多领域日益流行。为了在虚拟和增强环境中呈现令人信服的声音,音频信号必须与从一个时刻到另一个时刻变化的脉冲响应进行实时卷积。实现此类时变实时卷积算法的关键要求是短延迟、适中的计算成本和内存占用以及没有可察觉的切换伪影。在这份工程报告中,我们介绍了一种分区卷积算法,该算法能够在脉冲响应之间快速切换,而不会引入可察觉的伪影,同时保持恒定的计算负载和较低的内存使用量。

SLM: Bridge the thin gap between speech and text foundation models
Authors Mingqiu Wang, Wei Han, Izhak Shafran, Zelin Wu, Chung Cheng Chiu, Yuan Cao, Yongqiang Wang, Nanxin Chen, Yu Zhang, Hagen Soltau, Paul Rubenstein, Lukas Zilka, Dian Yu, Zhong Meng, Golan Pundak, Nikhil Siddhartha, Johan Schalkwyk, Yonghui Wu
我们提出了联合语音和语言模型 SLM,这是一种多任务、多语言和双模态模型,它利用了预训练的基础语音和语言模型。 SLM冻结预训练的基础模型以最大程度地保留其能力,并且仅训练具有仅1 156M基础模型参数的简单适配器。这种适应不仅使 SLM 在语音识别 ASR 和语音翻译 AST 等传统任务上取得了强大的性能,而且还引入了零样本指令跟踪的新颖功能,可以在给定语音输入和文本指令的情况下执行更多样化的任务,SLM 能够执行看不见的生成任务,包括使用实时上下文的上下文偏置 ASR、对话生成、语音延续和问题回答等。我们的方法表明,预训练语音和语言模型之间的表征差距可能比人们预期的要窄,并且可以通过简单的适应机制桥接。

A Novel U-Net Architecture for Denoising of Real-world Noise Corrupted Phonocardiogram Signal
Authors Ayan Mukherjee, Rohan Banerjee, Avik Ghose
心音信号中包含的生物声学信息被世界各地的医生用于听诊目的。然而,心音本质上容易受到噪声污染。各种噪音源,如肺音、咳嗽、打喷嚏和其他背景噪音都与此类污染有关。心音信号的这种损坏常常导致不确定的或错误的诊断。为了解决这个问题,我们在本文中提出了一种基于 U Net 的深度神经网络架构,用于心音图 PCG 信号的去噪。为了设计、开发和验证所提出的架构,提出了一种合成现实世界噪声破坏的 PCG 信号的新方法。为此,使用了开放获取的现实世界噪声样本数据集和开放获取的 PCG 数据集。所提出的去噪方法的性能已在合成的噪声 PCG 数据集上进行了评估。所提出算法的性能与现有最先进的 SoA 去噪算法进行了定性和定量比较。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1058387.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【简单的留言墙】HTML+CSS+JavaScript

目标&#xff1a;做一个简单的留言墙 1.首先我们用HTML的一些标签&#xff0c;初步构造区域 样式。 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>留言墙</title><style>/* ...... */ …

国庆中秋特辑(六)大学生常见30道宝藏编程面试题

以下是 30 道大学生 Java 面试常见编程面试题和答案&#xff0c;包含完整代码&#xff1a; 什么是 Java 中的 main 方法&#xff1f; 答&#xff1a;main 方法是 Java 程序的入口点。它是一个特殊的方法&#xff0c;不需要被声明。当 Java 运行时系统执行一个 Java 程序时&…

C++ 程序员入门之路——旅程的起点与挑战

&#x1f337;&#x1f341; 博主猫头虎 带您 Go to New World.✨&#x1f341; &#x1f984; 博客首页——猫头虎的博客&#x1f390; &#x1f433;《面试题大全专栏》 文章图文并茂&#x1f995;生动形象&#x1f996;简单易学&#xff01;欢迎大家来踩踩~&#x1f33a; &a…

Java中过滤器和拦截器的区别、作用、使用场景

在Java中&#xff0c;过滤器&#xff08;Filters&#xff09;和拦截器&#xff08;Interceptors&#xff09;都是用于在应用程序中实现请求和响应处理逻辑的关键组件&#xff0c;但它们在功能、作用和使用场景上有一些区别。以下是它们的详细解释&#xff1a; 过滤器&#xff…

通过ElementUi在Vue搭建的项目中实现CRUD

&#x1f3c5;我是默&#xff0c;一个在CSDN分享笔记的博主。&#x1f4da;&#x1f4da; &#x1f31f;在这里&#xff0c;我要推荐给大家我的专栏《Vue》。&#x1f3af;&#x1f3af; &#x1f680;无论你是编程小白&#xff0c;还是有一定基础的程序员&#xff0c;这个专栏…

Java的一些常见类【万字介绍】

欢迎来到Cefler的博客&#x1f601; &#x1f54c;博客主页&#xff1a;那个传说中的man的主页 &#x1f3e0;个人专栏&#xff1a;题目解析 &#x1f30e;推荐文章&#xff1a;题目大解析&#xff08;3&#xff09; 目录 &#x1f449;&#x1f3fb;输入输出Scanner类输出输出…

【AI视野·今日NLP 自然语言处理论文速览 第四十六期】Tue, 3 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Tue, 3 Oct 2023 (showing first 100 of 110 entries) Totally 100 papers &#x1f449;上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Its MBR All the Way Down: Modern Generation Techniques Through the …

excel提取单元格中的数字

excel取单元格中的数字excel取出单元格中的数字快速提取单元格中有文本的数字如何提取文本左侧的数字、文本右侧的数字、文本中的数字以及文本中混合的数字 RIGHT(C2,11)从右边开始在C2单元格中取出11位字符 LEFT(C2,2)&#xff0c;引用获取单元格总长度的函数LEN&#xff0c;…

简化数据库操作:探索 Gorm 的约定优于配置原则

文章目录 使用 ID 作为主键数据库表名TableName临时指定表名列名时间戳自动填充CreatedAtUpdatedAt时间戳类型Gorm 采用约定优于配置的原则,提供了一些默认的命名规则和行为,简化开发者的操作。 使用 ID 作为主键 默认情况下,GORM 会使用 ID 作为表的主键: type User st…

java Spring Boot 手动启动热部署

好 接下来 我们讲一个对开发非常重要的东西 热部署 因为 我们在开发过程中总会希望快点看到效果 或者 你的企业项目一般很大很复杂&#xff0c;重启是一件非常麻烦的事 或者你在和前端同事联调&#xff0c;有一点小问题 你改完就要重启 前端还得等你&#xff0c;非常不友好 那…

【AI视野·今日CV 计算机视觉论文速览 第259期】Tue, 3 Oct 2023

AI视野今日CS.CV 计算机视觉论文速览 Tue, 3 Oct 2023 (showing first 100 of 167 entries) Totally 100 papers &#x1f449;上期速览✈更多精彩请移步主页 Daily Computer Vision Papers GPT-Driver: Learning to Drive with GPT Authors Jiageng Mao, Yuxi Qian, Hang Zha…

VBA技术资料MF65:将十六进制值转换为RGB颜色代码

我给VBA的定义&#xff1a;VBA是个人小型自动化处理的有效工具。利用好了&#xff0c;可以大大提高自己的工作效率&#xff0c;而且可以提高数据的准确度。我的教程一共九套&#xff0c;分为初级、中级、高级三大部分。是对VBA的系统讲解&#xff0c;从简单的入门&#xff0c;到…

网络基础入门(网络基础概念详解)

本篇文章主要是对网络初学的概念进行解释&#xff0c;可以让你对网络有一个大概整体的认知。 文章目录 一、简单认识网络 1、1 什么是网络 1、2 网络分类 二、网络模型 2、1OSI七层模型 2、1、1 简单认识协议 2、1、2 OSI七层模型解释 2、2 TCP/IP五层(或四层)模型 三、网络传…

学籍管理系统【IO流+GUI】(Java课设)

系统类型 【IO流GUI】系统 &#xff08;通过IO流把数据存储到文本里面&#xff0c;不存数据库中&#xff0c;GUI就是窗口&#xff0c;图形化界面&#xff09; 使用范围 适合作为Java课设&#xff01;&#xff01;&#xff01; 部署环境 jdk1.8Idea或eclipse 运行效果 本…

你写过的最蠢的代码是?——后端篇

&#x1f337;&#x1f341; 博主猫头虎&#xff08;&#x1f405;&#x1f43e;&#xff09;带您 Go to New World✨&#x1f341; &#x1f984; 博客首页: &#x1f405;&#x1f43e;猫头虎的博客&#x1f390;《面试题大全专栏》 &#x1f995; 文章图文并茂&#x1f996…

java图书信息管理

一、项目概述 本图书信息管理系统旨在提供一个直观的用户界面&#xff0c;用于管理图书馆或书店的图书信息。系统包括图书添加、查询、借阅和归还等功能。 二、系统架构 系统采用JavaSwing作为前端UI框架&#xff0c;后端使用Java Servlet处理业务逻辑&#xff0c;数据存储在…

你写过的最蠢的代码是?——全栈开发篇

&#x1f337;&#x1f341; 博主猫头虎 带您 Go to New World.✨&#x1f341; &#x1f984; 博客首页——猫头虎的博客&#x1f390; &#x1f433;《面试题大全专栏》 文章图文并茂&#x1f995;生动形象&#x1f996;简单易学&#xff01;欢迎大家来踩踩~&#x1f33a; &a…

【题解 动态规划】 Colored Rectangles

题目描述&#xff1a; 分析&#xff1a; 乍一看我还以为是贪心&#xff01; 猫 想想感觉没问题 但是局部最优并不能保证全局最优 比如这组数据 19 19 19 19 20 20 20 20如果按照贪心的做法&#xff0c;答案是20*20*2 但是其实答案是19*20*4 因此这道题用贪心是不对的 于是我…

Autowired和Resource的关系

相同点对于下面的代码来说&#xff0c;如果是Spring容器的话&#xff0c;两个注解的功能基本是等价的&#xff0c;他们都可以将bean注入到对应的field中 不同点但是请注意&#xff0c;这里说的是基本相同&#xff0c;说明还是有一些不同点的&#xff1a; byName和byType匹配顺…

二十八、高级IO与多路转接之select

文章目录 一、五种IO模型&#xff08;一&#xff09;阻塞IO:&#xff08;二&#xff09;非阻塞IO:&#xff08;三&#xff09;信号驱动IO:&#xff08;四&#xff09;IO多路转接:&#xff08;五&#xff09;异步IO: 二、高级IO重要概念&#xff08;一&#xff09;同步通信 vs 异…