【AI视野·今日Sound 声学论文速览 第三十期】Fri, 20 Oct 2023

news2024/9/28 9:44:06

AI视野·今日CS.Sound 声学论文速览
Fri, 20 Oct 2023
Totally 7 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述


Interesting:

📚Loop Copilot,基于对话模型的作曲助理 (from 伦敦大学玛丽女王学院)
在这里插入图片描述
website:https://sites.google.com/view/loop-copilot



Daily Sound Papers

Uncertainty Quantification of Bandgaps in Acoustic Metamaterials with Stochastic Geometric Defects and Material Properties
Authors Han Zhang, Rayehe Karimi Mahabadi, Cynthia Rudin, Johann Guilleminot, L. Catherine Brinson
本文研究了不确定性量化技术(即谱投影和多项式混沌展开)的实用性,以减少在给定随机材料特性和几何缺陷的情况下表征声学超材料色散带响应的采样需求。在输入空间概率分布的形成中展示了一种以可解释的、与分辨率无关的方式编码几何缺陷的新方法。

Audio Editing with Non-Rigid Text Prompts
Authors Francesco Paissan, Zhepei Wang, Mirco Ravanelli, Paris Smaragdis, Cem Subakan
在本文中,我们探讨了非刚性文本编辑的音频编辑。我们表明,所提出的编辑管道能够创建忠实于输入音频的音频编辑。我们探索执行加法、风格转换和绘画的文本提示。我们定量和定性地表明,这些编辑能够获得优于 Audio LDM(最近发布的文本提示音频生成模型)的结果。

EmoDiarize: Speaker Diarization and Emotion Identification from Speech Signals using Convolutional Neural Networks
Authors Hanan Hamza, Fiza Gafoor, Fathima Sithara, Gayathri Anil, V. S. Anoop
在先进人工智能和人机交互的时代,识别口语中的情感至关重要。这项研究探索了深度学习技术在语音情感识别中的集成,为与说话人分类和情感识别相关的挑战提供了全面的解决方案。它引入了一个框架,该框架结合了现有的说话人二值化管道和基于卷积神经网络 CNN 构建的情绪识别模型,以实现更高的精度。所提出的模型使用来自五个语音情感数据集的数据进行训练,即 RAVDESS、CREMA D、SAVEE、TESS 和 Movie Clips,其中后者是专门为本研究创建的语音情感数据集。从每个样本中提取的特征包括梅尔频率倒谱系数 MFCC 、过零率 ZCR 、均方根 RMS 以及各种数据增强算法,例如音调、噪声、拉伸和移位。这种特征提取方法旨在提高预测精度,同时降低计算复杂度。

Energy-Based Models For Speech Synthesis
Authors Wanli Sun, Zehai Tu, Anton Ragni
最近,人们对用于语音合成的非自回归非 AR 模型产生了很大的兴趣,例如 FastSpeech 2 和扩散模型。与 AR 模型不同,这些模型的输出之间不存在自回归依赖性,这使得推理更加高效。本文通过另一个称为基于能量的模型 EBM 的成员扩展了可用的非 AR 模型的范围。该论文描述了如何使用噪声对比估计(依赖于正样本和负样本之间的比较)来训练 EBM。它提出了多种生成有效负样本的策略,包括使用高性能 AR 模型。它还描述了如何使用 Langevin Markov Chain Monte Carlo MCMC 执行 EBM 采样。 Langevin MCMC 的使用能够在 EBM 和当前流行的扩散模型之间建立联系。

Loop Copilot: Conducting AI Ensembles for Music Generation and Iterative Editing
Authors Yixiao Zhang, Akira Maezawa, Gus Xia, Kazuhiko Yamamoto, Simon Dixon
创作音乐是迭代的,每个阶段都需要不同的方法。然而,现有的人工智能音乐系统在协调多个子系统以满足不同需求方面存在不足。为了解决这一差距,我们推出了 Loop Copilot,这是一种新颖的系统,使用户能够通过交互式多轮对话界面生成并迭代地完善音乐。该系统使用大型语言模型来解释用户意图并选择合适的AI模型来执行任务。每个后端模型专门用于特定任务,并且它们的输出被聚合以满足用户的要求。为了确保音乐的连贯性,基本属性都保存在一个集中的表中。

The CHiME-7 Challenge: System Description and Performance of NeMo Team's DASR System
Authors Tae Jin Park, He Huang, Ante Jukic, Kunal Dhawan, Krishna C. Puvvada, Nithin Koluguri, Nikolay Karpov, Aleksandr Laptev, Jagadeesh Balam, Boris Ginsburg
我们在第七届 CHiME 挑战赛远程自动语音识别 DASR 任务中展示 NVIDIA NeMo 团队的多通道语音识别系统,重点开发多通道、多说话人语音识别系统,专门用于转录分布式麦克风和麦克风阵列的语音。该系统主要由以下几个集成模块组成:扬声器分类模块、多通道音频前端处理模块和ASR模块。这些组件共同建立了一个级联系统,精心处理多通道和多扬声器音频输入。此外,本文还重点介绍了显着提高我们系统性能的综合优化过程。

Property-Aware Multi-Speaker Data Simulation: A Probabilistic Modelling Technique for Synthetic Data Generation
Authors Tae Jin Park, He Huang, Coleman Hooper, Nithin Koluguri, Kunal Dhawan, Ante Jukic, Jagadeesh Balam, Boris Ginsburg
我们引入了一个复杂的多扬声器语音数据模拟器,专门用于生成多扬声器语音录音。该模拟器的一个显着特点是它能够通过调整统计参数来调节静音和重叠的分布。此功能提供了定制的训练环境,用于开发适合说话者分类和语音活动检测的神经模型。获取用于说话人分类的大量数据集通常会带来重大挑战,特别是在多说话人场景中。此外,语音数据的精确时间戳注释是训练说话人分类和语音活动检测的关键因素。我们提出的多扬声器模拟器通过生成大规模音频混合物来解决这些问题,该混合物保持与输入参数紧密一致的统计属性。我们证明了所提出的多扬声器模拟器生成的音频混合物具有与现实世界统计数据得出的输入参数密切相关的统计属性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1140470.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

c语言中啥时候用double啥时候用float?

c语言中啥时候用double啥时候用float? 一般来说,可以使用double来表示具有更高精度要求的浮点数,因为它可以存储更大范围的数值并且具有更高的精度。 最近很多小伙伴找我,说想要一些c语言资料,然后我根据自己从业十年…

netcore项目中使用miniexcel

1.miniexcel背景简介 常工作中经常与数据打交道的同学肯定会难以避免对Excel的一些数据操作如导入、导出等,但是当对一些大数据量操作Excel时经常会遇到一个常见的问题内存溢出。今天给大家推荐一个简单、高效、低内存避免OOM(内存溢出)的.N…

SILKYPIX Developer Studio Pro 11E for Mac: 掌握数码照片处理的黄金标准

在当今的数字时代,照片处理已经成为我们日常生活的一部分。无论是社交媒体分享,还是个人相册制作,我们总是希望我们的照片能够展现出最佳的效果。然而,这并非易事。幸运的是,SILKYPIX Developer Studio Pro 11E for Ma…

Angular-04:指令

① 内置指令1.1 *ngIf 结构指令1.2 [hidden] 属性指令1.3. *ngFor 结构指令1.4 *ngSwitch 结构指令 ② 自定义指令用法 指令是angular操作dom的途径,分为属性指令和结构指令。属性指令:修改元素的外观或行为。使用 [ ] 包裹。结构指令:增加、…

未来嵌入式在哪些方向会更火?

针对于嵌入式比较官方的定义为:嵌入式系统是以应用为中心,以现代计算机技术为基础,能够根据用户需求(功能、可靠性、成本、体积、功耗、环境等)灵活裁剪软硬件模块的专用计算机系统。目前,随着全球物联网设备的大量使用和ChatGpt的出现,嵌入式系统市场目前呈现出一个…

商人宝:选择服装店收银系统源码需要注意的三个关键点

当选择服装店收银系统源码时,有几个关键点需要注意。首先,确保系统具备完备的功能,以满足日常运营的需求。其次,易用性和用户体验也是重要的考虑因素。最后,安全性和稳定性是不可忽视的要素。商人宝开源收银系统今天分…

小型洗衣机哪个牌子质量好?家用小洗衣机推荐

随着人们的生活水平的提升,越来越多小伙伴来开始追求更高的生活水平,一些智能化的小家电就被发明出来,而且小型洗衣机是其中一个。现在通过内衣裤感染到细菌真的是越来越多,所以我们对内衣裤的清洗频次会高于普通衣服,…

第27届亚洲国际动力传动与控制技术展览会盛大开幕,意大利国家展团闪耀回归

2023年10月24日,第27届亚洲国际动力传动与控制技术展览会(PTC ASIA)在上海新国际博览中心正式拉开帷幕。作为亚太地区动力传动行业的风向标,PTC ASIA致力于为来自世界各地的参展企业提供专业的采供、技术信息交互平台,…

社群内容:吸粉、活跃社群的关键

优质的内容对社群的活跃度究竟有多重要,我们不妨通过以下的场景一起来感受下: 社群 1:每天群里发的都是一些标题党,诸如“震惊!**石头开口说人话”等; 社群 2:每天群里发…

css属性clip-path的使用说明

前言 当ui设计上的图片、div等的形状不是长方形,而是多边形的时候,就可以借助clip-path这个css属性来实现。 clip-path CSS 属性使用裁剪方式创建元素的可显示区域。区域内的部分显示,区域外的隐藏。【from: MDN】 clip-path可以理解为一把剪…

虹科干货 | HK-TrueNAS版本大揭秘!一文教您如何选择合适的TrueNAS软件

文章来源:虹科网络基础设施 阅读原文:https://mp.weixin.qq.com/s/Iv0zDDmiDgE9vEGlAZs-sg 1.导语 TrueNAS是虹科iXsystems 设计和开发的NAS 操作系统,提供许多功能,例如文件存储、虚拟机 (VM) 和媒体服务器。它基于…

21.9 Python 使用Selenium库

Selenium是一个自动化测试框架,主要用于Web应用程序的自动化测试。它可以模拟用户在浏览器中的操作,如打开网页、点击链接、填写表单等,并且可以在代码中实现条件判断、异常处理等功能。Selenium最初是用于测试Web应用程序的,但也…

SQL查询优化---子查询优化、排序分组优化、覆盖索引优化

1、子查询优化 1、尽量不要使用not in 或者 not exists 取所有不为掌门人的员工,按年龄分组 ,每个年龄段多少人 SELECT SQL_NO_CACHE age,count(*) FROM emp a WHERE id NOT IN(SELECT ceo FROM dept b2 WHERE ceo IS NOT NULL)group by age having…

NFC读卡器ST25R3911B-AQWT、ST25R3917B-AQET、ST25R3919B-AQET产品描述、功能框图

一、ST25R3911B 1.4 W功耗可支持VHBR和AAT的高性能HF读卡器 / NFC发起设备 ST25R3911B 是高度集成的NFC发起设备 / HF读卡器IC,包括模拟前端(analog front end,AFE)和一个高度集成的数据帧系统,可用于ISO 18092&#…

房产网源码 房产中介小程序源码 房产门户网站源码

房产网源码 房产中介小程序源码 房产门户网站源码 功能介绍: 一、付费发布信息 支持付费发布、刷新、置顶房源信息;二、个人发布信息 支持个人和房产经纪人发布房源信息;三、新房楼盘模块 支持新房楼盘功能,后台添加…

数字调制与星座图

文章目录 数字调制什么是调制?为什么调制?数字调制幅移键控 (ASK)频移键控 (FSK)相移键控 (PSK)二相相移键控(BPSK)正交相移键控(QPSK)补充:什么是相位 星座图IQ调制与解调IQ调制IQ解调IQ调制与解调的原理与过程IQ调制的应用举例 正交幅度调制…

ICC2:分段长tree的流程

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口 分段长tree操作起来方法很多,这里提供两种ICC2分段长tree的方法。有需要的可以试试。 1.用原始sdc长一遍tree,找得到要做subtree部分,并预估latency值。 2.把sdc中添加subtree clock,subtree是…

使用Intersection Observer API 检测元素是否出现在可视窗口

使用Intersection Observer API 检测元素是否出现在可视窗口 API解读: Intersection Observer API提供了一种异步检测目标元素与祖先元素或视口(可统称为根元素)相交情况变化的方法。 注意点:因为该 API 是异步的,它不会随着目标元素的滚动…

基于springboot实现校园交友网站管理系统项目【项目源码+论文说明】计算机毕业设计

基于springboot实现校园交友网站管理系统演示 摘要 随着信息技术和网络技术的飞速发展,人类已进入全新信息化时代,传统管理技术已无法高效,便捷地管理信息。为了迎合时代需求,优化管理效率,各种各样的管理系统应运而生…

COSCon'23媒体和社区合作伙伴正式公布!百川相聚,潮汇大海,邀您天府之城共话开源!...

一年一度的开源盛会,COSCon23 第八届中国开源年会,将于10月28~29日,在四川成都市高新区菁蓉汇召开!本次大会的主题是:“开源:川流不息、山海相映”! 如往年一样,作为中国最大的非营利…