【AI视野·今日Sound 声学论文速览 第五十四期】Thu, 7 Mar 2024

news2024/11/18 11:30:20

AI视野·今日CS.Sound 声学论文速览
Thu, 7 Mar 2024
Totally 8 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Can Audio Reveal Music Performance Difficulty? Insights from the Piano Syllabus Dataset
Authors Pedro Ramoneda, Minhee Lee, Dasaem Jeong, J.J. Valero Mas, Xavier Serra
自动评估音乐作品的演奏难度是音乐教育中根据学生的个人需求创建定制课程的关键过程。鉴于其相关性,音乐信息检索 MIR 领域描述了一些解决此任务的概念证明工作,主要关注高级音乐抽象,例如机器可读乐谱或乐谱图像。在这方面,直接分析录音的潜力通常被忽视,这阻止了学生探索可能没有正式符号级别转录的各种音乐作品。这项工作开创了自动估计录音中音乐作品的演奏难度的先河,有两个精确的贡献:第一个基于音频的难度估计数据集,即钢琴教学大纲 PSyllabus 数据集,包含来自 1,233 名作曲家的 11 个难度级别的 7,901 首钢琴曲,以及一个识别框架能够管理直接从音频派生的单模态和多模态方式的不同输入表示,以执行难度估计任务。包括不同预训练方案、输入模式和多任务场景的综合实验证明了该提案的有效性,并将 PSyllabus 建立为 MIR 领域基于音频的难度估计的参考数据集。

RADIA -- Radio Advertisement Detection with Intelligent Analytics
Authors Jorge lvarez, Juan Carlos Armenteros, Camilo Torr n, Miguel Ortega Mart n, Alfonso Ardoiz, scar Garc a, Ignacio Arranz, igo Galdeano, Ignacio Garrido, Adri n Alonso, Fernando Bay n, Oleg Vorontsov
广播广告仍然是现代营销策略不可或缺的一部分,其吸引力和目标受众潜力无可否认是有效的。然而,广播播放时间的动态性质和多个广播节目的增长趋势需要一个有效的系统来监控广告广播。本研究研究了一种新颖的自动广播广告检测技术,结合了先进的语音识别和文本分类算法。 RadIA 的方法超越了传统方法,无需事先了解广播内容。这一贡献允许检测即兴广告和新引入的广告,为无线电广播中的广告检测提供全面的解决方案。实验结果表明,所得到的模型经过仔细分段和标记的文本数据的训练,取得了 87.76 的 F1 宏观分数,而理论最大值为 89.33。本文深入探讨了超参数的选择及其对模型性能的影响。这项研究证明了它在确保遵守广告广播合同和提供竞争性监控方面的潜力。

Non-verbal information in spontaneous speech - towards a new framework of analysis
Authors Tirza Biron, Moshe Barboy, Eran Ben Artzy, Alona Golubchik, Yanir Marmor, Smadar Szekely, Yaron Winter, David Harel
语音中的非语言信号由韵律编码,并携带从对话动作到态度和情感的信息。尽管它很重要,但控制韵律结构的原则尚未得到充分理解。本文为韵律信号的分类及其与意义的关联提供了分析模式和技术概念证明。该模式解释了多层韵律事件的表面表征。作为实现的第一步,我们提出了一个分类过程,可以解开三个顺序的韵律现象。它依赖于微调预训练的语音识别模型,从而实现同时多类多标签检测。它概括了各种各样的自发数据,其性能与人类注释相当或优于人类注释。除了韵律的标准化形式化之外,解开韵律模式还可以指导沟通和言语组织的理论。

METAMAT 01: A semi-analytic Solution for Benchmarking Wave Propagation Simulations of homogeneous Absorbers in 1D/3D and 2D
Authors Stefan Schoder, Paul Maurerlehner
时域描述中声学仿真工作流程的开发对于预测气动声学或其他瞬态声学效应的声音至关重要。减轻噪音的常见做法是使用吸收器。这些吸声器的建模通常在频域中提供。建立了多种方法来弥补这一差距,研究在时域中对吸收器进行建模的方法。因此,这篇短文描述了时域解析解,用于对无限 1D、2D 和 3D 域的吸收体模拟进行基准测试。连接到解析解,提供Matlab脚本以轻松获得参考解。

Interactive Melody Generation System for Enhancing the Creativity of Musicians
Authors So Hirawata, Noriko Otani
这项研究提出了一个系统,旨在使用自动音乐创作技术来枚举人类之间的协作创作过程。通过集成多个循环神经网络 RNN 模型,该系统提供了类似于与多位作曲家合作的体验,从而培养了多样化的创造力。通过根据反馈动态适应用户的创作意图,系统增强了生成符合用户偏好和创作需求的旋律的能力。通过对不同背景的作曲家进行的实验评估了该系统的有效性,揭示了其促进音乐创造力的潜力,并提出了进一步完善的途径。该研究强调了作曲家与人工智能之间互动的重要性,旨在使音乐创作变得更容易理解和个性化。

Comparison Performance of Spectrogram and Scalogram as Input of Acoustic Recognition Task
Authors Dang Thoai Phan, Andre Jakob, Marcus Purat
声学识别是最近研究中深度学习的常见任务,采用短时傅里叶变换和小波变换等频谱特征提取。然而,没有多少研究发现讨论光谱特征提取器的优缺点以及性能比较。考虑到这一点,本文旨在比较这两种变换类型(称为谱图和尺度图)的属性。实现了用于声学故障识别的卷积神经网络,然后记录这两种类型的频谱提取器的性能以进行比较。考虑对同一音频数据库进行最新研究进行基准测试,以了解设计的频谱图和尺度图的效果如何。还分析了它们的优点和局限性。

Reinforcement Learning Jazz Improvisation: When Music Meets Game Theory
Authors Vedant Tapiavala, Joshua Piesner, Sourjyamoy Barman, Feng Fu
现场音乐表演总是迷人的,由于音乐家之间的动态以及与观众的互动,即兴创作具有不可预测性。爵士乐即兴创作是一个特别值得从理论角度进一步研究的例子。在这里,我们介绍了一种新颖的爵士乐即兴创作数学博弈论模型,为研究音乐理论和即兴创作方法提供了框架。我们使用计算模型(主要是强化学习)来探索不同的随机即兴策略及其在即兴创作中的配对表现。我们发现最有效的策略对是一种对最近的收益逐步变化做出反应的策略,其强化学习策略仅限于给定和弦中的音符和弦跟随强化学习。相反,对合作伙伴的最后一个音符做出反应并尝试与其和谐预测策略对协调的策略会产生最低的非控制收益和最高的标准偏差,这表明根据对合作伙伴玩家的即时反应来选择音符可能会产生不一致的结果。平均而言,和弦跟随强化学习策略表现出最高的平均回报,而和声预测表现出最低的平均回报。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1499074.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

学生信息管理APP

设计内容简介 本次设计使用Android Studio实现一个学生信息管理系统,系统功能结构如下图所示: 详细设计 数据库设计SQLite,是一款轻型的数据库,是遵守ACID的关联式数据库管理系统,它的设计目标是嵌入式的,而且目前已经在很多嵌入式产品中使用了它,它占用资源非常的低。…

Android14音频进阶:AudioTrack与AudioFlinger创建数据通道(五十八)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒体系统工程师系列【原创干货持续更新中……】🚀 人生格言: 人生从来没有捷径,只…

UNIAPP微信小程序中使用Base64编解码原理分析和算法实现

为何要加上UNIAPP及微信小程序,可能是想让检索的翻围更广把。😇 Base64的JS原生编解码在uni的JS引擎中并不能直接使用,因此需要手写一个原生的Base64编解码器。正好项目中遇到此问题,需要通过URLLink进行小程序跳转并携带Base64参…

定时执行专家V7.1 多国语言版本英文版发布 - TimingExecutor V7.1 English Version Release

目录 ◆ About TimingExecutor ◆ Main Frame ◆ Job Dailog ◆ Trigger Dialog ◆ Setting Dialog ◆ About Dialog ◆ Job Detail Information panel ◆ Statistics Information panel ◆ About TimingExecutor 《定时执行专家》是一款制作精良、功能强大、毫秒精度…

数据库RDBMS1

配置MySQL 准备网络yum源(准备物理机或一台虚拟机作为仓库服务器) [rootzzgrhel8 ~]# yum install -y httpd php php-mysqlnd php-xml php-json createrepo [rootzzgrhel8 ~]# systemctl start httpd [rootzzgrhel8 ~]# systemctl enable httpd [root…

linux系统命令深入研究1——ls的参数

ls list命令有一些常用的参数,其中-a意为列出all全部文件(包括隐藏文件),-l列出详细信息,-h以人类可阅读的方式列出文件大小 --full-time是列出详细时间信息,包括最后一次修改时间 -t是按时间排序&#xff…

【MySQL 系列】MySQL 起步篇

MySQL 是一个开放源代码的、免费的关系型数据库管理系统。在 Web 开发领域,MySQL 是最流行、使用最广泛的关系数据库。MySql 分为社区版和商业版,社区版完全免费,并且几乎能满足全部的使用场景。由于 MySQL 是开源的,我们还可以根…

Git 掌握

目录 一、前言 二、centos安装Git 三、Git基本操作 (1) 创建Git本地仓库 (2) 配置Git (3) 认识工作区,暂存区,版本库 四、添加文件 五、查看.git文件 六、修改文件 七、版本回退 八、撤销修改 (1) 场景一 对于还没有add的代码 (2) 场景二 已…

第一次捡垃圾

配置 cpu e3 1225 v6 淘宝 130 显卡 p106-100(1060矿卡的特称) 咸鱼 118 内存 8g 3200频率 2 咸鱼 702140 硬盘 128g 固态 咸鱼 35 主板 ex-b150m-v3 咸鱼 110 电源 400w 咸鱼 58 4热管cpu散热器 咸鱼 28 机箱 迷你 拼多多 28 电源线 1m5 淘宝 8 pcie转m.2 拼多多 9 编程器 用…

bun实现HTTP服务器

Bun 提供了原生 Bun.serve API。它实现了 fetch 以及Node.js的 http 和 https 模块。 这些模块已被重新实现,以使用 Bun 的快速内部 HTTP 基础设施。随意直接使用这些模块;像 Express 这样依赖于这些模块的框架应该开箱即用。有关详细的兼容性信息,请参阅…

R语言,实现MACD指标计算:股票技术分析的利器系列(1)

R语言,实现MACD指标计算:股票技术分析的利器系列(1) MACD指标代码完整代码介绍代码EMA函数calculate_DEA 函数calculate_MACD 函数 运行结果 MACD指标 先看看官方介绍: MACD (平滑异同平均线) 指标说明 DI…

【leetcode热题】环形链表

难度: 简单通过率: 34.9%题目链接:. - 力扣(LeetCode) 题目描述 给定一个链表,判断链表中是否有环。 为了表示给定链表中的环,我们使用整数 pos 来表示链表尾连接到链表中的位置(索…

图像处理与视觉感知---期末复习重点(2)

文章目录 一、空间域图像增强1.1 图像增强1.2 几种变换 二、直方图2.1 直方图定义2.2 直方图均衡化2.3 离散情况2.4 例子2.5 直方图匹配2.6 例子2.7 一道例题 三、空间滤波器3.1 定义3.2 例子 四、平滑空间滤波器4.1 作用与分类4.2 线性滤波器 五、统计排序滤波器5.1 定义与分类…

Qt添加VTK并绘制图形

文章目录 准备环境使用VS创建Qt Widget项目配置VTK依赖调试C/C链接器 添加vtk窗口测试代码 参考链接: VS2017配置QT环境(详细版)_vs2017 qt-CSDN博客 QT5VTK9.1最新配置方法_qt vtk-CSDN博客 VTK笔记-Qt5.12.11编译VTK9.0.3-QVTKOpenGLNativeWidget-CSDN博客 准…

算法---双指针练习-2(复写零)

1. 题目解析 题目地址:点这里 2. 讲解算法原理 首先,通过遍历数组 arr 来确定复写后数组的最后一个元素的值下标 dest。这个下标表示在复写后的数组中,最后一个元素应该存储的位置。遍历过程中,如果遇到非零元素,则 de…

AI Agents之CrewAI智能体开发框架

一、前言 AI Agents 的开发是当前软件创新领域的热点。随着大语言模型 (LLM) 的不断进步,预计 AI 智能体与现有软件系统的融合将出现爆发式增长。借助 AI 智能体,我们可以通过一些简单的语音或手势命令,就能完成以往需要手动操作应用程序才能…

Elemenu中el-table中使用el-popover选中关闭无效解决办法

主要是技术太菜,没找到原因,一点点才找到这个办法解决 因为在el-table-column里,因为是多行,使用trigger"manual" 时,用v-model"visible"来控制时,控件找不到这个值,才换成trigger"click" 先找到弹出关闭事件,再找元素的属性 右键>审核元素…

软考69-上午题-【面向对象技术2-UML】-关系

一、关系 UML中有4种关系: 依赖;关联;泛化;实现。 1-1、依赖 行为(参数),参数就是被依赖的事物,即:独立事物。 当独立事物发生变化时,依赖事务行为的语义也…

vue之性能

1.路由懒加载 所谓路由懒加载,其实就是路由通过import动态引入,而不是在文件最上面一个个全部引入,因为JS执行的时候会优先执行引入的文件,如果一次性引入过多,则会增加处理时长。 2.图片懒加载 图片在网页加载过程…