【AI视野·今日Sound 声学论文速览 第四十三期】Mon, 8 Jan 2024

news2025/1/12 15:50:29

AI视野·今日CS.Sound 声学论文速览
Mon, 8 Jan 2024
Totally 6 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

MusicAOG: an Energy-Based Model for Learning and Sampling a Hierarchical Representation of Symbolic Music
Authors Yikai Qian, Tianle Wang, Xinyi Tong, Xin Jin, Duo Xu, Bo Zheng, Tiezheng Ge, Feng Yu, Song Chun Zhu
在解决人工智能音乐智能的可解释性和泛化性的挑战时,本文引入了一种新颖的符号表示,它融合了不同传统和粒度的显性和隐性音乐信息。该模型利用分层和/或图形表示,采用节点和边来封装广泛的音乐元素,包括结构、纹理、节奏和和声。这种分层方法扩展了不同音阶音乐的可表现性。这种表示形式是基于能量的模型的基础,该模型专门针对通过依赖于极小最大熵原理的灵活算法框架来学习音乐概念而定制。该模型利用经过调整的 Metropolis Hastings 采样技术,可以对音乐生成进行细粒度控制。将这种新颖的方法与现有方法进行对比的全面实证评估表明,在可解释性和可控性方面取得了相当大的进步。

Gradient weighting for speaker verification in extremely low Signal-to-Noise Ratio
Authors Yi Ma, Kong Aik Lee, Ville Hautam ki, Meng Ge, Haizhou Li
说话人验证会受到背景噪声的阻碍,尤其是在信噪比 SNR 低于 0 dB 的情况下。在不引入不需要的伪影的情况下抑制噪声是很困难的,这会对说话者验证产生不利影响。我们提出了称为梯度加权 Grad W 的机制,它在预测过程中动态识别并减少伪影噪声。该机制基于梯度指示模型正在关注输入的哪些部分的属性。具体来说,当说话者网络关注去噪话语中的某个区域而不是干净的对应区域时,我们认为它是伪影噪声,并在增强优化期间为该区域分配更高的权重。我们通过训练增强模型并测试说话者验证的增强话语来验证它。

Towards Weakly Supervised Text-to-Audio Grounding
Authors Xuenan Xu, Ziyang Ma, Mengyue Wu, Kai Yu
文本到音频接地 TAG 任务旨在预测自然语言描述的声音事件的开始和偏移。该任务可以促进多模式信息检索等应用。本文重点关注弱监督文本到音频接地 WSTAG,其中声音事件的帧级注释不可用,并且只能利用整个音频剪辑的标题进行训练。 WSTAG 在对大型音频文本数据集的可扩展性方面优于强监督方法。本文研究了句子级别和短语级别的两个WSTAG框架。首先,我们分析了先前 WSTAG 方法中使用的均值池的局限性,并研究了不同池策略的效果。然后,我们提出短语级 WSTAG,以使用音频剪辑和短语之间的匹配标签进行训练。提出了先进的负采样策略和自监督来提高弱标签的准确性并提供伪强标签。实验结果表明,我们的系统明显优于之前的 WSTAG SOTA。最后,我们进行了大量的实验来分析几个因素对短语级别 WSTAG 的影响。

Siamese Residual Neural Network for Musical Shape Evaluation in Piano Performance Assessment
Authors Xiaoquan Li, Stephan Weiss, Yijun Yan, Yinhe Li, Jinchang Ren, John Soraghan, Ming Gong
理解和识别音乐形态在音乐教育和表演评估中起着重要作用。为了简化时间和成本密集的音乐形状评估,在本文中,我们探讨了如何应用人工智能驱动模型。将音乐形状评估视为分类问题,提出了轻量级连体残差神经网络 S ResNN 来自动识别音乐形状。为了在钢琴音乐形状评估的背景下评估所提出的方法,我们生成了一个新的数据集,其中包含由 147 次钢琴准备练习衍生的 4116 首音乐作品,并以 28 类音乐形状进行演奏。

A unified multichannel far-field speech recognition system: combining neural beamforming with attention based end-to-end model
Authors Dongdi Zhao, Jianbo Ma, Lu Lu, Jinke Li, Xuan Ji, Lei Zhu, Fuming Fang, Ming Liu, Feijun Jiang
远场语音识别是一项具有挑战性的任务,通常使用信号处理波束成形来解决噪声和干扰问题。但由于严重依赖环境假设,性能通常受到限制。在本文中,我们提出了一种统一的多通道远场语音识别系统,该系统结合了神经波束成形和基于变压器的听、拼写、出席 LAS 语音识别系统,将端到端语音识别系统进一步扩展到包括语音增强。然后联合训练这样的框架以优化最终的感兴趣目标。具体来说,采用因子复数线性投影 fCLP 来形成神经波束形成。然后比较几种结合观察方向的池化策略,以找到最佳方法。此外,波束成形中还集成了源方向的信息,以探索源方向作为先验的有用性,这通常在多模态场景中可用。对不同麦克风阵列几何形状进行实验,以评估麦克风阵列对间距变化的鲁棒性。

Some clues to build a sound analysis relevant to hearing
Authors Laurent Millot ACTE
音乐家或音响工程师在研究实验室中用于声音合成的分析工具可能相当不同。对这些工具的假设和局限性的讨论允许为所有声音演员提出尽可能相关和通用的第一个工具,其主要目标是必须能够聆听分析的每个元素,因为听力是最终参考工具。将来,该工具还应该用于在最近关于乐器建模、语音生成和扬声器设计的一些工作的基础上重新研究声音或声学的定义。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1377351.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

实现秒杀功能设计

页面 登录页面 登录成功后,跳转商品列表 商品列表页 加载商品信息 商品详情页 根据商品id查出商品信息返回VO(包括rmiaoshaStatus、emainSeconds)前端根据数据展示秒杀按钮,点击开始秒杀 订单详情页 秒杀页面设置 后端返回秒杀…

在线陪玩软件开发系统(APP小程序H5、平台、搭建)游戏陪玩系统APP开发 源码搭建,源码交付,支持二开!

一、游戏陪玩系统APP的核心功能 1. 匹配系统:通过智能匹配算法,将寻找陪玩的玩家与愿意提供陪玩服务的玩家进行匹配,确保双方的需求能够得到满足。 2. 实时通讯:提供实时语音和文字聊天功能,让玩家和陪玩者可以在游戏…

Js - 函数(四)

1.函数简单介绍 什么是函数? 函数(function)是执行特定任务的一段代码块 为什么需要函数? 可以实现代码复用,提高开发效率 2.函数使用 函数的声明语法 函数名命名规范 函数的调用语法 函数体 函数体是函数的构…

【Scala】——流程控制

1 if-else 分支控制 让程序有选择的的执行,分支控制有三种:单分支、双分支、多分支 1.1单分支 if (条件表达式) {执行代码块 }1.2 双分支 if (条件表达式) {执行代码块 1 } else {执行代码块 2 }1.3 多分支 if (条件表达式1) {执行代码块 1 } else …

选中图层为什么不能建立3D模型---模大狮模型网

在Photoshop CC 2021(也就是PS6)中,要将选中的图层转换为3D模型,需要满足以下几个条件: 图层类型支持:只有特定类型的图层可以被转换为3D模型。通常,普通的像素图层、矢量图层和形状图层都可以进行转换。但是&#xff…

仲晶同志简历

女,汉族。1972年出生,国防大学科技与装备教研室教官。1992年,仲晶毕业于军事气象学院,1996年成为国防大学国防科技发展战略学硕士研究生,毕业后留校任教。曾出版过9部军事专著,先后发表学术论文100多万字。…

VUE element-ui实现表格动态展示、动态删减列、动态排序、动态搜索条件配置、表单组件化。

1、实现效果 1.1、文件目录 1.2、说明 1、本组件支持列表的表头自定义配置,checkbox实现 2、本组件支持列表列排序,vuedraggable是拖拽插件,上图中字段管理里的拖拽效果 ,需要的话请自行npm install 3、本组件支持查询条件动态…

代码随想录算法训练营第三十一天|理论基础、455.分发饼干、376. 摆动序列、53. 最大子序和

题目:理论基础 解释:贪心的本质是选择每一阶段的局部最优,从而达到全局最优 题目:455.分发饼干 文章链接:代码随想录 视频链接:LeetCode:455.分发饼干 题目链接:力扣题目链接 图释&#x…

【REST2SQL】07 GO 操作 Mysql 数据库

【REST2SQL】01RDB关系型数据库REST初设计 【REST2SQL】02 GO连接Oracle数据库 【REST2SQL】03 GO读取JSON文件 【REST2SQL】04 REST2SQL第一版Oracle版实现 【REST2SQL】05 GO 操作 达梦 数据库 【REST2SQL】06 GO 跨包接口重构代码 MySQL是一个关系型数据库管理系统&#xf…

低代码与小程序开发:简化创新,加速应用开发

随着信息技术的迅速发展,应用程序的需求与日俱增。然而,传统的软件开发往往耗时、复杂,对于许多企业和开发者来说,开发应用程序的成本和难度成为了一道门槛。而近年来,低代码开发和小程序开发的兴起为解决这一难题带来…

专搞大厂?免费开源?这个小工具我相信很多人需要!

软件简介: 软件【下载地址】获取方式见文末。注:推荐使用,更贴合此安装方法! XHS-Downloader v1.6是一款功能齐全的免费开源工具,它使用Python Requests库开发而成,用于采集和下载X红S作品。该工具具备多…

青年人格测验

青年人格量表也叫加州人格量表(cpi),源于美国心理学家高夫的人格理论,共包含有18个维度,其中每个维度都是人格的基础元素,是人们在成长和外界交往中所形成的。 主要应用在人才测评领域,用来评估…

「 网络安全术语解读 」点击劫持Clickjacking详解

引言:要想深入理解点击劫持攻击,我们需要先清楚iframe的用途及优缺点。 1. 关于iframe iframe是HTML语言中的一部分,通常用于在网页中嵌入其他网页的内容,如图像、视频、音频、链接等。它允许在一个网页中插入另一个网页&#xf…

《豫鄂烽火燎原大小焕岭》:一部穿越时空的历史史诗

《豫鄂烽火燎原大小焕岭》:一部穿越时空的历史史诗 一部赓续红色血脉的生动教材 一部讴歌时代英雄和人民精神宝典 当历史的烽烟渐渐远去,留下的是一页页泛黄的记忆和无数英雄的壮丽诗篇。李传铭的力作《豫鄂烽火燎原大小焕岭》正是这样一部深情的回望&am…

实现线程同步的几种方式

线程同步 1. 线程同步概念 线程同步是指多个线程协调它们的执行顺序,以确保它们正确、安全地访问共享资源。在并发编程中,当多个线程同时访问共享数据或资源时,可能会导致竞争条件(Race Condition)和其他并发问题 所…

【深度学习 | 风格迁移】神经网络风格迁移,原理详解附详细案例源码

🤵‍♂️ 个人主页: AI_magician 📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。 👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!&…

HackerGPTWhiteRabbitNeo的使用及体验对比

1. 简介 WhiteRabbitNeo(https://www.whiterabbitneo.com/)是基于Meta的LLaMA 2模型进行特化的网络安全AI模型。通过专门的数据训练,它在理解和生成网络安全相关内容方面具有深入的专业能力,可广泛应用于教育、专业培训和安全研究…

【教学类-45-02】X-Y之间的“三连减“题(a-b-c=)

作品展示: 背景需求: 【教学类-45-01】X-Y之间的三连加题(abc)-CSDN博客文章浏览阅读5次。【教学类-45-01】X-Y之间的三连加题(abc)https://blog.csdn.net/reasonsummer/article/details/135436915 有了三连加怎么能没有三连减,修改参数&am…

实战使用工具appuploader上线发布苹果商店

实战使用工具appuploader上线发布苹果商店 我们发布ios应用的时候,步骤繁琐,非常耗时,appuploader工具就是解决一站式从上传到发布到appstore应用商店的,当我们开发完app后,需要将ipa/apk提交给测试人员测试&#xff0…

智能分析网关V4基于AI视频智能分析技术的周界安全防范方案

一、背景分析 随着科技的不断进步,AI视频智能检测技术已经成为周界安全防范的一种重要手段。A智能分析网关V4基于深度学习和计算机视觉技术,可以通过多种AI周界防范算法,实时、精准地监测人员入侵行为,及时发现异常情况并发出警报…