【AI视野·今日Sound 声学论文速览 第二十期】Fri, 6 Oct 2023

news2024/11/20 16:26:58

AI视野·今日CS.Sound 声学论文速览
Fri, 6 Oct 2023
Totally 6 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Deep Generative Models of Music Expectation
Authors Ninon Liz Masclef, T. Anderson Keller
对音乐的情感反应的一个重要理论围绕着惊喜和期望的概念。在之前的工作中,这个想法已经以音乐概率模型的形式得以实施,该模型允许精确计算歌曲或逐个音符的概率,以先前的音乐或文化经验的训练集为条件。然而,迄今为止,这些模型仅限于通过手工制作的特征计算精确的概率,或者仅限于线性模型,这些模型可能不足以表示音乐中存在的复杂条件分布。在这项工作中,我们建议使用扩散模型形式的现代深度概率生成模型来计算音乐输入序列的近似可能性。与之前的工作不同,这种由深度神经网络参数化的生成模型能够直接从训练集本身学习复杂的非线性特征。在此过程中,我们期望发现此类模型能够更准确地为人类听众呈现音乐的惊喜。从文献中可以看出,惊讶感与喜欢某首歌曲的人类受试者数量之间存在倒 U 形关系。在这项工作中,我们表明,预先训练的扩散模型确实产生了音乐惊喜值,该值与测量的受试者喜好评分呈现负二次关系,并且这种关系的质量与 IDyOM 等最先进的方法具有竞争力。

An Integrated Algorithm for Robust and Imperceptible Audio Adversarial Examples
Authors Armin Ettenhofer, Jan Philipp Schulze, Karla Pizzi
音频对抗示例是经过操纵以欺骗自动语音识别 ASR 系统的音频文件,但对人类听众来说听起来仍然是良性的。大多数生成此类样本的方法首先基于两步算法,生成可行的对抗性音频文件,然后在可感知性和鲁棒性方面进行微调。在这项工作中,我们提出了一种集成算法,该算法在生成步骤中使用心理声学模型和房间脉冲响应 RIR。 RIR 由神经网络在生成过程中动态创建,以模拟物理环境,以强化我们的示例,以应对空中攻击中经历的转换。我们在模拟环境和现实的空中场景中的三个实验中比较了不同的方法,以评估鲁棒性,并在人体研究中评估可感知性。

Speaker localization using direct path dominance test based on sound field directivity
Authors Boaz Rafaely, Koby Alhaiany
估计房间内扬声器的到达方向 DoA 在许多音频信号处理应用中非常重要。具有掩盖 DoA 信息的混响的环境尤其具有挑战性。最近,开发了一种对混响具有鲁棒性的 DoA 估计方法。该方法识别由直接路径的贡献主导的时频仓,该直接路径携带正确的DoA信息。然而,其实现对计算要求较高,因为它需要频率平滑来克服相干早期反射的影响,并需要矩阵分解来应用直接路径优势 DPD 测试。在这项工作中,基于传感器阵列的方向性测量,提出了一种计算高效的 DPD 测试替代方案,它既不需要频率平滑,也不需要矩阵分解,并且已经针对球形麦克风阵列的声场方向性进行了重新表述。本文介绍了所提出的方法,并在一系列混响和噪声条件下与以前的方法进行了比较。

Performance and energy balance: a comprehensive study of state-of-the-art sound event detection systems
Authors Francesca Ronchini, Romain Serizel
近年来,深度学习系统呈现出复杂性增加和能耗增加的令人担忧的趋势。作为该领域的研究人员和声学场景和事件的检测和分类挑战任务之一的组织者,我们认识到解决数据驱动的 SED 系统对环境影响的重要性。在本文中,我们提出了一项基于挑战提交的针对 SED 系统的分析。其中包括对过去两年的比较以及对今年 SED 系统的详细分析。

VaSAB: The variable size adaptive information bottleneck for disentanglement on speech and singing voice
Authors Frederik Bous, Axel Roebel
信息瓶颈自动编码器是一种常用于语音转换的解缠结工具。成功的解开依赖于瓶颈尺寸的正确选择。以前的瓶颈自动编码器通过潜在空间的维度或通过矢量量化来创建瓶颈,并且无法改变特定模型的瓶颈大小。由于瓶颈从解缠结表示中删除信息,因此瓶颈大小的选择是解缠结和合成质量之间的权衡。我们建议使用 dropout 来构建信息瓶颈,这使我们能够通过 dropout 率来改变瓶颈,并根据上下文研究调整瓶颈大小。我们通过实验探索使用自适应瓶颈进行音调变换,并证明自适应瓶颈可以改善语音和歌声的 F0 参数的解开,从而提高合成质量。

The North System for Formosa Speech Recognition Challenge 2023
Authors Li Wei Chen, Kai Chen Cheng, Hung Shin Lee
本报告对拟议的 North 系统进行了简要概述,该系统旨在实现台湾客家四弦的自动单词音节识别。该报告概述了系统的三个关键组成部分:训练数据的获取、组成和利用、模型的架构以及硬件规格和操作统计数据。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1064380.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

时间序列常用数据处理

1.组合技巧Compose 1.2 实例应用及其解释 # 用于组合多个数据处理方法 class Compose(object):def __init__(self, transforms):self.transforms transformsdef __call__(self, seq):for t in self.transforms:seq t(seq)return seq 这段Python代码定义了一个名为Compose的…

星火大模型AI接口Spring中项目中使用【星火、AIGC】

星火大模型AI接口使用 讯飞的星火大模型是有免费版本赠送200万个Token,就个人学习来说完全够用了。 免费申请过后,到控制台,两个红色方框是最要紧的。 星火认知大模型Web文档 | 讯飞开放平台文档中心 (xfyun.cn)这是官方文档对于接口的详细使…

【AI视野·今日NLP 自然语言处理论文速览 四十九期】Fri, 6 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Fri, 6 Oct 2023 Totally 44 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning Authors Ke Wang, Houxi…

如何一键转发朋友圈,快速跟圈?

你是否曾为在微信上快速转发别人的朋友圈而烦恼?每天都要花费大量时间下载商品图片和复制粘贴商家的文案,让人疲惫不堪。我觉得这样太繁琐太麻烦了,每天都会上新货,上传朋友圈都要花将近一个小时的时间,花了大量时间在…

【C++设计模式之状态模式:行为型】分析及示例

简介 状态模式(State Pattern)是一种行为型设计模式,它允许对象在内部状态改变时改变其行为,看起来就像是改变了其类。状态模式将对象的状态封装成不同的类,并使得对象在不同状态下有不同的行为。 描述 状态模式通过…

C++ 类和对象篇(五) 析构函数

目录 一、概念 1. 析构函数是什么? 2. 为什么要有析构函数? 3. 怎么用析构函数? 3.1 创建析构函数 3.2 调用析构函数 二、特性 三、由编译器生成的默认析构函数 四、对象的析构顺序 1. 局部对象 2. new出来的堆对象 3. 全局对象 一、概念 1…

Linux指令示范(1)

个人主页:Lei宝啊 愿所有美好如期而遇

小程序支付升级:实现微信支付V3接口接入

文章目录 用户付款流程业务流程讲解接入前准备快速接入1、引入开发库2、配置参数3、初始化商户配置4、微信支付对接5、支付回调-支付通知API 相较于 v2 版本,v3 版本的接口文档在阅读上可能显得相对凌乱。它的组织结构可能不太清晰,难以快速理解整个流程…

【Go语言实战】(25) 分布式算法 MapReduce

MapReduce 写在前面 身为大数据专业的学生,其实大学我也多多少少接触过mapreduce,但是当时觉得这玩意太老了,觉得这和php一样会被时代淘汰。只能说当时确实太年轻了,没有好好珍惜那时候的学习资源… 现在回过头来看mapreduce&a…

聊聊分布式架构——RPC通信原理

目录 RPC通信的基本原理 RPC结构 手撸简陋版RPC 知识点梳理 1.Socket套接字通信机制 2.通信过程的序列化与反序列化 3.动态代理 4.反射 思维流程梳理 码起来 服务端时序图 服务端—Api与Provider模块 客户端时序图 RPC通信的基本原理 RPC(Remote Proc…

【算法练习Day13】二叉树的层序遍历翻转二叉树对称二叉树

​📝个人主页:Sherry的成长之路 🏠学习社区:Sherry的成长之路(个人社区) 📖专栏链接:练题 🎯长路漫漫浩浩,万事皆有期待 文章目录 二叉树的层序遍历翻转二叉树…

安装Ubuntu提示:系统找不到指定的文件。

今天我删除Ubuntu后重新下载,发现报错,错误信息如下: 这是因为系统没有卸载干净而导致的。 解决办法: 第一步: ##查询当前已安装的系统 wsl.exe --list --all 执行结果: 第二步: ##注销当前…

【GSEP202303 C++】1级 长方形面积

[GSEP202303 一级] 长方形面积 题目描述 小明刚刚学习了如何计算长方形面积。他发现,如果一个长方形的长和宽都是整数,它的面积一定也是整数。现在,小明想知道如果给定长方形的面积,有多少种可能的长方形,满足长和宽…

BF算法详解(JAVA语言实现)

目录 BF算法的介绍 图解 JAVA语言实现 BF算法的时间复杂度 BF算法的介绍 BF算法,即暴力(Brute Force)算法,是普通的模式匹配算法,BF算法的思想就是将目标串S的第一个字符与模式串T的第一个字符进行匹配,若相等,则继…

C++设计模式-桥接(Bridge)

目录 C设计模式-桥接(Bridge) 一、意图 二、适用性 三、结构 四、参与者 五、代码 C设计模式-桥接(Bridge) 一、意图 将抽象部分与它的实现部分分离,使它们都可以独立地变化。 二、适用性 你不希望在抽象和它…

[笔记] Microsoft Windows网络编程《三》网际协议

文章目录 前言3.1 IPv43.1.1 寻址3.1.1.1 单播3.1.1.2 多播(组播)3.1.1.3 广播 3.1.2 IPv4 管理协议(ARP,ICMP,IGMP)ARPICMPIGMP 3.1.3 Winsock 中的IPv4 寻址 3.2 IPv63.2.1 寻址3.2.1.1 单播链接——本地地址站点——本地地址&a…

ipa文件怎么把应用上架到苹果ios系统下载的App Store商城

注册为苹果开发者:首先,您需要注册为苹果开发者。前往苹果开发者网站(https://developer.apple.com/),点击"Enroll"按钮,并按照相关步骤注册和付费(开发者账号需要年度费用&#xff0…

【Java 进阶篇】使用 JDBCTemplate 执行 DQL 语句详解

在前面的文章中,我们已经学习了如何使用 Spring 的 JDBCTemplate 执行 DML(Data Manipulation Language)操作,包括插入、更新和删除操作。现在,让我们来深入了解如何使用 JDBCTemplate 执行 DQL(Data Query…

SpringCloud Alibaba - Seata 四种分布式事务解决方案(TCC、Saga)+ 实践部署(下)

目录 一、Seata 分布式解决方案 1.1、TCC 模式 1.1.1、TCC 模式理论 对比 TCC 和 AT 模式的一致性和隔离性 TC 的工作模型 1.2.2、TCC 模式优缺点 1.2.3、TCC 模式注意事项:空回滚 1.2.4、TCC 模式注意事项:业务悬挂 1.2.5、实现 TCC 模式 案例…

MySQL数据库基础回顾与复习一

MySQL数据库 一、原理定义概念 定义 数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库 数据库是长期储存在计算机内、有组织的、可共享的数据集合 分类: (1)非结构化数据: 数据相对来讲没…