【AI视野·今日Sound 声学论文速览 第四十期】Wed, 3 Jan 2024

news2024/11/15 21:08:30

AI视野·今日CS.Sound 声学论文速览
Wed, 3 Jan 2024
Totally 4 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Auffusion: Leveraging the Power of Diffusion and Large Language Models for Text-to-Audio Generation
Authors Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
扩散模型和大型语言模型法学硕士的最新进展极大地推动了 AIGC 领域的发展。 Text to Audio TTA 是一个新兴的 AIGC 应用程序,旨在根据自然语言提示生成音频,正在吸引越来越多的关注。然而,现有的 TTA 研究经常在生成质量和文本音频对齐方面遇到困难,尤其是对于复杂的文本输入。从最先进的文本到图像 T2I 扩散模型中汲取灵感,我们引入了 Auffusion,这是一个 TTA 系统,通过有效利用其固有的生成优势和精确的跨模态对齐,将 T2I 模型框架适应 TTA 任务。我们的客观和主观评估表明,Auffusion 超越了之前使用有限数据和计算资源的 TTA 方法。此外,T2I 之前的研究认识到编码器选择对跨模式对齐(例如细粒度细节和对象绑定)的重大影响,而之前的 TTA 工作中缺乏类似的评估。通过全面的消融研究和创新的交叉注意力图可视化,我们为 TTA 中的文本音频对齐提供了富有洞察力的评估。我们的研究结果揭示了 Auffusion 在生成准确匹配文本描述的音频方面的卓越能力,这在几个相关任务中得到了进一步证明,例如音频风格转换、修复和其他操作。

HAAQI-Net: A non-intrusive neural music quality assessment model for hearing aids
Authors Dyah A. M. G. Wisnu, Epri Pratiwi, Stefano Rini, Ryandhimas E. Zezario, Hsin Min Wang, Yu Tsao
本文介绍了HAAQI Net,这是一种专为助听器用户量身定制的用于音乐质量评估的非侵入式深度学习模型。与助听器音频质量指数 HAAQI 等传统方法相比,HAAQI Net 采用带有注意力的双向长短期记忆 BLSTM。它以评估的音乐样本和听力损失模式作为输入,生成预测的 HAAQI 分数。该模型采用来自 Audio Transformers BEAT 的预训练双向编码器表示来进行声学特征提取。将预测分数与真实分数进行比较,HAAQI Net 的纵向一致性相关性 LCC 为 0.9257,斯皮尔曼等级相关系数 SRCC 为 0.9394,均方误差 MSE 为 0.0080。

The role of direct sound spherical harmonics representation in externalization using binaural reproduction
Authors Eran Miller, Boaz Rafaely
直达声中的信息对人类空间声源感知的重要性是一个正在进行的研究课题。直达声和扩散声或混响声之间的分类构成了空间音频领域众多研究的基础。特别地,参数空间音频表示方法使用这种分类并采用信号处理来增强再现时的音频质量。然而,当前的文献没有提供关于在高保真度立体声响复制的背景下理想的直接声音表征对外化的影响的信息。本文旨在评估使用双耳再现时直达声中的空间信息在声场外化中的重要性。这是在球谐函数 SH 域中完成的,其中模拟了高保真度立体声响复制信号中的理想直接声音表示,并在正式的听力测试中评估其感知的外化。

Detecting the presence of sperm whales echolocation clicks in noisy environments
Authors Guy Gubnitsky, Roee Diamant
抹香鲸在水下航行时会发出一系列脉冲般的咔嗒声,称为回声定位咔嗒声。这些咔嗒声的特征是多脉冲结构 MPS,它充当独特的模式。在这项工作中,我们使用 MPS 的稳定性作为检测指标,用于识别和分类噪声环境中点击的存在。为了区分噪声瞬变并处理来自多头抹香鲸的同时发射,我们的方法对 MPS 测量的时间序列进行聚类,同时消除不满足点击间隔、持续时间和频谱限制的潜在点击。因此,我们的方法可以处理高噪声瞬态和低信噪比。我们的检测方法的性能使用三个数据集进行检查,其中包括来自地中海七个月的记录,其中包含手动验证的环境噪声,以及从多米尼加岛收集的几天的手动标记数据,其中包含来自多条抹香鲸的约 40,000 次点击,以及来自巴哈马的数据集,其中包含来自单个抹香鲸的 1,203 个标记点击。与两个基准检测器的结果相比,可以观察到精确度和召回率之间更好的权衡,并且错误检测率显着降低,尤其是在嘈杂的环境中。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1364562.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

记一个React组件入参不当导致页面卡死的问题

一、问题描述 1.1 触发现象 点击按钮后页面卡死 1.2 最小 Demo CodeSandBox:https://codesandbox.io/p/sandbox/react-hook-component-stuck-755wcyinscode:https://inscode.csdn.net/ import ./App.css; import React, { useState, useEffect } f…

2023年全国职业院校技能大赛(高职组)“云计算应用”赛项赛卷4

某企业根据自身业务需求,实施数字化转型,规划和建设数字化平台,平台聚焦“DevOps开发运维一体化”和“数据驱动产品开发”,拟采用开源OpenStack搭建企业内部私有云平台,开源Kubernetes搭建云原生服务平台,选…

Redis反序列化的一次问题

redis反序列化的一次问题 1. 问题描述 springbootredis不少用,但是一直没遇到什么问题,直接代码拷贝上去就用了。这次结合spring-security,将自定义的spring-security的UserDetails接口的实现类SecurityUser,反序列化取出时报错…

Packet Tracer - Configure Cisco Routers for Syslog, NTP, and SSH Operations

Packet Tracer - 配置Cisco路由器以实现Syslog、NTP和SSH功能 地址表 目标: 配置OSPF MD5身份验证。配置NTP服务。设置路由器将消息记录到syslog服务器。配置R3路由器以支持SSH连接。 背景/场景: 在本练习中,您将配置OSPF MD5身份验证以实…

一文快速搞懂Nginx —— Nginx 详解

一文快速搞懂Nginx 一、niginx 简介二、正向 / 反向代理2.1 正向代理2.2 反向代理 三、负载均衡四、动静分离五、web 缓存六、Niginx 安装6.1 windows版本下的安装6.2 Linux版本下的安装 七、常用命令八、为什么选择Nginx 一、niginx 简介 Nginx 同 Apache 一样都是一种 Web 服…

C语言光速入门笔记

C语言是一门面向过程的编译型语言,它的运行速度极快,仅次于汇编语言。C语言是计算机产业的核心语言,操作系统、硬件驱动、关键组件、数据库等都离不开C语言;不学习C语言,就不能了解计算机底层。 目录 C语言介绍C语言特…

PAT 乙级 1056 组合数的和

给定 N 个非 0 的个位数字,用其中任意 2 个数字都可以组合成 1 个 2 位的数字。要求所有可能组合出来的 2 位数字的和。例如给定 2、5、8,则可以组合出:25、28、52、58、82、85,它们的和为330。 输入格式: 输入在一行…

水母目标检测数据集VOC格式500张

水母,一种美丽而神秘的海洋生物,以其独特的形态和生态习性而备受瞩目。 水母的体型呈伞状,身体透明,有各种颜色和花纹。它们没有骨骼,身体由胶状物质组成,非常柔软和脆弱。水母通过触手上的刺细胞释放毒素…

Unity 一文掌握使用AddListener方法为组件事件添加监听器的方法

在Unity中,很多组件都带有事件,比如: Button组件:onClick() Toggle组件:On Value Changed(Boolean) Dropdown组件:On Value Changed(Int32) InputField组件:On Value Changed(String)、On End Edit(Stri…

【leetcode】力扣算法之有效的数独【中等难度】

题目描述 请你判断一个 9 x 9 的数独是否有效。只需要 根据以下规则 ,验证已经填入的数字是否有效即可。 数字 1-9 在每一行只能出现一次。数字 1-9 在每一列只能出现一次。数字 1-9 在每一个以粗实线分隔的 3x3 宫内只能出现一次。(请参考示例图&…

CodeWave智能开发平台--03--目标:应用创建--07供应商数据表格

摘要 本文是网易数帆CodeWave智能开发平台系列的第09篇,主要介绍了基于CodeWave平台文档的新手入门进行学习,实现一个完整的应用,本文主要完成07供应商数据表格 CodeWave智能开发平台的09次接触 CodeWave参考资源 网易数帆CodeWave开发者…

Micro-app 微前端框架demo介绍

Micro-app 框架 1、框架安装 npm i micro-zoe/micro-app --save2、子应用对应的view页面 <template><div><!-- name(必传)&#xff1a;应用名称url(必传)&#xff1a;应用地址&#xff0c;会被自动补全为http://localhost:3000/index.htmlbaseroute(可选)&…

mysql进阶-重构表

目录 1. 原因 2. 如何重构表呢&#xff1f; 2.1 命令1&#xff1a; 2.2 命令2&#xff1a; 2.3 命令3&#xff1a; 1. 原因 正常的业务开发&#xff0c;为什么需要重构表呢&#xff1f; 原因1&#xff1a;某张表存在大量的新增和删除操作&#xff0c;导致表经历过大量的…

Kali Linux——设置中文

【问题现象】 从下图可以看到&#xff0c;菜单全是英文的。对于英文不好的同学&#xff0c;使用起来很难受。 【解决方法】 1、获取root权限 su root 2、进入语言设置 dpkg-reconfigure locales 3、选择zh_CN.UTF-8 UTF-8 4、设置默认 5、安装完成 6、重启虚拟机 reboot…

多租户看这一篇就够了

什么是多租户&#xff1f;举个例子&#xff1a;马云、马化腾和刘强东三个人去租房子&#xff0c;他们因为家里经济困难所以勤工俭学&#xff0c;三个人决定合租一套三室一厅的房子&#xff0c;虽然每个人有自己的房间&#xff0c;但是家里的水电、厨房、卫生间和热水器都是大家…

强化学习的数学原理学习笔记 - 蒙特卡洛方法(Monte Carlo)

文章目录 概览&#xff1a;RL方法分类蒙特卡洛方法&#xff08;Monte Carlo&#xff0c;MC&#xff09;MC BasicMC Exploring Starts&#x1f7e6;MC ε-Greedy 本系列文章介绍强化学习基础知识与经典算法原理&#xff0c;大部分内容来自西湖大学赵世钰老师的强化学习的数学原理…

欧拉函数算法总结

知识概览 欧拉函数为1~n中与n互质的数的个数。假设一个数N分解质因数后的结果为 则欧拉函数 这可以用容斥原理来证明。 欧拉函数的应用 欧拉定理&#xff1a;若a与n互质&#xff0c;则。 费马小定理&#xff1a;欧拉定理中的n为质数p时&#xff0c;可以得到若a与p互质&#xff…

Java:结束本机端口被占用进程

前言 在实际开发当中我们&#xff0c;往往在idea中将某个服务的启动给关闭了&#xff0c;但是在nacos的某个服务上&#xff0c;我们却可以看到本地别名服务还是在上面挂载着本地再次启动的时候就提示【端口被占用】&#xff0c;今天就说一下如何解决这个问题 操作 点击即可预…

我的创作纪念日——redis的历史纪录

机缘 最开始只想存留点Redis的操作信息&#xff0c;后来写着写着也就写多了&#xff0c;虽然后面很长时间由于忙就没继续写&#xff0c;但是还是偶尔登录看一下&#xff0c;有好几篇文章的浏览量还是很多的呢。 收获 收获不多&#xff0c;粉丝也才三十多个&#xff0c;浏览量感…

mac版viso软件 流程图软件omnigraffile

OmniGraffle 是一款由 The Omni Group 开发的绘图工具&#xff0c;主要用于创建各种类型的图表、流程图、组织结构图、网站地图等。它提供了丰富的绘图工具和功能&#xff0c;包括形状、线条、文本、颜色、样式等&#xff0c;可以帮助用户轻松地创建出精美的图表和图形。 OmniG…