【AI视野·今日Sound 声学论文速览 第三十七期】Tue, 31 Oct 2023

news2024/11/14 21:37:47

AI视野·今日CS.Sound 声学论文速览
Tue, 31 Oct 2023
Totally 11 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

DCHT: Deep Complex Hybrid Transformer for Speech Enhancement
Authors Jialu Li, Junhui Li, Pu Wang, Youshan Zhang
当前大多数基于深度学习的语音增强方法仅在频谱图或波形域中运行。尽管已经提出了结合波形域和频谱图域输入的跨域变压器,但其性能还可以进一步提高。在本文中,我们提出了一种新颖的深度复杂混合变压器,它集成了频谱图和波形域方法来提高语音增强的性能。所提出的模型由两部分组成:频谱图域中的复杂 Swin Unet 和波形域中的双路径变压器网络 DPTnet。我们首先在频谱图域中构建复杂的 Swin Unet 网络,并在复杂的音频频谱中进行语音增强。然后,我们通过添加内存压缩注意力来引入改进的 DPT。我们的模型能够学习多域特征,以互补的方式减少不同域上的现有噪声。

DPATD: Dual-Phase Audio Transformer for Denoising
Authors Junhui Li, Pu Wang, Jialu Li, Xinzhe Wang, Youshan Zhang
最近基于高性能变压器的语音增强模型表明,时域方法可以实现与时频域方法相似的性能。然而,时域语音增强系统通常接收由大量时间步长组成的输入音频序列,这使得对极长序列进行建模并训练模型以充分执行变得具有挑战性。在本文中,我们利用较小的音频块作为输入来实现音频信息的有效利用,以解决上述挑战。我们提出了一种用于去噪的双相音频变压器 DPATD,这是一种在深层结构中组织变压器层的新颖模型,以学习干净的音频序列以进行去噪。 DPATD 将音频输入分割成更小的块,其中输入长度可以与原始序列长度的平方根成正比。与常用的自注意力模块相比,我们的内存压缩可解释注意力非常高效并且收敛速度更快。

JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation
Authors Yao Yao, Peike Li, Boyu Chen, Alex Wang
随着生成人工智能的快速发展,文本到音乐合成任务已成为从头开始生成音乐的一个有前途的方向。然而,对多轨生成的更细粒度控制仍然是一个开放的挑战。现有模型表现出强大的原始生成能力,但缺乏创作单独曲目并以可控方式组合它们的灵活性,这与人类作曲家的典型工作流程不同。为了解决这个问题,我们提出了 JEN 1 Composer,这是一个统一的框架,可以通过单个模型有效地模拟多轨音乐的边际分布、条件分布和联合分布。 JEN 1 Composer 框架展示了无缝整合任何基于扩散的音乐生成系统(例如 textit)的能力。 Jen 1,增强了其多功能多轨音乐生成的能力。我们引入了一种课程培训策略,旨在逐步指导模型从单轨生成过渡到多轨组合的灵活生成。在推理过程中,用户能够迭代地制作和选择满足其偏好的音乐曲目,随后按照提议的人类人工智能协同创作工作流程逐步创建整个音乐作品。定量和定性评估展示了可控和高保真多轨音乐合成的最先进性能。拟议的 JEN 1 Composer 代表了交互式 AI 促进音乐创作和作曲的重大进步。

Deep Audio Analyzer: a Framework to Industrialize the Research on Audio Forensics
Authors Valerio Francesco Puglisi, Oliver Giudice, Sebastiano Battiato
Deep Audio Analyzer 是一个开源语音框架,旨在简化神经语音处理管道的研究和开发过程,允许用户以快速且可重复的方式构思、比较和共享结果。本文描述了旨在支持音频取证领域共同感兴趣的多项任务的核心架构,展示了创建新任务从而定制框架的可能性。借助深度音频分析器,执法机构和研究人员等取证检查人员将能够可视化音频特征,轻松评估预训练模型的性能,只需点击几下鼠标即可组合深度神经网络模型来创建、导出和共享新的音频分析工作流程。该工具的优点之一是加快音频取证分析领域的研究和实际实验,从而通过导出和共享管道来提高实验的可重复性。所有功能均在模块中开发,用户可以通过图形用户界面访问。

Feature Aggregation in Joint Sound Classification and Localization Neural Networks
Authors Brendan Healy, Patrick McNamee, Zahra Nili Ahmadabadi
这项研究探讨了深度学习技术在联合声音信号分类和定位网络中的应用。当前最先进的声源定位深度学习网络在其架构中缺乏特征聚合。特征聚合通过整合来自不同特征尺度的信息来增强模型性能,从而提高特征的鲁棒性和不变性。这在 SSL 网络中尤其重要,因为 SSL 网络必须区分直接和间接声信号。为了解决这一差距,我们将特征聚合技术从计算机视觉神经网络应用到信号检测神经网络。此外,我们提出了用于特征聚合的尺度编码网络 SEN,以对不同尺度的特征进行编码,压缩网络以提高计算效率的聚合。为了评估 SSL 网络中特征聚合的功效,我们将以下计算机视觉特征聚合子架构集成到 SSL 控制架构中:路径聚合网络 PANet、加权双向特征金字塔网络 BiFPN 和 SEN。使用两个信号分类指标和两个到达方向回归指标来评估这些子架构。 PANet 和 BiFPN 是计算机视觉模型中已建立的聚合器,而所提出的 SEN 是更紧凑的聚合器。结果表明,在声音信号分类和定位方面,包含特征聚合的模型优于控制模型、声音事件定位和检测网络 SELDnet。

Exploring the Emotional Landscape of Music: An Analysis of Valence Trends and Genre Variations in Spotify Music Data
Authors Shruti Dutta, Shashwat Mookherjee
本文使用 Spotify 音乐数据对音乐情感和趋势进行了复杂的分析,包括通过 Spotipi API 提取的音频特征和价分数。该研究采用回归模型、时间分析、情绪转变和流派调查,揭示了音乐情感关系中的模式。采用线性回归模型、支持向量、随机森林和岭回归模型来预测效价分数。时间分析揭示了效价分布随时间的变化,而情绪转变探索则阐明了播放列表中的情绪动态。

Seeing Through the Conversation: Audio-Visual Speech Separation based on Diffusion Model
Authors Suyeon Lee, Chaeyoung Jung, Youngjoon Jang, Jaehun Kim, Joon Son Chung
这项工作的目标是使用视觉提示从混合声音中提取目标说话者的声音。现有的视听语音分离工作已经证明了其具有良好的清晰度的性能,但保持自然度仍然是一个挑战。为了解决这个问题,我们提出了 AVDiffuSS,一种基于扩散机制的视听语音分离模型,该机制以其生成自然样本的能力而闻名。为了有效融合两种扩散模式,我们还提出了一种基于交叉注意力的特征融合机制。该机制是专门为语音领域量身定制的,用于在语音生成中集成来自视听对应的语音信息。通过这种方式,融合过程保持了特征的高时间分辨率,而无需过多的计算要求。

Sound of Story: Multi-modal Storytelling with Audio
Authors Jaeyeon Bae, Seokhoon Jeong, Seokun Kang, Namgi Han, Jae Yon Lee, Hyounghun Kim, Taehwan Kim
现实世界中讲故事是多模式的。当一个人讲故事时,可以将所有的可视化和声音与故事本身一起使用。然而,先前关于讲故事数据集和任务的研究很少关注声音,尽管声音也传达了故事的有意义的语义。因此,我们建议通过建立一个称为背景声音的新组件来扩展故事理解和讲述领域,该组件是基于故事上下文的音频,没有任何语言信息。为此,我们引入了一个名为 Sound of Story SoS 的新数据集,它将图像和文本序列与故事的相应声音或背景音乐配对。据我们所知,这是最大的精心策划的声音讲故事数据集。我们的 SoS 数据集包含 27,354 个故事,每个故事有 19.6 张图像,以及 984 小时的语音解耦音频(例如背景音乐和其他声音)。作为用声音和数据集讲故事的基准任务,我们提出了模态之间的检索任务,以及图像文本序列的音频生成任务,为它们引入了强大的基线。我们相信所提出的数据集和任务可能有助于阐明声音叙事的多模式理解。

Pre-trained Speech Processing Models Contain Human-Like Biases that Propagate to Speech Emotion Recognition
Authors Isaac Slaughter, Craig Greenberg, Reva Schwartz, Aylin Caliskan
之前的研究已经证实,一个人的人口统计特征和言语风格会影响语音处理模型的表现。但这种偏差从何而来 在这项工作中,我们提出了语音嵌入关联测试 SpEAT,这是一种用于检测用于许多语音任务预训练模型的一类模型中的偏差的方法。 SpEAT 的灵感来自自然语言处理中的词嵌入关联测试,该测试量化模型表示不同概念(例如种族或效价、某些事物的愉快或不愉快)的内在偏差,并捕获模型在大规模社交网络上训练的程度。文化数据已经了解了类似人类的偏见。使用 SpEAT,我们测试了 16 个英语语音模型中的六种类型的偏差,其中包括 4 个也接受多语言数据训练的模型,这些模型来自 wav2vec 2.0、HuBERT、WavLM 和 Whisper 模型系列。我们发现,有 14 个或更多的模型揭示了与有能力的人相比于残疾人、与欧洲裔美国人相对于非裔美国人、女性相对于男性、美国口音者相对于非美国口音者以及年轻人相对老年人的正价愉快关联。除了建立包含这些偏差的预训练语音模型之外,我们还表明它们可以对现实世界产生影响。我们将预训练模型中发现的偏差与适应语音情绪识别 SER 任务的下游模型中的偏差进行比较,发现在执行的 69 项 96 项测试中的 66 项中,与 SpEAT 所示的正效价更相关的组也倾向于被下游模型预测为具有更高的化合价。我们的工作提供的证据表明,与基于文本和图像的模型一样,基于预先训练的语音的模型经常学习类似人类的偏见。

MUST: A Multilingual Student-Teacher Learning approach for low-resource speech recognition
Authors Muhammad Umar Farooq, Rehan Ahmad, Thomas Hain
学生教师学习或知识蒸馏 KD 先前已被用于解决语音识别 ASR 系统训练的数据稀缺问题。然而,KD 训练的一个限制是学生模型类必须是教师模型类的正确或不正确的子集。如果字符集不相同,它甚至可以防止从声音上相似的语言中进行蒸馏。在这项工作中,通过提出一种利用后验映射方法的多语言学生教师必须学习来解决上述限制。使用预先训练的映射模型将后验从教师语言映射到学生语言 ASR。这些映射的后验被用作 KD 学习的软标签。实验了各种教师集成方案来训练低资源语言的 ASR 模型。

Audio-Visual Instance Segmentation
Authors Ruohao Guo, Yaru Chen, Yanyu Qi, Wenzhen Yue, Dantong Niu, Xianghua Ying
在本文中,我们提出了一种新的多模态任务,即视听实例分割AVIS,其目标是同时识别、分割和跟踪可听视频中的各个发声对象实例。据我们所知,这是实例分割首次扩展到视听领域。为了更好地促进这项研究,我们构建了第一个视听实例分割基准 AVISeg 。具体来说,AVISeg 由来自 YouTube 和公共视听数据集的 1,258 个平均时长为 62.6 秒的视频组成,其中 117 个视频使用基于 Segment Anything Model SAM 的交互式半自动标记工具进行了注释。此外,我们还为 AVIS 任务提供了一个简单的基线模型。我们的新模型向 Mask2Former 引入了音频分支和跨模态融合模块来定位所有发声对象。最后,我们在 AVISeg 上使用两个骨干网评估所提出的方法。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1360258.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

运维系列:此站点的连接不安全,使用不受支持的协议。ERR_SSL_VERSION_OR_CIPHER_MISMATCH(不支持的协议 客户端和服务器不支持常用的 SSL 协议版本或密码套件。)

此站点的连接不安全,使用不受支持的协议。ERR_SSL_VERSION_OR_CIPHER_MISMATCH(不支持的协议 客户端和服务器不支持常用的 SSL 协议版本或密码套件。) 前言一、解决方法一1.Microsoft Edge浏览器→点击右上角的三个点→选择设置2.选择外观→打…

【代码随想录】刷题笔记Day46

前言 刚考完自辩,Chat回答举例什么的真方便。早上做组会PPT去了,火速来刷题! 139. 单词拆分 - 力扣(LeetCode) 单词是物品,字符串s是背包,单词能否组成字符串s,就是问物品能不能把…

智云影院CMS程序PHP源码V3.0 无需数据库

本程序无需数据库,直接上传源码即可访问,(服务器或虚拟主机空间)都可以搭建使用!模板自适应端,浏览体验更佳!安装操作简单!无需繁琐的操作,即可快速拥有一个视频看片资源…

transforms图像增强(一)

一、数据增强 数据增强(Data Augmentation)是一种常用的数据预处理技术,通过对训练集进行各种变换和扩增操作,可以增加训练数据的多样性和丰富性,从而提高模型的泛化能力。 数据增强的目的是通过对训练集中的图像进行…

JVM工作原理与实战(七):类的生命周期-初始化阶段

专栏导航 JVM工作原理与实战 RabbitMQ入门指南 从零开始了解大数据 目录 专栏导航 前言 一、类的生命周期 1.加载(Loading) 2.连接(Linking) 3.初始化(Initialization) 4.使用(Using&…

面试算法96:字符串交织

题目 输入3个字符串s1、s2和s3,请判断字符串s3能不能由字符串s1和s2交织而成,即字符串s3的所有字符都是字符串s1或s2中的字符,字符串s1和s2中的字符都将出现在字符串s3中且相对位置不变。例如,字符串"aadbbcbcac"可以由…

使用 Kafka 和 CDC 将数据从 MongoDB Atlas 流式传输到 SingleStore Kai

SingleStore 提供了变更数据捕获 (CDC) 解决方案,可将数据从 MongoDB 流式传输到 SingleStore Kai。在本文中,我们将了解如何将 Apache Kafka 代理连接到 MongoDB Atlas,然后使用 CDC 解决方案将数据从 MongoDB Atlas 流式传输到 SingleStore…

SparkStreaming基础解析(四)

1、 Spark Streaming概述 1.1 Spark Streaming是什么 Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、…

网络调试 UDP1,开发板用静态地址-入门5

https://www.bilibili.com/video/BV1zx411d7eC?p11&vd_source109fb20ee1f39e5212cd7a443a0286c5 1, 开发板连接路由器 1.1,烧录无OS UDP例程 1.2,Mini USB连接电脑 1.3,开发板LAN接口连接路由器 2. Ping开发板与电脑之间通信* 2.1 根据…

Redis 教程

Redis 简介 Redis 是完全开源的,遵守 BSD 协议,是一个高性能的 key-value 数据库。 Redis 与其他 key - value 缓存产品有以下三个特点: Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次…

智能分析网关V4太阳能风光互补远程视频智能监控方案

一、背景需求 在一些偏远地区,也具有视频监控的需求。但是这类场景中,一般无法就近获取市电,如果要长距离拉取市电,建设的成本非常高且长距离传输有安全隐患,因此风光互补远程视频监控方案的需求也较多。利用风光电转化…

Reids在Win下无法远程访问

1.将redis在windows上启动主要做了以下配置 1.1.在redis.windows.conf中修改一下 原:bind 127.0.0.1 改:# bind 127.0.0.1 bind 0.0.0.0 原:protected-mode yes 改:protected-mode no去掉了127.0.0.1,加入0.0.0.0后&…

[C#]winform部署PaddleDetection的yolo印章检测模型

【官方框架地址】 https://github.com/PaddlePaddle/PaddleDetection.git 【算法介绍】 PaddleDetection 是一个基于 PaddlePaddle(飞桨)深度学习框架的开源目标检测工具库。它提供了一系列先进的目标检测算法,包括但不限于 Faster R-CNN, …

C ++类

定义一个Person类,私有成员int age,string &name,定义一个Stu类,包含私有成员double *score,写出两个类的构造函数、析构函数、拷贝构造和拷贝赋值函数,完成对Person的运算符重载(算术运算符、条件运算…

Linux———cat命令详解

目录 cat 命令是 Linux 中用于查看文件的内容或将多个文件合并输出。 基本语法: 常用选项: 示例用法: 查看文件的内容: ​编辑 将多个文件的内容合并输出: ​编辑 显示每一行的行号: ​编辑 显示非…

使用CentOS 7.6搭建HTTP隧道代理服务器

在现代网络环境中,HTTP隧道代理服务器因其灵活性和安全性而受到广泛关注。CentOS 7.6,作为一个稳定且功能强大的Linux发行版,为搭建此类服务器提供了坚实的基础。 首先,我们需要明确HTTP隧道代理的基本原理。HTTP隧道代理允许客户…

为什么云性能监控如此重要?

在当今数字化时代,企业越来越依赖云服务来支持其业务需求。为了确保云服务的可用性、性能和稳定性,云性能监控成为管理和优化云基础架构的关键一环。那么,为什么云性能监控如此重要?下面,就来看看具体介绍吧! 一、实时故障检测 云…

6 网关和配置服务器

文章目录 网关模式Spring Cloud网关Spring Cloud网关微服务其他项目的变更运行和测试小结 运行状况Spring Boot Actuator在微服务中包含Actuator 服务发现和负载均衡ConsulSpring Cloud ConsulSpring Cloud负载均衡器网关中的服务发现和负载均衡使用服务发现和负载均衡 环境配置…

c++ spdlog日志系统

非常好用的日志系统 最近用oatpp写webapi,但他的日志只是显示在控制台,并不记录到文件。 做接口的,肯定要记录错误日志,好查找问题 于是用spdlog,不用编译dll或lib, include 头文件就直接使用了&#x…

【六大排序详解】终篇 :冒泡排序 与 快速排序

终篇 :冒泡排序 与 快速排序 1 冒泡排序1.1 冒泡排序原理1.2 排序步骤1.3 代码实现 2 快速排序2.1 快速排序原理2.1.1 Hoare版本代码实现 2.1.2 hole版本代码实现 2.1.3 前后指针法代码实现 2.1.4 注意取中位数局部优化 2.1.5 非递归版本非递归原理代码实现 2.2 特性总结 谢谢阅…