【AI视野·今日Sound 声学论文速览 第十六期】Mon, 2 Oct 2023

news2025/1/14 0:47:27

AI视野·今日CS.Sound 声学论文速览
Mon, 2 Oct 2023
Totally 13 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Improving Audio Captioning Models with Fine-grained Audio Features, Text Embedding Supervision, and LLM Mix-up Augmentation
Authors Shih Lun Wu, Xuankai Chang, Gordon Wichern, Jee weon Jung, Fran ois Germain, Jonathan Le Roux, Shinji Watanabe
自动音频字幕 AAC 旨在为自然和/或人类活动的各种声音生成信息丰富的描述。近年来,AAC 迅速引起了研究兴趣,最先进的系统现在依赖于由 Transformers 等强大模型支持的序列到序列 seq2seq 主干网。顺应应用机器学习研究的宏观趋势,在这项工作中,我们努力通过广泛利用预训练模型和大型语言模型LLM来提高seq2seq AAC模型的性能。具体来说,我们利用 BEAT 来提取细粒度的音频特征。然后,我们使用 Instructor LLM 获取字幕的文本嵌入,并通过辅助 InfoNCE 损失函数将其语言模态知识注入 BEAT 音频特征中。此外,我们提出了一种新颖的数据增强方法,该方法使用 ChatGPT 来生成字幕混合,即两个字幕的语法和紧凑组合,与相应的音频混合一起,不仅增加了训练数据的数量,还增加了训练数据的复杂性和多样性。在推理过程中,我们建议采用核采样和混合重排序算法,这在 AAC 研究中尚未探索过。

RTFS-Net: Recurrent time-frequency modelling for efficient audio-visual speech separation
Authors Samuel Pegg, Kai Li, Xiaolin Hu
视听语音分离方法旨在集成不同的模态以生成高质量的分离语音,从而提高语音识别等下游任务的性能。大多数现有的最先进的 SOTA 模型都在时域中运行。然而,他们过于简单化的声学特征建模方法通常需要更大、计算量更大的模型才能实现 SOTA 性能。在本文中,我们提出了一种新颖的时频域视听语音分离方法循环时频分离网络RTFS Net,该方法将其算法应用于短时傅立叶变换产生的复杂时频箱。我们使用多层 RNN 沿着每个维度独立地建模和捕获音频的时间和频率维度。此外,我们引入了一种独特的基于注意力的融合技术,用于音频和视觉信息的有效集成,以及一种新的掩模分离方法,该方法利用声学特征的固有频谱性质来实现更清晰的分离。 RTFS Net 仅使用 10 个参数和 18 个 MAC,性能优于之前的 SOTA 方法。

AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition
Authors Andrew Rouditchenko, Ronan Collobert, Tatiana Likhomanenko
视听语音包含同步的音频和视觉信息,提供跨模式监督来学习自动语音识别 ASR 和视觉语音识别 VSR 的表示。我们引入了用于视听语音识别的连续伪标记 AV CPL,这是一种半监督方法,用于在标记和未标记视频与连续再生伪标签的组合上训练视听语音识别 AVSR 模型。我们的模型经过训练,可以根据视听输入进行语音识别,并且可以使用音频和视觉模态或仅使用一种模态来执行语音识别。我们的方法使用相同的视听模型进行监督训练和伪标签生成,从而减少了外部语音识别模型生成伪标签的需要。 AV CPL 在 LRS3 数据集上获得了 VSR 性能的显着改进,同时保持了实用的 ASR 和 AVSR 性能。

Toward Universal Speech Enhancement for Diverse Input Conditions
Authors Wangyou Zhang, Kohei Saijo, Zhong Qiu Wang, Shinji Watanabe, Yanmin Qian
过去十年,由于深度学习,数据驱动的语音增强 SE 技术取得了大幅增长。虽然现有方法在一些常见数据集中表现出了令人印象深刻的性能,但大多数方法仅针对单一条件(例如单通道、多通道或固定采样频率)而设计,或者仅考虑单个任务(例如去噪或去混响)。目前,还没有通用的 SE 方法可以用单一模型有效处理不同的输入条件。在本文中,我们首次尝试调查这一研究方向。首先,我们设计了一个独立于麦克风通道、信号长度和采样频率的 SE 模型。其次,我们结合现有的公共语料库和多种条件,设计了一个通用的SE基准。

LRPD: Large Replay Parallel Dataset
Authors Ivan Yakovlev, Mikhail Melnikov, Nikita Bukhal, Rostislav Makarov, Alexander Alenin, Nikita Torgashov, Anton Okhotnikov
语音反欺骗VAS领域的最新研究表明,深度神经网络DNN在演示攻击检测任务中优于GMM等经典方法。然而,DNN 需要大量数据才能收敛,并且仍然缺乏泛化能力。为了促进神经网络系统的进步,我们引入了大型重放并行数据集 LRPD,旨在检测重放攻击。 LRPD 包含由 19 个录音设备在 17 个不同环境中收集的超过 100 万条话语。我们还提供了 PyTorch 1 中的示例训练管道和基线系统,该系统在 LRPD 评估子集上实现了 0.28 等错误率 EER,在公开可用的 ASVpoof 2017 2 评估集上实现了 11.91 EER。这些结果表明,使用 LRPD 数据集训练的模型在完全未知的条件下具有一致的性能。我们的数据集免费用于研究目的,并托管在 GDrive 上。

Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR Customization
Authors Alexandra Antonova
我们提出了第一个大规模公共合成数据集,用于自动语音识别 ASR 的上下文拼写检查定制,重点关注各种罕见和词汇外的 OOV 短语,例如专有名称或术语。所提出的方法允许创建数百万个损坏的 ASR 假设的实际示例,并为定制任务模拟非平凡的偏差列表。此外,我们建议将两种类型的硬负例注入到训练示例中的模拟偏差列表中,并描述我们自动挖掘它们的程序。

Style Transfer for Non-differentiable Audio Effects
Authors Kieran Grant
音频工程师广泛使用数字音频效果来改变音频数据的声学和时间质量。然而,这些效果可能具有大量参数,这使得初学者难以学习并阻碍专业人士的创造力。最近,人们已经做出了许多努力,利用深度学习的进展,通过最小化输入和参考轨道之间的目标函数来获取音频效果的低级参数配置,通常称为风格迁移。然而,当前的方法使用不灵活的黑盒技术或要求在自动微分框架中实现所考虑的效果。在这项工作中,我们提出了一种用于音频制作风格匹配的深度学习方法,该方法可与在一些最广泛使用的框架中实现的效果一起使用,仅要求所考虑的参数具有连续域。此外,我们的方法包括各种效果类别的风格匹配,其中许多效果很难或不可能使用可微函数来紧密近似。我们展示了我们的音频嵌入方法创建了音色信息的逻辑编码,可用于许多下游任务。

Low-Resource Self-Supervised Learning with SSL-Enhanced TTS
Authors Po chun Hsu, Ali Elkahky, Wei Ning Hsu, Yossi Adi, Tu Anh Nguyen, Jade Copet, Emmanuel Dupoux, Hung yi Lee, Abdelrahman Mohamed
自监督学习SSL技术在各种语音处理任务中取得了显着的成果。尽管如此,减少预训练对大量语音数据的依赖仍然是一个重大挑战。本文建议通过利用合成语音来增强低资源预训练语料库来应对这一挑战。我们利用 SSL 特征以有限的资源构建了一个高质量的文本转语音 TTS 系统,并生成了一个用于预训练的大型合成语料库。实验结果表明,我们提出的方法有效地将语音数据的需求减少了 90,而性能仅略有下降。

Synthetic Speech Detection Based on Temporal Consistency and Distribution of Speaker Features
Authors Yuxiang Zhang, Zhuo Li, Jingze Lu, Wenchao Wang, Pengyuan Zhang
当前的合成语音检测 SSD 方法在某些数据集上表现良好,但仍然面临鲁棒性和可解释性问题。一个可能的原因是这些方法没有分析合成语音的缺陷。本文分析了文本转语音TTS过程中说话人特征固有的缺陷。由于 TTS 中缺乏对说话人特征的细粒度控制,因此出现了话语内说话人特征的时间一致性差异。由于 TTS 中的说话人表示基于编码器提取的说话人嵌入,因此合成语音和真实语音之间的说话人特征分布不同。基于这些分析,提出了一种基于时间一致性和说话人特征分布的SSD方法。一方面,对说话者内部特征的时间一致性进行建模可以帮助语音反欺骗。另一方面,说话者特征之间的分布差异可以用于SSD。

Enhancing Code-switching Speech Recognition with Interactive Language Biases
Authors Hexin Liu, Leibny Paola Garcia, Xiangyu Zhang, Andy W. H. Khong, Sanjeev Khudanpur
语言通常在多语言语音信号内切换,尤其是在双语社会中。这种现象被称为代码切换CS,使得自动语音识别ASR在多语言场景下具有挑战性。我们建议通过使用包含框架和标记级语言后验的多级语言信息来偏置混合 CTC 注意力 ASR 模型来改进 CS ASR。这项工作随后探讨了各种语言偏见解决方案之间的相互作用。我们对 ASRU 2019 代码转换挑战赛的数据集进行了实验。与基线相比,所提出的交互式语言偏见 ILB 方法取得了更高的性能,并且消融研究突出了不同语言偏见及其相互作用的影响。

SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition
Authors Hongfei Xue, Qijie Shao, Kaixun Huang, Peikun Chen, Lei Xie, Jie Liu
多语言自动语音识别 ASR 系统因其扩大全球语言覆盖范围的潜力而受到关注。虽然自监督学习 SSL 已证明其在多语言 ASR 中的有效性,但值得注意的是 SSL 的各个层表示可能包含尚未充分利用的不同信息。在这项研究中,我们提出了一种利用自监督分层表示 SSHR 来微调多语言 ASR 的新颖方法。我们首先分析 SSL 模型的不同层以获取语言相关和内容相关信息,发现显示出更强相关性的层。然后,我们从相关中间层中提取语言相关框架,并通过自注意力机制指导特定内容提取。此外,我们使用我们提出的 Cross CTC 引导模型在最后层获取更多内容相关信息。

Towards High Resolution Weather Monitoring with Sound Data
Authors Enis Berk oban, Megan Perra, Michael I. Mandel
在各个研究领域,遥感天气产品对于回答许多科学问题很有价值,但它们的时间和空间分辨率往往太粗糙,无法回答许多问题。例如,在野生动物研究中,在研究动物运动和行为时,进行精细化、高度局部化的天气观测至关重要。本文利用声学数据来识别不同阈值下的降雨、风和气温的变化,其中降雨是最成功的预测。仅根据声学数据训练模型会产生最佳结果,但需要劳动密集型样本标记。与此同时,MERRA 2 系统每小时的卫星数据虽然足以完成某些任务,但在预测这些声学标签时产生的预测明显不太准确。我们发现可以根据 MERRA 2 数据训练声学分类器,该分类器比原始 MERRA 2 数据本身更准确。通过使用 MERRA 2 粗略地识别声学数据中的降雨,我们能够在不使用人工验证标签的情况下生成功能模型。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1056525.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

质数距离 - 如何在较合理的时间复杂度内求2e9范围内的质数

求l、r之间的质数&#xff0c;范围在2e9&#xff0c;但l、r的差值不大&#xff0c;在1e6范围内 先求出 内的质数&#xff0c;然后拿这个指数去筛[l, r]范围内的即可 #include<bits/stdc.h> #define IOS ios::sync_with_stdio(0);cin.tie(0);cout.tie(0); #define endl \…

微信开发者工具 如何设置代码的缩进

最近学习小程序的时候发现微信开发工具的缩进有点问题&#xff0c;当我在pages-index-index.wxml中删除初始代码重新自己写的时候。发现里面其实是没有缩进的。 如下图&#xff1a; 然后我自己研究了一下&#xff0c;结合查了一些资料&#xff0c;总结了在微信开发者工具中设置…

全网最全Java快捷键~

&#x1f308;write in front&#x1f308; &#x1f9f8;大家好&#xff0c;我是Aileen&#x1f9f8;.希望你看完之后&#xff0c;能对你有所帮助&#xff0c;不足请指正&#xff01;共同学习交流. &#x1f194;本文由Aileen_0v0&#x1f9f8; 原创 CSDN首发&#x1f412; 如…

Windows11与CentOS7下配置与检测JDK与Maven环境变量

安装过程参考我这篇&#xff1a;Java开发环境的搭建与测试及相关问题的解决 JDK 一、Windows 需要配置三个系统内变量&#xff0c;分别为CLASSPATH、PATH、JAVA_HOME 。 CLASSPATH 变量 .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar 或者 .;%java_home%\lib;%java_…

【image captioning】CaMEL: Mean Teacher Learning for Image Captioning(实现流程)

CaMEL: Mean Teacher Learning for Image Captioning(实现流程) 作者:安静到无声 个人主页 目录 CaMEL: Mean Teacher Learning for Image Captioning(实现流程)环境设置数据准备Evaluation训练程序推荐专栏参考代码: CaMEL: Mean Teacher Learning for Image Captioning.…

DFS 模板:843. n-皇后问题

n−n−皇后问题是指将 nn 个皇后放在 nnnn 的国际象棋棋盘上&#xff0c;使得皇后不能相互攻击到&#xff0c;即任意两个皇后都不能处于同一行、同一列或同一斜线上。 现在给定整数 nn&#xff0c;请你输出所有的满足条件的棋子摆法。 输入格式 共一行&#xff0c;包含整数 n…

8、Nacos服务注册服务端源码分析(七)

本文收录于专栏 Nacos 中 。 文章目录 前言确定前端路由CatalogController.listDetail()ServiceManager总结 前言 前文我们分析了Nacos中客户端注册时数据分发的设计链路&#xff0c;本文根据Nacos前端页面请求&#xff0c;看下前端页面中的服务列表的数据源于哪里。 确定前端…

Complete Probability Spaces

See https://math.stackexchange.com/questions/4095399/complete-probability-spaces

山西电力市场日前价格预测【2023-10-03】

日前价格预测 预测说明&#xff1a; 如上图所示&#xff0c;预测明日&#xff08;2023-10-03&#xff09;山西电力市场全天平均日前电价为278.17元/MWh。其中&#xff0c;最高日前电价为477.85元/MWh&#xff0c;预计出现在18: 45。最低日前电价为0.00元/MWh&#xff0c;预计出…

概率论中的filtration中文叫什么?

1、2 - Financial Markets with Continuous Time- https://doi.org/10.1016/B978-1-78548-046-1.50002-8 2、Filtration (probability theory)-https://handwiki.org/wiki/Filtration_(probability_theory)#:~:textA%20filtration%20F%20%3D%20%28F%20i%29%20i%20%E2%88%88,…

lv6 嵌入式开发-Flappy bird项目(信号机制、定时器功能实现)

目录 1 信号(signal) 2 设置信号响应方式 – signal 3 设置定时器 4 示例 问题&#xff1a; getch()阻塞获取键盘按键输入&#xff0c; 怎么操作才能不影响小鸟下落和管道移动&#xff1f; getch如果阻塞&#xff0c;下面的程序都是无法执行。通过信号机制方式实现。 1 …

分享46个Python源代码总有一个是你想要的

分享46个Python源代码总有一个是你想要的 下载链接&#xff1a;https://pan.baidu.com/s/1oZPrXHwgzcvVpB36_dA72A?pwd8888 提取码&#xff1a;8888 chat-web项目的python后端 Django WEB商城网站项目 django-实时接口获取中国各个城市、省份、国家的新型冠状肺炎 NewsSp…

多线程 - 阻塞式队列

阻塞队列 阻塞队列,也是一个队列 ~~ 先进先出 实际上有一些特殊的队列,不一定非得遵守先进先出的 ~~ 优先级队列(PriorityQueue) 阻塞队列,也是特殊的队列,虽然也是先进先出的,但是带有特殊的功能: 阻塞 如果队列为空,执行出队列操作,就会阻塞.阻塞到另一个线程往队列里添加元…

Go:实现SMTP邮件发送订阅功能(包含163邮箱、163企业邮箱、谷歌gmail邮箱)

需求很简单&#xff0c;就是用户输入自己的邮箱后&#xff0c;使用官方邮箱给用户发送替邮件模版 目录 前置邮件模版邮箱开启SMTP服务163邮箱163企业邮箱谷歌gmail邮箱腾讯企业邮箱-失败其他邮箱-未操作 邮件发送核心代码config.yaml配置读取邮件相关配置发送邮件 附录 前置 邮…

深度学习笔记之线性代数

深度学习笔记之线性代数 一、向量 在数学表示法中&#xff0c;向量通常记为粗体小写的符号&#xff08;例如&#xff0c;x&#xff0c;y&#xff0c;z&#xff09;当向量表示数据集中的样本时&#xff0c;它们的值具有一定的现实意义。例如研究医院患者可能面临的心脏病发作风…

Ubuntu系统初始设置

更换国内源 安装截图工具 安装中文输入法 安装QQ 参考&#xff1a; 安装双系统win10Ubuntu20.04LTS&#xff08;详细到我自己都害怕&#xff09; 引导方式磁盘分区方法UEFIGPTLegancyMBR 安装网络助手 sudo apt install net-tools 安装VS Code 使用从官网下载.deb安装包…

MySQL使用Xtrabackup在线做主从

1、主库上操作 1.1前提 172.16.11.2&#xff08;主库&#xff09; 172.16.11.4&#xff08;从库&#xff09; 在执行备份之前&#xff0c;确保数据库没有锁定&#xff0c;以避免备份期间的任何写操作。 确保主库上的 MySQL 服务器正在运行&#xff0c;以便备份数据的一致性。…

八、2023.10.2.Linux(二).8

文章目录 17、简述一下虚拟内存和物理内存&#xff0c;为什么要用虚拟内存&#xff0c;好处是什么&#xff1f;18、虚拟地址到物理地址怎么映射的&#xff1f;19、说说堆栈溢出是什么&#xff0c;会怎么样&#xff1f;20、简述操作系统中malloc的实现原理?21、说说进程空间从高…

uboot启动流程-涉及board_init_f 函数

一. uboot启动流程 _main 函数中会调用 board_init_f 函数&#xff0c;本文简单分析一下 board_init_f 函数。 二. board_init_f 函数 board_init_f 函数主要有两个工作&#xff1a; (1) 初始化一系列外设&#xff0c;比如串口、定时器&#xff0c;或者打印一些消息等。…

Docker Tutorial

什么是Docker 为每个应用提供完全隔离的运行环境 Dockerfile&#xff0c; Image&#xff0c;Container Image&#xff1a; 相当于虚拟机的快照&#xff08;snapshot&#xff09;里面包含了我们需要部署的应用程序以及替它所关联的所有库。通过image&#xff0c;我们可以创建很…