【AI视野·今日Sound 声学论文速览 第四十五期】Wed, 10 Jan 2024

news2024/11/18 23:34:01

AI视野·今日CS.Sound 声学论文速览
Wed, 10 Jan 2024
Totally 12 papers
👉上期速览✈更多精彩请移步主页

Daily Sound Papers

Masked Audio Generation using a Single Non-Autoregressive Transformer
Authors Alon Ziv, Itai Gat, Gael Le Lan, Tal Remez, Felix Kreuk, Alexandre D fossez, Jade Copet, Gabriel Synnaeve, Yossi Adi
我们引入了 MAGNeT,一种直接在多个音频标记流上运行的掩码生成序列建模方法。与之前的工作不同,MAGNeT 由单级非自回归变压器组成。在训练过程中,我们预测从掩码调度程序获得的掩码令牌的范围,而在推理过程中,我们使用几个解码步骤逐渐构建输出序列。为了进一步提高生成音频的质量,我们引入了一种新颖的重新评分方法,其中我们利用外部预训练模型对 MAGNeT 的预测进行重新评分和排名,然后将其用于后续的解码步骤。最后,我们探索了 MAGNeT 的混合版本,其中我们融合自回归和非自回归模型,以自回归方式生成前几秒,同时并行解码序列的其余部分。我们展示了 MAGNeT 在文本到音乐和文本到音频生成任务中的效率,并考虑了客观指标和人类研究,进行了广泛的实证评估。所提出的方法与评估的基线相当,同时比自回归基线快 7 倍。通过消融研究和分析,我们阐明了组成 MAGNeT 的每个组件的重要性,并指出了自回归和非自回归建模之间的权衡,考虑了延迟、吞吐量和生成质量。

HyperGANStrument: Instrument Sound Synthesis and Editing with Pitch-Invariant Hypernetworks
Authors Zhe Zhang, Taketo Akama
GANStrument 利用具有音高不变特征提取器和实例调节技术的 GAN,在合成真实乐器声音方面表现出了卓越的能力。为了进一步提高重建能力和音调准确性,以增强用户提供的声音的可编辑性,我们提出了 HyperGANStrument,它引入了音调不变超网络,以在给定一次性声音作为输入的情况下调制预训练的 GANStrument 生成器的权重。超网络调制为重建输入声音的发生器提供反馈。此外,我们利用超网络的对抗性微调方案来提高生成器的重建保真度和生成多样性。实验结果表明,该模型不仅增强了GANStrument的生成能力,而且显着提高了合成声音的可编辑性。

RaD-Net: A Repairing and Denoising Network for Speech Signal Improvement
Authors Mingshuai Liu, Zhuangqi Chen, Xiaopeng Yan, Yuanjun Lv, Xianjun Xia, Chuanzeng Huang, Yijian Xiao, Lei Xie
本文介绍了我们针对 ICASSP 2024 语音信号改进 SSI 挑战赛的修复和降噪网络 RaD Net。我们基于两阶段网络扩展了之前的框架,并提出了升级模型。具体来说,我们用 TEA PSE 的 COM Net 替换修复网络。此外,在训练阶段采用多分辨率判别器和多频带判别器。最后,我们使用三步训练策略来优化我们的模型。我们提交了两个具有不同参数集的模型来满足两个轨道的 RTF 要求。

Cross-Speaker Encoding Network for Multi-Talker Speech Recognition
Authors Jiawen Kang, Lingwei Meng, Mingyu Cui, Haohan Guo, Xixin Wu, Xunying Liu, Helen Meng
端到端多说话者语音识别作为直接转录多个说话者重叠语音的有效方法引起了人们的极大兴趣。当前的方法通常采用具有分支编码器的 1 个单输入多输出 SIMO 模型,或基于具有串行输出训练 SOT 的基于注意力的编码器解码器架构的 2 个单输入单输出 SISO 模型。在这项工作中,我们提出了一种跨说话人编码 CSE 网络,通过聚合跨说话人表示来解决 SIMO 模型的局限性。此外,CSE模型与SOT集成,以利用SIMO和SISO的优点,同时减轻它们的缺点。据我们所知,这项工作代表了集成 SIMO 和 SISO 以实现多说话者语音识别的早期努力。在两个说话人的 LibrispeechMix 数据集上进行的实验表明,CES 模型在 SIMO 基线的基础上将单词错误率 WER 降低了 8 个。

Zero Shot Audio to Audio Emotion Transfer With Speaker Disentanglement
Authors Soumya Dutta, Sriram Ganapathy
音频到音频 A2A 风格转换的问题涉及用目标音频的风格特征替换源音频的风格特征,同时保留源音频的内容相关属性。在本文中,我们提出了一种有效的方法,称为零样本情感风格转移 ZEST,它允许将给定源音频中存在的情感内容与目标音频中嵌入的情感内容进行传输,同时保留源中的说话者和语音内容。所提出的系统建立在将语音分解为语义标记、说话者表示和情感嵌入的基础上。利用这些因素,我们提出了一个框架来重建给定语音信号的音调轮廓并训练重建语音信号的解码器。该模型使用基于自我监督的重建损失进行训练。在转换过程中,情感嵌入仅从目标音频中导出,而其余因素则从源音频中导出。

Class-Incremental Learning for Multi-Label Audio Classification
Authors Manjunath Mulimani, Annamaria Mesaros
在本文中,我们提出了一种潜在重叠声音的类增量学习方法,用于解决一系列多标签音频分类任务。我们设计了一个增量学习器,可以独立于旧课程学习新课程。为了保留有关旧类的知识,我们提出了一种基于余弦相似性的蒸馏损失,可以最大限度地减少后续学习者特征表示中的差异,并将其与基于 Kullback Leibler 散度的蒸馏损失一起使用,以最大限度地减少各自输出的差异。实验在包含 50 个声音类别的数据集上进行,初始分类任务包含 30 个基类和 4 个增量阶段,每个阶段包含 5 个类别。每个阶段之后,都会对系统进行多标签分类测试,并使用迄今为止学到的整套类别。该方法在五个阶段获得的平均 F1 分数为 40.9,范围从第 0 阶段 30 个班级的 45.2 到第 4 阶段 50 个班级的 36.3。

SonicVisionLM: Playing Sound with Vision Language Models
Authors Zhifeng Xie, Shengye Yu, Mengtian Li, Qile He, Chaofeng Chen, Yu Gang Jiang
人们对为无声视频生成声音的任务越来越感兴趣,主要是因为它在简化视频后期制作方面的实用性。然而,现有的视频声音生成方法试图直接从视觉表示创建声音,由于难以将视觉表示与音频表示对齐,这可能具有挑战性。在本文中,我们提出了 SonicVisionLM,这是一种新颖的框架,旨在通过利用视觉语言模型生成各种声音效果。我们没有直接从视频生成音频,而是使用强大的视觉语言模型 VLM 的功能。当提供无声视频时,我们的方法首先使用 VLM 识别视频中的事件,以建议与视频内容匹配的可能声音。这种方法的转变将图像和音频对齐的挑战性任务转变为通过流行的扩散模型将图像与文本以及文本与音频对齐的更深入研究的子问题。为了提高法学硕士的音频推荐质量,我们收集了一个广泛的数据集,将文本描述映射到特定的声音效果,并开发了时间控制的音频适配器。我们的方法超越了当前将视频转换为音频的最先进方法,从而增强了与视觉效果的同步并改善了音频和视频组件之间的对齐。

FADI-AEC: Fast Score Based Diffusion Model Guided by Far-end Signal for Acoustic Echo Cancellation
Authors Yang Liu, Li Wan, Yun Li, Yiteng Huang, Ming Sun, James Luan, Yangyang Shi, Xin Lei
尽管扩散模型在语音增强方面具有潜力,但它们在声学回声消除 AEC 中的部署受到了限制。在本文中,我们提出了 DI AEC,开创了一种专用于 AEC 的基于扩散的随机再生方法。此外,我们提出了 FADI AEC,基于快速评分的扩散 AEC 框架,以节省计算需求,使其有利于边缘设备。它的突出之处在于每帧运行一次评分模型,实现了处理效率的显着提升。除此之外,我们引入了一种新颖的噪声生成技术,其中利用远端信号,结合远端和近端信号来提高评分模型的准确性。

High-precision Voice Search Query Correction via Retrievable Speech-text Embedings
Authors Christopher Li, Gary Wang, Kyle Kastner, Heng Su, Allen Chen, Andrew Rosenberg, Zhehuai Chen, Zelin Wu, Leonid Velikovich, Pat Rondon, Diamantino Caseiro, Petar Aleksic

FunnyNet-W: Multimodal Learning of Funny Moments in Videos in the Wild
Authors Zhi Song Liu, Robin Courant, Vicky Kalogeiton
自动理解有趣的时刻,即观看喜剧时让人发笑的时刻具有挑战性,因为它们与各种特征有关,例如肢体语言、对话和文化。在本文中,我们提出了FunnyNet W,这是一种依赖于视觉、音频和文本数据的交叉和自注意力来预测视频中有趣时刻的模型。与大多数依赖字幕形式的真实数据的方法不同,在这项工作中,我们利用视频自然产生的模式,视频帧因为它们包含场景理解所必需的视觉信息,b音频因为它包含与有趣相关的更高级别的线索诸如语调、音高和停顿之类的时刻以及使用语音转文本模型自动提取的 c 文本,因为它在由大型语言模型处理时可以提供丰富的信息。为了获取训练标签,我们提出了一种无监督的方法,可以发现并标记有趣的音频时刻。我们提供了五个数据集的实验:情景喜剧 TBBT、MHD、MUStARD、Friends 和 TED 演讲 URunny。大量的实验和分析表明,FunnyNet W 成功地利用视觉、听觉和文本线索来识别有趣的时刻,而我们的研究结果表明,FunnyNet W 具有预测野外有趣时刻的能力。

Efficient Selective Audio Masked Multimodal Bottleneck Transformer for Audio-Video Classification
Authors Wentao Zhu
音频和视频是主流媒体平台(例如 YouTube)中最常见的两种形式。为了有效地学习多模态视频,在这项工作中,我们提出了一种新颖的音频视频识别方法,称为音频视频 Transformer,AVT,利用视频 Transformer 的有效时空表示来提高动作识别的准确性。对于多模态融合,简单地在跨模态 Transformer 中连接多模态标记需要大量的计算和内存资源,相反,我们通过音频视频瓶颈 Transformer 来降低跨模态复杂性。为了提高多模态 Transformer 的学习效率,我们将自监督目标(即音视频对比学习、音视频匹配和屏蔽音视频学习)集成到 AVT 训练中,将不同的音频和视频表示映射到公共多模态表示空间中。我们进一步提出了一种屏蔽音频片段损失来学习 AVT 中的语义音频活动。对三个公共数据集和两个内部数据集的广泛实验和消融研究一致证明了所提出的 AVT 的有效性。具体来说,AVT 在动力学声音方面比之前最先进的同类产品高出 8 倍。通过利用音频信号,AVT 还超越了 VGGSound 上之前最先进的视频 Transformers 25 x 10 之一。

Using perceptive subbands analysis to perform audio scenes cartography
Authors Laurent Millot IDEAC , G rard Pel IDEAC , Mohammed Elliq
提出了真实或模拟立体声录音的音频场景制图。该音频场景分析是连续执行感知 10 个子带分析、使用短时间恒定场景假设和通道互相关来计算每个子带的两个通道之间的相对延迟和增益的时间规律,这允许在其移动源中跟踪移动源。移动,计算全局和子带直方图,其峰值给出固定源的发生信息。由 2 至 4 个固定源或由一个固定源和一个移动源组成的音频场景已经成功测试。将讨论进一步的扩展和应用。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1378568.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024 爱分析 · AI 与大模型高峰论坛:和鲸喜获两项殊荣!

1 月 9 日下午,“2024 爱分析 AI 与大模型高峰论坛”在京举办。本次论坛以“智能涌现,价值焕新”为主题,汇聚众多专家学者、实践先驱,共同探讨 AI 与大模型在企业内的新场景、新价值、新路径。论坛中,和鲸科技成功入选…

【数据链路层】802.11无线局域网的基本概述(湖科大慕课自学笔记)

802.11无线局域网基本概述 1:无线局域网(WLAN) 1:基本概述 2:802.11无线局域网可以分为以下两类 有固定基础设施的与无固定基础设施的 固定基础设施是指 我们来举例说明: 2:有固定基础设施…

SAP存放状态的几个常用表

SAP存放状态的几个常用表 在sap中,包括订单、项目、计划、设备主数据等,存在审批流程的业务单据,这些业务对象都会有状态的属性,用来控制和约束该业务当前的操作。 主要的表 JEST:存放了该对象编号的当前状态 JCDS…

蓝奏云获取下载链接js逆向

本期地址如下,使用base64解密获得 aHR0cHM6Ly9meGpkLmxhbnpvdXcuY29tL2l6bkxrMTdncnkyZA 获取最终的下载链接需要经过三次请求获得,如下图 每个请求都包含下一次请求的信息,我们逐步分析请求 第一个请求直接包含了第二次请求的src 第二个请…

团结引擎的安装

团结引擎有多种方式可以安装,具体可以参考团结引擎官方文档,这里我们使用最简单的安装方式,通过团结Hub来安装。 1. 安装 Tuanjie Hub 进入团结引擎官网,点击右上角的【下载Unity】,进入下载界面,选择“下载…

react使用recoil进行全局状态管理 + axios进行网络请求

我们尝试使用recoil进行全局状态管理以及axios进行网络请求。 recoil recoil是facebook官方推出的新的react状态管理方案,采用分散管理原子状态的设计模式,同时也强调immuteable(mobx则是mutable),这与react强调immu…

jQuery文字洗牌动效

html代码 效果展示 jQuery文本洗牌效果插件 <div class"container"><p class"lead">文本洗牌动画特效</p><h1 id"basic">A time to seek,</h1><h1 id"custom">and a time to lose;</h1> &…

5G前装搭载率即将迈过10%大关,车载通讯进入多层次增长通道

对于智能化来说&#xff0c;车载通讯性能的提升&#xff0c;对于相关功能的用户体验优化、进一步减少通讯时延以及打开应用新空间&#xff0c;至关重要。 目前&#xff0c;2G/3G正在进入运营商逐步关闭运营的阶段&#xff0c;4G依然是主力&#xff0c;但5G也在迎来新的增长机会…

1. seaborn-可视化统计关系

统计分析是了解数据集中的变量如何相互关联以及这些关系如何依赖于其他变量的过程。可视化是此过程的核心组件&#xff0c;这是因为当数据被恰当地可视化时&#xff0c;人的视觉系统可以看到指示关系的趋势和模式。 这里介绍三个seaborn函数。我们最常用的是relplot()。这是一…

FPGA开发设计

一、概述 FPGA是可编程逻辑器件的一种&#xff0c;本质上是一种高密度可编程逻辑器件。 FPGA的灵活性高、开发周期短、并行性高、具备可重构特性&#xff0c;是一种广泛应用的半定制电路。 FPGA的原理 采用基于SRAM工艺的查位表结构&#xff08;LUT&#xff09;&#xff0c;…

WPF 入门教程DispatcherTimer计时器

https://www.zhihu.com/tardis/bd/art/430630047?source_id1001 在 WinForms 中&#xff0c;有一个名为 Timer 的控件&#xff0c;它可以在给定的时间间隔内重复执行一个操作。WPF 也有这种可能性&#xff0c;但我们有DispatcherTimer控件&#xff0c;而不是不可见的控件。它几…

FridaHook(三)——AllSafe App wp

By ruanruan&#xff0c;2022/04/21 文章目录 1、不安全的日志记录2、硬编码3、pin绕过&#xff08;1&#xff09;反编译查看方法判断逻辑&#xff08;2&#xff09;hook方法A、Hook areEqual(Object,Object)B、Hook checkPin(a) &#xff08;3&#xff09;页面效果&#xff08…

day-07 统计出现过一次的公共字符串

思路 用哈希表统计words1和words2中各个字符串的出现次数&#xff0c;次数皆为1的字符串符合题意 解题方法 //用于存储words1中各个字符串的出现次数 HashMap<String,Integer> hashMap1new HashMap<>(); //用于存储words2中各个字符串的出现次数 HashMap<Stri…

适合PC端的7款最佳时间规划、项目管理软件

分享PC端7类主流的时间管理规划软件&#xff1a;PingCode、Worktile、Todoist、Pomodoro Timer 、Toggl等。 一、时间管理软件的类型 时间管理软件可以根据其功能和应用场景被划分为几种不同的类型。每种类型的软件都旨在帮助用户以不同的方式更有效地管理和分配他们的时间。以…

leetcode 每日一题 2024年01月11日 构造有效字符串的最少插入数

题目 2645. 构造有效字符串的最少插入数 给你一个字符串 word &#xff0c;你可以向其中任何位置插入 “a”、“b” 或 “c” 任意次&#xff0c;返回使 word 有效 需要插入的最少字母数。 如果字符串可以由 “abc” 串联多次得到&#xff0c;则认为该字符串 有效 。 示例 …

day1·算法-双指针

今天是第一天&#xff0c;GUNDOM带你学算法&#xff0c;跟上我的节奏吗&#xff0c;一起闪击蓝桥杯&#xff01; 正文展开&#xff0c;今天先上点小菜供大家想用&#xff0c;如有错误或者建议直接放评论区&#xff0c;我会一个一个仔细查看的哦。 双方指针问题一般是在数组中…

大数据实时抓取软件:Maxwell学习网站的高效框架!

介绍&#xff1a;Maxwell是由美国Zendesk开源的&#xff0c;使用Java编写的MySQL实时抓取软件。它能够实时读取MySQL的二进制日志&#xff08;Binlog&#xff09;&#xff0c;并将这些信息生成为JSON格式的消息。进一步地&#xff0c;Maxwell将这些消息作为生产者发送给Kafka、…

跳跃游戏,经典算法实战。

&#x1f3c6;作者简介&#xff0c;普修罗双战士&#xff0c;一直追求不断学习和成长&#xff0c;在技术的道路上持续探索和实践。 &#x1f3c6;多年互联网行业从业经验&#xff0c;历任核心研发工程师&#xff0c;项目技术负责人。 &#x1f389;欢迎 &#x1f44d;点赞✍评论…

限流式保护器在户外汽车充装的应用

摘 要&#xff1a;国家标准GB51348-2019中规定储备仓库、电动车充电等场所的末端回路应设置限流式电气防火保护器。电气防火限流式保护器可以有效克服传统断路器、空气开关和监控设备存在的短路电流大、切断短路电流时间长、短路时产生的电弧火花大&#xff0c;以及使用寿命短等…

【计算机组成原理】程序的转换及机器级表示 常用计算机术语英文缩写汇总

编码 二进制编码的十进制数&#xff08;BCD&#xff09;&#xff1a;Binary Coded Decimal美国信息交换标准代码&#xff08;ASCII&#xff09;&#xff1a;American Standard Code for Information Interchange 数据的排列顺序 最低有效位&#xff08;LSB&#xff09;&…