【论文阅读】TDANet:一种具有自上而下注意力的用于语音分离的高效自编码器架构(ICLR 2023)

news2024/11/27 11:52:21

TDANet: 一种具有自上而下注意力的用于语音分离的高效自编码器架构

文章目录

  • TDANet: 一种具有自上而下注意力的用于语音分离的高效自编码器架构
    • 速览
    • 摘要
    • 方法
      • Pipeline
      • TDANet
    • 实验
    • 总结


速览

下载收录源码机构演示
arxivICLR 2023PyTorch清华大学Demo
@inproceedings{tdanet2023iclr,
  title={An efficient encoder-decoder architecture with top-down attention for speech separation},
  author={Li, Kai and Yang, Runxuan and Hu, Xiaolin},
  booktitle={ICLR},
  year={2023}
}

摘要

  • 问题描述:现有语音分离模型无法兼顾效率和性能。

  • 解决方案:本文基于脑启发,提出了一个能够模拟大脑自上而下注意力的高效自编码器架构用于语音分离任务。具体地,它利用全局注意力(GA)模块和级联的局部注意力(LA)模块来获得一个自上而下的注意力表示。

  • 实验结果:在三个基准数据集上进行了实验,与之前的 SOTA 模型 Sepformer 相比,TDANet 实现了一致性的具有竞争力的性能,并且效率极高。具体地,TDANet 的 MACs 只有 Sepformer 的 5%,CPU 推理时间仅为 Sepformer 的 10%。

方法

Pipeline

pipeline

TDANet

TDANet

TDANet 的主要结构如上图所示。它由三部分构成:

1)编码器:采用多个卷积对输入的音频信号进行下采样。出于轻量的考虑,使用卷积核大小为 5,步长为 2 的深度可分离卷积来替换普通卷积;
2)全局注意力模块:GA 模块由一个转换层和自上而下的注意力组成。Transformer Layer 的输入是使用 dense connections 处理的融合的多尺度特征。dense connections 只使用 pooling layers,没有任何参数。当我们删除dense connections 时,TDANet 的编码器变成了典型的 U-Net 编码器。

我们使用 dense connections 有以下两个原因:
(1)dense connections 与 DenseNet 类似,提升了梯度的反向传播,使网络更容易训练;
(2)在自下而上的过程中,特征可能会失去一些细节。使用 dense connections 投射到顶层可以更有效地使用多尺度特征。

使用 Transformer Layer 的原因是,这个网络是明确为与语音分离任务(sequence task)兼容的序列建模而设计的,也是一个标准的注意力模型。 使用自上而下的注意力来调制不同规模的特征,在实现上是非常简单的(我们只需要通过 element-wise production 的一个步骤)。我们使用自上而下的注意力来调节局部特征,减少信息冗余,使网络更专注于任务相关的特征,更好地指导不同尺度的序列的建模过程。

3)解码器:解码器由若干个级联的局部注意力层组成,主要负责音频信号的重建过程,其结构如下图所示。去掉图中的灰色方框后,它就成了一个典型的UNet中的解码器。LA层只是两个 1D 深度卷积层和一个 Sigmoid 函数,只有 ~0.01M 的参数。解码器中的LA层提高了分离性能(1.8dB 的增益),一个可能的原因是,LA 层使用邻近层的特征来学习一组参数,以适应性地调制当前层的融合特征,从而重建细粒度的特征。这一操作在以前基于 U-Net的模型(SuDoRM-RF)中是不可用的。因此,我们通过在 SuDoRM-RF 的解码器中加入 LA 层,再次验证 LA 层对于 SuDoRM-RF 模型的重要性。

局部注意力层

实验

本文在三个基准数据集(Libri2Mix,WHAM! 和 LRS2-2Mix)上进行了实验,以验证其提出方法的性能和效率。


  1. TDANet 具有最低的参数量,与之前的 SOTA 模型 Sepformer 相比,实现了具有竞争力的性能。此外,TADNet Large 在三个数据集上都实现了 SOTA 性能。
    在这里插入图片描述

  2. TDANet 的计算复杂度和推理时间远胜于之前的 SOTA 模型。
    在这里插入图片描述

总结

对于语音分离任务,TDANet 可以兼顾性能和效率,相比于前一个 SOTA 模型,实现了极大的效率超越,对于语音分离模型的实际应用部署具有重要意义。TDANet 的成功也反映了基于脑启发仿真研究深度神经网络的正确性,我们可以从大脑的思考或感知过程中获得构建神经网络的灵感。此外,TDANet 提出的轻量级自编码器架构也可以轻松移植到计算机视觉等应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/336010.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis应用场景

redis的五种基本数据类型结构类型结构存储的值结构的读写能力String字符串可以是字符串、整数或浮点数对整个字符串或字符串的一部分进行操作;对整数或浮点数进行自增或自减操作;List列表一个链表,链表上的每个节点都包含一个字符串对链表的两…

Docker进阶 - 9. docker network 之自定义网络

1. 运行两个tomcat实例,并进入容器内部 docker run -d -p 8081:8080 --name tomcat81 billygoo/tomcat8-jdk8 docker exec -it tomcat81 bashdocker run -d -p 8082:8080 --name tomcat82 billygoo/tomcat8-idk8 docker exec -it tomcat82 bash2. ping一下各自的ip…

Windeployqt 打包,缺少dll 的解决方法

Windeployqt 打包,缺少DLL 的原因分析,解决方法 很多同学使用工具windeployqt进行打包发布后,运行exe文件时,还是会出现下图所示的系统错误提示,这种情况就表示相关的DLL 库文件没有被正确打包。可是windeployqt明确显…

20230210使AIO-3568J开发板在Android12下调通3个USB

20230210使AIO-3568J开发板在Android12下调通3个USB 2023/2/10 10:00 0、默认编译RK3568的Andorid12的rk3568-evb2-lp4x-v10.dts,2个USB2.0接口的鼠标可以用。 并列USB3.0接口的上面的鼠标不能用。USB3.0接口下面可以连接ADB。 vcc5v0_host: vcc5v0-host-regula…

邀您参赛!DCIC 2023「科技金融欺诈风险识别」算法赛正在报名中

近年来,跨境赌博、电信网络诈骗、黑产等外部欺诈违法犯罪形势日益严峻,呈现线上化、产业化、团伙化等特征,国家、监管机构及银行自身都高度重视反欺诈治理工作,坚决守护人民群众的财产安全。 为进一步打击外部欺诈违法犯罪行为&am…

CentOS7 ifconfig(或 ip addr)命令不显示IP地址

问题(因为当时没有存图 所以这个图上是网上找的 )解决办法第一:可能是本地服务没有开启,检查本地服务。如图所示,检查这两个服务是否开启。注:如何快速找到服务 可以把光标放在其中一个上面 然后按下VM就可…

硬盘分类及挂载硬盘知识补充和介绍

一、硬盘介绍Linux硬盘分IDE硬盘和SCSI硬盘,目前基本上是SCSI硬盘1.对于IDE硬盘,驱动器标识符为"hdx~",其中"hd"表明分区所在设备的类型,这里是指IDE硬盘了。"x"为盘号(a为基本盘,b为基…

endo-BCN-PEG4-Palmitic,环丙烷环辛炔四聚乙二醇-Palmitic包装灵活

endo-BCN-PEG4-Palmitic,endo环丙烷环辛炔四聚乙二醇-Palmitic反应特点:endo-BCN-PEG4-Palmitic 酯在其末端含有一个 Palmitic基和一个 BCN 基。对点击试剂来说同样会通过不同的小分子PEG进行连接,BCN-PEG-acid、BCN-PEG-NHS ester、BCN-PEG-…

软件测试—对职业生涯发展的一些感想

目录:导读 职场生涯 1、短期规划 2、长期规划 自身定位 1、你在哪儿? 2、你想要什么? 3、你拥有什么? 4、你需要做什么?什么时候做? 5、淡定啊淡定 最近工作不是很忙,有空都是在看书&a…

多传感器融合定位十一-基于滤波的融合方法Ⅱ

多传感器融合定位十一-基于滤波的融合方法Ⅱ1. 编码器运动模型及标定1.1 编码器基础知识1.2 编码器运动模型1.2.1 旋转半径求解1.2.2 角速度求解1.2.3 线速度求解1.2.4 位姿求解1.3 编码器的标定1.3.1 轮子半径标定1.3.2 轮子与底盘中心距离标定2. 融合编码器的滤波方法2.1 核心…

调用chatgpt的api, 必须知道的三件事

牙叔教程 简单易懂 调用api的代码 let url "https://api.openai.com/v1/completions"; let answer await axios // 使用axios发送post请求.post(url, data, { headers: headers }).then((res) > {return res.data.choices[0].text.trim();}).catch((err) >…

谈谈会话管理

客户端和服务器之间进行数据传输遵循的是HTTP协议, 此协议属于无状态协议(一次请求对应一次响应, 响应完之后断开连接), 服务器是无法跟踪客户端的请求, 通过cookie技术可以给客户端添加一个标识, 客户端之后发出的每次请求都会带着这个标识从而让服务器识别此客户端, 但由于co…

PostgreSQL入门

PostgreSQL入门 简介 PostgreSQL是以加州大学伯克利分校计算机系开发的POSTGRES, 版本 4.2为基础的对象关系型数据库管理系统(ORDBMS) 支持大部分SQL标准并且提供了许多现代特性 复杂查询外键触发器可更新视图事务完整性多版本并发控制 …

引导滤波code

文章目录1. 原理概述2. 实验环节2.1 验证与opencv 库函数的结果一致2.2 与 双边滤波比较2.3 引导滤波应用,fathering2.3 引导滤波应用,图像增强2.4 灰度图引导,和各自通道引导的效果差异2.5 不同参数设置影响3. 参考引导滤波1. 原理概述 引导…

VHDL语言基础-状态机设计-ASM图法状态机设计

目录 有限状态机的描述方法: ASM图: 状态转移图: 状态转移列表: MDS图: ASM图法状态机设计: ASM图的组成: 状态框: 判断框: 条件框: 状态框与条件框…

Python之FileNotFoundError: [Errno 2] No such file or directory问题处理

错误信息:FileNotFoundError: [Errno 2] No such file or directory: ../AutoFrame/temp/report.xlsx相对于当前文件夹的路径,其实就是你写的py文件所在的文件夹路径!python在对文件的操作时,需要特别注意文件地址的书写。文件的路…

上海亚商投顾:三大指数集体调整 消费板块逆市活跃

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。市场情绪三大指数今日集体调整,沪指全天弱势震荡,创业板指盘中跌超1%。旅游、食品、乳业等大消费板块…

渗透测试 -- 网站信息收集

数据来源 01 网站指纹识别 网站的最基本组成:服务器(操作系统)、中间件(web容器)、脚本语言(php、java、...)、数据库(Mysql、...)为什么要了解这些? 举个例子:发现了一…

vue3组件库项目学习笔记(八):Git 使用总结

目前组件库的开发已经接近尾声,因为这次是使用 git 进行协作的开发模式,在团队协作的时候遇到很多的问题,开发过程中发现小伙伴们对于 git 的使用还不是很熟练,这里就简单总结一下常用的 git 的操作,大致有&#xff1a…

Revit快速材质切换:同一墙面赋予不同材质的方法

一、Revit中对同一墙面赋予不同材质的方法 方法1:零件法 重点:通过工作平面面板上的设置工作平面命令选取正确的面取消勾选通过原始分类的材质,如图1所示 方法2:拆分构造层绘制一道墙体,选择创建的墙体,单击…