Svad:一个鲁棒、低功耗、轻量级的语音活动检测与尖峰神经网络

news2025/1/10 11:33:25

SVAD: A ROBUST, LOW-POWER, AND LIGHT-WEIGHT VOICE ACTIVITY DETECTION WITH SPIKING NEURAL NETWORKS

第二章 目标说话人提取之《Svad:一个鲁棒、低功耗、轻量级的语音活动检测与尖峰神经网络》


文章目录

  • SVAD: A ROBUST, LOW-POWER, AND LIGHT-WEIGHT VOICE ACTIVITY DETECTION WITH SPIKING NEURAL NETWORKS
  • 前言
  • 一、任务
  • 二、动机
  • 三、挑战
  • 四、方法
    • 1.
    • 2.LIF神经元模型
    • 3. 具有注意力的听觉编码器
    • 4.
    • 5 损失函数
  • 五、实验评价
    • 1.数据集
    • 2.消融实验
    • 3.客观评价
    • 4.主观评价
  • 六、结论
  • 七、知识小结


前言

语音新手入门,学习读懂论文。
本文作者机构是新加坡国立大学,天津大学,香港中文大学。
在这里插入图片描述


一、任务

本文介绍了一种新的基于snn的VAD模型,即sVAD,该模型的特点是听觉编码器具有基于snn的注意机制。

二、动机

脉冲神经网络(snn)在生物学上是合理的,而且节能。

三、挑战

基于snn的VAD在噪声条件下会遭受显著的性能损失。
实现最佳性能通常需要大型SNN模型。

四、方法

1.

在这里插入图片描述

本文提出的基于snn的VAD模型由两个关键组件组成:1)带注意的听觉编码器,将原始音频输入转换为峰值特征帧;2)专门用于逐帧语音活动检测任务的分类器。

2.LIF神经元模型

我们采用广泛认可的Leaky Integrate-and-Fire (LIF)模型[16]来研究尖峰神经元。LIF神经元整合突触输入,直到其膜电位超过放电阈值,导致输出峰传递给后续神经元。LIF神经元的动态由以下离散时间表达式捕获:在这里插入图片描述
U l i [t]表示神经元i在第l层的膜电位,il i [t]表示t时刻的输入电流。α表示膜电位衰减常数,v表示神经元放电阈值,wl−1 ij表示前一层中神经元j的连接权值,bl I表示注入神经元I的恒电流。输出尖峰的发生,记为oli [t−1],使用尖峰激活函数确定。在这里插入图片描述
Θ(·)为Heaviside阶跃函数。

3. 具有注意力的听觉编码器

我们的研究利用了成熟的听觉编码器SincNet,该编码器以其出色的特征提取能力而闻名。通过将SincNet集成到我们的听觉编码器中,我们增强了特征提取,提高了基于snn的VAD模型在各种噪声条件下的性能,同时保持了轻量级配置。
一维卷积层引入可训练参数,增强编码器对数据特征的适应性,并通过训练提高性能。受ConvTasNet的启发[17],我们通过在sincnet处理的特征中添加基于snn的1D卷积层(sConv1D)来扩展这种数据驱动能力。这使编码器能够在训练期间优化听觉特征提取。此外,sConv1D输出尖峰,便于将原始音频转换为尖峰表示,用于后续基于snn的处理。
为了增强VAD模型的鲁棒性,特别是在低信噪比条件下,我们引入了一种受人类听觉系统掩蔽效应启发的注意机制。
我们将提取的特征Y置于三层基于snn的全连接(sFC)层中,以得出一个注意掩码M。随后,我们利用这个注意掩码来调制提取的特征,生成被关注的特征。在这里插入图片描述
可训练的三层sFC块优化了不同声学条件下的注意Mask。

4.

为了增强序列建模能力,我们使用带有循环连接的SNN建立分类器,称为sRNN。与前馈处理更新公式(Eq.(2))不同,循环神经元的更新方程包含了一个额外的循环连接项。在这里插入图片描述

5 损失函数

在这里插入图片描述
分类损失和注意屏蔽损失。对于分类损失,我们采用交叉熵(CE)。[x1, x2]表示单热编码(语音为[0,1],非语音为[1,0]),pc为输入属于c类的Softmax概率。为了计算注意掩码损失,我们使用均方误差(MSE)。在这里插入图片描述
S为干净语音特征,N为特征中元素的总数,k为元素的索引。
在这里插入图片描述

五、实验评价

1.数据集

QUT-NOISETIMIT数据集。该数据集包含600小时的有噪声语音。该数据集将来自TIMIT数据集的干净语音记录与现实世界的噪声场景(如咖啡馆、汽车、家庭、街道和混响环境)相结合。数据集分为三个噪声级别:低(信噪比= +15dB, +10dB),中(信噪比= +5dB, 0dB)和高(信噪比= -5dB, -10dB)。

2.消融实验

3.客观评价

我们使用帧级半总错误率(HTER),平均缺失率(MR)和虚警率(FAR)来报告结果。
在这里插入图片描述
在所有基于snn的模型中,我们的模型对编码器使用最小的帧移(即15ms)(例如,[14]中的20ms),从而产生最低的延迟。
在这里插入图片描述

在这里插入图片描述
结果表明,除了CNN和CLC模型外,我们的sVAD模型优于大多数模型。这可以归因于CNN和CLC模型使用更大的帧大小和移位来进行决策(与我们的模型相比,CNN的帧大小和移位超过5倍,CLC的帧大小和移位超过3倍),从而增加了延迟。本研究的主要重点是在噪声条件下开发基于snn的鲁棒、低功耗和轻量化VAD模型,而不是追求最高的HTER性能。
在这里插入图片描述

4.主观评价


六、结论

作者开发了一种新的基于snn的VAD模式,该模式包括一个用于特征提取的听觉编码器和一个用于分类的sRNN。实验结果表明,该方法具有噪声鲁棒性好、功耗低、占用空间小等优点。消融研究进一步验证了我们提出的听觉编码器的有效性和鲁棒性。

七、知识小结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1707610.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

京东二面:Sychronized的锁升级过程是怎样的

引言 Java作为主流的面向对象编程语言,提供了丰富的并发工具来帮助开发者解决多线程环境下的数据一致性问题。其中,内置的关键字"Synchronized"扮演了至关重要的角色,它能够确保在同一时刻只有一个线程访问特定代码块或方法&#…

【Python】 从Python列表中获取唯一值

基本原理 在Python中,列表是一种非常灵活的数据结构,它允许存储不同类型的元素。然而,有时我们可能需要从列表中提取唯一的值,即去除重复的元素。这在处理数据集或进行数据分析时尤其有用。Python提供了几种方法来实现这一目标。…

[SCTF2019]Who is he

unity 游戏,直接输入字符串 直接修改 if 判断,看能不能直接输出flag 修改了程序逻辑,但还是输出了 明明已经把这个 if 删了 不知道为什么还会输出这串字符 应该程序还有什么引入吧,看 wp 应该先查一下程序的动态链接库 DLL 是…

渗透测试工具Cobalt strike-1.CS介绍与配置

Cobalt Strike是一款美国Red Team开发的渗透测试神器,常被业界人称为CS。最近这个工具大火,成为了渗透测试中不可缺少的利器。其拥有多种协议主机上线方式,集成了提权,凭据导出,端口转发,socket代理&#x…

亡羊补牢,一文讲清各种场景下GIT如何回退

系列文章目录 手把手教你安装Git,萌新迈向专业的必备一步 GIT命令只会抄却不理解?看完原理才能事半功倍! 常用GIT命令详解,手把手让你登堂入室 GIT实战篇,教你如何使用GIT可视化工具 GIT使用需知,哪些操作…

【ArcGISPro】CSMPlugins文件夹

在ArcGISPro软件的CSMPlugins文件夹含有以下一个应用程序的扩展 从文件的名称可以看出美国地质调查局的太空地质学与ESRI合作进行的一个软件扩展,而USGS主要是遥感影像方向的应该,所以估计该dll的主要功能是多遥感影像进行处理,支持软件的不同…

MySQL(三)查询

1、单表和多表查询 1.1 算术运算符、比较运算符及特殊运算符 1)MySQL的算术运算符 select 0.1+0.3333,0.1-0.3333,0.1*0.3333,1/2,1%2; select 1/0,100%0; select 3%2,mod(3,2); 2)MySQL的比较运算符 select 1=0,1=1,null=null; select 1<>0,1<>1,null<&…

Scala环境的搭建

要搭建Scala&#xff0c;我们必须先下载java&#xff0c;由于我的电脑已经搭建好了环境&#xff0c;因此我这里用截图来教大家搭建环境。 可以从网上搜索安装包对其进行安装 IntelliJ IDEA – 领先的 Java 和 Kotlin IDE 不建议下载最新版的&#xff0c;大家下载的版本可以下…

【大宗】第一期:大航海时代下的[集运欧线]

一、大航海时代 - 集运欧线前世今生 01 航运合约指数的诞生 ‍‍‍‍ 2023年8月18日&#xff0c;上海期货交易所的伙伴们搞了个大新闻——他们推出了一种新的期货品种&#xff0c;叫做“欧线集运”。这可不是什么普通的期货&#xff0c;它是基于一个叫做SCFIS的指数&#xf…

goimghdr,一个有趣的 Python 库!

更多Python学习内容&#xff1a;ipengtao.com 大家好&#xff0c;今天为大家分享一个有趣的 Python 库 - goimghdr。 Github地址&#xff1a;https://github.com/corona10/goimghdr 在图像处理和分析过程中&#xff0c;识别图像文件的类型是一个常见的需求。Python自带的imghdr…

DINO结构中的exponential moving average (ema)和stop-gradient (sg)

DINO思路介绍 在 DINO 中&#xff0c;教师和学生网络分别预测一个一维的嵌入。为了训练学生模型&#xff0c;我们需要选取一个损失函数&#xff0c;不断地让学生的输出向教师的输出靠近。softmax 结合交叉熵损失函数是一种常用的做法&#xff0c;来让学生模型的输出与教师模型的…

阿赵UE引擎C++编程学习笔记——GameMode和生命周期

大家好&#xff0c;我是阿赵。   之前在介绍HelloWorld的时候&#xff0c;我们很创建了一个MyGameModeBase的c类&#xff0c;然后就可以在BeginPlay函数里面写打印的HelloWorld。这一篇主要是说一下&#xff0c;GameMode究竟是一个什么东西&#xff0c;然后UE里面的生命周期是…

huggingface 笔记:聊天模型

1 构建聊天 聊天模型继续聊天。传递一个对话历史给它们&#xff0c;可以简短到一个用户消息&#xff0c;然后模型会通过添加其响应来继续对话一般来说&#xff0c;更大的聊天模型除了需要更多内存外&#xff0c;运行速度也会更慢首先&#xff0c;构建一个聊天&#xff1a; ch…

企业文件加密实现数据泄露防护

在数字化时代&#xff0c;数据成为企业最宝贵的资产之一。然而&#xff0c;数据泄露事件频发&#xff0c;给企业带来了巨大的经济损失和声誉风险。为了保护企业的核心利益&#xff0c;实现数据泄露防护&#xff0c;企业必须采取有效的文件加密措施。 一、数据泄露的严重性 数据…

基于STM32实现智能交通灯控制系统

目录 引言环境准备智能交通灯控制系统基础代码示例&#xff1a;实现智能交通灯控制系统 GPIO控制交通灯定时器配置与使用红外传感器检测车辆用户界面与显示应用场景&#xff1a;城市交通管理与自动化控制问题解决方案与优化收尾与总结 1. 引言 本教程将详细介绍如何在STM32嵌…

汽车大灯中擎耀智能控制器在车灯智能化配置下的创新与分析

随着科技的飞速发展&#xff0c;汽车工业也在不断地进行着革新。其中&#xff0c;车灯作为汽车的重要组成部分&#xff0c;其智能化配置已经成为汽车行业的一大趋势。这种趋势不仅为消费者带来了更加安全、便捷的驾驶体验&#xff0c;同时也为商家提供了丰富的商业机会。汽车工…

JS中运算符详解

一&#xff1a;赋值运算符 1 类型 、、-、*、/等 2 如何运行 &#xff0c;是将等号右边的数赋值给左边以为例&#xff0c;let num 5&#xff1b;num2等价于numnum2 二&#xff1a;一元运算符 1 自增运算符 什么是一元运算符 只需要一个操作数就可以运算的运算符 &#x…

开源数据库同步工具DBSyncer

前言&#xff1a; 这么实用的工具&#xff0c;竟然今天才发现&#xff0c;相见恨晚呀&#xff01;&#xff01;&#xff01;&#xff01; DBSyncer&#xff08;英[dbsɪŋkɜː]&#xff0c;美[dbsɪŋkɜː 简称dbs&#xff09;是一款开源的数据同步中间件&#xff0c;提供M…

解读vue3源码-1

提示&#xff1a;看到我 请让滚去学习 vue3渲染流程 文章目录 vue3渲染流程vue3的3个核心&#xff1a;1.响应式模块(Reactivity Module)--创建响应式数据2.编译模块(Compiler Module)--模版编译器将html转换为一个渲染函数3.渲染模块(Renderer Module) 渲染流程&#xff1a;1.首…

【御控工业物联网】 Java JSON结构转换、JSON结构重构、JSON结构互换(17):数组To对象——键值互换属性重组

文章目录 一、JSON结构转换是什么&#xff1f;二、核心构件之转换映射三、案例之《JSON数组 To JSON对象》四、代码实现五、在线转换工具六、技术资料 一、JSON结构转换是什么&#xff1f; JSON结构转换指的是将一个JSON对象或JSON数组按照一定规则进行重组、筛选、映射或转换…