RNNoise:学习噪声抑制

news2025/1/16 8:02:08

目录

1. RNNoise简介

2. 噪声抑制

3. 深度学习和循环神经网络

4. 一种混合的方法

6. 关于数据集

7. 从python到C语言

8. 其他资源


RNNoise:学习噪声抑制

原文地址:RNNoise: Learning Noise Suppression (jmvalin.ca)

1. RNNoise简介

该例子展示了如何利用深度学习来进行噪声抑制的,主要的目的是将传统的信号处理方法结合机器学习,得到一个内存消耗最小,运行速度更快的语音降噪算法,且不需要GPU的参与,它甚至可以在树莓派上运行,效果比传统的噪声抑制系统更好,算法参数也更容易调整。

2. 噪声抑制

噪声抑制是语音信号处理中一个永久性的话题,顾名思义,就是在对感兴趣的语音段造成最小失真的同时,接收有噪声的信号并尽可能多地去除噪声。

这是传统噪声抑制算法框图。

(1) 语音活动检测(VAD)模块检测信号什么时候包含语音以及什么时候仅有噪声

(2) 噪声频谱估计模块用来估计噪声的频谱特性(每个频率的功率谱)

(3) 直接进行减法,即从输入音频中“减去”噪声

 从上面的框图来看,噪声抑制看起来十分简单:只需要完成三个简单的任务即可。我们可以轻松设计出噪声抑制算法的代码,关键是能不能让自己的算法在任何时候都能很好地工作,不受各种噪音类型的影响,在任何场合下。这需要对算法中的每个部分进行非常仔细的调整和研究,对一些奇奇怪怪的信号以及许多特殊情况进行大量测试。总有一些奇奇怪怪的信号,导致你的算法不能兼容,就算是一些知名的DSP开源库也不能说100%奏效,比如speexdsp:

Speex: a free codec for free speech

3. 深度学习和循环神经网络

Recurrent Neural Network:循环神经网络/递归神经网络.

深度学习的出现,促进了语音信号处理的发展和应用,近几年来的进展有:

(1)神经网络深度更深了,已经超过两个隐藏层

(2)循环神经网络具有更深的记忆

(3)训练用的数据集更丰富

RNN可以实现时间序列的建模,而不仅仅是单独地考虑输入和输出。这对噪声抑制来说特别重要,因为进行噪声估计是需要耗时的。在相当长的一段时间内,RNN的能力受到严重限制,因为它们不能长时间保存信息,并且进行反向传播计算时,所涉及的梯度下降过程非常低效。这两个问题都可以通过设计门控单元得以解决,比如:LSTM-长短期记忆网络(long short-term memory),GRU-递归门控单元(gated recurrent unit),还有其他很多方法。

注:GRU(Gate Recurrent Unit)是循环神经网络的一种。和LSTM(Long-Short Term Memory)一样,也是为了解决长期记忆和反向传播中的梯度等问题而提出来的

RNNoise使用门控递归单元(GRU),因为它在该任务上的性能略好于LSTM,并且需要更少的资源(权衡CPU运算能力和内存),与一般的循环单元相比,GRU有两个额外的门。

1)复位门:用来控制是否将当前的状态用于计算新的状态

2)更新门:基于新的输入,当前状态将改变多少(输入能贡献多少权值)。

这个更新门(关闭时)使GRU能够(并且容易)长时间记住信息,这也是GRU(和LSTM)比一般的递归单元执行得更好的原因。

术语:

feed-forward unit:前向反馈单元

simple recurrent unit:一般的神经递归单元

如下图:

 简单的循环单元与GRU进行对比:不同之处在于GRU的r门和z门,这就实现了长时间的记忆和学习功能。二者都是软开关(值介于0和1之间),基于整个层的先前状态和输入进行计算,使用的是sigmod激活函数。当更新门z位于左侧时,状态可以在很长一段时间内保持不变,直到某个条件成立,导致z切换到右侧,则状态就发生改变。

4. 一种混合的方法

由于深度学习的成功,现在流行将深度神经网络应用于整个问题。这些方法被称为端到端的方法,它都是基于神经元的。端到端的方法已经应用于语音识别和语音合成。一方面,这些端到端系统已经证明了深度神经网络的强大程度。另一方面,有时这些系统可能并不是最优的,而且浪费了系统资源。例如,一些噪声抑制方法单单是每一层,都使用数千个神经元和数千万个权值来进行噪声抑制。缺点不仅是运行深层网络的计算成本,而且还有模型本身的大小,一千行代码,以及几十兆字节的神经元权重值。

这里我们提出了不同的方法,保留基本的信号处理方法(不要让神经网络尝试模拟它)。神经网络要做的事:在信号处理之后无休止调整的棘手部分(指的是参数调整……)。另一个与现有的深度学习噪声抑制方法不同的地方是:目标是实时性,并不像语音识别对延迟的要求没有那么高,因此无法接收长时间的模型推理运行时间。

为了避免有非常多的输出(因为这样需要设计大量的神经元),我们决定不直接使用样本或频谱。我们考虑使用频带,这是一种与我们感知声音的方式相匹配的频率尺度。我们总共使用了22个子带,而不是80个(复数)光谱值。

 术语:

Bark scale:巴克频率标度

对比Opus频带和实际的巴克频率标度,对于RNNoise,使用的是类似于Opus这样的网络层。由于我们重叠了频带,Opus频带之间的边界成为重叠的RNNoise频带的中心,频率越高,则频带越宽,而人耳的听觉对频率分辨率不是很敏感;频率较低时,频带就较窄,但不像巴克标度所给出的那么窄,因为如果这样的话,我们就没有足够的数据来对噪声做出更好的估计。

并不是直接从这22个子带上进行重构,而是对应地计算出增益值,然后作用于这些子带上。可以把它看成一个长度为22的频率均衡器,可以快速改变每个子带上的值,目的是衰减噪声部分,让语音信号通过。

针对每个频带进行增益的计算,有几个优点:

(1)首先,以频带作为标准划分一段语音,频带数少,使得模型更加简单

(2)其次,不会产生所谓的“音乐噪声”,因为相邻频点被抑制的时候,就只有一个单音节能通过。音乐噪声在噪声抑制中非常常见,也是很令人讨厌的一个问题, 对于一个较宽的频带,即不让它全部通过,也不让它完全被抑制掉。

(3) 第三个优点是模型的优化。增益值的边界是0~1,可直接用sigmod函数来进行计算,这样做不会引入额外的噪声。

术语:

Rectified Linear activation function:线性整流函数,人工神经网络中常用的一类激活函数(activation function)

MFCC:梅尔频率倒谱系数

对于输出,可以用一个线性整流函数来计算0到无穷大之间的衰减值(单位是db),在训练的时候,为了更好地优化增益值,损失函数选择的是基于均方误差的MSE方法,增益值等于α的幂次。研究发现α=0.5在感知上能产生最佳结果。当α趋于0,则相当于最小化对数光谱距离,这是有问题的,因为最佳增益可能非常接近于零。

使用频带获得的较低分辨率的主要缺点是没有足够精细的分辨率来抑制音调谐波之间的噪声。幸运的是,它并不那么重要,甚至还有一个简单的技巧可以做到(见下面的音调过滤部分)。

输出基于22个频带,因此在输入上具有更高的频率分辨率是没有意义的,使用相同的22个频带来向神经网络提供频谱信息即可。音频具有较大的动态范围,所以计算能量的对数比直接输入能量要好得多。得到的数据基于巴克尺度的倒谱,该倒谱与语音识别中非常常用的梅尔频率倒谱系数(MFCC)密切相关。

除了倒谱系数,还有:

1) 前6帧的一二阶倒数

2) 基音周期(1/基音频率)

3)6个子带的基音增益(声音强度)

4)一个特殊的非平稳值,用于检测语音(该例子并未使用)

这为神经网络提供了总共42个输入特征。

5. 深度神经网络层架构

设计的深层架构灵感来自传统的噪声抑制方法。大部分工作由3个GRU层完成。下图显示了我们用于计算频带增益的层,以及架构如何映射到传统噪声抑制的每个步骤。

 每个方框代表一层神经元,括号中的数字表示数量。Dense层是连在一起的,并且不重复。网络的一个输出对应不同频率下都适用的一组增益,另一个输出是语音活动检测,它不属于于噪声抑制的范围,是网络中一个附属的模块。

6. 关于数据集

深度神经网络有时也会非常愚蠢。他们非常擅长他们所知道的东西,但他们可能会在与所知道的相差太远的输入上犯下非常惊人的错误。神经网络就像一个懒惰的学生,他们可以利用训练数据的任何漏洞来避免学习更困难的东西,就会导致训练的结果不如我们的预期。所以说,训练用的数据十分关键。

典型的失败示例:很久以前,一些军队研究人员试图训练神经网络来识别伪装在树上的坦克。他们拍摄了有坦克和没有坦克的树木的照片,然后训练神经网络来识别有坦克的树木。训练结果远远达不到预期,原因在于:有坦克的照片是在阴天拍摄的,而没有坦克的照片则是在晴天拍摄的,因此网络真正学到的是如何区分阴天和晴天!

对于噪声抑制的场合,不能只收集可用于监督学习的输入/输出数据,因为我们很少能同时获得干净的语音和有噪声的语音,所以需要人为地结合纯净语音以及噪声语音制造一些数据。所以比较棘手的部分应该是如何获取到各种各样的噪声数据,并将噪声数据添加到语音中。此外还必须确保涵盖所有录制条件类型,比如,仅在全频带音频(0-20kHz)上训练的早期版本,训练结果在音频以8kHz以下的音频中不起作用。

与语音识别中常见的做法不同,并不对特征应用倒谱均值进行归一化,且保留表示能量的第一个倒谱系数。而是保持数据包含所有真实级别的音频,还将随机滤波器应用于音频上,使得系统对各种麦克风频率响应具有鲁棒性。

由于我们的频带的频率分辨率不足,无法滤除音调谐波之间的噪声,所以我们使用基本的信号处理。 这是混合方式的另一部分。当有相同变量的多个测量值时,提高精度(降低噪声)的最简单方法就是计算平均值。显然,只是计算相邻音频样本的平均值不是我们想要的,因为它会导致低通滤波。然而,当信号是周期性的(例如语音)时,我们可以计算由基频周期偏移的采样的平均值。引入梳状滤波器,使基频谐波通过,同时衰减它们之间的频率这是含有噪声的部分。为了避免信号失真,梳状滤波器被独立地应用于每个频带,并且其滤波器强度取决于基频相关性和神经网络计算的频带增益。

目前使用FIR滤波器进行基音滤波,但也可以使用IIR滤波器,如果强度太强,则会导致更大的噪声衰减,同时可能导致更高的失真。

7. 从python到C语言

神经网络的所有设计和训练都是使用Keras深度学习库在Python中完成的。由于Python通常不是实时系统的首选语言,所以我们必须在C中实现代码。幸运的是,运行神经网络比训练一个神经网络简单得多,所以我们只需要实现一次前向传播经过GRU层,输出22维的增益。为了更好的调整出权重的合理步幅,我们在训练期间将权重的大小限制为+/- 0.5,这使得可以使用8位值轻松存储它们。所得到的模型仅85 kB(而不是将权重存储为32位浮点数所需的340 kB)。
C代码可以使用BSD许可证。代码在x86 CPU上的运行速度比实时的要快60倍。它甚至比Raspberry Pi 3上的实时速度快7倍。具有良好的矢量化(SSE / AVX),应该可以比现在快四倍。

8. 其他资源

(1)代码:Xiph.Org / rnnoise · GitLab

(2)论文:

AHybridDSP/DeepLearningApproachtoReal-TimeFull-BandSpeechEnhancement (arxiv.org)。

(3)示例项目地址:jmvalin.dreamwidth.org

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/159019.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

共享购深度解析——新玩法解读

共享经济模式以合理配置网络资源、减少销售市场交易费用、推动私营经济强势来袭等优点颠覆性创新地严重影响传统商业模式,根据“自由者”的协同,共享经济模式给供需彼此更自由选择和由上而下的制度变革,提高了经济形势高效率,变成…

Pytorch 环境和分布偏移与错误使用机器学习例子

假设我们训练了一个贷款申请人违约风险模型,用来预测谁将偿还贷款或违约。 这个模型发现申请人的鞋子与违约风险相关(穿牛津鞋申请人会偿还,穿运动鞋申请人会违约)。 此后,这个模型可能倾向于向所有穿着牛津鞋的申请人…

代码随想录算法训练营第十六天二叉树 java : 104.二叉树的最大深度 111.二叉树的最小深度 222.完全二叉树的节点个数

文章目录前言深度是个啥,高度又是啥Leetcode 104.二叉树的最大深度题目讲解Leetcode 111.二叉树的最小深度题目讲解Leetcode 222.完全二叉树的节点个数(优先掌握递归题目讲解总结前言 今天将主要围绕 深度和高度 来展开 复习一下递归三部曲 确定递归函…

已解决微软Office2016 Excel卡顿\缓慢、打开第二个文件加载很慢问题(亲测有效)

已解决微软Office2016 Excel卡顿\缓慢、打开第二个文件加载很慢问题(亲测有效) 文章目录问题描述问题分析解决方法1解决方法2解决方法31) 修改基本设置2)修改配置文件问题描述 我的电脑环境是:Windows 10 Excel 2016版本。 文件…

【前端之旅】Nginx快速入门

一名软件工程专业学生的前端之旅,记录自己对三件套(HTML、CSS、JavaScript)、Jquery、Ajax、Axios、Bootstrap、Node.js、Vue、小程序开发(Uniapp)以及各种UI组件库、前端框架的学习。 【前端之旅】Web基础与开发工具 【前端之旅】手把手教你安装VS Code并附上超实用插件…

【Blender UV映射02】智能UV映射 创建和应用法线纹理

写在前面 前面的学习记录: 【Blende UV映射01】创建UV 使用UV贴图处理纹理 依旧是跟着Blender 2.8 UV Mapping教程,本文是教程的P8-P12的过程记录。 1 一些操作记录 调整滚轮缩放 如果发现Blender缩放过快, 键盘的"/"数字键…

Java并发编程实战 学习笔记 Day7

并发编程是比较进阶的知识,涉及到很多底层的东西,学习起来是比较困难的。并发编程的bug更多的是偶发性的,很难复现,排查起来也很困难,要想快速解决问题,就要理解并发编程的本质,追本溯源&#x…

Android ANR bugreport log分析

最近工作中频繁遇到设备ANR问题,而且是概率性的那种,于是决定花点时间找找规律复现分析下 说道这里,抓日志是问题解决的最有效途径,这里不得不说一下 bugreport log,其实网上关于它的分析方法有很多,在此仅仅是为了记录…

小型水库在线监测解决方案

一、方案背景水利部全国水利普查显示我国共有水库98002座,其中小型水库93308座。水库对防汛减灾、供水保障和农业灌溉等至关重要,水库的稳定运行关系到下游人民群众的生命财产安全,关系到当地经济发展和社会稳定。在2020年11月18日国务院常务…

EasyVim:简单强大的VIM配置

EasyVim 简单强大的vim配置,熟练后可大大提高开发效率(VS Code的两倍以上)。 安装 安装过程需要从github下载很多插件,国内尽量挂VPN git clone https://github.com/yuesong-feng/EasyVim cd EasyVim/ sh ./install.sh vim :P…

JavaScript基础(16)_数组方法、数组遍历、foreach

数组方法unshift():向数组开头添加一个或多个元素,并返回新的数组长度。向前边插入元素以后,其他的元素索引会依次调整。push():向数组的末尾添加一个或多个元素,并返回数组新的长度。该方法会将数组新的长度作为返回值返回。shift():删除数组…

【工具推荐】 Obsidian 插件 Obsidian to Flomo 一键同步内容到 Flomo 插件

目录一、Obsidian、Flomo、Obsidian to Flomo 他们都是什么?1. 什么是 Obsidian ?2. 什么是Flomo ?3. 什么是Obsidian to Flomo ?二、如何安装 Obsidian to Flomo ?三、插件使用方法1. 启用插件并配置API四、如何使用插…

《2022大数据产业年度创新技术突破》榜重磅发布丨金猿奖

‍年度金猿榜单/奖项本届“数据猿年度金猿策划活动——2022大数据产业创新技术突破榜单/奖项”由金猿&数据猿共同推出。‍数据智能产业创新服务媒体——聚焦数智 改变商业2022年下半年度,由数据猿、金猿组委会共同推出的第五届 “年度金猿季大型主题策划活动”…

Unity Netcode for GameObjects多人联机(源文件)

一、安装Netcode for Gameobjects Netcode for Gameobjects是Unity新推出的联机解决方案,该解决方案目前处于初期,相关功能不是很完善,但是用起来还不错。下面介绍一下相关用法。 首先下载安装Netcode for Gameobjects,其官方网站…

Elasticsearch入门介绍及Linux安装

前言Elasticsearch是一款分布式高性能的全文搜索引擎,为什么会需要这个呢,像我们平常使用的最多的存储工具就是Mysql,在业界也是非常有名的,我们大部分结构化数据都是用它来存储的,sql语言的操作也是非常方便&#xff…

助力“智慧港口”建设,北部湾港联合美创打造的主数据管理系统上线!

数字化浪潮下,港口企业发展将致力于以数据价值提升和数据价值创造为目标,打造新型“智慧港口”,实现更加经济的港口资源统筹高效利用并降低各类成本,企业通过逐步转变信息资源管理工作模式和利用方式,深度应用新一代信…

在GCP上创建Cloud SQL的三种方式(Console,gcloud,Terraform)

1 简介 Cloud SQL 是GCP上的关系型数据库,常用的有三种方式来创建: (1) 界面操作 (2) 命令行 gcloud (3) Terraform 在开始之前,可以查看:《初始化一个GCP项目并用gcloud访问操作》。 2 GCP 操作界面 登陆GCP,选…

Chevereto V4 首页显示图片托管数量的实现方法

博主最近一直想在Chevereto V4 首页显示图片托管数量,但是网上的方法只针对于Chevereto V3,V4却没有相关教程,查询谷歌也无结果,经博主查询大量案例今天为大家分享一下 Chevereto V4 首页显示图片托管数量的实现方法。1. 修改后台…

70.语义分割和数据集

在 之前讨论的目标检测问题中,我们一直使用方形边界框来标注和预测图像中的目标。 本节将探讨语义分割(semantic segmentation)问题,它重点关注于如何将图像分割成属于不同语义类别的区域。 与目标检测不同,语义分割可…

20230112编译AIO-3568J的Buildroot(rk356x_linux_release_v1.3.0b_20221213)

20230112编译AIO-3568J的Buildroot(rk356x_linux_release_v1.3.0b_20221213) 2023/1/12 20:40 当前可以拿到的Buildroot的SDK; rk356x_linux_release_v1.0.0_20210511_split_dir rk356x_linux_release_v1.2.0_20211019_split_dir rk356x_linu…