毕业设计-基于深度学习的单通道语音降噪技术

news2025/1/12 4:59:44

目录

前言

课题背景和意义

实现技术思路

一、基于子空间投影的时域语音降噪

二、基于噪声信息辅助的双阶段语音降噪

 三、感知高相关时频损失函数研究

实现效果图样例

最后


前言


    📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和考试中去,学长分享优质的选题经验和毕设项目与技术思路。

🚀对毕设有任何疑问都可以问学长哦!

选题指导: https://blog.csdn.net/qq_37340229/article/details/128243277

大家好,这里是海浪学长毕设专题,本次分享的课题是

🎯毕业设计-基于深度学习的单通道语音降噪技术

课题背景和意义

语音作为一种快捷、高效的通信方式,在人人交互以及人机交互中拥有重要 地位。日常生活中有大量与语音相关的应用,如手机通话,自动 语音识别(Automatic Speech Recognition,ASR),智能语音助手,电子助听器 等。这些应用大多需要在相对安静的环境中才能正常工作,然而在现实世界中, 往往不可避免地存在各种各样的噪声干扰,如自然噪声(风声,雨声等),机器 噪声(发动机工作声,风扇转动声等)以及人为噪声(餐厅中他人的说话声等) 等等。这些噪声干扰会导致语音质量和可懂度的下降,进而影响语音应用的正常 工作。以人机交互中的重要环节语音识别为例,在复杂噪声的干扰下,语音质量 明显下降,语音识别准确率也随之严重降低。为了抑制噪声的干扰,提高语音应 用的鲁棒性,语音降噪变得愈发重要。语音降噪是一种从带噪语音信号中恢复干净语音信号,进而 提高语音信号听感质量和可懂度的技术手段。

实现技术思路

一、基于子空间投影的时域语音降噪

研究动机 令𝑥, 𝑠, 𝑛 ∈ ℝ𝑇分别代表带噪语音信号,干净语音信号和加性噪声信号,其中 T 代表信号采样点数。则带噪语音信号可以由下式表示:

 令𝑓𝜃(⋅)代表语音降噪模型,其中𝜃表示模型中的可学习参数,则增强后的语 音信号可以由下式表示:

语音降噪的目标在于让增强语音信号与干净语音信号拥有尽可能接近的语 音听感质量。

 现有的基于深度学习的语音降噪方法大多采用了编码器-解码器的网络结构, 如上图所示。这类方法先通过编码器将带噪语音编码得到嵌入向量,经过一些中间处理后再将嵌入向量送入解码器来预测干净语音。然而送入解码器的嵌入向 量不可避免地同时包含语音信息和噪声信息,直接用它进行解码可能会影响对干 净语音的预测。

基于子空间投影的时域语音降噪方法描述

SPTSNRN 的整体结构如图所示。SPTSNRN 基于经典的时域降噪模型 Wave-U-Net设计。它主要由四部分构成,分别为编码器,投影模块,语音解码 器以及噪声解码器。对于输入的带噪语音 x,编码器首先将它编码得到包含高层 次特征的嵌入向量 embmix,该嵌入向量同时包含了语音信息和噪声信息。

 (1) 投影模块

投影模块具体结构如图所示,它由一个卷积模块和两个并行的自注意力 层(Self-Attention,SA)构成。其中卷积模块用于进一步提取嵌入向量的局部特征,而两个自注意力层则用于提取全局信息并将 embmix 投影得到语音嵌入向量 embs 和噪声嵌入向量 embn。下面介绍使用自注意力层实现投影的原理。

自注意力层是构建 Transformer[25]的重要部分,它与递归神经网络一样具备 时序建模能力,能够提取时序信息。

自注意力层的可学习参数由 3 个矩阵构成, 依次为𝑊𝑞 ∈ ℝ 𝑑𝑞×𝑑𝑥,𝑊𝑘 ∈ ℝ𝑑𝑘×𝑑𝑥和𝑊𝑣 ∈ ℝ𝑑𝑣×𝑑𝑥,其中𝑑𝑞,𝑑𝑘,𝑑𝑣分别表示查 询向量,键向量和值向量的维度,𝑑 表示输入时间序列的特征维度。最后值矩阵 V 与注意 力矩阵 A 相乘得到最终输出𝑋𝑜𝑢𝑡 ∈ ℝ𝑑𝑣×𝑇。自注意力层的输入输出关系如式所示。

 通过简单推导不难得到 SA 的最终输出𝑋𝑜𝑢𝑡可以写成下面的形式:

 可以看到输出序列𝑋𝑜𝑢𝑡的每一个时间点的输出都是矩阵𝑊𝑣与一向量的乘积。 如图所示,不难证明矩阵与向量相乘的结果是矩阵列向量的线性组合,因而 𝑋𝑜𝑢𝑡的每一帧都处在𝑊𝑣的列向量所张成的子空间内。

 通过对两个𝑊𝑣添加正交约束,让它们的列向量彼此正交,我们可以让两个自 注意力层输出所在的子空间互相正交,从而极大程度地分离嵌入向量中的语音信 息与噪声信息。为此与 Subspace[40]一样,我们在训练中额外添加了针对两个𝑊𝑣 的正交约束损失 LOC,其计算方法如式所示:

 (2) 编码器 编码器的具体结构如图所示,它由 L 个卷积模块级联构成,每个卷积模 块包含一维 CNN,批归一化层(Batch Normalization,BN),含参修正线性单元 激活函数(Parametric Rectified Linear Unit,PReLU)以及下采样层(Down Sampling, DS)。

 (3) 解码器 解码器包含了语音解码器和噪声解码器两个模块,两个解码器的具体结构完 全一致。

 由于在编码过程和投影过程中难免会造成信息的丢失,故本文在编码器和解 码器对应卷积模块间添加了跳连。

二、基于噪声信息辅助的双阶段语音降噪

在以上基础上提出了基于噪声信息辅助的双阶段语音降噪模型 SPTSNRN-MN。该模型在 SPTSNRN 的基础上添加了融合网络(Merge Network, MN),该网络能够进一步利用 SPTSNRN 中噪声解码器预测的噪声信息来辅助 和提升最终的语音降噪效果。

研究动机

利用训练好的 SPTSNRN 对 VBD 测试集中的带噪语音同时预测 语音信号和噪声信号,然后比较语音解码器直接预测的语音信号和利用噪声解码 器间接预测的语音信号在 PESQ 上的差异。比较结果如图所示。

下图展示了间接 预测的语音和直接预测的语音的语谱图对比。其中带噪语音的噪声场景为公共广 场,信噪比为 12.5dB。

基于噪声信息辅助的双阶段语音降噪方法描述

选用两种融合方案都先通过网络预测权重, 然后通过该权重对直接预测的和间接预测的语音信号以加权相加的形式进行融 合。该权重能反映不同时间下直接预测和间接预测语音的相对质量,当某段时间 内间接预测的语音信号质量更好时,融合网络可以赋予它更大的权值,反之则赋 予直接预测的语音信号更大的权重,从而使得最终得到的语音信号拥有更好的语 音质量。

针对两种融合方案,设计了对应的融合网络。图展示了时域融合 网络的具体结构。其中𝑠̂和𝑛̂分别表示 SPTSNRN 预测的语音信号与噪声信号,x为带噪语音信号,𝑠𝑓 𝑙 ̂ 为最终预测的语音信号。

图展示了频域融合网络的具体结构。该网络完全由 5 个二维卷积模块构 成。其中前 4 个二维卷积模块由二维 CNN,BN 层以及 PReLU 激活函数构成, 最后一个卷积模块将 PReLU 激活函数替换成 Sigmoid 激活函数。所有 CNN 的 卷积核大小为(7,3),卷积步长为(1,1),从前至后 CNN 的输出通道数依 次为 36,72,72,36,1。、

通过将 SPTSNRN 与 MN 级联我们可以得到一个双阶段的语音降噪网络 SPTSNRN-MN,其网络结构如图所示。该网络首先在第一个阶段利用 SPTSNRN 预测语音信号以及噪声信号,然后在第二个阶段用 MN 将噪声信号与 语音信号相融合以得到更好降噪语音信号。

 三、感知高相关时频损失函数研究

从损失函数出发,分析目前常用的损失函数与语音听感质量存在的失配 问题,并针对该问题提出了感知高相关时频损失函数。

研究动机

语音降噪的最终目的是希望让增强语音具有和真实语音一样的听感质量。尽 管 PESQ 等客观评价指标能较好地评估语音听感质量,但是由于这些指标在计算 过程中涉及了一些不可导的运算操作,所以无法直接将这些客观评价作为损失函 数指导网络的训练。

将 VBD 测试集中的带噪语音和干净语 音分解成 2 秒的片段,然后利用这些语音片段计算上述常用损失函数的损失值以 及对应的 PESQ,接着分析这些损失值与 PESQ 的相关度。这里我们采用样本皮 尔森相关系数 r 来衡量相关度,其计算方法如式所示:

其中 N 为样本数,𝑋̅,𝑌̅分别代表 X 和 Y 的样本均值,𝜎𝑋和𝜎𝑌分别代表 X 和 Y 的样本标准差。r 的取值范围为-1 至 1,其绝对值越大,说明两个变量越相关,反之则说明越不相关。我们以样本的损失值为横坐标,PESQ 为纵坐标画出所有 样本的分布图,具体如图所示。

感知高相关时频损失函数方法描述

感知高相关视频损失函数的计算流程如图所示,其中𝑠与𝑠̂分别代表干净 语音和增强语音,𝐴与𝐴̂为对应的对数幅度谱(Log Amplitude Spectrum,LAS)。

 相比 AES,MAES 中与感知更相关的误差分量获得了更大的权重。最后再对 MAES 在时间和频率上求平均便得到了最终的 PHRTF 损 失。PHRTF 损失详细的计算方法如式所示,其中⊗表示按元素 相乘。

1、频谱感知掩模预测

频谱感知掩模预测模块具体结构如图所示。该模块的结构比较简单,主 要包含了 L 个级联的卷积模块,一个动态平均池化层,一个线性层以及 Sigmoid 激活函数。其中每个卷积模块均由一个二维 CNN 以及 ReLU 激活函数组成。动 态平均池化层会对输入特征图的每个通道内的特征值取平均。

2、PHRTF 损失训练方法

未训练的 PSMP 不能正确预测 PSM,故需要用合适的训练任务对 PSMP 模 块进行训练,以提升 PHRTF 损失与语音听感质量的相关度。考虑到 PESQ 能较 好的衡量语音听感质量,这里我们以提升 PHRTF 损失与 PESQ 的相关度为训练 目标。我们用皮尔森相关系数来衡量两者的相关度

实现效果图样例

语音降噪技术:

我是海浪学长,创作不易,欢迎点赞、关注、收藏、留言。

毕设帮助,疑难解答,欢迎打扰!

最后

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/945378.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AS报错:CreateProcess error=206,文件名或扩展名太长

背景:今天编译公司的项目,第一次编译Ok,修改代码之后,第二次编译报错,报错信息:CreateProcess error206,文件名或扩展名太长。 同时删除build文件夹时报错:另一个程序正在使用此文件…

智能设计师的崛起:探寻智元兔AI设计师的神奇之旅

AI绘图是指利用人工智能技术来生成或改善绘图作品的方法和工具。通过使用深度学习和生成对抗网络等算法,人工智能可以学习和模仿艺术家的创作风格,生成逼真的艺术作品。 智元兔-AI设计师是一款基于人工智能设计工具,利用机器学习和深度学习技…

Kafka3.0.0版本——Leader故障处理细节原理

目录 一、服务器信息二、服务器基本信息及相关概念2.1、服务器基本信息2.2、LEO的概念2.3、HW的概念 三、Leader故障处理细节 一、服务器信息 三台服务器 原始服务器名称原始服务器ip节点centos7虚拟机1192.168.136.27broker0centos7虚拟机2192.168.136.28broker1centos7虚拟机…

C语言网络编程:实现自己的高性能网络框架

一般生产环境中最耗时的其实是业务逻辑处理。所以,是不是可以将处理业务逻辑的代码给拆出来丢到线程池中去执行。 比如像下面这样: ​我们事先创建好一堆worker线程,主线程accepter拿到一个连接上来的套接字,就从线程池中取出一个…

如何为winform控件注册事件

有很多winform的初学者不知道如何为winform注册的事件代码,本篇博文就是以button控件为例子,为winform注册单击事件,如下: 1、新建一个winform 以visual studio 2019 社区版为例子,新建一个winform程序,如下: 关于visual studio 2019 社区版下载方式点击这里:手把手教…

秒懂算法2

视频链接 : 希望下次秒懂的是算法题_哔哩哔哩_bilibili P1094 [NOIP2007 普及组] 纪念品分组 原题链接 : [NOIP2007 普及组] 纪念品分组 - 洛谷 思路 : 排序 贪心 双指针首先先对输入进来的数组进行排序(由小到大)运用贪心的思想 : 前后结合,令l1,rn,若a[l]a[r]<w…

Linux查看是虚拟机还是物理机

第一种方式&#xff1a;dmesg命令 [roottest ~]# dmesg | grep -i hypervisor [ 0.000000] Hypervisor detected: VMware [ 0.001000] TSC freq read from hypervisor : 2903.999 MHz [ 6.311621] [drm] Max dedicated hypervisor surface memory is 0 kiB第二种方式…

Win11共享文件,能发现主机但无法访问,提示找不到网络路径

加密长度选择如下&#xff1a; 参考以下链接&#xff1a; Redirectinghttps://answers.microsoft.com/zh-hans/windows/forum/all/win11%E8%AE%BE%E7%BD%AE%E6%96%87%E4%BB%B6%E5%A4%B9/554343a9-d963-449a-aa59-ce1e6f7c8982?tabAllReplies#tabs

数据结构:单向链表

dxlb.h dxlb.c main.c 结果

一、计算机硬件选购

计算机硬件选购 一、设备选购1.1 I/O设备1.2 机箱1.3 主板1.3.1 主板芯片组的命名方式1.3.2 主板版型1.3.3 Z790-a(DDR5)主板参数 1.4 CPU1.5 硬盘1.6 显卡1.7 内存条1.8 散热器&#xff08;水冷&#xff09;1.9 电源、风扇、网线、插线板1.9.1 电源1.9.2 风扇1.9.3 网线1.9.4 …

企业网络安全:威胁情报解决方案

什么是威胁情报 威胁情报是网络安全的关键组成部分&#xff0c;可为潜在的恶意来源提供有价值的见解&#xff0c;这些知识可帮助组织主动识别和防止网络攻击&#xff0c;通过利用 STIX/TAXII 等威胁源&#xff0c;组织可以检测其网络中的潜在攻击&#xff0c;从而促进快速检测…

screen命令,可以断开服务器连接,依旧能运行你的程序了

可以参考博客1&#xff1a;https://blog.csdn.net/nima_zhang_b/article/details/82797928 可以参考博客2:https://blog.csdn.net/herocheney/article/details/130984403 Linux中的screen是一个命令行工具&#xff0c;可以让用户在同一个终端会话中创建多个虚拟终端。它非常有…

如何判断一个java对象还活着

引用计数算法 引用计数器的算法是这样的&#xff1a;在对象中添加一个引用计数器&#xff0c;每当有一个地方引用它时&#xff0c;计数器值就加一&#xff1b;当引用失效时&#xff0c;计数器值就减一&#xff1b;任何时刻计数器为零的对象就是不可能再被使用的。 缺点&#x…

0829|C++day7 auto、lambda、C++数据类型转换、C++标准模板库(STL)、list、文件操作

一、思维导图 二、【试编程】将实例化类对象写入容器后&#xff0c;写入.txt文本中&#xff0c;再重新定义一个类容器&#xff0c;将.txt中的内容读取出来&#xff0c;输出到终端 封装一个学生的类&#xff0c;定义一个学生这样类的vector容器, 里面存放学生对象&#xff08;至…

1960-2022年各国ESG(环境、社会、治理)数据-草案数据集

1960-2022年各国-ESG&#xff08;环境、社会、治理&#xff09;-草案数据集 1、时间&#xff1a;1960-2022年 2、范围&#xff1a;世界各国 3、来源&#xff1a;世界银行 4、说明&#xff1a;世界银行的ESG&#xff08;环境、社会、治理&#xff09;数据草案数据集涵盖了17…

2013.8.5-2023.6.2碳排放权交易数据集

2013.8.5-2023.6.2碳排放权交易数据集 1、时间&#xff1a;2013.8.5-2023.6.2 2、指标&#xff1a;行政区划代码、所属省份、所属地域、长江经济带、经度、纬度、交易日期、地区、交易品种、开盘价、最高价、最低价、成交均价、收盘价、前收盘价、涨跌幅_%、总成交量、总成交…

知道CountDownLatch是做什么的,那你知道它的底层是如何实现的吗?

一、概述 CountDownLatch是一个多线程控制工具&#xff0c;用来控制线程的等待。设置需要countDown的数量num&#xff0c;然后每一个线程执行完毕后&#xff0c;调用countDown()方法&#xff0c;而主线程调用await()方法执行等待&#xff0c;直到num个子线程执行了countDown()…

Unity——工程与资源

本文将详细介绍Unity工程的文件夹结构&#xff0c;以及动态加载资源的技术要点 一、Unity项目的文件夹结构 1.工程文件夹 在新建工程时&#xff0c;Unity会创建所有必要的文件夹。第一级文件夹有Assets,Library,Logs,Packages,ProjectSettings。 Assets&#xff1a;最主要的文…

Win10永恒之黑CVE-2020-0796复现shell

鸣谢文章&#xff1a; CVE-2020-0796&#xff08;永恒之黑&#xff09;漏洞利用getshell复现详细过程 影响版本&#xff1a; Windows 10 Version 1903 for 32-bit Systems Windows 10 Version 1903 for x64-based Systems Windows 10 Version 1903 for ARM64-based Systems …

实训笔记8.29

实训笔记8.29 8.29笔记一、《白龙马电商用户行为日志分析平台》项目概述--大数据离线项目1.1 项目的预备知识1.1.1 电商平台1.1.2 用户行为数据1.1.3 常见的软件/网站的组成和技术实现1.1.4 大数据中数据计算场景 1.2 项目的开发背景和开发意义1.3 项目的开发流程和技术选项1.4…