单通道说话人语音分离——DPRNN(Dual-Path Recurrent Neural Network)

news2025/1/16 20:57:09

参考文献:《DUAL-PATH RNN: EFFICIENT LONG SEQUENCE MODELING FOR TIME-DOMAIN SINGLE-CHANNEL SPEECH SEPARATION

DPRNN网络是Con-Tasnet的改进网络

Con-Tasnet介绍详情请看上一篇文章

单通道说话人语音分离——Conv-TasNet(Convolutional Time-domain audio separation Network)

1.背景

        近年来,基于深度学习的语音分离的研究证明了时域方法优于传统的基于时频的方法。与时频域方法不同,时域分离系统通常接收由大量时间步长组成的输入序列,这给极长序列的建模带来了挑战。传统的递归神经网络(RNNs)由于优化困难,对如此长的序列建模无效,而一维卷积神经网络(一维CNNs)在其接受域小于序列长度时,无法进行话语级序列建模。

        这里提出了双路径递归神经网络(DPRNN),这是一种简单而有效的方法,将RNN层组织成一个深度结构来建模极长的序列。DPRNN将长序列的输入分割成更小的块,并迭代地应用块内和块间的操作,其中输入长度可以与每个操作中原始序列长度的平方根成正比。实验表明,通过用DPRNN替换一维CNN,并在时域音频分离网络(TasNet)中应用样本级建模,WSJ0-2混合模型的性能比之前的最佳系统小20倍。

2.DPRNN模型介绍

如上图所示,这是双路RNN系统流程图(DPRNN)。

(A)分割阶段将一个连续输入的部分分割成有或没有重叠的块,并将它们连接起来形成一个三维张量。在我们的实现中,重叠比被设置为50%。

(B)每个DPRNN块由两个在不同维度上具有循环连接的rnn组成。块内双向RNN首先并行应用于单个块,以处理局部信息。然后跨块应用块间RNN以捕获全局依赖关系。可以堆叠多个块,以增加网络的总深度。

(C)通过对最后一个DPRNN块执行重叠添加,该块的三维输出被转换为顺序输出。

 双路径RNN(DPRNN)包括分割、块处理和重叠添加三个阶段。分割阶段将一个顺序的输入分割成重叠的块,并将所有的块连接成一个三维张量。然后将张量传递给堆叠的DPRNN块,以另一种方式迭代地应用局部(块内)和全局(块间)建模。最后一层的输出通过重叠添加方法转换回顺序输出。

训练目标

训练端到端系统的目标是最大化尺度不变的源噪比(SI-SNR),这通常被用作源分离的评估度量,取代标准的源失真比(SDR)

数据集

华尔街日报的说话人数据集

3.实验结果

DPRNN 模型不同设置下的性能对比

与以往的模型的性能对比

 

 分离后语音识别任务性能的对比

4.展望

说话人分离目前是热门方向,特别是在会议系统里面有很多的应用场景。

这个模型还是比较好用的,很多地方都能用,关键看怎么用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/378860.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

应用程序性能优化方案,web服务五级缓存优化,服务器性能优化...

winfrom 全局异常捕获WPF 全局异常捕获Asp.Net全局异常捕获MVC 全局异常捕获AspNetNetCore 全局异常捕获一级缓存html/css/js 前端缓存二级缓存Asp.Net MVC AspNetCore 客户端缓存设置三级缓存服务端缓存四级redis 数据库缓存服务端缓存五级sqlserver 数据库缓存设置分布式缓存…

2023年湖北建设厅资料员证怎么考需要什么条件?启程别

2023年湖北建设厅资料员证怎么考需要什么条件?启程别 湖北资料员目前已经开始组织考试了,各位想要考资料员的现在可以开始准备报考相关准备工作了。资料员怎么考需要什么条件?启程别告诉你 建设厅资料员证怎么考 网报:七大员全国…

ARM学习(十八)jinkozone调试问题总结

笔者来聊聊ARM的函数的调用规则 1、ARM函数调用规则介绍首先介绍几个术语, AAPCS:Procedure Call Standard for the ARM Architecture APCS:ARM Procedure Call Standard TPCS:Thumb Procedure Call Standard ATPCS:AR…

5.3 redis分布式锁【Java 面试第三季】

redis分布式锁【Java 面试第三季】前言推荐redis分布式锁概览47_redis分布式锁前情说明48_boot整合redis搭建超卖程序-上49_boot整合redis搭建超卖程序-下50_redis分布式锁0151_redis分布式锁0252_redis分布式锁0353_redis分布式锁0454_redis分布式锁0555_redis分布式锁0656_re…

【Java|golang】2363. 合并相似的物品---桶排序

给你两个二维整数数组 items1 和 items2 ,表示两个物品集合。每个数组 items 有以下特质: items[i] [valuei, weighti] 其中 valuei 表示第 i 件物品的 价值 ,weighti 表示第 i 件物品的 重量 。 items 中每件物品的价值都是 唯一的 。 请你…

报名投票链接怎么做做一个投票的链接怎么做微信投票链接怎么做

近些年来,第三方的微信投票制作平台如雨后春笋般络绎不绝。随着手机的互联网的发展及微信开放平台各项基于手机能力的开放,更多人选择微信投票小程序平台,因为它有非常大的优势。1.它比起微信公众号自带的投票系统、传统的H5投票系统有可以图…

案例|政务大数据平台数据安全建设实践

《关于加强数字政府建设的指导意见》、《全国一体化政务大数据体系建设指南》,对全面开创数字政府建设新局面作出部署,保障数据安全,提升数字政府基础设施的支撑能力,也明确成为数字政府建设探索与实践中的重点任务。那么&#xf…

王道计算机网络课代表 - 考研计算机 第五章 传输层 究极精华总结笔记

本篇博客是考研期间学习王道课程 传送门 的笔记,以及一整年里对 计算机网络 知识点的理解的总结。希望对新一届的计算机考研人提供帮助!!! 关于对 “传输层” 章节知识点总结的十分全面,涵括了《计算机网络》课程里的全…

klee内存模型

klee内存模型一.LLVM基础二.Klee中相关的类2.1.基础类2.2.内存管理相关类三.示例3.1.示例13.2.示例23.3.示例33.4.示例4这篇blog主要通过一些简单的示例来了解以下klee对内存的建模方式。 首先一个C语言程序在运行时,内存主要包括: 代码段,程…

如何从零到一的设计一套轻易云数据集成平台这样的系统架构

一个集成平台的架构设计需要考虑多个方面,包括系统架构、技术选型、数据存储、安全设计等。下面是参考轻易云数据集成平台的架构设计思路:系统架构首先需要确定系统的整体架构,这包括前后端分离、微服务架构、容器化部署等。根据需求和规模的…

老字号白酒企业——金徽酒借力泛微,升级门户,实现统一办公

金徽酒股份有限公司前身系康庆坊、万盛魁等多个徽酒老作坊基础上组建的省属国营大型白酒企业,曾用名甘肃陇南春酒厂,是国内建厂最早的中华老字号白酒酿造企业之一。2016年3月10日,金徽酒在上海证券交易所挂牌上市。 (图片素材来自…

Airbnb(三) Managing Diversity in Airbnb Search 搜索多样性

abstract 搜索系统中一个长期的问题是结果多样性。从产品角度讲,给用户多种多样的选择,有助于提升用户体验及业务指标。 多样性需求和模型的目标是相矛盾的,因为传统ctr模型是 point wise,只看单个相关性不管相邻之间item差异。 …

字节前端一面常见vue面试题(必备)

Vue为什么没有类似于React中shouldComponentUpdate的生命周期 考点: Vue的变化侦测原理前置知识: 依赖收集、虚拟DOM、响应式系统 根本原因是Vue与React的变化侦测方式有所不同 当React知道发生变化后,会使用Virtual Dom Diff进行差异检测,但是很多组件…

如何顺利渡过三月“大考”?ScanV为您献上“通关秘籍”

随着网络安全形势日益复杂、严峻,在重大安全保障事件期间,重要业务系统,尤其是党政机关、国企央企、能源、金融等重要的关基单位更应重视网站及业务系统安全。 临近三月重保季,知道创宇推出“御黑行动-典型案例篇”,以…

美国近50%的企业都在使用ChatGPT!你的企业用了吗?

当一些人还在尝试向人工智能聊天程序ChatGPT提问、和它进行沟通交流时,不少美国企业已把ChatGPT应用到了日常工作中,甚至代替了部分员工,节省了企业成本。据美国《财富》杂志网站近日报道,本月早些时候,一家提供就业服…

王道计算机网络课代表 - 考研计算机 第四章 网络层 究极精华总结笔记

本篇博客是考研期间学习王道课程 传送门 的笔记,以及一整年里对 计算机网络 知识点的理解的总结。希望对新一届的计算机考研人提供帮助!!! 关于对 “网络层” 章节知识点总结的十分全面,涵括了《计算机网络》课程里的全…

HTML标签——表格标签

HTML标签——表格标签 目录HTML标签——表格标签一、表格标题和表头单元格标签场景:注意点:案例实操小结二、表格的结构标签场景:注意点:案例实操:三、合并单元格思路场景:代码实现一、表格标题和表头单元格…

今天,我想去一个平行世界

基于云计算的大规模即时云渲染技术,让每个人都拥有了“数字生命”。2023的开年爆款,非《流浪地球2》莫属。 它展开了人类的新话题,关于平行空间,关于数字生命,关于人类文明。跟随这部科幻巨作,穿越平行空间…

hadoop-Yarn资源调度器【尚硅谷】

大数据学习笔记 Yarn资源调度器 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行与操作系统之上的应用程序。 (也就是负责MapTask、ReduceTask等任…

营收大涨Facebook复活? 要留住人心不能只靠改革

Facebook 作为全球最大的社交媒体平台之一,在过去几年中曾经面临着不少困难和挑战。但是最近,Facebook 在广告收入上的表现迅猛反弹,这表明 Facebook 已经成功地复活了。那么如何利用新功能来提高广告效果?一. 利用Facebook的自适…