单通道说话人语音分离——Conv-TasNet(Convolutional Time-domain audio separation Network)

news2024/11/25 15:28:22

单通道说话人语音分离——Conv-TasNet模型(Convolutional Time-domain audio separation Network)

参考文献:《Conv-TasNet: Surpassing Ideal Time-FrequencyMagnitude Masking for Speech Separation》

1.背景

        在真实的声学环境中,鲁棒的语音处理通常需要自动的语音分离。由于这一研究课题对语音处理技术的重要性,人们已经提出了许多方法来解决这一问题。然而,语音分离的准确性,特别是对新演讲者,仍然不够。

        大多数以前的语音分离方法都是在混合信号的时频(T-F,或谱图)表示中制定的,这是使用短时傅里叶变换(STFT)从波形中估计的。T-F域的语音分离方法的目的是从混合谱图中近似出单个源的干净谱图。

        虽然时频掩蔽仍然是最常用的语音分离方法,但该方法存在几个缺点:

首先,STFT是一种通用的信号转换,它不一定是最优的语音分离。

其次,干净源相位的精确重构是一个重要的问题,对相位的错误估计引入了重构音频精度的上界。这个问题是明显的,即使是理想的混合物,理想的干净幅度谱图。虽然相位重建的方法可以用来缓解这一问题,但该方法的性能仍然不理想。

第三,成功地从时频表示中分离出来,需要对混合信号进行高分辨率的频率分解,这需要一个较长的时间窗口来计算STFT。

        为了解决这些缺点,这里提出了一个全卷积时域音频分离网络(Conv-TasNet),一个用于端到端时域语音分离的深度学习框架。Conv-TasNet使用线性编码器生成语音波形的表示。

2.Conv-TasNet模型介绍

 如图所示,

(A): TasNet系统的方框图。编码器将混合波形的一部分映射到高维表示法,并且分离模块计算每个目标源的乘法函数(即,掩模)。解码器从掩码特征重建源波形。

(B): 所建议的系统的流程图。一个一维卷积自动编码器对波形进行建模,而一个时间卷积网络(TCN)分离模块基于编码器的输出来估计掩模。TCN中一维卷积块的不同颜色表示不同的膨胀因子。

(C): 一维卷积块的设计。每个块由一个1×1-conv操作组成,然后是一个深度卷积(D−conv)操作,在每两个卷积操作之间添加非线性激活函数和归一化。两个线性的1×1−conv块分别作为剩余路径和跳过连接路径。

这里不对模型进行细讲,具体可以看原文

编码器和解码器基函数的可视化,编码器表示,和源掩码的样本2-扬声器混合物。扬声器用红色和蓝色表示。编码器表示法根据每个扬声器在每个基函数和时间点上的功率进行着色。基函数根据其欧几里得相似性进行排序,并在频率和相位调谐上显示出多样性。

训练目标

训练端到端系统的目标是最大化尺度不变的源噪比(SI-SNR),这通常被用作源分离的评估度量,取代标准的源失真比(SDR)

 其中,\hat{s}是分离的语音,s为目标的语音。

3.实验结果

实验数据:华尔街日报的说话人数据集(要花钱买的,有钱请随意)

两个说话人

 三个说话人

 

4.展望

说话人分离目前是热门方向,特别是在会议系统里面有很多的应用场景。

但目前关键在于,模型训练太久了,长串联式结构,一个batch只能用1或者2,如何减少训练代价也是一个值得研究的问题。

另外,因为该模型使用的是时域信息,不适用于高采样率音频也是问题,说话人分离的音频都是8kHz采样,16kHz也很勉强训练,同样也是训练代价问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/365303.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【蓝桥杯每日一题】差分算法

🍎 博客主页:🌙披星戴月的贾维斯 🍎 欢迎关注:👍点赞🍃收藏🔥留言 🍇系列专栏:🌙 蓝桥杯 🌙我与杀戮之中绽放,亦如黎明的花…

银河麒麟V10桌面版系统将用户开发Qt界面程序添加为开机自启动

银河麒麟V10桌面版系统将用户开发Qt界面程序添加为开机自启动 银河麒麟V10桌面版系统允许用户开发自己的qt界面程序并将其添加为开机自启动。这样,每次开机后,用户开发的qt界面程序会自动启动,无需手动打开。 要将用户开发的qt界面程序添加…

走进chatGPT新一代机器人

chatGPT这款新一代对话式人工智能便在全球范围狂揽1亿名用户,并成功从科技界破圈,成为街头巷尾的谈资。chatGPT能干什么?打开官网https://openai.com/blog/chatgpt/ ,完了,芭比Q了试下其他家的接口讲笑话写代码写解决方…

格雷码应用意义及编解码

文章目录1. 格雷码的应用意义2. 由自然数编码获得格雷码2.1 对称法实现2.2 公式法实现3. 由格雷码解码获得自然数1. 格雷码的应用意义 学过晶体管知识的朋友们都知道,数据位跳变就相当于硬件电路中的晶体管翻转。许多位同时跳变就相当于多个晶体管同时翻转&#xf…

【C++】STL之空间配置器 | STL总结

​🌠 作者:阿亮joy. 🎆专栏:《吃透西嘎嘎》 🎇 座右铭:每个优秀的人都有一段沉默的时光,那段时光是付出了很多努力却得不到结果的日子,我们把它叫做扎根 目录👉什么是空…

全球首个云渗透测试认证专家课程发布!腾讯安全领衔编制

2月20日,国际云安全联盟CSA发布了“云渗透测试认证专家CCPTP”课程体系,这是全球首个云渗透测试能力培养课程及人才认证项目,有效地弥补了云渗透测试认知的差距和技能人才培养的空白。腾讯安全在该项目中担任核心课程编撰单位。CSA是全球中立…

【双指针问题】LeetCode344、345、 844、283问题详解及代码实现

Halo,这里是Ppeua。平时主要更新C语言,C,数据结构算法......感兴趣就关注我吧!你定不会失望。 🌈个人主页:主页链接 🌈算法专栏:专栏链接 我会一直往里填充内容哒! &…

曼恩斯特在创业板注册生效:拟募资约5亿元,彭建林夫妇为实控人

2月21日,深圳证券交易所披露的信息显示,深圳市曼恩斯特科技股份有限公司(下称“曼恩斯特”)的注册生效。据贝多财经了解,曼恩斯特于2021年6月30日在创业板递交招股书,2022年6月15日获得上市委会议通过&…

老戏骨李立群真敢说,互联网吐槽郝蕾演技太差

说起老戏骨李立群,可能很多人都想不起来,他究竟出演过什么影视作品,不过这依然不能阻挡他的走红。李立群的走红非常偶然,因为在大陆拍戏多年,他已经在上海买房定居,当然偶尔也会去台北省亲。 在上海疫情爆发…

【C++】3.类和对象(中)

1.类的6个默认成员函数 一个类什么都没有不是空类 我们没有写相关函数 但编译器会自动生成6个默认函数 2.构造函数 1概念 构造函数是一个特殊的成员函数,名字与类名相同,创建类类型对象时由编译器自动调用,保证每个数据成员都有一个合适的初始值&…

微服务架构中的多级缓存设计还有人不懂?

今天我们来聊聊缓存这个话题,看看在微服务环境下如何设计有效的多级缓存架构。主要涉及三方面内容: Web 应用的客户端缓存;应用层静态资源缓存;服务层多级缓存。 首先,咱们先讲解微服务架构的多级缓存设计。 微服务…

ElasticSearch 学习笔记总结(一)

文章目录一、 数据的 分类二、 ElasticSearch 介绍三、 ElasticSearch 搭建四、正排索引 和 倒排索引五、ES HTTP 索引 操作六、ES HTTP 文档 操作七、ES HTTP 查询数据1. 条件查询2. 分页查询3. 排序查询4. 多条件查询5. 全文检索 完全匹配 高亮显示6. 聚合查询八、 ES HTTP 映…

2.22JVM

一.学习目标1)JVM内存区域划分2)JVM的类加载机制3)JVM的垃圾回收1.JVM执行流程程序在执行之前先要把Java代码转换为字节码(.class),JVM首先需要通过一定的方式类加载器把文件加载到运行时数据区,而字节码文件是JVM的一套指令集规范,并不能直接交给底层操作系统去执行,因此需要特…

【11-JVM面试专题-说说你知道的垃圾回收算法?垃圾回收器你知道吗?CMS、G1和ZGC垃圾回收器你有过了解吗?】

JVM面试专题-说说你知道的垃圾回收算法?垃圾回收器你知道吗?CMS、G1和ZGC垃圾回收器你有过了解吗? JVM面试专题-说说你知道的垃圾回收算法?垃圾回收器你知道吗?CMS、G1和ZGC垃圾回收器你有过了解吗?你掌握的…

Wincc Flexible smart V4触摸屏软件中批量导入PLC变量的具体方法示例(无需单个添加)

Wincc Flexible smart V4触摸屏软件中批量导入PLC变量的具体方法示例(无需单个添加) 具体操作步骤可参考以下例子中的内容: 打开STEP7-MicroWin smart软件,编辑自己的PLC程序(这里以一个简单的启保停程序为例), 如下图所示,打开Wincc Flexible smart V4触摸屏软件,新建…

双指针 (C/C++)

1. 双指针 双指针算法的核心思想:将暴力解法的时间复杂度,通常是O(N*N),通过某种特殊的性质优化到O(N)。 做题思路:先想想暴力解法的思路,然后分析这道题的特殊性质,一般是单调性。然后得出双指针算法的思路…

微信协议网页版微信协议解析

最近在做个微信机器人,所以研究了网页版的微信协议及相关接口,在这里简单总结一下。从表面上看,对于网页版微信我们的使用流程是这样的:很简单,只有四步,但如果细化到内里细节的话,上面这简单四…

一文带你快速入门zabbix6.0的日常操作

文章目录前言一. zabbix基本操作入门1.1 登录和配置用户1.1.1 登录zabbix1.1.2 防爆力破解机制1.1.3 创建用户1.1.4 创建报警媒介1.1.5 设置 权限选项卡1.1.6 设置用户的访问主机权限1.2 新建主机1.2.1 添加主机1.2.2 关于添加的信息注释1.3 新增监控项1.3.1 添加监控项1.3.2 配…

若依系统如何集成qq邮件发送【超详细,建议收藏】

若依系统的部署博主就不在这儿阐述了,默认大家的电脑已经部署好了若依系统,这里直接开始集成邮件系统,首先我们得需要对qq邮箱进行配置;一套学不会你来打我😀; 一、开启我们的qq邮箱发送邮件的配置 1、先进…

Qt音视频开发16-通用悬浮按钮工具栏的设计

一、前言 通用悬浮按钮工具栏这个功能经过了好几个版本的迭代,一开始设计的时候是写在视频控件widget窗体中,当时功能简单就放一排按钮在顶部悬浮widget中就好,随着用户需求的变化,用户需要自定义悬浮条的要求越发强烈&#xff0…