用于目标说话人提取的统一视听线索

news2024/11/15 9:39:24

第二章 目标说话人提取之《Unified Audio Visual Cues for Target Speaker Extraction



前言

语音新手入门,学习读懂论文。
本文作者机构是
在这里插入图片描述


一、任务

提出了一个统一的TSE网络,称为Uni-Net,它采用分而治之的策略将音频和嘴唇线索融合到不同的网络中,利用每个线索的独特信息。从各种线索中提取的语音作为先验信息,通过后处理网络进一步细化。

二、动机

语音注册的方法会面临一些问题,如年龄和情绪会改变说话人的声音特征。此外,由于混合物中相似的语音特性,性能也会下降。

三、挑战

音频线索反映了说话者独特的声音属性,而视觉线索与目标语音在时间上是同步的。此外,音频线索是时不变的,而视觉线索是时变的,导致两者之间的差异。因此,在混合语音的共享网络中集成音频和视觉线索并不是最佳选择。这些线索会相互干扰,严重阻碍了性能的提高。

四、方法

1.总体架构

在这里插入图片描述
提出的框架由三个部分组成:基于音频线索的提取子网(ACENet)、基于视觉线索的提取子网(VCENet)和后处理网络(PPNet)。

2.tes网络

在这里插入图片描述
对于视觉提取器,我们使用了一个3D卷积层,然后是一个18层的ResNet和一个时间卷积网络(TCN)。音频提取器采用长短期记忆(LSTM)单元和线性层的组合。
TCN包含一个卷积层、一个Relu激活层和一个层归一化层。
TF-GridNet开发了ACENet和VCENet,它们代表了最先进的语音分离性能。TF-GridNet在STFT域内训练,使用二维卷积和层归一化对复频谱进行编码。每个TF-Grid块包括三个主要模块:帧内频谱模块、子带时间模块和全带自注意模块。
帧内频谱模块将输入R (D×T ×F)解释为T个不同的序列在T上做,并部署BLSTM来捕获每帧的全频带和频谱信息。
子带时间模块将输入R D×T ×F视为F个单独的序列,利用BLSTM捕获每个频率内的时间动态。
全频带自注意模块中,输入被重塑为大小为T × (F × D)的表示,其中多头自注意被用于建模全局依赖关系。

3. 融合网络

在这里插入图片描述
实现了 in-place 卷积作为后处理网络,该架构包括三个主要组件:Inplace Encoder、Frequency-wise LSTM 和 Inplace Decoder。Inplace Encoder 和 Inplace Decoder 都采用了六层 in-place 卷积操作。in-place 卷积采用步幅为 1,从而保留了频谱细节,并促进了对通道间相关性的分析。

4.损失函数

在这里插入图片描述
使用尺度不变的信噪比(硅信噪比)[23]作为损失函数

五、实验评价

1.数据集

VoxCeleb2数据集,选择了48,000个包含800个说话者的话语进行训练,并从118个不同的说话者中选择了36,237个话语进行测试,确保两个集之间没有说话者重叠。 干扰语音与目标语音合并,使用随机的信噪比(SNR)在-10dB到10db之间变化。

2.消融实验

在这里插入图片描述

3.客观评价

作者 提出的框架显著优于SpeakerBeam,在SISNRi、SDRi、PESQ和STOI方面分别提高了1.72 dB、1.63 dB、0.46 dB和3.3%。
在这里插入图片描述
视觉线索被遮挡时,作者进一步评估了提出的框架和基线的鲁棒性。
在这里插入图片描述
不同遮挡程度下的对比。

在这里插入图片描述

4.主观评价


六、结论

作者提出了一个统一的目标说话人提取框架,以克服音频和视觉线索之间的冲突。具体来说,作者利用分而治之的方法,将音频和视觉线索集成到不同的子网中,以利用每个线索提供的独特信息。还引入了一种后处理网络,进一步提取目标语音并抑制干扰。实验证明,作者的网络架构与其他具有竞争力的基线相比,该方法具有优越的性能。

七、知识小结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2082059.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

航空制造领域中三维工艺技术的应用

飞机制造企业可以通过三维数字化技术的应用有效提升了工艺设计水平,解决了在航空产品数字化工艺设计、制造方面的标准统一和系统整合等问题,保证了业务应用系统基础数据的一致性和规范性。本文是对航空制造领域中三维工艺技术的应用的介绍。 随着信息化技…

冒泡排序详细说明(内含动态演示图)

冒泡排序 冒泡排序的核⼼思想就是:两两相邻的元素进行比较。冒泡排序是⼀种最基础的交换排序。 之所以叫做冒泡排序,因为每⼀个元素都可以像小⽓泡⼀样,根据⾃⾝⼤⼩⼀点⼀点向数组的⼀侧移动。 //⽅法1 void bubble_sort(int arr[], int…

前端开发学习Docker记录01镜像操作

Docker相关命令 Demo安装nginx 先搜索然后拉取,然后查看images列表是不是拉取成功 docker search nginxdocker pull nginx特定某个版本,镜像名:版本号 docker images

这个神奇的网站提供各种图的R代码供您参考!

点击去每一个都有代码和数据 ggplot2高效实用指南 (可视化脚本、工具、套路、配色) 50个ggplot2可视化案例

国产游戏技术能否引领全球

目录 1.概述 1.1.面临的挑战 1.2.机遇 1.3.IT技术创新如何推动行业发展 2.技术解析 2.1.图形渲染技术 2.2.物理引擎 2.3.人工智能 (AI) 3.行业影响 3.1.对国内游戏开发行业的影响 3.2.IT人才需求变化 3.3.技术发展方向 4.未来展望 4.1. 发展前景 4.2. IT技术人员…

根据Scrum 敏捷开发过程开发一个基于 Web 的 Scrum 项目管理系统

目录 案例 【题目】 【问题 1】(10 分) 【问题 2】(6 分) 【问题 3】(9 分) 【答案】 【问题 1】解析 【问题 2】解析 【问题 3】解析 相关推荐 案例 阅读以下关于 Scrum 敏捷开发过程的叙述,在答题纸上回答问题 1 至问题 3。 【题目】 Scrum 是一个增量…

【使用 Python 进行截图】

如何使用 Python 进行截图? Python 是一种广泛使用的通用编程语言。它可以执行各种任务。其中之一就是进行截图。它提供了一个名为“pyautogui”的模块,可以用于截图。“pyautogui”截取的图片是 PIL(Python 图像库)格式&#xf…

2024中国国际大数据博览会:引领数字变革,共创未来辉煌

2024年中国国际大数据产业博览会,作为全球瞩目的数据领域盛事,再次汇聚全球目光于中国贵阳。 在这场以“数智共生:开创数字经济高质量发展新未来”为主题的盛会上,国家数据局与贵阳市政府共同携手,开启了一段旨在深化…

Java Web实战教程:如何一步步开发美容美发管理系统

✍✍计算机毕业编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java、…

全钢防静电地板和硫酸钙防静电地板的区别

全钢防静电地板和硫酸钙防静电地板都是机房装修会用到的地面材料,那么全钢防静电地板和硫酸钙防静电地板有什么区别呢? 就基材而言,全钢防静电地板底板采用深级拉伸钢板,面板采用硬质SPCC钢板,上下钢板冲压、点焊成型…

软考攻略/超详细/系统集成项目管理工程师/基础知识分享05

2.1.3 存储与数据库(掌握) 1、存储技术 存储分类根据服务器类型分为:封闭系统的存储和开放系统的存储 封闭系统主要指大型机等服务器;开放系统指基于包括麒麟、欧拉、UNIX、Linux等操作系统的服务器 开放存储的系统分为&#xff…

安科瑞ADW300系列4G电表可托管平台

徐赟杰 ADW300系列是利用物联网技术实现智能化计量和管理的智能仪表。 主要用于计量低压网络的三相有功电能,具有体积小、精度高、功能丰富等优点,并 且可选通讯方式多,可支持 RS485 通讯和 Lora、NB、4G、wifi 等无线通讯方式,增…

《python》poetry install下载缓慢,网络问题断开连接--poetry换源镜像下载+国内镜像

在使用打包工具poetry进行打包的是出现了一个问题就是,在使用poetry进行打包的时候出现了,连接断开这样的问题,这个问题是可以通过换源,通过国内的镜像来解决这个问题就可以了。 找到项目中的pyoroject。toml文件这个文件中写了一…

iptables笔记汇总

iptables笔记汇总 一、基础概念 iptables其实不是真正的防火墙,我们可以把它理解成一个客户端代理,用户通过iptables这个代理,将用户的安全设定执行到对应的”安全框架”中,这个”安全框架”才是真正的防火墙,这个框架的名字叫netfilternetfilter才是防火墙真正的安全框…

2024年cad转图片最清晰的方法,看到就是赚到

在工程设计、建筑绘图等领域,CAD图纸的清晰度直接关系到项目沟通的效果与准确性。但如何将复杂的CAD文件转化为易于分享、查看的高清图片呢?给大家分享几种高效且清晰的转换方法,一起来了解下吧。 方法一:迅捷CAD转换器 这款CAD工…

PMP考试提分必杀技,高手都在用这种方法!

PMP(Project Management Professional 项目管理专业人士资格认证,由美国PMI发起,是全球最大的项目管理专业组织机构。它的目的是严格评估管理项目人员的知识技能,以确定其是否具备高品质的资格认证。今天我要分享一些关于PMP考试的…

WPF ToolkitMVVM IOC IServiceConllection

用微软自带的 IOC 需要安装 using Microsoft.Extensions.DependencyInjection; using System.Configuration; using System.Data; using System.Windows;namespace WpfApp3 {/// <summary>/// Interaction logic for App.xaml/// </summary>public partial class…

RK3568 Android 11 蓝牙BluetoothA2dpSink 获取用于生成频谱的PCM

Android 中的 A2DP Sink A2DP Sink 在 Android 系统中主要用于 接收 其他蓝牙设备&#xff08;如手机、平板、电脑等&#xff09;发送过来的 高质量的立体声音频。简单来说&#xff0c;它让你的 Android 设备可以充当一个 蓝牙音箱 或 耳机 的角色。 核心功能&#xff1a; 接…

开放式耳机哪个品牌实用?南卡、漫步者、小米 三款爆火单品横评

开放式耳机因为设计新颖&#xff0c;不塞进耳朵&#xff0c;受到了很多人的喜爱。但是&#xff0c;市面上一些开放式耳机音质和佩戴体验一般&#xff0c;质量也参差不齐&#xff0c;这让消费者陷入了选择困难。这些品质低下的产品既无法提供优秀的音频享受&#xff0c;长期佩戴…

midwayjs 框架使用 rabbitmq 消息延迟

插件rabbitmq_delayed_message_exchange是RabbitMQ官方提供的一种用于实现延迟消息的解决方案。该插件将交换机类型扩展至x-delayed-message&#xff0c;这种类型的交换机能够将消息暂时挂起&#xff0c;直到设定的延迟时间到达&#xff0c;才将消息投递到绑定的队列中。这一特…