IEEE T-ASLP | 利用ASR预训练的Conformer模型通过迁移学习和知识蒸馏进行说话人验证

news2024/9/24 1:27:27

近期,昆山杜克大学在语音旗舰期刊 IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)上发表了一篇题为“Leveraging ASR Pretrained Conformers for Speaker Verification Through Transfer Learning and Knowledge Distillation”的论文。论文研究了如何利用语音识别(ASR)预训练的Conformer模型进行说话人验证(SV)。

该论文共提出了三种方法:

  1. 迁移学习。通过ASR预训练的Conformer模型对说话人嵌入网络进行初始化,从而增强模型泛化能力并降低过拟合风险。

  2. 知识蒸馏。通过教师-学生模型将ASR预训练的Conformer模型的复杂能力提炼到SV模型中,并将帧级别的ASR蒸馏损失作为辅助任务来增强模型SV性能。

  3. 自适应机制。将ASR特征通过一种轻量级的说话人自适应模块转换为特定于说话人的嵌入,实现在单一模型中统一ASR和SV任务。

实验在VoxCeleb[1,2]数据集上进行,结果表明我们提出的三种方法成功地将丰富的ASR知识转移到说话人建模中,有效的提升了模型的SV性能。

论文题目:Leveraging ASR Pretrained Conformers for Speaker Verification Through Transfer Learning and Knowledge Distillation

作者列表:Danwei Cai and Ming Li

论文原文:https://ieeexplore.ieee.org/document/10572375

预印版本:https://sites.duke.edu/dkusmiip/files/2024/06/main_minor_revision.pdf

背景动机

说话人验证(SV)指的是根据语音确认说话人身份的过程。近年来,深度学习在SV任务中取得巨大成功。在SV系统中,常用的神经网络结构有卷积神经网络(CNN)和时延神经网络(TDNN),它们的关键优势在于能够有效模拟局部特征模式,但在网络深度不够的情况下提取全局特征存在局限性。Transformer通过多头注意力机制展示了更强的捕获全局上下文的能力,但缺乏精细的局部模式。Conformer通过结合卷积模块和Transformer弥补了这一差距,有效捕捉局部和全局上下文信息,在ASR中取得了不错的效果[3]。在SV任务中,张等人设计了一种多尺度特征聚合Conformer(MFA-Conformer)通过连接所有Conformer块的帧级输出来增强说话人特征提取[4];廖等人则在Conformer编码器中加入了长度缩放注意机制和锐化感知最小化训练用于SV[5]。

Conformer模型捕获局部和全局上下文的能力在ASR和SV任务中得到利用。ASR专注于识别语音的语言内容,更强调帧级细节。与此相反,说话人确认的目标是识别来自语音的特定说话人特征,以话语级上下文为中心。尽管存在这些差异,但先前的研究表明这两项任务可以相辅相成,帧级音素建模可以改善说话人嵌入网络。此外,虽然Conformer模型具有优势,但在数据有限或模型参数较大时,容易出现过拟合问题,这在SV中尤其明显。因此,我们旨在探索如何有效利用ASR预训练的Comformer模型进行SV。

提出的方案

方案一:迁移学习

首先,使用ASR预训练的Conformer模型,利用其参数初始化MFA-Conformer说话人嵌入网络中Conformer编码器的参数。在训练的早期阶段,冻结Conformer编码器的参数,仅更新池化层和后续的线性层。在训练的后期阶段,解冻整个MFA-Conformer模型的参数,进行微调,使其更好地适应SV任务的需求。这种分阶段训练的方法通过限制初始阶段的更新,使ASR预训练的Conformer模型能够平滑过渡到SV任务上,避免了随机初始化层带来的显著扰动,从而减小过拟合风险,提升模型的泛化能力和收敛速度。

方案二:知识蒸馏

知识蒸馏涉及训练一个学生模型来再现一个更复杂的教师模型的行为。在本文中,ASR预训练的Conformer模型充当教师模型来指导一个基于MFA-Conformer的SV学生模型,整体框架如图1所示。

图1:从ASR预训练的 Conformer模型到基于MFA-Conformer的SV模型的知识蒸馏。

损失函数由说话人分类损失和ASR蒸馏损失组成。

其中,表示MFA-Conformer模型对输入频谱序列的说话人预测, 表示真实说话人标签,表示带ASR解码器的MFA-Conformer模型,表示ASR预训练模型。

该方案的优势在于,在多任务框架中,利用ASR模型的输出作为辅助目标,通过知识蒸馏使得SV模型能利用ASR预训练模型的特征表示,从而在无需额外的ASR数据的情况下提高模型泛化性。此外,该方案提供了更大的架构灵活性,能够优化设计以满足ASR和SV任务的特定需求。

方案三:自适应机制

为了弥补ASR和SV之间的差距,统一Conformer编码器,我们引入了一种可集成到大规模预训练模型中的轻量级可训练说话人自适应模块。如图2所示,该模块由三部分组成:L个层适配器,K个可训练的Conformer层以及用于生成说话人嵌入的池化层和全连接层组合。

 图2:在一个Conformer模型中统一ASR和SV的说话人自适应模块。

其中层适配器由两个线性层和一个激活函数组成,用于微调ASR预训练Conformer模型的每层输出,使其更适配SV目标。K个可训练的Conformer层用于增强说话人特征提取。经过层适配器和可训练Conformer层变换后得到的帧级特征最终合并在一起,经过一个具有话语级的池化层和线性层的组合来提取说话人嵌入。

实验结果

 方案一实验结果:

利用ASR预训练Conformer模型初始化说话人嵌入网络的迁移学习结果如表1所示。实验结果显示在未使用迁移学习策略时,由于Conformer模型在数据有限或模型参数较大时,容易出现过拟合问题,因而当模型参数增加时SV性能反而呈现下降趋势。当使用ASR预训练模型初始化后,可以看到所有模型的SV性能均有所提高,模型的泛化性及防过拟合能力都得到了大幅提升,且对于较大的模型性能提升更为显著(例如在NEMO Large模型上,EER从原来的0.96%下降至0.48%,提升了50%)。另外可以看到该方法与一些大型自监督语音模型相比也极具竞争力,在VoxCeleb-O测试中,基于ASR预训练NEMO Large(参数约为1.31亿)取得了0.48%的EER,相比之下,参数更多的UniSpeech-SAT Large(约3.17亿)仅取得了0.63%的EER。此外我们还通过截取了NEMO Large前 4、6、8层探索了在Conformer浅层上的SV性能,可以看到当不应用ASR预训练时,这些截断的模型比完整的模型表现的更好,这也再次印证了Conformer随参数增加过拟合的倾向。当应用ASR预训练后,这些截断的模型要优于未使用ASR预训练的模型,也再次强调了ASR预训练的优势。

表1:基于ASR预训练的MFA-Conformer在VoxCeleb 1上的SV性能

 

方案二实验结果:

该实验中,我们使用NEMO Large ASR-CTC模型作为知识蒸馏中的教师模型,实验结果如表2所示。可以看到在不同的模型大小和采样率下,ASR知识蒸馏技术都能显著提升模型SV性能,且在大多数情况下模型表现要优于或接近ASR预训练对应的模型。这可归因于两个方面:一方面学生模型受益于在大规模ASR数据集上训练的参数更大的ASR教师模型的鲁棒性;另一方面帧级别建模的辅助ASR任务增强了学生模型在捕获细粒度、特定于说话人特征的能力。此外我们还探讨了模型大小和采样率的影响,将NEMO Small、NEMO Medium、NEMO Large三种模型的Conformer层数减半的同时将卷积采样率翻倍从1/4提升至1/2。实验结果表明,虽然模型参数少了接近一半,但不管是采用基线训练还是知识蒸馏方法,都能获得与原先模型相当甚至更好的SV性能。

表2:基于ASR知识蒸馏技术的MFA-Conformer在VoxCeleb 1上的SV性能

图片

方案三实验结果:

在该实验中,我们设置了三种不同配置的说话人自适应模块以进行比较:

  • V1:直接使用ASR Conformer前L层的输出,无需层适配器的干预。

  • V2:按照图2(a)的设置,集成了层适配器微调来自ASR Conformer前L层的输出。K个轻量级Conformer层处理第L个ASR Conformer层输出的帧级特征。

  • V3:与图2(b)一致,集成了层适配器微调来自ASR Conformer前L层的输出。K个轻量级的Conformer层处理ASR Conformer的前L个Conformer层的串联输出,其中辅助的线性层确保了连接的特征维度的对齐。

我们在Small、Medium、Large三种不同大小的ASR Conformer编码器上对这三种配置的说话人自适应模块进行了SV性能评估,实验结果分别如表3、表4、表5所示。

 表3:不同配置的说话人自适应模块在NEMO Small ASR-CTC模型上的SV性能

 表4:不同配置的说话人自适应模块在NEMO Medium ASR-CTC模型上的SV性能

 

 表5:不同配置的说话人自适应模块在NEMO Large ASR-CTC模型上的SV性能

 表5:不同配置的说话人自适应模块在NEMO Large ASR-CTC模型上的SV性能

 

 

实验结果表明,与V1相比,集成了层适配器的V2在SV上的性能得到了显著提升。例如,NEMO Small ASR-CTC(L=12,K=0)模型的EER降至1.10%,相较于同等模型下V1的1.73%减少了36%,Medium和Large模型上也显示了类似的性能提升,这证明了层适配器的有效性。

此外,我们进一步研究了加入可训练轻量级Conformer层的影响,结果显示增加额外的可训练Conformer层能带来一定的性能提升,但存在收益递减现象。可以看到在K=2时,SV性能得到了明显改善,但增加到4层时,相较2层的SV性能提升不明显甚至会略微下降。这可能是因为这些轻量级可训练Conformer层的输入来自ASR模型的高度抽象信号,因而增加过多可能导致过拟合。

另外,我们对比了V2和V3中可训练Conformer层的输入。在V2中,可训练Conformer层的输入直接来自第L个ASR Conformer层的帧级输出。而在V3配置中,可训练Conformer层的输入来自ASR模型前L个Conformer层的串联输出。结果表明,V3在所有不同模型大小、L值和K值的模型中均优于V2。这表明,ASR Conformer模型的早期层能够有效捕捉说话人特征,V3的多层串联输出捕捉了更多样化且高质量的信息,有助于提高说话人适应模块的性能。

虽然该说话人自适应方法略微落后于前两种方案,但它在仅增加极少量参数下独特地提供了在单个Conformer模型中统一ASR和SV的能力。

结 论

本文提出了三种有效利用ASR预训练Conformer模型来提升SV性能的方法,并在VoxCeleb数据集上进行实验验证了这些方法的有效性。首先,我们使用迁移学习方法,通过ASR预训练Conformer初始化说话人嵌入网络使得模能够提取更为鲁棒的说话人表示,从而避免了对有限说话人数据的过拟合。其次,通过从ASR Conformer教师模型向SV学生模型进行知识蒸馏来高效转移ASR知识,作为辅助的音素建模任务,这种蒸馏方法增强了说话人建模,且与直接的ASR预训练初始化相比,知识蒸馏方法在学生模型设计上提供了更大的灵活性。在最后一种方案上,我们通过引入轻量级说话人自适应模块,为SV任务优化ASR学习到的特征高效地弥合了两者之间的差距,在仅添加极少额外参数下将ASR和SV任务统一于一个Conformer模型中。

参考文献

[1] Arsha Nagrani, Joon Son Chung, and Andrew Zisserman, “Voxceleb: a large-scale speaker identification dataset,” in Proc. of Interspeech, 2017, pp. 2616–2620.

[2] Joon Son Chung, Arsha Nagrani, and Andrew Zisserman, “VoxCeleb2: Deep Speaker Recognition,” in Proc. of Interspeech, 2018, pp. 1086–1090.

[3] Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zheng dong Zhang, Yonghui Wu, et al., “Conformer: Convolution augmented transformer for speech recognition,” in Proc. Interspeech, 2020, pp. 5036–5040.

[4] Yang Zhang, Zhiqiang Lv, Haibin Wu, Shanshan Zhang, Pengfei Hu, Zhiyong Wu, Hung-yi Lee, and Helen Meng, “Mfa-conformer: Multi-scale feature aggregation conformer for automatic speaker verification,” in Proc. Interspeech, 2022, pp. 306–310.

[5] Dexin Liao, Tao Jiang, Feng Wang, Lin Li, and Qingyang Hong, “Towards a unified conformer structure: from asr to asv task,” in Proc. of ICASSP, 2023, pp. 1–5.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2071238.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Wireshark Lab: TCP v7.0

Wireshark Lab: TCP v7.0 1. Capturing a bulk TCP transfer from your computer to a remote server 步骤 打开浏览器,在url中输入http://gaia.cs.umass.edu/wiresharklabs/alice.txt ,然后右键点击另存为下载文本。 访问http://gaia.cs.umass.edu/w…

【JVM】类加载器、双亲委派、SPI(一)

类加载器、双亲委派、SPI 类加载器 JVM中有两种类型的类加载器,由C编写的及由Java编写的。除了启动类加载器(BootstrapClassLoader)是由C编写的,其他都是由Java编写的,由Java编写的类加载器都继承自类java.lang.ClassLoader.JVM还支持自定义…

父子进程资源问题+vfork

一、从内存的角度分析父子进程资源问题 父子进程在内存资源使用上既共享又独立。它们通过写时复制技术实现地址空间的共享,但在修改数据时各自维护独立副本。代码段共享以节省内存,同时继承并打开的文件描述符等系统资源需注意同步和互斥问题。这种特殊…

Linux云计算 |【第二阶段】SECURITY-DAY1

主要内容: 监控基础(系统监控命令、监控软件)、Zabbix监控服务端部署、Zabbix监控客户端部署、创建监控主机、调用监控模板、自定义key、创建模板、应用集、监控项、绑定模板; 一、监控概述 1)监控的目的 ① 实时报…

解决雪崩的方案之一:流量控制

​​​​​​​ 1.簇点链路 2.设置流控模式 2.1设置直接流控模式 2.2.设置关联流控模式 2.3设置链路流控模式 2.4总结 3.设置流控效果 3.1warm up 预热模式 3.2排队等待 3.3总结 4.热点参数限流 4.1全局参数限流 4.2热点参数限流 解决雪崩的方案之一:…

基于SpringBoot的银行OA系统设计与实现

你好呀,我是计算机学姐码农小野!如果有相关需求,可以私信联系我。 开发语言:Java 数据库:MySQL 技术:SpringBoot架构,前端使用H5、CSS3、JS和DIV技术 工具:MyEclipse、Navicat f…

种树问题——CSP-J1真题讲解

【题目】 小明在某一天中依次有七个空闲时间段,他想要选出至少一个空闲时间段来练习唱歌,但他希望任意两个练习的时间段之间都有至少两个空闲的时间段让他休息。则小明一共有( ) 种选择时间段的方案 A. 31 B. 18 C. 21 D. 33 【答案】 B 【解析…

前端(Vue)headerSearch(页面搜索)通用解决方案 及 原理

简介 击后弹出输入框输入框可以输入页面的索引,比如项目中包含了文章相关的点击后可以进入对应界面同时也支持英文索引 原理 headerSearch 是复杂后台系统中非常常见的一个功能,它可以:在指定搜索框中对当前应用中所有页面进行检索&#…

stm32MX+freertos在创建task时,选项的含义

任务名称(Task Name): 用于标识任务的名称,便于调试和日志记录。 优先级(Priority): 任务的执行优先级。FreeRTOS支持多个优先级,高优先级的任务会优先于低优先级的任务执行。 堆栈…

功率放大器——前面板操作界面(AWA5871为例)

功率放大器的前面板操作包括多个功能按钮、旋钮和指示灯。如下图所示为AWA5871功率放大器。 1、电源开关(Power Switch) 功能:用于打开或关闭放大器的电源。 操作:按下电源开关,放大器通电并启动;再次按下…

【区块链 + 航运物流】运力链 | FISCO BCOS应用案例

根据速达物联的战略规划,2023年物流平台将由单一调度平台升级为物流生态平台。基于此,虎彩集团采用 FISCO BCOS区块链技术构建的运力链,可以帮助客户实现资源广泛快速连接、合作伙伴间的高效协同和低摩擦交 易,最终达成可信同城货…

redis面试(二十一)读写锁互斥

读锁非互斥 非互斥的意思就是,一个客户端或者线程加锁之后,另一个客户端线程也可以来进行加锁。 还是拿着ReadLock的lua脚本来看看 刚才我们已经分析过第一个线程来加读锁的逻辑了 所以上半截不用重复说了, hset anyLock mode read hset an…

AI周报(8.18-8.24)

AI应用-XGO-Rider: 全球首款轮腿式桌面 AI 机器人 中国的 Luwu 智能打造的XGO-Rider 是全球首款轮腿式桌面 AI 机器人。这个小巧紧凑的机器人将轮式机器人的灵活性与腿式机器人的障碍处理能力相结合,可以全方位移动,轻松适应各种地形。 XGO-Rider 主要设…

如何使用ssm实现亿互游在线平台设计与开发+vue

TOC ssm118亿互游在线平台设计与开发vue 绪论 1.1研究背景 时代的发展,我们迎来了数字化信息时代,它正在渐渐的改变着人们的工作、学习以及娱乐方式。计算机网络,Internet扮演着越来越重要的角色,人们已经离不开网络了&#x…

AITDK SEO扩展:为网站优化提供一站式解决方案

AITDK SEO扩展:为网站优化提供一站式解决方案 想提升你的网站在搜索引擎中的排名?让我们来看看AITDK SEO扩展,它是你网站优化的得力助手!在这篇文章中,我将为你介绍AITDK SEO扩展的功能特点,以及它如何帮助…

RK3588 技术分享 | 在Android系统中使用NPU实现Yolov5分类检测-迅为电子

随着人工智能和大数据时代的到来,传统嵌入式处理器中的CPU和GPU逐渐无法满足日益增长的深度学习需求。为了应对这一挑战,在一些高端处理器中,NPU(神经网络处理单元)也被集成到了处理器里。NPU的出现不仅减轻了CPU和GPU…

前端——盒子模型

一个盒子的特点组成 外边距就是两个元素之前的距离 padding就是填充区的大小 从上开始 顺时针进行设置,没有则对称 也可以单独对某个方向进行设定,比如:padding-top border 边框区 符合属性 border-style 边框样式 border-color 边框颜色…

web前端之选项卡集合、动态添加类名、动态移除类名、动态添加样式、激活、间距、节流、tabBar

MENU input的checked属性(HtmlStyle)伪元素(HtmlStyleJavaScript)激活类(HtmlStyleJavaScript)vue伪元素 input的checked属性(HtmlStyle) 前言 代码段创建一个使用HTML和CSS实现的标签式内容切换组件。通过选择不同的标签,可以展示相应的内容。 代码段实现一个简洁…

掌握时间的艺术:Python的sched库深度解析

文章目录 掌握时间的艺术:Python的sched库深度解析背景:为何选择sched?什么是sched库?如何安装sched库?简单库函数使用方法1. 创建调度器实例2. 安排事件3. 取消事件4. 运行调度器5. 检查事件是否在队列中 场景应用1. …

iOS profiles文件过期如何更新

创建发布用的Certificates 首先进入到https://developer.apple.com/account页面选择【证书】进入【新建证书】页面 点击【新建证书】按钮: 根据需求选中对应的【证书类型】,我选的是【Apple Distribution】, 开发者证书选择【Apple Devel…