INTERSPEECH 2023论文|基于自监督学习表示的具有持久性口音记忆的口音识别

news2025/1/23 13:17:57

论文题目:

Self-supervised Learning Representation based Accent Recognition with Persistent Accent Memory

作者列表:

李睿,谢志伟,徐海华,彭亦周,刘和鑫,黄浩,Chng Eng Siong

研究背景

口音识别 (AR) 是一项重要且具有挑战性的任务。因为口音不仅包含说话人的语音特征,还包括区域信息,这对于说话人识别[1]和语音识别[2]可能至关重要。然而, 大规模的口音标记数据很难获得,因此它是一项低资源任务。因此,要获得理想的 AR 系统,需要同时充分利用数据和模型建模效率。

本文方案

本文旨在从两个角度提高 AR 性能。首先,为了缓解数据不足的问题,我们使用从预训练模型WavLM[3]中提取的自我监督学习表示 (SSLR) 来构建 AR 模型。在 SSLRs 的帮助下,与传统的声学特征相比,它获得了显著的性能提升。其次,我们提出了一种持久性口音记忆 (PAM) 作为上下文知识来偏置 AR 模型。AR 模型的编码器从所有训练数据中提取的口音嵌入被聚类以形成口音码本,即 PAM。此外,我们提出了多种注意机制来研究 PAM 的最佳使用。我们观察到,通过选择最相关的口音嵌入可以获得最佳性能。

1.为了缓解数据不足的问题,我们使用从预训练模型中提取的自我监督学习表示 (SSLRs) 来构建 AR 模型。

图 1 多任务主干模型

表1 使用 WavLM 提取的 SSLRs 在测试集的准确率

首先,我们使用 WavLM 提取的 SSLRs代替传统的声学特征Fbank训练模型。从表 1 的系统1-5可以看出,与使用传统声学特征的 Fbank 从头开始训练的系统相比,使用 WavLM 提取的 SSLRs 可以显著提高 AR 的性能。其次,在中间偏上的编码器中提取的 SSLRs 训练模型的效果要比低层编码器的 SSLRS效果好,在第 20 层达到最好的结果。最后,根据表 1 在不同口音上的准确率,我们会发现不同层编码器提取的 SSLRs 对不同口音提供的有效信息是不一样的。那么我们会产生一个问题,如何将不同层的 SSLRs对于不同口音提供的有效信息结合起来,从而提高所有口音的准确率?

2.我们提出了一种持久性口音记忆 (PAM) 作为上下文知识来偏置 AR 模型。

具体来说,PAM是一个包含 256 个 embedding 的码本,它是从使用 WavLM SSLRs 训练的 AR模型的编码器由训练集数据输出聚类而来。训练集包含 8 个口音,我们将每个口音对应音频的embedding使用 k-means 聚成 32个 embedding,最终得到256 个 embedding,称之为 PAM。其中,“持久性”表示这 256 个 embedding 在训练期间不会更新。

3.为了利用口音上下文信息,我们尝试了多种注意力机制。

图 2 不同的注意力机制

(1) 帧级交叉注意力融合: 将编码器的输出作为 query,PAM 作为 key 和 value,注意力机制作用在帧级别上。

(2) 话语级交叉注意力融合:通过池化将编码器的输出在话语级别上,由于 PAM 也是话语级别的。这实现了所有注意力组件,如 query,key 和 value 都在同等话语级别,使注意力具有明确的语意。

(3) 拼接 PAM 自注意力融合:将编码器的输出与PAM 在时间维度进行拼接,并在整个序列做自注意力操作。动机是通过让编码器通过口音上下文来偏置编码器输出,进而提高 AR 性能。

4.为了更好地利用口音上下文信息,我们提出了 N-best 持久口音记忆选择方法。

当我们使用不同的注意力机制时,它的局限性在于 PAM 中的 embedding全部被考虑,这会导致过于冗余,因为我们认为模型在训练过程中,只需要考虑跟当前口音相同或相似的 embedding 的信息。所以我们提出了N-best 持久口音记忆选择方法。N 表示根据 PAM 中的 embedding与编码器输出之间的相似性得分从 PAM 中选择的 embedding 的数量。方法架构如图 3 所示。

图 3 N-best持久口音记忆选择方法

实验结果

表 2 展示了所有基于注意力方法的实验结果,为了验证我们提出的方法的有效性和通用性,“Oracle”代表 PAM 是由每个口音对应的最好表现的口音识别模型提取的 embedding 构建的,另外两个是基于最后一层输出和整体加权和输出,分别表示为“layer-24”和“layers:1-24”。我们发现所有方法相较于基线都有提升,而且 N-best 选择方法达到最佳性能。

表2 使用 PAM 在测试集上的准确率

表3 N在N-best PAM选择方法中的作用

此外,我们研究了不同的 N 对 N-best 选择方法的影响,如表 3 所示。N等于 64 时,模型显示出了最高的准确性。然而,更大的 N 并不一定会产生更高的性能,同时会导致更高的计算复杂度。

结论

在这项工作中,我们将自我监督学习表示 (SSLRs) 纳入我们提出的持久性口音记忆 (PAM) 方法中以改进 AR。我们使用从预训练的 WavLM 模型中提取的 SSLRs 来解决口音识别任务中的数据不足问题。与传统声学特征相比,SSLRs 的使用显示出显著的性能提升,这表明 SSLRs 在口音识别中的有效性。此外,我们提出了一种具有不同注意力机制的 PAM 方法来提高口音识别。我们证明了我们提出的方法在公共口音基准数据集上的有效性,并且从持久性口音记忆中选择 N 个最佳相关嵌入的最佳性能系统在口音识别方面取得了进一步的改进。

参考文献

[1] S. Shon, H. Tang, and J. Glass, “Frame-level speaker embeddings for text-independent speaker recognition and analysis of end-toend model,” in Proc. SLT 2018. IEEE, 2018, pp. 1007–1013.

[2] X. Gong, Y. Lu, Z. Zhou, and Y. Qian, “Layer-Wise Fast Adaptation for End-to-End Multi-Accent Speech Recognition,” in Proc. INTERSPEECH 2021, 2021, pp. 1274–1278.

[3] S. Chen, C. Wang, Z. Chen, Y. Wu, S. Liu, Z. Chen, J. Li, N. Kanda, T. Yoshioka, X. Xiao et al., “Wavlm: Large-scale selfsupervised pre-training for full stack speech processing,” IEEE Journal of Selected Topics in Signal Processing, vol. 16, no. 6, pp. 1505–1518, 2022.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/686510.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

神州设备IPV6路由综合运用

实训拓扑图 一、基本配置: SW-1: SW-1>ena SW-1#conf SW-1(config)#vlan 10;100 SW-1(config)#int l1 SW-1(config-if-loopback1)#ip add 1.1.1.1 255.255.255.255 SW-1(config-if-loopback1)#ipv6 add 2001:1::1/128 SW-1(config-if-loopback1)#exit

前端系列18集-权限,nginx成功,屏幕分辨率,vue3

vue3.0 使用原生websocket通信 // Websoket连接成功事件const websocketonopen (res: any) > {console.log("WebSocket连接成功", res);};// Websoket接收消息事件const websocketonmessage (res: any) > {console.log("数据", res);};// Websoket…

【从零开始学习C++ | 第二十二篇】C++新增特性(下)

目录 前言: 类型推导: constexpr关键字: 初始化列表: 基于范围的for循环: 智能指针之unique ptr Lambda表达式: 总结: 前言: 本文我们将继续介绍 C 11 新增十大特性的剩余…

解决前端容器不能充满屏幕

解决前端容器不能充满屏幕 px、rpx、em、rem、vw、vh各种像素单位的区别 css3新单位vw、vh、vmin、vmax的使用详解 学习element-UI写管理系统的页面,发现当菜单栏都收缩起来,结果是这样的 红色框是容器里每个板块的布局,但是容器下面却有空白…

如何处理兼容性测试中的变更管理?

如何处理兼容性测试中的变更管理? 在进行软件测试的过程中,兼容性测试是非常重要的一环。然而,在进行兼容性测试时,由于涉及到不同平台、不同设备的适配问题,可能会出现许多变更管理的情况。这时候,如果没…

阿里企业邮箱收费标准_企业邮箱费用明细表

阿里云企业邮箱收费标准(免费版/标准/尊享/集团),2023阿里云企业邮箱收费标准,免费版企业邮箱0元,标准版企业邮箱540元一年(原价600元一年),企业邮箱尊享版1400元一年,9折…

4-移动端适配-1

01-移动 Web 基础 谷歌模拟器 模拟移动设备,方便查看页面效果 屏幕分辨率 分类: 物理分辨率:硬件分辨率(出厂设置)逻辑分辨率:软件 / 驱动设置 结论:制作网页参考 逻辑分辨率 视口 作用&a…

微信小程序项目实例——2048小游戏

今日推荐💁‍♂️ 第一次听廖俊涛的歌是他首次出现在明日之子舞台上的那首《谁》 到现在这首歌成了我网易云收藏的十几首歌中的一首,也是听的最多的一首 怎么形容呢🤔算不上惊艳,却百听不厌👂 🔮&#x1…

直播美颜SDK的商业化应用:开发者需要注意的关键问题

直播美颜SDK是当前直播行业中十分热门的技术之一,它可以为直播平台提供高质量的美颜效果,提升直播用户的使用体验和观看体验。随着直播市场的不断扩大和竞争的加剧,越来越多的直播平台开始使用美颜SDK以提高自身的用户黏性和用户体验。那么&a…

二叉树OJ题:LeetCode--100.相同的树

朋友们、伙计们,我们又见面了,本期来给大家解读一下LeetCode中第100道二叉树OJ题,如果看完之后对你有一定的启发,那么请留下你的三连,祝大家心想事成! 数据结构与算法专栏:数据结构与算法 个 人…

脑机接口:运动想象简介

脑机接口:运动想象简介 0. 脑机接口1. 运动想象2. 信号处理2.1 信号采集2.2 信号预处理2.3 特征提取2.4 分类识别 3. EEG波段介绍4. 脑电图电极定位5. 总结 0. 脑机接口 脑机接口(Brain-Computer Interface, BCI):它是…

MATLAB 之 可视化图形用户界面设计

这里写目录标题 一、可视化图形用户界面设计1. 图形用户界面设计窗口1.1 图形用户界面设计模板1.2 图形用户界面设计窗口 2. 可视化图形用户界面设计工具1.1 对象属性检查器2.2 菜单编辑器2.3 工具栏编辑器2.4 对齐对象工具2.5 对象浏览器2.6 Tab 键顺序编辑器 3. 可视化图形用…

途乐证券|股票XR是什么意思?买股票为什么赚不到钱?

股票市场上有时会出现一些股票在其名称前加上英文字母的情况,比如XD、XR等。那么股票XR是什么意思?买股票为什么赚不到钱?途乐证券为大家准备了相关内容,以供参考。 股票XR是什么意思? 股票名称中带有XR是表示股票在进…

yolov5-cls部署之onnx导出

本文旨在介绍说明yolov5自带的分类如何导出动态的batch的onnx。其中输出两种形式: 形式(1):导出带softmax映射到概率的 形式(2):导出不带softmax的,这个也是官方默认的方式 一、动…

连接服务器,再连接VSCode

一、 创建账号,查找公钥 通过命令窗口 a. 打开你的 git bash 窗口 b. 进入 .ssh 目录:cd ~/.ssh c. 找到 id_rsa.pub 文件:ls d. 查看公钥:cat id_rsa.pub 或者 vim id_rsa.pub 查看本机 ssh 公钥,生成公钥 二、用…

Sangfor华东天勇战队:mybatis-plus demo

基本依赖添加&#xff0c;表创建&#xff0c;启动类&#xff0c;测试类 引入依赖&#xff1a; <!-- mybatis-plus 依赖--> <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId><version…

【vue2】封装文字过长自动省略部分并且鼠标悬浮显示全部

技术&#xff1a;Ant design vue1.7.8 UI框架、vue2.X 需求:实现文字过长自动省略部分&#xff0c;鼠标悬浮显示全部 效果图&#xff1a; 图一&#xff1a; 图二&#xff1a; 1.封装组件代码&#xff1a; src/components/Ellipsis/index.js 文件下代码 import Ellipsis f…

d2l_第七章学习_卷积神经网络

参考: d2l今日学习——卷积神经网络&#xff08;CNN&#xff09;https://blog.csdn.net/m0_61165991/article/details/124176077图像工程&#xff08;上册&#xff09;-图像处理傅里叶变换https://blog.csdn.net/qq_43369406/article/details/131350139 x.1 前储知识&#xff…

4-移动端适配-2

01-vw适配方案 vw和vh基本使用 vw和vh是相对单位&#xff0c;相对视口尺寸计算结果 vw&#xff1a;viewport width&#xff08;1vw 1/100视口宽度 &#xff09;vh&#xff1a;lviewport height ( 1vh 1/100视口高度 ) vw布局 vw单位的尺寸 px 单位数值 / ( 1/100 视口宽…

STM32:探索嵌入式开发的关键技术

在嵌入式系统开发领域&#xff0c;STMicroelectronics的STM32系列微控制器备受推崇。然而&#xff0c;对于初学者来说&#xff0c;全面掌握STM32并非易事。下面我们将探讨STM32的学习曲线&#xff0c;帮助您更好地理解其中的挑战与收获。 抽象层次的挑战&#xff1a;STM32是一…