IEEE ICME 2023论文|基于交互式注意力的语音情感识别联合网络

news2024/11/19 13:27:36

论文题目:

A Joint Network Based on Interactive Attention for Speech Emotion Recognition

作者列表:

胡英,侯世静,杨华敏,黄浩,何亮

研究背景

语音情感识别(Speech Emotion Recognition,SER)指通过让机器检测和识别人类语音信号中如喜悦、愤怒、悲伤、惊讶、恐惧等多种情感类别。为了适用于如客服对话等说话人身份是不重要因素的真实场景,即避免说话人的特征影响语音情感识别的结果,进一步研究说话人无关设置下的语音情感识别任务变得非常必要[1]。且在语音情感识别研究领域,带有注释的大数据集很难获得,现有的小数据集可能包含偏差,在说话人无关设置下这些数据集上训练得到模型可能无法很好的泛化。

本文方案

在本文中提出了一个单独频谱模型和一个结合了预训练模型和频谱模型语音情感识别联合网络。首先设计一个频谱模型提取到语音情感的特性表征,再通过Wav2Vec2.0[2]预训练模型学习到语音的共有表征。通过设计不同的交互注意力模块将两个中间特征进行融合,更好地利用音频信息。并设计多分支训练策略对联合网络进行优化。在说话人无关设置下取得良好的实验结果。

图片

图1. 本文提出的SER框架。(A)联合网络,(B)基于频谱的模型,(C)MobileNetV3(MV3) 模块

基于频谱的模型:将音频信号经过预处理得到的对数梅尔谱图作为输入特征,经过卷积神经网络以及特征聚合单元[3]提取情感相关的语义特征,继而通过Bi-GRU及全局-局部注意力模块得到语音情感相关的特性特征。

Wav2Vec2.0预训练模型:在大规模无标签的数据集上通过自监督学习从原始语音中学习到语音的一个共有表征,通过微调方式迁移到语音情感识别任务上。

联合网络:在上述两个单支路语音情感识别模型基础上提出了一个联合网络,如图二所示,将从预训练模型和基于频谱的模型中得到的共性特征和特性特征通过不同交互注意力模块[4]融合,更好地利用语音中的情感信息。

多分支训练策略:在联合网络的训练阶段中采用了多分支训练策略[5],从预训练模型和基于频谱的模型得到的共性特征和特性特征𝑌,以及经过交互注意力模块融合得到的融合特征都分别通过一个分类器产生语音情感识别预测,在测试阶段只有联合网络通过线性层进行情感识别分类。

图片

 图2. 两种不同的交互注意力模块

实验结果分析

实验使用了IEMOCAP数据集对上述提出的联合网络进行训练和测试。表1可以看出提出的单分支频谱模型在说话人相关的设置下优于其他四种基于频谱的算法。并进一步进行消融实验,验证了特征聚合单元、全局-局部注意力、多阶段训练策略的有效性。

表1. 说话人相关设置下对基于频谱的模型与主流的四种算法进行比较及消融实验

图片

表2将基于频谱的模型在说话人相关和无关设置下进行比较,可得在说话人无关的设置下,UA和WA分别较说话人相关设置下降低了11%左右。为了应用于说话人特征是不重要因素的实际场景中,在之后实验中选择说话人无关设置。

表2. 说话人相关和无关设置下基于频谱的模型的性能比较(无 MSTS)

图片

表3上半部分为在说话人无关设置下将Wav2Vec2.0预训练模型作为特征、微调Wav2Vec2.0预训练模型以及微调Hubert 预训练模型迁移到语音情感识别上进行比较,验证选择微调Wav2Vec2.0预训练模型的有效性。下半部分为验证交互注意力模块IAM2优于IAM1以及多分支训练策略的有效性。

表3. 说话人无关设置下单支模型性能评估以及联合网络中IAM和MBTS的消融实验

图片

表4为说话人无关设置下将联合网络与四种仅利用语音的单模态方法和两种利用语音和文本的双模态方法进行了比较,可得本文提出的联合网络在单模态方法中表现最佳,与多模态算法也有一定的可比性。

表4. 说话人无关设置下对联合网络和其他主流六种算法评估

图片

 小结

本文提出了一种单分支的基于频谱的SER模型和结合预训练和基于频谱模型的联合网络,并设计了不同的交互关注模块融合联合网络的两个单分支模型的中间特征。而且采用多分支训练策略优化联合网络。为了更好地应用于实际应用场景,本文在说话人无关的设置下进行了实验,验证了语音情感识别联合网络的优越性。

参考文献

[1] Zou H, Si Y, Chen C, et al. Speech emotion recognition with co-attention based multi-level acoustic information[C]//International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 7367-7371.

[2]Baevski A, Zhou Y, Mohamed A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations[J]. Advances in neural information processing systems, 2020, 33: 12449-12460.

[3] Peng Z, Lu Y, Pan S, et al. Efficient speech emotion recognition using multi-scale cnn and attention[C]//International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021: 3020-3024.

[4] Tang Y, Hu Y, He L, et al. A bimodal network based on Audio–Text Interactional-Attention with ArcFace loss for speech emotion recognition[J]. Speech Communication, 2022, 143: 21-32.

[5] Hu Y, Chen Y, Yang W, et al. Hierarchic temporal convolutional network with cross-domain encoder for music source separation[J]. IEEE Signal Processing Letters, 2022, 29: 1517-1521.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/756104.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

4. MySQL 的增删查改(重点 9000字详解)

目录 准备工作 一、数据的插入 (insert) 注意 1. 整行插入 2. 指定列的插入(常用) 3. 一次插入多行数据 4. 清空数据库的数据(truncate) 5. 拓展练习:对于数据库中的数据进行统计&#…

多智能体强化学习(MARL)研究汇总:行为分析、通信学习、协作学习、智能体建模

【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等、趣味项目实现、学术应用项目实现 专栏详细介绍:【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等、趣味项目实现、学术应…

第一百零七天学习记录:C++核心:类和对象Ⅷ(五星重要)多态

多态 多态的基本概念 多态是C面向对象三大特性之一 多态分为两类 1、静态多态:函数重载 和 运算符重载属于静态多态,复用函数名 2、动态多态:派生类和虚函数实现运行时多态 静态多态和动态多态的区别: 1、静态多态的函数地址早绑…

Arthas的火焰图生成

之前说过用idea自带的工具生成火焰图,但是idea是在本地的,在机器上如何生成呢? 我觉得方法有很多,这里用arthas工具简单搞一搞 Arthas官网地址 下载Arthas 如果在机器上要下载整个包,arthas-boot.jar需要依赖其他的j…

上门按摩系统如何运营才能做大

预约上门按摩系统是一种在线平台或应用程序,用于帮助用户预约并安排专业按摩师上门提供按摩服务。这种系统通常为用户提供一个简便的方式来选择按摩服务类型、时间和地点,并与合适的按摩师进行预约。用户可以通过应用程序或网站浏览按摩师的资料和评论&a…

用googletest写cpp单测

框架概述 Google Test(也称为 googletest)是由 Google 开发的 C 单元测试框架。它的首个版本是在2004年发布的,作为 Google 内部的测试框架使用。随后,Google Test 在开源社区中得到广泛应用,并在许多项目和组织中成为…

总结927

今晚用了40分钟进行回顾,但这40分钟,能回顾一天所学?一共四门课,每门用10分钟回顾,光是书籍,资料的切换都需要30秒。10分钟回顾对于政治来说是足够的,但对于数学,能重做2~3道题就很不…

centos环境搭建nsq单点

简言 下载 启动nsq(单节点) 1. 启动nsqd 2. 启动nsqlookupd 3. 启动nsqadmin 查看状态 简言 1. nsq是go语言实现的分布式消息处理平台,类似我们常用的kafka,rocket mq等,目的是用来大规模地处理每天数以十亿计级别的消息。它具有分布式和…

前端:UI 交互式特效 —— Css、Js

😷😊🤺🤺🤺前期回顾 打造极简风格动效 —— 5 分钟轻松实现惊艳、震撼人心的视觉效果_彩色之外的博客-CSDN博客 😁 css动画 —— 把你喜欢css动画嵌入到浏览器中_css做的动画效果怎么嵌入网页_彩色之外的…

研0进阶式学习—-数据挖掘概念与技术

目录 【 写在前面】什么是数据挖掘为何进行模式评估如何进行模式评估数据挖掘的发展趋势 【 写在前面】 本科期间,数据挖掘算法学过一些,甚至本人的毕业设计也是围绕此展开的,但是显然学得太皮毛,今天偶然读到《数据挖掘•概念与…

基于tauri+vue3+pinia2客户端管理系统程序|tauri+vite4后台系统

TauriAdmin一款跨端通用后台系统模板解决方案 基于 tauri rust webview2 整合 vite4 搭建桌面端 vue3 管理后台模板TauriVue3Admin。支持多窗口切换管理、vue-i18n多语言、动态路由权限、常用业务功能模块及动态路由缓存等功能。 使用技术 编码工具:Vscode框架技术…

【chap4-链表】用Python3刷《代码随想录》

通过指针串联在一起的线性结构,每一个节点由两部分组成,一个是数据域data,另一个是指针域next(存放指向下一个节点的指针),最后一个节点的指针域指向null(空指针) 链接的入口点称为…

耳夹式骨传导耳机有哪些比较好用?这三个款式不容错过!

骨传导耳机由于不入耳,不用担心耳道健康问题,越来越受到广大网友的喜欢,而传统的入耳式耳机,则因为长时间佩戴会耳朵痛,容易掉落等问题逐渐的被网友抛弃,那么在骨传导耳机市场种类这么多的情况下&#xff0…

Apache Kudu 在**医疗科技的生产实践

目录 说明 医疗场景下数据特点 KUDU 的介绍 kudu 架构 kudu 文件组织形式 kudu的生产实践 技术选型 整体的架构 项目遇到的问题 参考资料 说明 本文主要介绍APACHE KUDU 在**医疗科技数据实时分析场景下的实践,内容包括: 医疗场景下数据特点 …

mysql什么情况下行锁(表锁)(锁的概念)

1:数据表aa的设计结构 2: 使用navicat编写手动控制事务 3:先选择开启事务和执行更新操作,where b1(表锁)b不是索引,不提交事务,(如果where b1,b是索引就行锁&…

本地Nginx部署React前端项目浅尝

目录 nginx [下载](http://nginx.org/en/download.html)nginx命令react打包文件放置nginx 配置 运行效果nginx踩坑根目录配置 nginx 下载 根据上面的版本找到适合自己的 nginx版本,我目前是环境是 windows,所以下载 稳定版本。 nginx命令 在下载的ngin…

数学建模-判断数据是否服从正态分布

大样本用qq图 >1000 皮尔逊相关系数需要正态性检验,利用上面三种方法其中一种 斯皮尔曼相关系数不用正态性检验

Claude2轻松解决代码Bug的实战方案

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

GPT-4最新细节曝光:从架构、基础设施、训练数据集、成本、视觉到MoE

OpenAI保持GPT-4架构封闭,不是因为对人类的某种存在风险,而是因为他们所构建的内容是可复制的。实际上,我们预计Google、Meta、Anthropic、Inflection、Character、Tencent、ByteDance、Baidu等公司在短期内将拥有与GPT-4一样甚至更强大的模型…

T100简易的查询作业功能开发

一、自定义作业维护 首先打开作业【azzi310】,进行作业的新增。 这是一个空白的作业界面,我们需要填写的地方也就那么几个。 查询单id:注册一个查询单 【四个字母三个数字】比如这里我们cxmq101.查询单名称:给这个查询起一个名字最大查询笔数:可以自己定义报表是否自己录…