天津大学天津市认知计算与应用重点实验室视听觉认知计算团队12篇论文被语音处理顶会Interspeech 2023接收

news2024/11/17 23:53:10

天津大学天津市认知计算与应用重点实验室视听觉认知计算团队12篇论文被语音技术顶会Interspeech 2023接收,涵盖意图识别、口语理解、声学特征、语音识别、语音分离、情感识别等研究方向,论文简介如下。

01. Rethinking the visual cues in audio-visual speaker extraction

论文作者:李俊杰,葛檬,潘泽旭,曹瑞,王龙标,党建武,张仕良

论文单位:天津大学,阿里巴巴达摩院

音视频语音分离利用视觉信息从混合语音中提取目标人的语音信号。然而目前的方法仅仅采用单独的视觉编码器来提取视觉信息,本文提出利用两个视觉编码器分别提取视觉信号中的说话人信息和同步信息,模型结构如图d所示。本文的实验结果表明,相比于单解码器隐性利用的方法,显性地利用身份和同步信息的方法能显著提升语音分离模型的性能。

02. Locate and Beamform: Two-dimensional Locating All-neural Beamformer for Multi-channel Speech Separation

论文作者:付燕杰、葛檬,王洪龙,李楠,尹浩然,王龙标,张高燕,党建武,邓承韵,王飞

论文单位:天津大学,新加坡国立大学,北京小桔科技有限公司

论文资源:https://arxiv.org/abs/2305.10821

近年来,神经波束成形技术在多通道语音分离方面取得了惊人的进步。然而,它们大多忽略了混合信号中包含的说话人二维位置线索。在本文中,我们提出了一种端到端的波束成形网络,用于在仅给定混合信号的情况下,通过二维位置信息引导语音分离。该网络首先估计可辨别的方向和二维位置线索,这些线索暗含声源相对多参考麦克风的到达方向及其二维位置坐标。然后将这些线索整合到位置感知神经波束成形模块,从而可以精确地重建两个声源的语音信号。实验表明,与基线系统相比,我们提出的模型不仅在语音分离指标上取得了全面的提升,而且避免了在空间重叠情况下表现不佳。

03. SDNet: Stream-attention and Dual-feature Learning Network for Ad-hoc Array Speech Separation

论文作者:王洪龙,邓承韵,付燕杰,葛檬,王龙标,张高燕,党建武,王飞

论文单位:天津大学,北京小桔科技,新加坡国立大学

使用固定阵列的多通道语音分离领域已经取得了不错的进展。本文提出一个适用于分布式麦克风阵列的鲁棒系统,以应对麦克风位置和数量的不确定性。以往的研究通常使用平均化方法处理分布式的麦克风信号,忽视了麦克风在不同位置的多样性。一些研究表明,信噪比高的麦克风对提高语音质量更有帮助。受此启发,我们提出了一种名为SDNet的通道流注意力和双特征学习网络。主要贡献如下:1)我们提出了一个参数更少的双特征学习块,更好地学习长期依赖。2)基于这种高质量的语音表示,我们进一步提出了通道流注意力,有效处理位置和数量变化的麦克风,并将更多注意力分配给信噪比较高的麦克风。实验证明,我们提出的模型优于其他的基准模型。

04. Discrimination of the Different Intents Carried by the Same Text Through Integrating Multimodal Information

论文作者:李忠杰,张高燕,王龙标,党建武

论文单位:天津大学

随着人工智能的发展和智能设备的普及,人机智能对话技术得到了广泛的关注。而口语意图理解是整个对话系统的核心模块,因此,如何准确获取由说话人传递的包括由文本信息承载的语言意图和由声学信息承载的副语言意图等全面意图信息是一个关键问题。

目前,许多意图理解研究忽视了副语言信息的影响,这导致在语音交互过程中出现误解,尤其是当相同的文本通过不同的副语言信息传达不同的意图。为了解决这一问题,本研究首先创建了一个包含相同文本但意图不同的中文多模态口语意图理解数据集。然后,我们提出的基于注意力的BiLSTM模型整合了文本和声学特征,并引入了一个声学信息门机制,以补充或修正语言意图。实验结果表明,我们的多模态融合模型相比仅使用语言信息的模型,其意图识别准确性提高了11.0%。该实验结果证明了我们提出的模型在意图识别方面的有效性,特别是在文本相同但意图不同的情况下。

05. Frequency Patterns of Individual Speaker Characteristics at Higher and Lower Spectral Ranges

论文作者:张昭,张句,朱梓毓,迟雨杰,本多清志,魏建国

论文单位:天津大学,慧言科技(天津)有限公司

语音的声学特征在个体之间存在差异性,但是仍然保留共享的语音基础信息来被听者通过听觉系统进行感知与分辨。本文讨论了说话者个性化特征的一般时频模式。本文的主要目标是针对高频和低频范围内的说话人个性化频域特征分别进行讨论。为了探讨这种未被充分探索的现象,我们进行了两项实验。首先,我们利用基于传输线模型的声学仿真计算来探索不同下咽腔形状下高频共振的变化。其次,我们分别记录从口腔和鼻孔发出的语音信号,以观察低频谱不规则性的潜在个性化因素。根据我们的研究结果与以往积累的研究相结合,我们提出了一个表达说话人个性化特征的时频模型,该模型提供了说话人的个性化信息在语音频谱图中的大致分布。

06. Improving Zero-shot Cross-domain Slot Filling via Transformer-based Slot Semantics Fusion

论文作者:李宇航,魏笑,司宇珂,王龙标,王晓宝,党建武

论文单位:天津大学

槽填充是任务型对话口语理解中的一个重要组成部分。在现实场景中,由于标注数据的稀缺,零样本槽填充被广泛地研究以将知识从源域迁移到目标域。先前的方法采用槽的文本描述或问题作为槽的语义信息,它们利用槽的文本描述计算相似性得分,或者将任务重新转化为机器阅读理解任务。然而,这些方法并没有充分利用槽语义信息和语句之间的单词级别的依赖关系。在这项研究中,我们提出了一种基于 Transformer 的槽语义融合方法(TSSF)。首先采用共享权重的编码器来得到语句和槽语义的表示。然后,我们设计了基于 Transformer 的槽语义融合模块,用于将槽语义有效地融合进语句表示中。在公共数据集 SNIPS 上的实验结果表明,我们的模型在 slot-F1 指标上显著超过了最先进的模型 6.09%。

07. Auditory Attention Detection in Real-Life Scenarios Using Common Spatial Patterns from EEG

论文作者:杨凯,谢壮,周迪,王龙标,张高燕

论文单位:天津大学,河南大学软件学院,日本北陆先端科学技术大学院大学

基于脑电图(EEG)的听觉注意力检测方法可用于神经导向的听力设备,以帮助听力损失者提高听力能力。然而,以前的研究大多是在实验室环境下获得EEG数据,这限制了神经导向听力设备的实际应用。在这项研究中,我们采用脑机接口领域常用的共同空间模式(CSP)算法,使用在真实场景中采集的脑电信号执行听觉注意检测,同时区分了受试者不同的行为状态(静坐和行走)。结果显示,当使用不同的决策窗口(1秒-30秒)时,CSP方法可以达到81.3%至87.5%的检测准确率,超越了以往基于线性映射的方法和传统的CNN方法。这证明了CSP算法在实际生活场景中能有效解码人们的注意力。EEG分频段的实验结果表明,δ和β频段在注意力任务中活跃性较高,支持了以往的研究发现。

08. Transvelar Nasal Coupling Contributing to Speaker Characteristics in Non-nasal Vowels

论文作者:朱梓毓,迟雨杰,张昭,本多清志,魏建国

论文单位:天津大学

鼻腔的结构在发音过程中保持稳定且在说话人之间具有个体差异,因此鼻腔共鸣对形成说话人个性化特征具有重要作用。有关鼻腔声学作用的研究主要讨论鼻化元音,鼻腔通过腭咽口(Velopharyngeal port,VPO)连接到主声道上,改变鼻化元音的声学特征。然而,研究者们发现鼻腔共鸣通过经软腭耦合作用(Transvelar nasal coupling)出现在非鼻化元音的发音过程中,并对非鼻化元音的声学特征产生不可忽视的影响。本文设计了一组实验装置进行声学实验,分别记录嘴唇辐射音和鼻孔辐射音。发音语料由非鼻化元音组成。利用频谱分析技术探究非鼻化元音发音时的鼻腔共鸣特征与声学影响。结果表明说话人之间的鼻腔共鸣特征差异分布在2kHz以下:较低频处表现为两个峰值和一个介于二者之间的零点,较高频处表现为分布不均匀的细微零点。此外,鼻孔辐射音的混入会降低嘴唇辐射音输出的元音的第一共振峰值,在不同说话人间降低幅度不同。

09. Effects of Tonal Coarticulation and Prosodic Positions on Tonal Contours of Low Rising Tones: In the Case of Xiamen Dialect

论文作者:胡逸颖,冯卉,赵清华,李爱军

论文单位:天津大学,中国社会科学院

论文资源:http://arxiv.org/abs/2306.02251

本文研究了声调协同发音和韵律位置对厦门闽南语低升调的影响,并提出了在声调三角形中测量声调曲折程度的量化方法(TCATT: Tonal Contour Analysis in Tonal Triangle)。实验结果表明,厦门闽南语的低升调T2呈现出变为降升调的趋势,且声调协同发音和韵律位置对其的曲折程度均存在显著影响。声调协同发音的影响体现在,当T2前面的音节是一个高平调时,T2会表现为一个降升调,此时其曲折程度最大;当前面的音节是一个低平调或低降调时,T2则表现为低升调。韵律位置的影响体现在,当T2位于句首时,其声调曲线的曲折程度显著大于句中和句末位置的T2曲折程度,且音节时长和声调曲线的曲折程度呈正相关关系。

10. Improving Chinese Mandarin Speech Recognition using Semantic Graph Embedding Regularization

论文作者:林洋仕,路文焕,贾勇哲,马国宁,魏建国

论文单位:天津大学

在本文中,我们研究了语义图嵌入在端到端语音识别系统(ASR)中的作用。首先我们介绍了构造汉字语义图的方法,汉字语义图是以汉字字符为节点,由字符组合在句子中出现的频率以及字符组合组成的词汇加权决定边的权重。当汉字语义图构造结束后,我们使用图嵌入方法将图转换为图嵌入向量。该向量用于正则化端到端ASR的decoder权重。我们认为该向量包含的语义信息能够很好的帮助端到端ASR理解语义图中所包含的语义和人为构造词图的规则。我们在Aishell1数据集上进行实验,字符错误率为4.36%,加入语言模型后字符错误率降低为4.25%。实验结果证明该方法能够显著降低端到端ASR的字符错误率。

11. SOT: Self-supervised Learning-Assisted Optimal Transport for Unsupervised Adaptive Speech Emotion Recognition

论文作者:张瑞腾,魏建国,卢绪刚,李永伟,徐君海,金弟,陶健华

论文单位:天津大学,青海民族大学,通信和科学技术研究所,中科院自动化所,清华大学

在跨域语音情感识别 (SER) 中,减少不同域之间的全局概率分布距离 (GPDD) 在无监督域适应 (UDA) 中起着至关重要的作用,这可以通过最优传输 (OT) 自然地测量。然而,由于情绪类别的类内差异很大,重叠分布的样本可能会引起负面传输。此外,OT 仅考虑 GPDD,因此在不利用类内分布的局部结构的情况下无法有效地传输难以区分的样本。我们提出了一种用于跨域 SER 的自监督学习 (SSL) 辅助最优传输 (SOT) 算法。首先,我们规范了 OT 的传输耦合以减轻负传输;然后,我们设计了一个 SSL 模块来强调局部类内结构,以帮助 OT 捕获那些不可传输的知识。跨域语音情感识别实验结果表明,SOT 显着优于最先进的无监督域适应算法。

12. Multi-Level Knowledge Distillation for Speech Emotion Recognition in Noisy Conditions

论文作者:刘扬,孙浩钦,陈庚,王庆越,赵振,卢绪刚,王龙标

论文单位:青岛科技大学,日本国立信息通讯研究所,天津大学

近年来,语音情感识别(SER)的性能已经取得了显著的改善。然而,大多数的算法都是在纯净的语音条件下进行训练和测试的,如何在嘈杂的条件下实现良好的语音情感识别性能,仍然是一项挑战任务。为此,我们提出了一种多层级知识蒸馏的(MLKD)方法,其目的是将知识从在纯净语音上训练的教师模型转移到在嘈杂语音上训练的更简单的学生模型。具体来说,我们使用由wav2vec-2.0提取的干净语音特征作为学习目标,并在噪音条件下训练distil wav2vec-2.0来接近原始wav2vec-2.0的特征提取能力。此外,我们利用原始wav2vec-2.0的多层级知识来监督distil wav2vec-2.0的每个中间层的输出。本文在IEMOCAP语料库和Noisex-92噪声库中进行了实验。实验结果表明,与基线系统相比,在所有类型的噪声下,本文提出的方法在UA上的提高平均达到18.23%,显示了有竞争力的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/700234.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Harbor 间通过API实现镜像复制

背景: 通过harbor搭建私有镜像仓库时,往往会设计出 研发镜像仓库--》测试镜像仓库--》产品镜像仓库,甚至更多。那个多镜像间的复制将成了一个必须解决的问题。当然可以通过harbor自带的界面操作即可实现需求,也可以通过harbor提供…

详解20个常见的模拟电路

桥式整流电路 二极管的单向导电性:二极管的PN结加正向电压,处于导通状态;加反向电压,处于截止状态。其伏安特性曲线,如下图。 理想开关模型和恒压降模型:理想模型指的是在二极管正向偏置时,其管…

乳腺癌预测的黑科技!一起探索 R 语言和随机森林算法的奇妙之处!

一、引言 乳腺癌是全球最常见的女性恶性肿瘤之一,也是导致女性死亡的主要原因之一。根据世界卫生组织的数据,每年有约200万例乳腺癌新病例的发生,导致60多万人死亡。乳腺癌的早期发现和精准治疗对于患者的生存率和预后至关重要。 然而&…

uniapp封装门票等票务样式

先看效果图 ticketpage组件引用后,根据父级背景颜色改变镂空的颜色,空组件只有中间镂空的样式,上面是插槽heaer,下面内容是插槽content,可以自定义自己的内容和样式。我实现的最终效果是用的uview组件,如果复现需要项目引入。可…

pytorch量化库使用(2)

FX Graph Mode量化模式 训练后量化有多种量化类型(仅权重、动态和静态),配置通过qconfig_mapping ( prepare_fx函数的参数)完成。 FXPTQ API 示例: import torch from torch.ao.quantization import (ge…

ACL2023 | 赔了?引入GPT-3大模型到智能客服,竟要赔钱?

作者 | 小戏、Python 关于大模型的商业落地,一个非常容易想到的场景就是智能客服,作为不止是大模型也是 NLP 领域的一个最主要的应用场景,由于人工客服的高昂成本,AI 客服伴随着模型技术的发展也逐步走进我们的生活,在…

vue iview table Tooltip内容过多闪屏解决

vue的项目,框架是iview 客户反应,指令描述的内容有几百个字,鼠标悬浮,浏览器开始闪烁 解决思路是加宽度限制,滚动, 后面发现像是transfer属性的bug,触碰浏览器底部,距离不够造成 …

重新理解 RocketMQ Commit Log 存储协议

最近突然感觉:很多软件、硬件在设计上是有 root reason 的,不是 by desgin 如此,而是解决了那时、那个场景的那个需求。一旦了解后,就会感觉在和设计者对话,了解他们的思路,学习他们的方法,思维…

C#可视化 国产热剧信息查询(具体做法及全部代码)

目录 题目: 做法: 代码部分: DBHelper类 From1主窗体代码 题目: 1. 首次打开页面,展示所有汽车信息列表,如图 1 所示。 2.双击第二行右边内容全部发生改变 数据库设计及内容 做法: 首先设置d…

React hooks文档笔记(五)useEffect——解决异步操作竞争问题

1.开发环境下组件加载两次? 非bug,重新安装组件仅在开发过程中发生,帮助找到需要清理的效果。在生产环境中只会加载一次。 React 将在 Effect 下次运行之前以及卸载期间调用您的清理函数。return () > {}; 2. 🌰订阅事件情况…

Python连接MySQL数据库(简单便捷)

🐒,本文中,使用到的工具有:Pycharm,Anaconda,MySQL 5.5,spyder(Anaconda) 什么是 PyMySQL? PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2 中则…

Java 语言基础练习题

Java 语言基础练习题 Key Point ●包的基本语法 ●Java 语言中的标识符,命名规范 ●八种基本类型 ●基本操作符 ●if 语句和switch 语句 练习 1.(标识符命名)下面几个变量中,那些是对的?那些是错的?错的请…

C++学习 程序控制结构

程序控制结构 以某种顺序执行的一系列动作,用于解决某个问题。包括 顺序结构、选择结构、循环结构。 顺序结构 按照顺序正常执行。前几篇文章的代码都是顺序结构的体现。 选择结构 执行满足条件的语句。 if 结构:if (表达式){} 表达式为真则执行&…

Linux历史及环境搭建(VMware搭建CentOS7环境)

Linux历史及环境搭建 1.Linux历史1.1 UNIX发展的历史1.2 Linux发展历史1.2.1 开源1.2.2 官网1.2.3 发行版本 2.VMware配置CentOS7环境2.1 CentOS下载2.2 配置环境2.3 切换国内阿里源2.4 无图形化界面开机 结语 1.Linux历史 在这里简要介绍Linux的发展史。要说 Linux&#xff0…

机器学习李宏毅学习笔记36

文章目录 前言Meta learning应用总结 前言 Meta learning(二)应用方向 Meta learning应用 回顾gradient descen Θ0(initial的参数)是可以训练的,一个好的初始化参数和普通的是有很大差距的。可以通过一些训练的任务…

Python通过私信消息提取博主的赠书活动地址

文章目录 前言背景设计开发1.引入模块2.获取私信内容3.根据文本提取url的方法4.获取包含‘书’的url5.程序入口 效果总结最后 前言 博主空空star主页空空star的主页 大家好,我是空空star,本篇给大家分享一下《通过私信消息提取博主的赠书活动地址》。 背…

通用策略04丨ORB魔改框架+自适应动量过滤模板

量化策略开发,高质量社群,交易思路分享等相关内容 大家好,今天我们分享2023年度第4期通用策略——ORB魔改框架自适应动量过滤模板。 本期策略是2023年通用系列第4篇。本期主要内容有对ORB原版的逻辑魔改,其次我们将跨日周期均线过…

现在有一个未分库分表的系统,未来要分库分表,如何设计才可以让系统从未分库分表动态切换到分库分表上?

停机迁移方案 最 low 的方案,就是很简单,大家伙儿凌晨 12 点开始运维,网站或者 app 挂 个公告,说 0 点到早上 6 点进行运维,无法访问。 接着到 0 点停机,系统停掉,没有流量写入了,…

设计一个高流量高并发的系统需要关注哪些点

1、设计原则 1.1、系统设计原则 在设计一个系统之前,我们先要有一个统一且清晰的认知:不要想着一下就能设计出完美的系统,好的系统是迭代出来的。不要复杂化,要先解决核心问题。但是要有先行的规划,对现有的问题有方…

字符与代表数据的转化

目的 在与设备交互当中,大都以十六进制的数进行交互。 而显示给用户时,是以字符的形式显示。 这中间就需要字符与其所代表的数值的转化,比如: ‘0F’---->0x0F 这怎么实现呢,一个是字符,另一个是数字&a…