基于多模态信息的语音处理(misp) 2023挑战:视听目标说话人提取

news2024/7/6 20:02:40

THE MULTIMODAL INFORMATION BASED SPEECH PROCESSING (MISP) 2023

CHALLENGE: AUDIO-VISUAL TARGET SPEAKER EXTRACTION
第二章 目标说话人提取之《基于多模态信息的语音处理(misp) 2023挑战:视听目标说话人提取》


文章目录

  • THE MULTIMODAL INFORMATION BASED SPEECH PROCESSING (MISP) 2023
  • 前言
  • 一、任务
  • 二、动机
  • 三、挑战
  • 四、方法
    • 1.
    • 2.基线模型
    • 3. 基线系统两阶段训练
    • 4.
  • 五、实验评价
    • 1.数据集
    • 2.消融实验
    • 3.客观评价
    • 4.主观评价
  • 六、结论
  • 七、知识小结


前言

语音新手入门,学习读懂论文。
本文作者机构是中国科学技术大学,卡内基梅隆大学,西北工业大学,科大讯飞
在这里插入图片描述


一、任务

提出了MISP 2023挑战赛,旨在通过使用MISP语料库的AVTSE系统提高后端ASR系统在实际场景中的准确性。具体而言,我们将使用预训练的ASR模型对AVTSE系统的语音输出进行解码,并以字符错误率(CER)作为评估指标。

二、动机

最近,神经科学的研究表明,包括面部和嘴唇运动在内的视觉模态可以显著影响人类的听觉注意,通过提供关于说话人的额外信息来增强语音感知,特别是在嘈杂的环境中。

三、挑战

现实场景中获取预注册音频的挑战,多个扬声器之间声学特征的潜在相似性,以及存在明显的噪声干扰。
当前的挑战有两个主要问题。首先,评价数据要么是在清洁语音中加入单一类型的噪声或干扰语音得到的模拟数据,要么是在真实场景中记录的,但说话者只是阅读特定的句子或单词排列。然而,在现实生活场景中,人们的对话通常没有特定的主题,并且他们遇到复杂的声学环境,其中包含多种类型的噪音,混响和其他扬声器的干扰,这可能导致模拟与现实之间的不匹配。其次,这些挑战通常使用深度噪声抑制平均意见评分(DNSMOS)、短时客观可理解度(STOI)和语音质量感知评价(PESQ)等指标来评估语音质量,或邀请工作人员根据他们的实际听力体验进行评分。

四、方法

1.

在这里插入图片描述
MISP语料库[19]侧重于真实的家庭电视场景:2-6人相互通信,背景是电视噪声和混响。在这种情况下,说话者在没有特定话题的情况下进行自发的对话,由于语言的重叠和多样性,这给谈话带来了挑战。此外,在某些会议中,来自电视的强烈背景噪声存在,其中可能播放电视节目,如戏剧,新闻,音乐和采访,进一步加剧了复杂性,特别是对于前端系统。
从包含多个说话人的重叠声音和背景噪声的录音中提取目标说话人的讲话。在一个会话中,每个演讲者依次被视为目标演讲者。我们还会提供oracle diarization的结果

2.基线模型

在这里插入图片描述
多模态嵌入感知语音增强(MEASE),该模型在视听语音增强(AVSE)领域实现了“SOTA”。利用oracle diarization结果对6声道混合音频进行引导源分离(guided source separation, GSS)。以初步减轻重叠语音的影响。然后使用MEASE模型进一步提取目标说话人的语音。
MEASE模型包括一个多模态嵌入提取器(红色虚线框)和一个嵌入感知增强网络。
首先从GSS的音频输出中提取FBANK特征和噪声对数功率谱(LPS)特征。随后,我们使用预训练的嵌入提取器从目标说话人的FBANK (AFBANK)和唇帧(V)中获得深度嵌入。
在这里插入图片描述
ReLu(·)、BN(·)和MP3D(·)分别代表ReLu激活层、批归一化层和时空最大池化层。

3. 基线系统两阶段训练

在这里插入图片描述
首先,以LMSE为损失函数,利用模拟数据训练MEASE模型;然而,这种训练方法由于没有考虑后端识别任务,不可避免地会导致提取的语音产生一定程度的失真,从而影响识别系统的准确性。因此,在第二阶段,作者使用识别后端对预训练的MEASE模型进行微调。作者在第二阶段使用了来自训练集的真实远场数据。
在这里插入图片描述
X和Y分别表示编码器输出和目标序列。λ是CTC损失与注意交叉熵(attention cross entropy, CE)损失之间的权重因子。

4.

五、实验评价

1.数据集

使用MISP 2021挑战的AVSR语料库训练集,持续时间为106.09小时,包括21个房间和200个扬声器。

2.消融实验

3.客观评价

在这里插入图片描述
S, D, I表示替换,删除和插入的数量。N是基本真理中的字符数。
DNSMOS:深度噪声抑制平均意见评分
在这里插入图片描述
AEASE是MEASE的简化版本,因为它不利用视觉形式。
GSS+MEASE+Finetune”的结果作为我们最终的基线结果。

4.主观评价


六、结论

我们提供了MISP 2023挑战的数据集,任务设置和基线系统的详细描述,这是AVTSE任务的第一个基准。我们还对基线实验结果进行了深入分析,强调AVTSE任务在现实场景中仍然具有重要的研究潜力。未来,我们计划探索AVTSE系统在长录音情况下的解决方案,并结合主观听力测试,进一步研究真实语音听觉质量与后端任务性能之间的关系。

七、知识小结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1554955.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MCU或者SOC常见驱动3:USART通信

MCU或者SOC常见驱动3:USART通信 本文目的前置知识点UART简介主要特性通信流程数据帧格式所有数据帧满足的格式特殊的帧和用处(不是很清楚对不对) 参考文献 本文目的 简单的介绍USART通信一下是什么,有什么用,以及相关…

鸿蒙OS开发实例:【窥探网络请求】

HarmonyOS 平台中使用网络请求,需要引入 "ohos.net.http", 并且需要在 module.json5 文件中申请网络权限, 即 “ohos.permission.INTERNET” 本篇文章将尝试使用 ohos.net.http 来实现网络请求 场景设定 WeiBo UniDemo HuaWei : 请求顺序WeiBo1 UniDem…

同元软控专业模型库系列——液压气动篇

01 引言 近年来,数字液压技术在工业领域的应用逐渐推广,为提升生产效率、降低能源消耗、实现智能化制造提供了新的可能性。数字液压技术的应用已经覆盖了工程机械、航空航天、能源设备等众多领域,具有巨大的发展潜力。 行业技术的发展融合在…

机器人码垛机:智能仓储系统的重要组成部分

随着科技的飞速进步,机器人技术已经渗透到了许多行业领域,其中,仓储业尤为显著。机器人码垛机作为智能仓储系统的重要组成部分,不仅提高了码垛效率,还降低了人工成本和安全风险。然而,在其广泛应用的同时&a…

C# OpenCvSharp-HoughCircles(霍夫圆检测) 简单计数

目录 效果 项目 代码 下载 效果 项目 代码 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Windows.Forms; using OpenCvSharp; using O…

pycharm复习

1.字面量 2.注释: 单行注释# 多行注释" " " " " " 3.变量: 变量名 变量值 print:输出多个结果,用逗号隔开 4.数据类型: string字符串int整数float浮点数 t…

WebSocket 详解-小案例展示

简介:Websocket是一种用于H5浏览器的实时通讯协议,可以做到数据的实时推送,可适用于广泛的工作环境,例如客服系统、物联网数据传输系统,该测试工具可用于websocket开发初期的测试工作。 文章末尾有此案例的完整源代码。…

Arcgis中使用NDVI阈值法提取农田shape

首先有一幅NDVI影像TIFF,对其查看农田上的NDVI范围,大概是0.1以上,因为是12月份,小麦播种完1-2个月,此时NDVI并不是很高,但是树林基本叶子掉落了,所以比较好提取农田。 打开地图代数-栅格计算器…

【漏洞分析】浅析android手游lua脚本的加密与解密(一)

主要用到的工具和环境: 1 win7系统一枚 2 quick-cocos2d-x的开发环境(弄一个开发环境方便学习,而且大部分lua手游都是用的cocos2d-x框架,还有一个好处,可以查看源码关键函数中的特征字符串,然后在IDA定位到…

选择华为HCIE培训机构有哪些注意事项

选择软件培训机构注意四点事项1、口碑:学员和社会人士对该机构的评价怎样? 口碑对于一个机构是十分重要的,这也是考量一个机构好不好的重要标准,包括社会评价和学员的评价和感言。誉天作为华为首批授权培训中心,一直致…

【计算机考研】数学难,到底难在哪里?看这一篇深度分析

数一和数二的难度系数都不在一个重量级! 数一这货,容量真不是数二能比的!除了高数、线代这些常规操作,还要啃概率论与数理统计这本大厚书,简直是让人头大! 考研数学嘛,大家都知道,…

【详细讲解Android Debug Bridge各种命令及用法的文章】

🔥博主:程序员不想YY啊🔥 💫CSDN优质创作者,CSDN实力新星,CSDN博客专家💫 🤗点赞🎈收藏⭐再看💫养成习惯 🌈希望本文对您有所裨益,如有…

微服务demo(四)nacosfeigngateway

一、gateway使用: 1、集成方法 1.1、pom依赖: 建议:gateway模块的pom不要去继承父工程的pom,父工程的pom依赖太多,极大可能会导致运行报错,新建gateway子工程后,pom父类就采用默认的spring-b…

算法——动态规划:01背包

原始01背包见下面这篇文章:http://t.csdnimg.cn/a1kCL 01背包的变种:. - 力扣(LeetCode) 给你一个 只包含正整数 的 非空 数组 nums 。请你判断是否可以将这个数组分割成两个子集,使得两个子集的元素和相等。 简化一…

HTML input 实现回车切换到下一个输入框功能

前言 遇到需求&#xff0c;在客户填写单子时&#xff0c;有多个输入框&#xff0c;为了省事&#xff0c;不需要频繁移动光标填写。 实现效果 实现方式一 HTML <input type"text" name"serialNumber1" onkeydown"cursor(this);"/><in…

Elasticsearch 开放 inference API 增加了对 Cohere Embeddings 的支持

作者&#xff1a;来自 Elastic Serena Chou, Jonathan Buttner, Dave Kyle 我们很高兴地宣布 Elasticsearch 现在支持 Cohere 嵌入&#xff01; 发布此功能是与 Cohere 团队合作的一次伟大旅程&#xff0c;未来还会有更多合作。 Cohere 是生成式 AI 领域令人兴奋的创新者&…

打PTA (15分)(JAVA)

目录 题目描述 输入格式&#xff1a; 输出格式&#xff1a; 输入样例&#xff1a; 输出样例&#xff1a; 题解 题目描述 传说这是集美大学的学生对话。本题要求你做一个简单的自动问答机&#xff0c;对任何一个问句&#xff0c;只要其中包含 PTA 就回答 Yes!&#xff0c;其…

大模型重塑电商,淘宝、百度、京东讲出新故事

配图来自Canva可画 随着AI技术日渐成熟&#xff0c;大模型在各个领域的应用也越来越深入&#xff0c;国内互联网行业也随之进入了大模型竞赛的后半场&#xff0c;开始从“百模大战”转向了实际应用。大模型从通用到细分垂直领域的跨越&#xff0c;也让更多行业迎来了新的商机。…

Pytorch从零开始实战22

Pytorch从零开始实战——CycleGAN实战 本系列来源于365天深度学习训练营 原作者K同学 内容介绍 CycleGAN是一种无监督图像到图像转换模型&#xff0c;它的一个重要应用领域是域迁移&#xff0c;比如可以把一张普通的风景照变化成梵高化作&#xff0c;或者将游戏画面变化成真…

python可视化:tqdm进度条控制台输出模块

前言 在处理大量数据或执行耗时操作时&#xff0c;了解代码执行的进度是至关重要的。在Python中&#xff0c;通过使用进度条可以有效地实现对代码执行进度的可视化展示。 tqdm 是一个快速、可扩展的Python进度条库&#xff0c;能够实时显示代码执行的进度。并且它提供了简洁的A…