RealMAN:大规模真实录制且经过注释的麦克风阵列数据集

news2024/11/18 19:52:40

       在深度学习驱动的多通道语音增强和声源定位系统的开发中,由于缺乏大规模的真实录制数据集,这些系统的训练在很大程度上依赖于房间脉冲响应(RIR)和多通道扩散噪声的模拟。然而,模拟数据和真实世界数据之间存在的声学失配可能会导致模型在应用于现实场景时性能下降。现有数据集的局限性如下:

  • 缺乏真实数据: 目前大多数公开数据集都是通过模拟房间脉冲响应和扩散噪声生成的,缺乏真实录制的麦克风阵列数据。这导致模拟数据与真实世界数据之间存在声学失配,限制了模型的泛化能力。
  • 数据量和多样性不足: 现有的真实录制数据集规模较小,场景和噪声类型有限,难以有效训练通用的语音增强和声源定位网络。
  • 缺乏特定任务的标注: 现有数据集往往缺乏目标语音、声源位置等标注信息,限制了其在语音增强和声源定位任务中的应用。
  • 阵列依赖性: 现有的端到端语音增强和声源定位模型通常依赖于特定阵列,难以应用于未见过的新阵列。

    为了解决上述问题,本文提出了一个新的大规模的真实录制且经过注释的麦克风阵列语音和噪声数据集,名为RealMAN。

数据集下载地址:github.com/Audio-WestlakeU/RealMAN

1 RealMAN 数据集概述

RealMAN 数据集是一个用于语音增强和声源定位的真实录制和标注麦克风阵列数据集。该数据集具有以下特点:

1.1 数据规模

  • 83 小时语音信号(48 小时静态说话人,35 小时动态说话人)
  • 144 小时背景噪声
  • 32 个不同的语音录制场景
  • 31 个不同的噪声录制场景

1.2场景多样性

  • 覆盖室内、室外、半室外和交通等多种场景
  • 包括多种常见的室内场景(如客厅、办公室、走廊、餐厅等)
  • 包括多种常见的室外场景(如公园、街道、广场等)
  • 包括交通场景(如汽车、公交车、地铁等)

1.3 说话人状态

  • 包含静态说话人和动态说话人
  • 动态说话人模拟人类行走状态,移动速度合理

1.4 数据标注

  • 声源方位角:使用全向鱼眼相机自动检测声源位置
  • 直达目标语音:通过估计直达路径传播滤波器从源语音信号中获取
  • 语音转录:用于评估自动语音识别性能

1.5 阵列配置

1.7 数据格式

2 RealMAN 数据集优势与潜在应用

2.1 RealMAN 数据集的优势

2.2 RealMAN 数据集的潜在应用

3 基准实验

      本文进行了基准实验,以评估该数据集在语音增强和声源定位任务上的性能,并与模拟数据集进行比较。以下是基准实验的详细内容:

  • 使用 32 通道麦克风阵列进行录制
  • 阵列包含多种拓扑结构,包括平面线性阵列、圆形阵列和 3D 阵列
  • 1.6 数据分割

  • 将数据分割为训练集、验证集和测试集
  • 训练集包含 40 个不同的场景,验证集和测试集包含 17 个和 21 个不同的场景
  • 将 55 名说话人分配到训练集、验证集和测试集
  • 演示集和测试集中的语音和噪声来自匹配的场景,以模拟真实场景
  • 语音信号:WAV 格式,采样率 48 kHz
  • 噪声信号:WAV 格式,采样率 48 kHz
  • 声源方位角:JSON 格式
  • 语音转录:JSON 格式
  • 真实数据: 避免了模拟数据与真实数据之间的声学失配问题,能够更准确地评估算法性能。
  • 大规模和高多样性: 能够有效训练通用的语音增强和声源定位网络。
  • 特定任务标注: 方便进行语音增强和声源定位任务的训练和评估。
  • 阵列泛化能力: 可以用于训练可泛化到未见阵列的可变阵列网络,解决阵列依赖性问题。
  • 语音增强: 改善噪声环境下的语音质量,提高语音识别系统的准确率。
  • 声源定位: 确定声源的位置,应用于语音交互、机器人导航等场景。
  • 声学场景识别: 识别不同的声学场景,用于智能语音控制、智能家居等场景。

3.1 基准方法

3.1.1 语音增强

FaSNet-TAC:一个流行的时域网络。FaSNet-TAC是一种端到端的滤波求和风格的多通道语音增强系统,它在时间域内操作,并且通过神经网络以端到端的方式估计波束成形系数 SpatialNet:一个新提出的频域网络。

SpatialNet则是一个在短时傅里叶变换(STFT)域内进行端到端语音增强的神经网络,主要用于多通道联合语音分离、降噪和去混响。SpatialNet采用了深度学习方法,结合了Narrow-band Conformer网络结构,能够高效地学习多通道语音信号的空间信息。

3.1.2 声源定位

3.2 评估指标

3.2.1 语音增强

3.2.2 声源定位

3.3 实验设置

3.4 实验结果

3.4.1 语音增强

总体而言,RealMAN 数据集是一个具有挑战性的数据集,能够更准确地反映算法在真实场景中的性能。

3.4.2 声源定位

3.5 可变阵列网络和阵列泛化

这表明 RealMAN 数据集可以成功训练可泛化到未见阵列的可变阵列网络,为解决阵列依赖性问题提供了有效方案。

    RealMAN 数据集基准实验结果表明,使用真实数据训练的模型在真实场景中取得了更好的性能,有效消除了模拟数据与真实数据之间的差距。RealMAN 数据集可以用于评估和比较语音增强和声源定位算法的性能,并提供更可靠的基准。此外,使用 RealMAN 数据集训练的可变阵列网络可以应用于未见阵列,为语音增强和声源定位技术在实际场景中的应用提供了新的可能性。

  • CRNN:一种结合了卷积神经网络(CNN)和循环神经网络(RNN)的模型,主要用于处理序列化数据并进行识别任务。它通过先使用CNN提取图像特征,然后将这些特征输入到RNN中进行时间序列处理,从而实现对文本、语音等序列数据的识别。
  • IPDnet:IPDnet(Inter-Channel Phase Difference Estimation Network)是一种新提出的声源定位方法,旨在从麦克风阵列信号中估计声源的直接路径互通道相位差(DP-IPD)。该方法在不利的声学环境中提取直接路径空间特征,从而实现声源定位。
  • SI-SDR:尺度不变信号失真比SI-SDR是一种优化生成对抗网络(GAN)语音增强方法的指标,旨在解决模型训练不稳定和生成语音质量不高的问题。它通常被认为是衡量源声音质量的整体指标,适用于时域语音分离中的训练措施。SI-SDR值越高,表示语音质量越好。
  • WB-PESQ:宽带感知语音质量评估。WB-PESQ是基于ITU-T P.862标准的语音质量评估方法,用于预测主观意见,适用于宽带语音条件下的语音质量评估。它需要带噪的衰减信号和一个原始的参考信号,能够对客观语音质量评估提供一个主观MOS的预测值。WB-PESQ的评分范围在-0.5到4.5之间,评分越高表示语音质量越好。
  • MOS-SIG, MOS-BAK, MOS-OVR:DNSMOS 中的语音质量指标
  • CER:字符错误率
  • MAE:平均绝对误差。MAE是一种常用的回归模型评估指标,用于衡量预测值与实际值之间的平均绝对偏差。它反映了预测值与真实值之间的差异,能够直观地显示预测结果的准确性。
  • ACC:定位精度(N°)。ACC通常用于描述定位系统的精度,特别是在机器视觉和室内定位等应用中。它表示定位系统能够准确确定目标位置的能力。
  • 使用 9 通道子阵列进行实验
  • 训练集由随机混合的语音和噪声组成,SNR 在 [0, 15] dB 范围内均匀分布
  • 验证集和测试集由匹配场景的语音和噪声混合而成,信号级别保持不变
  • 与模拟数据相比,使用 RealMAN 数据集训练的模型在真实数据集上取得了更好的性能,有效消除了模拟数据与真实数据之间的差距。
  • 与模拟数据相比,使用 RealMAN 数据集训练的模型在真实数据集上取得了更好的定位精度。
  • 真实录制数据和模拟 RIR 之间的失配会导致声源定位性能下降。
  • 真实噪声和模拟噪声之间的失配也会对声源定位性能产生较大影响。
  • 使用 28 个麦克风数据训练 FaSNet-TAC 和 IPDnet 网络的可变阵列版本。
  • 可变阵列网络在未见阵列上的性能略低于使用测试阵列训练的固定阵列网络,但差距较小。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1890823.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【数据分享】《中国建筑业统计年鉴》2005-2022 PDF

而今天要免费分享的数据就是2005-2022年间出版的《中国建筑业统计年鉴》并以多格式提供免费下载。(无需分享朋友圈即可获取) 需要2023的数据的请添加小编咨询 数据介绍 在过去的十八个年头中,中国建筑业经历了翻天覆地的变化。从《中国建…

【LeetCode】十二、递归:斐波那契 + 反转链表

文章目录 1、递归2、leetcode509:斐波那契数列3、leetcode206:反转链表4、leetcode344:反转字符串 1、递归 函数自己调用自己 递归的4个点: 递归的例子:给一个数n,在斐波那契数列中,找到n对应的…

企业元宇宙3D云端数字化展厅扩大客户触及面

在浩瀚无垠的元宇宙中,一个立体、虚拟的数字空间正在等待您的探索与创造。如何在这片无边界的数字领域中快速搭建起属于您自己的虚拟展馆,已成为当今企业关注的焦点。 元宇宙数字展馆搭建,不仅是对新技术领域的探索,更是品牌创新与…

Gradle学习-5 发布二进制插件

注:以下示例基于Gradle8.0 1、发布插件 复制一分 buildSrc,执行命令行,生成一个新目录 leon-gradle-plugin cp -rf buildSrc leon-gradle-plugin在 leon-gradle-plugin 目录下的 build.gradle 中引入maven plugins{// 引用 Groovy 插件&…

js替换对象里面的对象名称

data为数组,val为修改前的名称,name为修改后的名称 JSON.parse(JSON.stringify(data).replace(/val/g, name)) ; 1.替换data里面的对象tenantInfoRespVO名称替换成tenantInfoUpdateReqVO 2.替换语句: 代码可复制 let tenantInf…

大模型与机器人精彩碰撞-7月5日晚上八点不见不散!

在瞬息万变的科技时代,新兴人工智能和机器人技术的结合正在引领新一轮的创新浪潮。你是否想成为未来科技的领航者?你是否想了解最前沿的AI与机器人技术?行麦科技重磅推出的“AIGC时代的生存法则”AI系列课,将为你揭开大模型与机器…

RK3568驱动指南|第十六篇 SPI-第188章 mcp2515驱动编写:复位函数

瑞芯微RK3568芯片是一款定位中高端的通用型SOC,采用22nm制程工艺,搭载一颗四核Cortex-A55处理器和Mali G52 2EE 图形处理器。RK3568 支持4K 解码和 1080P 编码,支持SATA/PCIE/USB3.0 外围接口。RK3568内置独立NPU,可用于轻量级人工…

基于java+springboot+vue实现的家政服务平台(文末源码+Lw)299

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本家政服务平台就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据信息&a…

RAID详解

一、RAID存储是什么? RAID 存储(Redundant Arrays of Independent Disks,独立磁盘冗余阵列)是一种通过将多个独 立的物理磁盘组合在一起,以实现更高的存储性能、数据可靠性和容错能力的技术。 其主要目的是解决单个…

Appium启动APP时报错Security exception: Permission Denial

报错内容Security exception: Permission Denial: starting Intent 直接通过am命令尝试也是同样的报错 查阅资料了解到:android:exported | App quality | Android Developers exported属性默认false,所以android:exported"false"修改为t…

MATLAB中findall用法

目录 语法 说明 示例 查找具有可见或隐藏句柄的图窗 查找句柄处于隐藏状态的对象 查找 Text 对象 提示 findall的功能是查找所有图形对象。 语法 h findall(objhandles) h findall(objhandles,prop1,value1,...,propN,valueN) 说明 h findall(objhandles) 返回 ob…

12. Revit API: Document、Element

12. Revit API: Document、Element 前言 还是先讲一下Document吧,不然Selection不好讲,那涉及到了挺多东西的,比元素(Element)和各类Filter,这些都与Document有关,所以先简单讲一下这个。 一、…

牛!手机、TV双端聚合,免费可同步!

哈喽,各位小伙伴们好,我是给大家带来各类黑科技与前沿资讯的小武。 有不少小伙伴闲时会选择观看游戏、户外、娱乐等各类的直播,而关注的主播可能驻留在不同直播平台,需要下载多个APP,且切换非常不方便。 所以今天给大…

程序化交易广告及其应用

什么是程序化交易广告? 程序化交易广告是以实时竞价技术即RTB(real-time bidding)为核心的广告交易方式。说到这里,你可能会有疑问:像百度搜索关键词广告还有百度网盟的广告,不也是CPC实时竞价的吗&#x…

永劫无间国服延迟高、报错、卡顿的处理措施一览

永劫无间国服延迟高、报错、卡顿怎么办?快速解决办法分享 第一个办法:改善延迟 如果是一直遇到永劫无间国服延迟高、报错、卡顿的问题,重启游戏也不管用的话,那应该就是网络问题,玩家可以启动雷神,让其快速…

【CV炼丹师勇闯力扣训练营 Day22:§7 回溯1】

CV炼丹师勇闯力扣训练营 代码随想录算法训练营第22天 回溯法其实就是暴力查找,回溯的本质是穷举,穷举所有可能,然后选出我们想要的答案,一般可以解决如下几种问题: 组合问题:N个数里面按一定规则找出k个数的集合切割…

番外篇 | 手把手教你如何去更换YOLOv5的检测头为ASFF_Detect

前言:Hello大家好,我是小哥谈。自适应空间特征融合(ASFF)的主要原理旨在解决单次检测器中不同尺度特征的不一致性问题。具体来说,ASFF通过动态调整来自不同尺度特征金字塔层的特征贡献,确保每个检测对象的特征表示是一致且最优的。本文所做出的改进是将YOLOv5的检测头更换…

JVM原理(十一):JVM虚拟机六种必需对类进行初始化的情况

Java虚拟机把描述类的数据从Class文件加载到内存,并对数据进行校验、转换解析和初始化,最终形成可以被虚拟机直接使用的Java类型,这个过程被称作虚拟机的类加载机制。Java天生可以动态扩展的语言特性就是依赖运行期间动态加载和动态链接这个特…

西藏文旅与薛之谦梦幻联动共赴一场灵魂的西藏之约

【西藏文旅与薛之谦的梦幻联动:共赴一场灵魂的西藏之约】在这个快节奏的时代,每一颗渴望自由与宁静的心在寻找一片净土,而西藏,便是那片无数人梦寐以求的圣地。当西藏文旅以一句“啊啊啊 可以dream一个西藏吗?&#xf…

小米10屏幕录制在哪里?看了这篇就会了!

无论你是想记录手机游戏的精彩瞬间,还是想制作教学视频,或者只是想保存某个应用的操作教程,屏幕录制都能轻松帮你实现。那么,对于小米10用户来说,屏幕录制功能究竟在哪里?又有哪些录屏软件可以选择呢&#…