SELD2022:(一)数据集收集与组织详解

news2025/1/8 4:57:26

前言:声音事件检测与定位(SELD)作为DCASE挑战赛的子任务,从2019年开始已经举办了好几届。该子任务的目标也从2022年开始由原来的在仿真数据集上设计更优声学模型,过渡到了在真实数据集上进行模型优化。相对而言,SELD2022和SELD2023子任务在数据集构建与模型评测上相对于前几届挑战赛有比较大的变化,且逐渐向真实应用场景靠近。为此,我将通过几篇系列文章来从数据集构建与组织、基线模型方法设计、可提升模型性能的途径等三个方面来介绍该项挑战赛。

一、数据集收集

Sony-TAu Realistic Spatial Soundscapes 2022 (STARSS22) 数据集是在两个不同的国家(由芬兰坦佩雷大学的音频研究小组(ARG)组织,和日本东京的索尼公司组织)使用类似的设置和注释程序收集的。

这些录音被组织成一个个录音会话,每个会话都在一个独特的房间里进行。除了少数例外,参与者的分组、声音制作道具和场景都是独特的。在每个会话中捕获多个声音事件的1-5min录音。为了在声音事件的出现、密度、运动和/或空间分布方面实现数据的良好可变性和效率,数据记录情景被松散地剧本化处理过。

在实验记录设备方面,使用高声道数球形麦克风阵列(Eigenmike em32,由mh Acoustics公司提供)捕捉声音场景记录,同时使用与球形阵列记录(Ricoh Theta V)空间对齐的360视频记录。此外,主要声源配备了空间跟踪标记,即在整个录音过程中,都会使用Optitrack Flex 13系统围绕每个场景进行跟踪。所有的场景都是基于人类演员执行某些动作,他们之间以及与场景中的物体进行互动,而动态设计的。

由于演员在场景中制造了大部分声音(但不是全部),他们额外配备了DPA Wireless Go II麦克风,提供主要事件的近距离录音。录音会根据正在进行的场景进行启动和停止,通常持续1~5分钟。所有的麦克风和跟踪设备都会在场景开始前开始录音,然后立即停止。拍手声将启动动作,它将作为参考信号,用于em32录音、理光Theta V视频、DPA无线麦克风录音和Optitrack跟踪器数据之间的同步。

二、数据集标注

数据集的标注,包括在时间维度上识别活动的声音事件类别,并定位活动声音事件在空间中的(运动)轨迹。在同一时刻存在两个同时激活的声音事件(同类/不同类)是比较常见的,这要求声音事件检测与定位模型能够有效地识别叠音情况。

结合无线麦克风信息、光学跟踪信息和360度视频信息,该数据集的标注采用的是时空半自动标注和标注结果手动验证的形式。更具体地说,在每个录音过程中,演员都戴着带有标记的发带进行跟踪,而其他与人类相关的声源位置,如嘴、手或脚,则依据头部坐标按照人的身体几何结构推断出来。其他的标记点被安装在周围的东西上(例如吸尘器、吉他、水龙头、橱柜、门把手)。每个演员都在衣领上佩戴一个无线麦克风,可以清晰地记录该演员产生的所有声音事件。

声音事件类别标注,主要通过收听麦克风信号来标记它们的类。声音事件在空间中的位置,则由光学跟踪系统提供,并将位置信息转换为相对于麦克风阵列坐标的到达方向(DOAs)。最后,观察记录的视频数据,并在360视频平面上可视化各DOAs标记,从而验证注释。

(source:DCASE challenge website)来自360度视频的场景示意帧,EM32生成的空间声学功率图,光学跟踪标记数据,带注释的事件标签,用于可视化验证

三、声音事件标注格式

根据AudioSet数据集的声音事件类别划分方式,该数据集共标注了13个类别的声音事件:

1. Female speech, woman speaking
2. Male speech, man speaking
3. Clapping
4. Telephone
5. Laughter
6. Domestic sounds
7. Walk, footsteps
8. Door, open or close
9. Music
10. Musical instrument
11. Water tap, faucet
12. Bell
13. Knock

来自目标类以外的声音事件被认为是干扰,其中一些类的内容对应于audioset相关子类范围的事件,例如

  • Telephone
    • Mostly traditional Telephone Bell Ringing and Ringtone sounds, without musical ringtones.

声音事件标注格式:

对于开发数据集中的每个记录,声音事件标签和DoAs以与记录文件名相同的纯文本CSV文件的形式提供,格式如下:

[frame number (int)], [active class index (int)], [source number index (int)], [azimuth (int)], [elevation (int)]

标注解释为:帧代号、活动声音事件类别和声源标签(从0开始)、方向角、俯仰角。

其中,帧代号对应于100毫秒的时间分辨率。方位角和俯仰角以度数表示,并四舍五入到最接近的整数值,以正面的方位角和俯仰角为零参考值,其中方位角ϕ在[−180∘,180∘],俯仰角θ在[−90∘,90∘]。方位角逆时针增加,且ϕ =90∘时在正左侧。

 (source:STARSS22数据集标注的各声音事件类别所占比例,以及混音情况统计2)

四、声音数据记录格式与数据集组织形式

通过高阶球形麦克风阵列(Eigenmike em32)记录的原始声音数据未直接用于挑战赛,而是通过声音数据转换/通道选择提供了两种格式的4声道声音数据(FOA:first-order ambisonics MIC: tetrahedral microphone array)。可以认为这两种记录格式的阵列响应是已知的。后续博文介绍的用于声音事件检测与定位任务的有效数据增强技术 ACS(:audio channel swapping)的提出则是与FOA的阵列响应表达形式息息相关的。

该数据集的组织细节总结如下,

  • 该数据集包含:70个30s~ 5min的录音片段,总时长约2小时,由Sony提供(开发数据集dev);511 min ~ 5 min的录音片段,总时长约为3小时,由TAU提供(开发数据集dev)。
  • 开发集组成:训练集包含来自Sony的40个录音片段(dev-train-sony),在2个房间中记录,和来自TAU的27个录音片段(dev-train-tau),在4个房间中记录;测试集包含来自Sony的30个录音片段(dev-test-sony),在2个房间中记录,和来自TAU24个录音片段(dev-test-tau),在3个房间中记录
  • 每个录音片段都是一个独特房间中的录音记录的一部分,同时出现3个声音事件是相当常见的,而更多重叠事件(最多5)可能发生,但很少。
  • 总结,该数据集包含11个独特房间的声音记录,其中4个来自Sony, 7个来自TAU,采样频率24kHz。

可参考资源

挑战赛描述 SELD2022:Sound Event Localization and Detection Evaluated in Real Spatial Sound Scenes - DCASE

描述数据集组织的论文:STARSS22: A DATASET OF SPATIAL RECORDINGS OF REAL SCENES WITH SPATIOTEMPORAL ANNOTATIONS OF SOUND EVENTS

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/613467.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Omnipeek 分析wifi包简单介绍

通常打开一个.pkt文件,我们先看到的是如下内容。 这个场景下的数据基本是不能分析的。。 因为抓空口包1分20秒基本有10w包了,所以通常会对所抓的空口包进行过滤然后分析。 写个例子: 我本次抓包的目的是看路由器mesh的wps 组网过程&#xf…

海睿思分享 | 低代码开发直面行业变革:革新,创新?

软件体系结构从单体集群服务时期,历经领域驱动设计、微服务架构等阶段,软件产品的开发过程的变革正在潜移默化地进行。 在软件逻辑架构设计、物理架构设计、构建与部署这一系列化的过程中,存在可缩减的设计与开发成本,曾经看似不可…

力扣高频SQL50题(基础版)——第六天

力扣高频SQL50题(基础版)——第六天 1 平均售价 1.1 题目内容 1.1.1 基本题目信息1 1.1.2 基本题目信息2 1.1.3 示例输入输出 1.2 示例sql语句 SELECT u.product_id,ROUND(SUM(p.price*u.units)/SUM(u.units),2) average_price FROM UnitsSold u INNER JOIN Prices p ON u.…

Linux :: 文件内容操作【6】:文件中指定中间部分(第多少行 到 第多少行)行内容输出 及 初步认识管道

前言:本篇是 Linux 基本操作篇章的内容! 笔者使用的环境是基于腾讯云服务器:CentOS 7.6 64bit。 学习集: C 入门到入土!!!学习合集Linux 从命令到网络再到内核!学习合集 注&#xff…

OpenAI的人工智能语音识别模型Whisper详解及使用

1 whisper介绍 拥有ChatGPT语言模型的OpenAI公司,开源了 Whisper 自动语音识别系统,OpenAI 强调 Whisper 的语音识别能力已达到人类水准。 Whisper是一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据来训练,能够在…

Linux中使用ls命令按大小对所有文件进行排序

按大小列出目录中的文件(排序) ls -lSh

AI版女网红“半藏森林”上线,服务项目让人意想不到

目前首批网红明星“AI克隆人”已提前上线,主营业务就是打造各种名人版AI聊天机器人,用户付费便可与之聊天。其后台报名参加AI克隆人的网红明星“全网粉丝总数已超过5亿”。该公司这波上线的网红明星AI克隆人,包括此前因“疑似插足他人恋情”&…

腾讯工作3个月,做测试的一些感悟...

普通二本计算机专业毕业,从毕业后,第一份接触测试的工作是在一家通讯小公司,大部分接触的工作是以功能测试为主,一直都是几千块钱工资,还一度被派出差,以及兼职各种产品、运维、运营的活,感觉自…

TS学习操作

一.TypeScript环境安装与运行 1.全局安装 TypeScript : npm install -g typescript 2.校验 : tsc -v 二.如何运行 1.创建一个day01.ts文件夹 2.使用tsc ./day01.ts 将typescript代码转行成js代码 3.在html页面导入day01.js 4.创建配置文件 tsc --i…

力扣LeetCode算法题 第8题-字符串转换整数 (atoi)

以上为题目要求: /*** params Leetcode_test007* return Leetcode_test007* Author bigeZhong* disc**请你来实现一个myAtoi(string s)函数,使其能将字符串转换成一个 32 位有符号整数(类似 C/C 中的 atoi 函数)。** 函数myAtoi(…

java实现打包下载

背景:项目中下载功能单个文件正常下载多个文件或者包含文件夹打压缩包下载 上代码 controller RestController RequestMapping("/file") public class FileController {RequestMapping(value "/downloadFilePack", method RequestMethod.G…

SpringCloud 规则持久化

SpringCloud 规则持久化 文章目录 SpringCloud 规则持久化1 规则持久化2 规则持久化方案2.1 阿里云 Ahas[最方便/付费]2.2 在 Nacos Server 配置规则, 完成持久化 -官方推荐2.3 将规则持久化到本地文件, 定时同步 3 Nacos Server 配置中心-规则持久化实例 1 规则持久化 **规则…

MySQL压缩版本安装

MySQL压缩版本安装 首先分享mysql-8.0.23版本的压缩包,请有需要的朋友自取。 链接:https://pan.baidu.com/s/1h46ZCkGLbikhDOu5_0p2nw 提取码:wwd2 1、解压压缩包 1、将下载的压缩包放置到安装的位置后并解压,笔者将文件夹放到…

WPF BUG汇总:WPF Debug运行是 实时可视化树无效,无法查看代码

文章目录 往期回顾前言问题解决方案 往期回顾 WPF MaterialDesign 初学项目实战(0):github 项目Demo运行 前言 最近打算去深圳工作,投了几个简历之后发现深圳的C#方向上,WPF招聘的比较多。这里介绍一下,工业计算机&…

ChatGLM-6B的windows本地部署使用

ChartGPT最近特别火,但是收费,而且国内访问不太方便,所以找了个类似的进行学习使用 ChatGLM-6B,开源支持中英文的对话大模型,基于 General Language Model (GLM) 架构,具有62亿参数,简单说非常…

SpringCloud高级应用-Gateway

Dubbo SpringCloud高级应用 1. SpringCloud技术栈1.1 SpringCloud技术栈1.2 SpringCloud经典技术介绍1.3 SpringCloud项目场景 2. SpringCloud Gateway2.1 Gateway工作原理2.2 Gateway路由2.2.1 业务说明2.2.2 基于配置路由设置2.2.3 基于代码路由配置2.2.4 Gateway-Predicate2…

数据库的增删改查(2)

1、数据库约束 关系型数据库的一个重要功能 主要作用是保证数据的完整性,也就是数据的正确性(数据本身是正确的,关联关系也是正确的) 人工检查数据的完整性的工作量非常的大,在数据表定义一些约束,那数据…

Shamir 秘密共享、GMW和BGW方案

一、Shamir秘密共享 Shamir秘密共享方案是一种将秘密拆分成多份并分配给多个参与者保存,只有在满足特定条件下才能恢复原始秘密的密码学方案。它具有良好的容错性、加法同态性和无条件安全性等特点。 具体地,Shamir秘密共享方案可以概括为以下步骤&…

Protobuf数据类型

enum类型 语法⽀持我们定义枚举类型并使⽤。在.proto⽂件中枚举类型的书写规范为: 枚举类型名称: 使⽤驼峰命名法,⾸字⺟⼤写。例如: MyEnum 常量值名称: 全⼤写字⺟,多个字⺟之间⽤连接。例如&#xff1a…

【嵌入式烧录/刷写文件】-2.9-Intel Hex文件的地址对齐Address Alignment

案例背景(共5页精讲): 对一个Intel Hex文件,进行地址对齐Address Alignment。 目录 1 为什么要进行“地址对齐Address Alignment” 1.1 “对齐长度”的选择 2 使用Vector HexView工具对Hex文件进行“地址对齐Address Alignment” 2.1 “自动”完成“地址对齐Ad…