DCASE挑战赛中的声音事件检测与定位(SELD)子任务介绍

news2025/1/22 14:51:07

 DCASE(Detection and Classification of Acoustic Scenes and Events)系列挑战赛包含多个与声音计算相关的子任务,以DCASE2023为例,其包含如下七个与声音计算相关的任务。

 (source:DCASE challenge website) 

声音事件检测与定位作为DCASE挑战赛的子任务已经举办多个轮次。

声音事件检测与定位SELD(Sound Event Localization and Detection)指的是,给定多声道音频输入,声音计算模型为每个目标声音类输出一个时间激活轨迹,当轨迹指示活动时,还输出一个或多个相应的空间轨迹。

声音事件检测与定位系统可以用于广泛的机器认知任务,如识别环境类型、定位、在没有视觉输入或是视觉遮挡情况下进行导航、跟踪特定类型的声源、智能家居、场景可视化和声学监测等。

1、任务介绍

SELD任务可以描述为下图,针对给定的通道声音数据,采用声学计算模型(sound event localization and detection system)同时检测该时序信号中包含的声音事件类型,并在它们出现的时候定位其在空间中的位置(这里估计的是角度azimuth和elevation)。

(source:DCASE challenge website) 

2、挑战赛发展历程

DCASE2023(DCASE2023 Challenge - DCASE)是SELD子任务的第5次迭代。前3个挑战是基于模拟的多通道记录,由事件样本库生成,这些样本库包含在不同房间捕获的空间房间脉冲响应(spatial room impulse responses, SRIRs),并混合了在相同位置记录的空间环境噪声。

SELD从2019年开始作为DCASE系列挑战赛的第三个子任务(task3)出现,最初由Tampere University(坦佩雷大学)Audio research group组织;从DCASE2022开始,由Tampere University和SONY共同组织。

 SELD模拟数据集的合成过程可描述为下图

 (source:作者自画) ,图中右侧的两幅图展示的是用于空间化声音事件位置的房间脉冲响应记录过程(上),以及真实环境噪声记录过程(下)

在每一个连续的迭代中,声学条件的复杂性增加,以便使任务更接近现实世界的挑战性条件。下面的表格显示了前3个挑战之间的基本差异

Table 1: Differences between SELD challenges in DCASE2019-2021. (source:DCASE challenge website) 

随着相关SELD方法的不断发展,自然向前迈出的一步是在真实空间声音场景记录上测试系统的性能。为了应对该挑战,DCASE2022收集了真实声学场景下记录的多通道声音数据并发布了新一轮的挑战赛,与前几年相比,这一过渡带来了一些变化,其中一些总结如下

Table 2: Differences between previous SELD challenges and the current one.

DCASE 2019-2021

DCASE 2022

在模拟场景记录数据中训练并测试

在真实标注场景记录数据中测试

在由组织者提供的固定尺寸的合成数据集上训练

提供了一小部分在真实场景下采集的声音数据用于训练;参与者也可以采用其它训练数据

在训练阶段,额外的数据是不允许的

允许采用额外的数据进行训练

目标声音事件类别由使用的事件样本库决定

目标声音事件类别由真实场景中活动的声音类别组成

事件的发生是随机的

事件的发生取决于场景中的动作与交互

声音事件的类别,声音事件的密度,声音事件重叠的程度均由数据生成控制

声音事件的类别,声音事件的密度,声音事件重叠的程度由真实场景声音决定

基线方法不能检测两个同类别的重合声音事件

基线方法可以检测两个以上重叠的同类别声音事件

SELD2023相对于2022而言,同为真实场景下记录的数据且在SELD2022的基础上发布了更多的声音数据,并发布了记录场景下对应的真实360°视频数据,用于社区研究视听融合的声音事件检测与定位。

3、SELD2022描述

用于SELD2022的数据集为Sony-TAu Realistic Spatial Soundscapes 2022 (STARSS22),该数据集是在两个不同的国家(由芬兰坦佩雷大学的音频研究小组(ARG)组织,和日本东京的索尼公司组织)使用类似的设置和注释程序收集的。与前面的挑战一样,数据集以两种空间记录格式(FOA、MIC)发布。

这些录音被组织成一个个录音会话,每个会话都在一个独特的房间里进行。除了少数例外,参与者的分组、声音制作道具和场景都是独特的。在每个会话中捕获多个声音事件的1-5min录音。为了在声音事件的出现、密度、运动和/或空间分布方面实现数据的良好可变性和效率,数据记录情景被松散地剧本化处理过。

在实验记录设备方面,使用高声道数球形麦克风阵列(Eigenmike em32,由mh Acoustics公司提供)捕捉声音场景记录,同时使用与球形阵列记录(Ricoh Theta V)空间对齐的360视频记录。此外,主要声源配备了空间跟踪标记,即在整个录音过程中,都会使用Optitrack Flex 13系统围绕每个场景进行跟踪。所有的场景都是基于人类演员执行某些动作,他们之间以及与场景中的物体进行互动,而动态设计的。

由于演员在场景中制造了大部分声音(但不是全部),他们额外配备了DPA Wireless Go II麦克风,提供主要事件的近距离录音。录音会根据正在进行的场景进行启动和停止,通常持续1~5分钟。所有的麦克风和跟踪设备都会在场景开始前开始录音,然后立即停止。拍手声将启动动作,它将作为参考信号,用于em32录音、理光Theta V视频、DPA无线麦克风录音和Optitrack跟踪器数据之间的同步。

下图展示了SELD2022真实数据记录场景的标注图,

来自360度视频的场景示意帧,EM32生成的空间声学功率图,光学跟踪标记数据,带注释的事件标签,用于可视化验证

 总结:有关挑战赛数据集的详细描述可参考挑战赛官网介绍,以及随历届挑战赛发布的挑战赛介绍相关论文。该系列挑战赛都提供了声学计算基线系统,包括对数据的预处理和特征提取等,极大地方便了关联社区在此基础上研究声学计算模型。

可参考资源:

挑战赛介绍:Sound Event Localization and Detection Evaluated in Real Spatial Sound Scenes - DCASE

描述数据集组织和基线系统方面的论文:https://github.com/sharathadavanne/seld-dcase2022

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/610721.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ChatGPT配合两款神器,1分钟生成流程图

流程图,工作上再正常不过的一种图形,常见制图方法对比: 传统手动制图:耗时耗力,迁移性差AI 辅助制图:使用自然语言提出需求,零基础快速制图 几款常见的我在用的在线绘图工具推荐: Pr…

火山引擎DataLeap的Catalog系统搜索实践(三):Learning to rank与后续工作

Learning to rank Learning to rank主要分为数据收集,离线训练和在线预测三个部分。搜索系统是一个Data-driven system,因此火山引擎DataLeap的Catalog系统设计之初就需要考虑数据收集。收集的数据可以用来评估和提升搜索的效果。数据收集和在线预测前面…

基于国民技术N32G435的FLASH读写测试

一、测试工具: 1.国民技术N32G43XCL-STB开发板----主控为N32G435CB 2.创芯工坊PW200加密离线烧录器 3.PowerWriter上位机,配合PW200查看FLASH数据。 4.keil5 二、测试背景 现在很多的应用中都需要保存离线数据,例如一些传感器的校正数…

基于C#制作一个鼠标连点器

秒杀抢券、压枪换弹都是网上冲浪的基本操作,制作一个鼠标连点器,从此在互联网所向披靡。 一、项目搭建1.1、创建1.2、界面设计 二、功能实现2.1、类型库调用2.2、窗口句柄定义2.3、线程处理2.4、快捷键 一、项目搭建 1.1、创建 打开Visual Studio,右侧选择创建新项…

ARM体系结构和RAM的工程搭建、程序编写

目录 工程搭建 程序编写 带标志位的加法ADC ADCS 跳转指令B\BL 栈的应用->叶子函数的调用过程 栈的应用->非叶子函数的调用过程 异常中断产生指令 协处理器指令 伪操作 安装交叉编译工具 Makefile 宏定义 预编译指令 申请一个字的空间 .word 申请多个字节空间 嵌套编程 方…

如何查询期刊的SCI分区

好消息是CSDN AI写作助手上线了 我不用自己一个字一个字去写SCI分区是啥(x) 然而—— 麻了还是自己写吧, 在人工智能这条路上,CSDN还是需要努力。 简单来说,我们做科研、发文章,肯定是需要比较的 谁的…

记录一次Mysql死锁事件(由Insert与uniqueKey导致)

| 导语记录一次于2023年01月23日遇到的死锁问题。 1、基础 1.1 数据库隔离级别 1.1.1RC READ COMMITTED:只能读取已经提交的数据;此时:允许幻读和不可重复读,但不允许脏读,所以RC隔离级别要求解决脏读; 1.1…

Mac下通过Docker安装ElasticSearch集群

1、安装ElasticSearch 使用docker直接获取es镜像,执行命令docker pull elasticsearch:7.7.0 执行完成后,执行docker images即可看到上一步拉取的镜像。 2、创建数据挂在目录,以及配置ElasticSearch集群配置文件 创建数据文件挂载目录 mkdir -…

如何快速掌握Facebook运营+独立站运营基础?

在当今数字化时代,Facebook运营和独立站运营成为许多企业和个人创业者的关键战略。通过巧妙地结合这两个渠道,你可以有效地推广品牌、吸引目标受众并实现商业目标。本文将为你介绍如何快速掌握Facebook运营和独立站运营的基础知识,为你的业务…

微服务组件之Eureka

1、什么是Eureka,为什么要有Eureka 在传统的RPC远程调用中,管理每个服务于服务之间依赖关系复杂,管理复杂,所以需要使用服务治理,管理服务于服务之间依赖关系,可以实现服务调用、负载均衡、容错等&#xf…

一文搞懂KMP算法!!!

一文搞懂KMP算法!!! 🍁什么是KMP算法?🍁什么是 next() 数组 和 前缀表?前缀表有什么作用呢最长公共前后缀如何计算前缀表 🚀 构造next数组🚀 使用next数组来做匹配 🍁什么是KMP算法…

基于SSM+Vue的旅游资源网站设计与实现

博主介绍: 大家好,我是一名在Java圈混迹十余年的程序员,精通Java编程语言,同时也熟练掌握微信小程序、Python和Android等技术,能够为大家提供全方位的技术支持和交流。 我擅长在JavaWeb、SSH、SSM、SpringBoot等框架下…

我们不打价格战!大众的倔强

2023年即将过半,在价格战席卷市场的同时,汽车制造商必须在市场份额、销量、营收以及利润之间做出权衡。“无论如何,大众都不会参与中国市场的价格战。“本周,大众汽车首席运营官Ralf Brandstaetter表示。 这家曾经在中国市场长期占…

留学生ChatGPT的正确打开方式及推荐使用方式

ChatGPT是什么? ChatGPT可以代写论文吗? ChatGPT推荐打开方式是什么? 今天就为大家梳理一下火爆全网的ChatGPT在留学中的正确打开方式,让同学可以更好地体验ChatGPT带来的便利。 什么是Chat GPT? ChatGPT(Chat G…

Office Visio 2016安装

哈喽,大家好。今天一起学习的是Visio 2016的安装,这是一个绘制流程图的软件,用有效的绘图表达信息,比任何文字都更加形象和直观。Office Visio 是office软件系列中负责绘制流程图和示意图的软件,便于IT和商务人员就复杂…

微信电脑版二维码( NATIVE 扫码支付)

后端代码 /** * 微信支付->扫码支付(模式二)->统一下单->微信二维码 * return */ PostMapping (value “/qrcode”) RequestLog(“微信支付二维码”) ApiOperation(“微信支付二维码”) AnonAccess public ResponseEntity wxpayPay(Validated RequestBody SysMember…

GreatSQL 8.0.32-24 今日发布

1.新增特性 1.1 SQL兼容性1.2 MGR1.3 性能优化1.4 安全 2.稳定性提升 3.其他调整 4.bug修复 5.GreatSQL VS MySQL 6.GreatSQL Release Notes GreatSQL 8.0.32-24版本发布,增加并行load data、(逻辑 & CLONE)备份加密、MGR读写节点可绑定…

MyBatis的创建和单表使用

前言: 之前我们了解到MySQL。接下来了解一下MyBatis,它不是一种数据库,那是什么呢和数据库有什么联系了? 目录 一:MyBatis的定义 二:MyBatis的创建 三:MyBatis的简单使用 3.1:准备工作 3.…

后端服务架构高性能设计之道

“N 高 N 可”,高性能、高并发、高可用、高可靠、可扩展、可维护、可用性等是后台开发耳熟能详的词了,它们中有些词在大部分情况下表达相近意思。本序列文章旨在探讨和总结后台架构设计中常用的技术和方法,并归纳成一套方法论。 前言 本文主…

视频采集到录制 - MP4生成

录制最终格式是MP4,视频流是采用H264编码流,音频是aac编码流 最终需要将两个流合并到一个文件里 采用的方案,是通过mp4v2的库,进行合并 原理很简单: 先创建文件,输入编码参数 需要创建视频流初始 也需要…