声音事件检测metric:PSDS

news2024/12/26 23:51:25

论文;A FRAMEWORK FOR THE ROBUST EVALUATION OF SOUND EVENT DETECTION

Abstract

这项工作为多声道声音事件检测(SED)系统的性能评估定义了一个新的框架,它克服了传统的collar-based事件决定、事件F-cores和事件错误率的限制。拟议的框架引入了对事件检测的定义,该定义对标签的主观性更为稳健。它还采用了多声道接收器操作特性(ROC)曲线,以提供比F1分数更全面的系统性能洞察力,并建议将这些曲线简化为单一的多声道声音检测分数(PSDS),这允许系统独立于操作点(OPs)进行比较。所提出的方法还能更好地了解不同声音类别的数据偏差和分类稳定性。此外,它可以根据不同的应用进行调整,以满足各种用户体验要求。通过重新评估DCASE 2019年任务4中的baseline和两个表现最好的系统,证明了拟议方法的好处。

Introduction

在[9,10]中提出了按事件划分的错误率和按段划分的错误率,并在最近的DCASE版本[5-8]中部署,作为以前基于帧的衡量标准[4]的一个进步。然而,他们目前的形式仍然忽略了以下关键问题。

对操作点的依赖性:在同一指标下,具有不同决策阈值的同一系统可能得到不同的性能排名。换句话说,这种指标将声音事件建模的评价与操作点调整的评价混为一谈[11]。这个问题在信号检测理论中得到了很好的研究,特别是在二元分类、关键词识别和说话人识别中[12-14],其中ROC曲线[15]、检测误差权衡(DET)曲线[16]或曲线下面积 (AUC)指标[17]被用来评估一个给定系统在一系列操作点上的整体性。然而,这种做法还没有被SED界广泛采用。

声音事件的定义:[9、10] 中定义的基于事件的指标依赖于collar,collar是对检测到的事件相对于标记的ground truth事件 [5-8] 的开始和结束时间的约束。 collar的使用本质上非常强调声音事件的开始和结束时间,而这些时间可能在人类标注员的主观反馈。 因此,为了模型的稳定性,评估标准应该为解释实时ground truth和检测时间的时间结构留出足够的空间。 在这方面,[18] 提议通过依赖实时ground truth和检测到的事件之间的交集百分比来决定时间序列数据异常检测的真阳性(TPs)和误报(FPs)

多类系统中的先验概率、假阳性和交叉触发器:交叉触发器(CTs)cross-trigger是与多类系统中另一个标记的类别相匹配的假阳性子集。将CTs的行为与FPs的原始数量区分开来,可以深入了解数据的偏差,对于声学上相似的声音类别尤其如此。事实上,多类评估数据集可能会变得有偏见,即对某些目标类的TP进行可靠评估所需的数据量可能会与现场先验不一致。例如,破窗玻璃在实践中很少发生,然而对破窗玻璃的TP的可靠评价需要大量的阳性类样本,这又可能人为地增加其他冲击性类的FP计数。因此,对CT的核算有助于分析FP是否是由数据偏差而非声学模型缺陷造成的。

Background

2.1 声音事件检测的定义

Definition1(Event-Based SED Evaluation Task)

Y = U c ∈ C Y c Y=U_{c∈C } Y_c Y=UcCYc是一个数据集,它是每个类别c∈C的ground truth子集的联合
定义为 Y c = { y i = ( t s , i , t e , i , c i ) : c i = c } Y_c = \{y_i = (t_{s,i}, t_{e,i}, c_i): c_i = c\} Yc={yi=(ts,i,te,i,ci):ci=c}
其中每个真实标签 y i y_i yi是由其类别 c i c_i ci、开始时间 t s , i t_{s,i} ts,i和结束时间 t e , i t_{e,i} te,i定义。
X ∗ = U c ∈ C X c ∗ X^{∗} = U_{c∈C} {X^∗_c} X=UcCXc是一个检测集合,是每个类别c∈C的检测子集的联合,定义为 X c ∗ = { x j = ( t s , j , t e , j , c j ) : c j = c } X^∗_c = \{xj = (t_{s,j}, t_{e,j}, c_j): c_j = c\} Xc={xj=(ts,j,te,j,cj):cj=c},其中每个检测 x j x_j xj由其类别 c j c_j cj、开始时间 t s , j t_{s,j} ts,j和结束时间 t e , j t_{e,j} te,j定义,其中星级符号∗表示对操作点参数 τ c \tau_c τc的依赖。
SED评价任务被定义为衡量系统在给定的 Y Y Y下输出 X ∗ X^∗ X的性能。

重要的是,评估中的SED系统是在给定工作点(OP)参数 τ c \tau_c τc, ∀c∈C的情况下发出检测集合。一般来说, τ c \tau_c τc的作用是调整SED系统的容许性(permissiveness)。例如,对于发出分类分数的SED系统,如类别概率, τ c \tau_c τc可能是一组与类别相关的阈值,其中较高的阈值会使系统更有控制性,即发出系统更有信心的声音检测,而较低的阈值会让更多的检测通过,从而使系统更有容许性。这里可以采用各种优化策略:一些系统可能会选择在将框架决策纳入事件检测之前优化框架分类,而其他系统可能会在优化事件级阈值之前形成事件分数。本文提出的评估方法旨在涵盖所有操作点可以改变的SED系统,无论其颗粒度如何。

2.2 传统collar-based方法的限制

collar-based方法中对于 y i y_i yi被正确检出的标准是:
∃ x i ∈ X c ∗ \exists x_i \in X^*_c xiXc such that ( t s , i − t c ) ≤ t s , j ≤ ( t s , i + t c ) (t_{s,i} − t_c) ≤ t_{s,j} ≤ (t_{s,i} + t_c) (ts,itc)ts,j(ts,i+tc)
A N D ( t e , i − t ˉ c ) ≤ t e , j ≤ ( t e , i + t ˉ c ) AND (t_{e,i} − \bar t_c) ≤ t_{e,j} ≤ (t_{e,i} + \bar t_c) AND(te,itˉc)te,j(te,i+tˉc)
t c t_c tc : collar duration
t ˉ c \bar t_c tˉc: collar duration 和 预定义比例的 ground truth duration

即:检测出的start和end在collar的限定范围内

然而,collar引入了一个限制,可能会阻碍系统评估。事实上,SED的现场应用经常遇到这样的情况:由于对声音事件的时间结构的主观解释,一个声音可以被合理地标记为一种以上的方式。例如,一只狗反复吠叫,人类听众可以合理地解释为一只狗的吠叫事件,也可以解释为几只单独的狗的吠叫事件,详尽的标签规格在实践中难以定义和执行。使用collar的效果是迫使这些解释中的一个或另一个产生分类错误,而更理想的是SED评估在设计上对这种合理的groundtruth标记的变化变得稳健。

3. PROPOSED EVALUATION FRAMEWORK

3.1 对SED任务的TPs、FPs和CTs的更有力的定义

Definition 2 (Detection Tolerance Criterion - DTC)

请添加图片描述
X D T C , c ∗ X^*_{DTC,c} XDTC,c:检出的事件的检测结果与ground truth的重合部分 / 检测结果的duration >= 阈值
False Positive: 个类别 X ˉ D T C , c ∗ \bar X^*_{DTC,c} XˉDTC,c的集合, X ˉ D T C , c ∗ \bar X^*_{DTC,c} XˉDTC,c定义为 X c ∗ X^*_{c} Xc中排除KaTeX parse error: Undefined control sequence: \X at position 1: \̲X̲^*_{DTC,c}的部分,即未达到阈值的部分。

Definition 3 (Ground Truth intersection Criterion - GTC)

请添加图片描述
GTC创建了一个正确检测到的ground truth事件集
Y G T C , c ∗ Y^*_{GTC,c} YGTC,c DTC和ground truth的重合部分 / ground truth duration >= 阈值

DTC和GTC计算ground truth标签和检测到的事件之间的交集百分比。我们的方法的不同之处在于,在计算最终的性能数字之前,对交叉点进行阈值计算,以计算TPs/FPs。在我们的工业数据集上观察到,标签者之间的分歧主要发生在事件的边界,例如,声音事件逐渐消失或由边界有待解释的单元组成,基于交集公差而不是边界领的方法本质上更稳健,如图2a所示。
回到定义2,一些FP可能是由于特定的数据偏差,可能会浮现为目标声音类别之间的混淆。因此,定义4中引入了交叉触发容忍度准则(CTTC),允许单独计算CT,如图2b所示。
请添加图片描述

Definition 4 (Cross-Trigger Tolerance Criterion - CTTC)

请添加图片描述
事件i的ground truth与事件j的检出的重合 / 事件j的检出duration >= 阈值 (i不等于j)

3.2. Performance metrics relevant to user experience

用户体验会收到FPs出现频率的影响请添加图片描述
其中 T y T_y Ty 是数据集所有音频的 total duration
TP的性能是以检测到的事件的比例来衡量的,而FP和CT的性能是每单位时间的比率。
针对已识别的声音类的交叉触发可能会引发更多的负面用户体验,effective FP rate (eFPR):请添加图片描述
参数 α c t \alpha_ct αct 代表CT在评估的SED应用中对用户体验的成本。
系统行为可能无法保证每个操作点都形成凸的或单调的类相关ROC曲线,可能会有一些操作点会较其他操作点在更高的 eFPR 生成更低的 TP 比率。
请添加图片描述
如果相邻的点能提供更好的权衡,这些点将永远不会被选为产品的实际操作,这些操作点最后会被丢弃掉以形成一个最大的best case操作点集合: O ^ c = O c − O ˉ c \hat O_c = O_c - \bar O_c O^c=OcOˉc

然而,跨类性能的稳定性是评估的重点:跨类TP比率变化小得多的系统可能更受欢迎,因为它对性能最差(或最难)的类具有更好的性能。出于这个原因,有效TP比(eTPR)使用跨类TP比的平均值和标准偏差进行定义:请添加图片描述
其中参数αST调整了所评估的SED任务的跨类不稳定成本。

Definition5(Polyphonic Sound Detection Score)

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/115568.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Kotlin 协程】Flow 流组合 ( Flow#zip 组合多个流 | 新组合流的元素收集间隔与被组合流元素发射间隔的联系 )

文章目录一、Flow 流组合1、Flow#zip 组合多个流2、新组合流的元素收集间隔与被组合流元素发射间隔的联系一、Flow 流组合 1、Flow#zip 组合多个流 调用 Flow#zip 函数 , 可以将两个 Flow 流合并为一个流 ; Flow#zip 函数原型 : /*** 将来自当前流( this )的值压缩到[其他]流&…

第二十六章 数论——欧拉函数(详解与证明)

第二十六章 数论——欧拉函数(详解与证明)欧拉函数1、互质2、欧拉函数的定义3、欧拉函数的公式4、欧拉函数的证明5、欧拉函数的使用(1)问题一:思路代码(2)问题二:思路case1case1case…

2022/12/17 MySQL索引失效的底层原理

1 复合索引-最左前缀原理 where子句中使用最频繁的一列放在最左边;我们在(a,b,c)字段上建了一个联合索引,所以这个索引是先按a 再按b 再按c进行排列的,所以:以下的查询方式都可以用到索引 select * from …

emacs下安装eaf

emacs下安装eaf插件 原因 eaf插件一开始还有点排斥,觉得emacs终端下操作多好多流畅。想要浏览器,终端和pdf再快速切换就可以了,毕竟我用i3wm/yabai窗口管理器。 但是想到当初也是vim用的多学得多,emacs就不愿意去接触学习&#…

Linux系统下的压缩和解压指令

Linux系统下的压缩和解压指令 gzip/gunzip指令 gzip:用于压缩文件;gunzip:用于解压的 语法:gzip file 以及 gunzip file.gz (压缩文件,只能将文件压缩为*.gz文件) gzip /home/hello.txt: gzip压缩,将/home下…

Android设计模式详解之观察者模式

前言 观察者常用于订阅-发布系统,能够将观察者和被观察者进行解耦,降低两者之间的依赖; 定义:定义对象间一种一对多的依赖关系,使得每当一个对象改变状态时,则所有依赖于它的对象都会得到通知并被自动更新…

湖南人与江西人,关系有多密切?回顾四省填湘的历史

现在的湖南人,可能90%都是四省填湘的移民后代,这种说法可信吗?而湖南人又与江西人的关系有多密切呢?我们来回顾一下四省填湘的历史吧。 四省填湘的背景 在历史上,湖南属于广义上的荆楚之地,是春秋战国时…

图解深度学习-神经网络

深度学习 深度学习是一种统计学习方法,可以在大量数据中自动提取关键特征信息。 深度学习的分类 深度学习的起源有感知器和基于图模型的玻尔兹曼机。在这两个的基础上引入多层结构形成了现在的深度学习。 神经网络的历史 M-P模型和感知器模型 M-P模型是首个通过…

中断和中断系统

目录 中断的引入 中断的概念 中断源(2018年)背会 中断系统的功能 1:实现中断及返回 2:实现优先权排队(中断判优) 3:高级中断源能中断低级的中断处理 CPU对外部可屏蔽中断的响应以及中断过…

AtCoder Grand Contest 060 A - No Majority

比赛名称:AtCoder Grand Contest 060 比赛链接:AtCoder Grand Contest 060 A - No Majority 题意: 一个由小写英文字母组成的字符串x被认为是好的,当且仅当以下条件得到满足。 x的每一个长度为2或更大的(连续的&am…

springmvc源码之DispatcherServlet前端控制器

系列文章目录 springmvc源码之Web上下文初始化 springmvc源码之DispatcherServlet前端控制器 文章目录系列文章目录DispatcherServlet前端控制器配置serlvet3.0扩展静态资源请求问题源码分析初始化配置刷新WebApplicationContextonRefresh介绍各个组件处理请求getHandlerha.ha…

与时代共命运:数智时代的到来意味着什么?

在数字经济时代背景下,各行各业都在全面推动新技术与商业的加速融合,全力驱动商业模式创新。 当下科技迅速发展,而数智化的发展体现的是社会与经济向新范式的根本转变。而这种转变为企业带来的是产业组织模式、现代基础设施体系、科技人才培…

Iceberg-Trino 如何解决链上数据面临的挑战

1.链上数据处理面临的挑战 区块链数据公司,在索引以及处理链上数据时,可能会面临一些挑战,包括: 海量数据。随着区块链上数据量的增加,数据索引将需要扩大规模以处理增加的负载并提供对数据的有效访问。因此&#xff…

应用层概述(计算机网络-应用层)

目录 网络应用 网络应用程序体系结构 客户/服务器体系结构 P2P对等体系结构 网络应用程序体系结构 应用层协议 网络应用 网络应用是计算机网络体系结构的最上层,是设计和建立计算机网络的最终目的,也是计算机网络中发展最快的部分 我们以一些经典的…

如何选择一个合适的Web存储方案

Web客户端存储是一个现代Web应用必不可少的功能,常见的有Cookie、WebStorage和IndexedDB等,如何选择一个合适的Web存储方案呢? 一. Cookie 1. 为什么要有Cookie? HTTP协议是无状态的,即一次请求和响应就是一次完整地HTTP通信&…

Oracle监听报错相关问题汇总

监听服务报错问题汇总: 1.Windows 2008系统下oracle 11g监听异常死机,无法连接 **C:\Users\administrator>lsnrctl status LSNRCTL for 64-bit Windows: Version 11.2.0.1.0 - Production on 16-9月 -2020 10:09:26 Copyright (c) 1991, 2010, Orac…

(十六).net学习之SOA-WebService

SOA-WebService一、SOA的思想,分布式服务1.SOA2.优势3.数据总线二、建立webservice1.关于webservice2.具体实现三、WCF多宿主协议1、自托管宿主2、windows service宿主3、IIS宿主4、WAS宿主一、SOA的思想,分布式服务 1.SOA SOA:面向服务架构&#xff0…

一个umi4的项目适配到FireFox60.7.1esr版本上的从头到尾

项目场景: 一个使用umi4创建的大屏项目,用户的浏览器使用的是火狐60.7.1的稳定版。然后就报错了!!! 为什么不让用户换谷歌嘞,咱也不知道。那咱就搞兼容吧~~ 贴个浏览器的版本图片: 问题历程 …

【springboot】从解决@valid失效问题 到根据判断放行的更灵活替代方案 再到优雅的打日志

文章目录前言valid失效问题替代方案前言 valid 可以帮助我们节省很多代码 比较方便 但操作失误时 可能会失效 达不到我们预期效果; valid会有个问题 因为注解过于方便 反而会导致拦截后 错误日志的收集会比较麻烦 ,以及在面对有时需要拦截 有时不需要拦截…

机器学习中的模型选择和评估

机器学习中的模型选择和评估1. 介绍2. 模型拟合效果2.1欠拟合与过拟合表现方式2.2 避免欠拟合与过拟合的方法3.实例分析3.1鸢尾花数据集3.2 对鸢尾花数据进行聚类1. 介绍 在机器学习系统中,如何训练出更好的模型、如何判断模型的效果,以及模型是否过拟合…