参考:https://www.youtube.com/watch?v=SRrQ_v-OOSg&t=1s
时域特征包括:
1.幅度包络
2.均方根能量
3.过零率
振幅包络的定义:一个 frame 里,所有采样点中最大的振幅值
一个形象的关于振幅包络的可视化解释如下:
可以观察到,振幅包络对 异常值 较为敏感。这个特征也可以用于异常值检测,或者音乐体彩分类。
接下来是均方根能量,公式如下:
均方根能量可以作为 响度 的一个指示,它相比 AE 振幅包络,对异常值不敏感
RMS 通常用于声音信号切片,音乐体裁分类
zero crossing rate 过零率的定义如下:信号穿过 x 轴的次数
公式如下(前面放个 1/2 是有理由的,因为 +1 - (-1) = 2):
这个特征可以用来识别 打击声音和 尖锐声
也可以用来评估单声道声音的音高
还可以在一段对话信号中识别 人声