开源项目audioFlux: 针对音频领域的深度学习工具库

news2025/7/8 12:30:35

audioFlux是一个Python和C实现的库，提供音频领域系统、全面、多维度的特征提取与组合，结合各种深度学习网络模型，进行音频领域的业务研发，下面从时频变换、频谱重排、倒谱系数、解卷积、谱特征、音乐信息检索六个方面简单阐述其相关功能。

项目地址: https://github.com/libAudioFlux/audioFlux

时频变换

audioFlux在时频分析领域中，包含以下通用变换(支持后续所有频率刻度类型)算法：

BFT - 基于傅里叶变换。

等效短时傅里叶变换（STFT），一般基于此实现大家熟知的mel频谱，时域上重叠平移加窗的傅里叶变换，一般重叠变换长度1/4，加高斯窗又称做Gabor变换，可以调整窗函数长度来方便的模拟时频分析特点，BFT算法除提供标准的mel/bark/erb等频谱外，还支持mel这些刻度类型的复数谱，同时支持mel等刻度频谱的重排。
NSGT - 非平稳 Gabor 变换。

类似加高斯窗的STFT（短时傅里叶变换），不同之处在于窗函数长度和t建立非平稳关系，相对STFT可以实现稳态信号中非平稳状态较好的分析，较好的onset端点侦测效果常基于此类频谱计算，同时可以做为实现CQT的一种高效方式，本算法中NSGT变换的octave频率刻度类型即CQT的高效实现。
CWT - 连续小波变换。

多分辨率时频分析，从数学上看，傅里叶变换的基底是无限的sin/cos函数，而小波变换基底是有限的很小的波函数，波函数的通用表示形式为ψa,b(t)=1aψ(t−ba)其中a决定频域缩放尺度，b时间平移尺度，建立时频的自适应分析，相对STFT的固定时频分辨率，具有低频段频率分辨高、高频段时间分辨高特点，非常适合非稳态信号分析，支持常用的Morse、Morlet、Bump、Pual、Meyer等波函数类型。
PWT - 伪小波变换。

基于傅里叶变换实现的类似小波变换效果，CWT的高效算法为频域小波函数计算filterBank和频域数据做dot运算，如果把小波函数当做一种特殊的窗函数，可以产生类CWT效果，即伪小波变换，如果窗函数建立可调频带的参数（库中尚未实现），可以等效小波变换。

以上变换功能支持下面所有频率刻度类型：

linear - 标准线性频带频谱图，短时傅里叶变换结果取一半即linear刻度频谱图，刻度为采样率/采样样本，即最小频域分辨率。
linsapce - 自定义频带范围的频谱图，频带可以大于linear频带，相当于时域降采样。
mel - 梅尔标度频谱图，音频中最常用的频谱图类型之一，基于人耳听觉低频敏感、高频不敏感特性，类log压缩linear刻度。
bark - 巴克刻度频谱图，比梅尔刻度更符合人耳听觉。
erb - 等效矩形带宽频谱图，比巴克刻度更符合人耳听觉。
octave - 八度刻度频谱图，符合乐音对数刻度的频谱图。
log - 对数刻度频谱图。

下面是一个BFT变换下不同频率刻度的简单对比图。

下面是一个CWT不同波函数的简单对比图。

以下可用作独立变换的算法有（不支持多种频率刻度类型）：

CQT - 常量Q变换，频带比为常数的变换，音乐中常用的此变换，常基于此计算chroma特征用于分析和声。
VQT - 可变Q变换。
ST - S变换/Stockwell变换，类似小波变换，是小波变换思想的一种极端特例，可用于侦测分析一些极端的突变信号如地震、海啸等，相比NSGT同样也是加高斯窗，但建立起f和t的缩放关系。
FST - 快速S变换，S变换的离散基2实现。
DWT - 离散小波变换，相对CWT而言，频率基于2的变换。
WPT - 小波包变换，又称小波包分解，可以对信号做细节和近似分解，是信号分离和合成的一个方式，可用于降噪、模态结构分析等业务。
SWT - 稳态小波变换，类似小波包变换，分解出的信号和原信号长度一致。

下面是一个CQT和NSGT变换下不同刻度的简单对比图。