Speech | openSMILE语音特征提取工具

news2024/9/24 11:24:49

官方地址:openSMILE 3.0 - audEERING

使用指导:openSMILE — openSMILE Documentation (audeering.github.io)

openSMILE 简介

openSMILE是一款以命令行形式运行的工具,通过配置config文件来提取音频特征。主要应用于语音识别、情感计算、音乐信息获取。2.0版本之后的openSMILE包括了openCV库,可以用于视频处理和视频特征提取。
官网有linux和windows版本提供下载,windows可以不编译直接用,建议在命令行里指明 openSMILE 绝对路径。

openSMILE的输入输出格式
文件输入格式

  • RIFF-WAVE (PCM) (for MP3, MP4, OGG, etc. a converter needs to be used)
  • Comma Separated Value (CSV)
  • HTK parameter files
  • WEKA’s ARFF format.(由htk工具产生)
  • Video streams via openCV.(opencv产生的视频流数据)

文件输出格式

  • RIFF-WAVE (PCM uncompressed audio)
  • Comma Separated Value (CSV)
  • HTK parameter file
  • WEKA ARFF file
  • LibSVM feature file format
  • Binary float matrix format

分类器和其他组件
openSMILE还提供了许多VAD算法,用于判断各时间点有没有说话。

  • Voice Activity Detection based on Fuzzy Logic
  • Voice Activity Detection based on LSTM-RNN with pre-trained models
  • Turn-/Speech-segment detector
  • LibSVM (on-line)
  • LSTM-RNN (Neural Network) classifier which can load RNNLIB and CURRENNT nets
  • GMM (experimental implementation from eNTERFACE’12 project, to be release soon)
  • SVM sink (for loading linear kernel WEKA SMO models)
  • Speech Emotion recognition pre-trained models (openEAR)

0.openSMILE的安装

 0.1.Ubuntu20.04安装openSMILE

 其他系统安装

# 要求必须要有以下包git make gccg++ cmake perl5 gnuplot

#没有的话直接安装包名sudo apt-get install package-name

git clone https://github.com/audeering/opensmile.git

cd opensmile

bash build.sh

添加环境路径

#每个人的不同 ,查看路径pwd

#export PATH="自己的路径/opensmile/build/progsrc/smilextract:$PATH"

#我的
export PATH="/workspace/emo-vits/opensmile/build/progsrc/smilextract:$PATH"

# 更新
source /etc/profile

#查看版本
SMILExtract -h

 

0.2.openSMILE在Windows上的安装

打开Release openSMILE 3.0 · audeering/opensmile · GitHub

拉到页面最下面

点击下载安装包后,进行解压然后配置

0.3. pip方式安装

GitHub - audeering/opensmile-python: Python package for openSMILE

pip install opensmile

 相关库

pip install ffmpeg

 pip方式安装简单,但是只提供几种特征设置

    ComParE_2016 = 'compare/ComParE_2016'
    GeMAPS = 'gemaps/v01a/GeMAPSv01a'  # legacy
    GeMAPSv01a = 'gemaps/v01a/GeMAPSv01a'
    GeMAPSv01b = 'gemaps/v01b/GeMAPSv01b'
    eGeMAPS = 'egemaps/v01a/eGeMAPSv01a'   # legacy
    eGeMAPSv01a = 'egemaps/v01a/eGeMAPSv01a'
    eGeMAPSv01b = 'egemaps/v01b/eGeMAPSv01b'
    eGeMAPSv02 = 'egemaps/v02/eGeMAPSv02'
    emobase = 'emobase/emobase'

1.openSMILE使用

在使用时,根据安装方法不同,使用时稍有不同,pip安装的都有import opensmile,如果git安装的,配置好环境后直接使用SMILExtract命令就可以,在bash或python文件中一样使用~

1.1.提取单个语音特征

pip 安装

import opensmile

smile = opensmile.Smile(
    feature_set=opensmile.FeatureSet.ComParE_2016,
    feature_level=opensmile.FeatureLevel.Functionals,
)
y = smile.process_file('')

print(y)

结果

 1行6373列,代表所使用的特征opensmile.FeatureSet.ComParE_2016包含了6373种特征,例如mfcc等

1.2.读取指定文件中所有的语音文件

Windows处理时需要添加路径

依次处理,将生成的特征文件保存到另一个指定文件中,

import os
audio_path = 'C:/Users/Administrator/Desktop/download/wav'  # 音频文件所在目录
output_path='C:/Users/Administrator/Desktop/download/rebuild'   # 特征文件输出目录
audio_list=os.listdir(audio_path)   # 生成所有音频文件文件名的列表
features_list=[]
for audio in audio_list:    # 遍历指定文件夹下的所有文件
    if audio[-4:]=='.wav':
        this_path_input=os.path.join(audio_path, audio)  # 打开一个具体的文件,audio_path+audio
        this_path_output=os.path.join(output_path,audio[:-4]+'.txt')
        # &&连续执行;C: 进入C盘内;进入opensmile中要执行的文件的目录下;执行文件 -C 配置文件 -I 语音文件 -O 输出到指定文件
        cmd = 'C: && cd C:/Program/opensmile-2.3.0/bin/Win32 && SMILExtract_Release -C C:/Program/opensmile-2.3.0/config/IS09_emotion.conf -I ' + this_path_input + ' -O ' + this_path_output
    os.system(cmd)
print('over~')

1.3.批量处理生成特征的文本文件

提取组合出可以用来学习处理的矩阵文件。代码如下

import os
import pandas as pd

txt_path = 'C:/Users/Administrator/Desktop/download/rebuild'    # 特征文本文件所在目录
txt_list = os.listdir(txt_path)
features_list = []
for file in txt_list:    # 遍历指定文件夹下的所有文件
    if file[-4:] == '.txt':
        file_path = os.path.join(txt_path, file)
        # 打开输出文件
        f = open(file_path)
        # 最后一行是特征向量,取最后一行
        last_line = f.readlines()[-1]
        f.close()
        features = last_line.split(',')
        # 最后一行特征行的第一个元素为‘unknown’,最后一个为‘?’,都不是对应的特征,要去掉
        features = features[1:-1]
        features_list.append(features)
data_m = pd.DataFrame(features_list)
data_m.to_csv(os.path.join('C:/Users/Administrator/Desktop/download', 'test_data.csv'), sep = ',', header=False, index=False)
print('over')

1.4.Linux中提取单个语音特征的bash命令

SMILExtract -C thisconfig.conf -I input.wav -O output.arff 

#SMILExtract -C config/emobase/emobase2010.conf -I /workspace/emo-vits/dataset/p225v0.1/p225_001_mic1.wav -O output.arff 
  •  thisconfig.conf :指定的配置文件,也就是所需要的特征
  • input.wav :输入的语音文件
  • output .arff : 输出文件

 

输出arff文件如图

在训练时,主要使用最后一行向量特征。

1.5.Linux中批量提取语音数据集特征的python文件

import os
audio_path = '/workspace/emo-vits/dataset/p225v0.1'  # .wav file  path
output_path='/workspace/emo-vits/dataset/p225emo'   # feature file path
audio_list=os.listdir(audio_path)   
features_list=[]
for audio in audio_list:    # 遍历指定文件夹下的所有文件
    if audio[-4:]=='.wav':
        this_path_input=os.path.join(audio_path, audio)  # 打开一个具体的文件,audio_path+audio
        this_path_output=os.path.join(output_path,audio[:-4]+'.csv') # .txt/.csv
        # 进入opensmile中要执行的文件的目录下;执行文件 -C 配置文件 -I 语音文件 -O 输出到指定文件
        os.system( 'SMILExtract -C /workspace/tts/opensmile/config/emobase/emobase2010.conf -I ' + this_path_input + ' -O ' + this_path_output)
print('over~')
 

就会在指定文件夹生成音频对应的csv文件,

 提取文件后,对csv文件进行处理,提取数据特征向量部分

批量处理生成特征的文本文件,提取组合出可以用来学习处理的矩阵文件。

文件分俩步骤运行,一个是批量提取数据集语音的情感特征,第二步骤是将语音特征保存为一个npy文件,以便于数据的读取及使用。


# 步骤一 : 
import os
audio_path = '/workspace/emo-vits/dataset/p225v0.1'  # .wav file  path
output_path='/workspace/emo-vits/dataset/p225emo'   # feature file path

audio_list=os.listdir(audio_path)   
features_list=[]
for audio in audio_list:    # 遍历指定文件夹下的所有文件
    if audio[-4:]=='.wav':
        this_path_input=os.path.join(audio_path, audio)  # 打开一个具体的文件,audio_path+audio
        this_path_output=os.path.join(output_path,audio[:-4]+'.csv') # .txt/.csv
        # 进入opensmile中要执行的文件的目录下;执行文件 -C 配置文件 -I 语音文件 -O 输出到指定文件
        os.system( 'SMILExtract -C /workspace/tts/opensmile/config/emobase/emobase2010.conf -I ' + this_path_input + ' -O ' + this_path_output)
print('over 1 ~')



# 步骤二 :
# 读取csv文件
import os
import numpy as np
txt_path='/workspace/emo-vits/dataset/p225emo'
txt_list=os.listdir(txt_path)
features_list=[]
for txt in txt_list:
    if txt[-4:]=='.csv':
        this_path=os.path.join(txt_path,txt)
        f=open(this_path)
        last_line=f.readlines()[-1]
        print("last_line:",last_line)
        f.close()
        features=last_line.split(',')
        features=features[1:-1]
        features_list.append(features)
features_array=np.array(features_list)
np.save('p225_opensmile_features.npy',features_array)
print('over 2 ~')

 

更多语音处理工具请参考

Speech | 提取语音(数据集)的语音特征合集_夏天|여름이다的博客-CSDN博客

参考文献

【1】【音频特征】opensmile 工具的使用和批处理_weiquan fan的博客-CSDN博客

【2】openSMILE简介及使用 - 知乎 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1237077.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ERP对接淘宝/天猫/京东/拼多多商品详情数据API接口

引言 今天,我们时代变化非常快,传统行业做法,已经无法完全适应时代的发展。互联网的发展,造成了一股网购热。京东,天猫,淘宝,易购……网购,给我们生活带来了方便,消费者…

【产品安全平台】上海道宁与Cybellum将整个产品安全工作流程整合到一个专用平台中,保持构建的互联产品的网络安全和网络合规性

Cybellum将 整个产品安全工作流程 整合到一个专用平台中 使设备制造商能够 保持他们构建的互联产品的 网络安全和网络合规性 产品安全性对 每个人来说都不一样 每个行业的系统、工作流程和 法规都存在根本差异 因此,Cybellum量身定制了 Cybellum的平台和技…

如何看待程序员领域内的“内卷”现象?

要搞清楚这个问题,我首先就来阐释一下“内卷”的概念。 内卷本身是从一个学术名词演化为网络流行词的,本是指文化模式因达到某种最终形态,既无法保持稳定也不能转化为更高级的新形态,而只能在这种文化模式内部无限变得复杂的现象。…

Linux wait函数用法

wait 函数是用于等待子进程结束并获取子进程的终止状态的系统调用。它在父进程中使用,用于等待其子进程终止并获得子进程的退出状态。 函数原型: pid_t wait(int *status);status 是一个指向整型的指针,用于存储子进程终止时的退出状态&…

Redis 与其他数据库的不同之处 | Navicat

Redis,即远程字典服务器(Remote Dictionary Server),它是一个多功能且高性能的键值存储系统,在数据库领域中已获得广泛关注和认可。在处理简单数据结构方面,它因其快速和高效而著称。本文中,我们…

使用 millis() 函数作为延迟的替代方法(电位器控制延迟时间)

接线图: 代码: unsigned long currentMillis 0; unsigned long previousMillis_LED1 0; unsigned long LED1_delay0; unsigned long previousMillis_LED2 0; unsigned long LED2_delay0; #define LED1 3 #define LED2 9 #define P1 A2 …

泛型边界的问题

作者简介:大家好,我是smart哥,前中兴通讯、美团架构师,现某互联网公司CTO 联系qq:184480602,加我进群,大家一起学习,一起进步,一起对抗互联网寒冬 我们花了两篇文章讲述了…

基于SSM的课程辅助教学平台的设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:Vue 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目:是 目录…

低代码平台选型宝典:避免弯路,轻松选对适合你的平台

当前,低代码技术正值热门时期,众多低代码平台产品如雨后春笋般涌现,令人目不暇接。对于软件公司或企业IT部门的负责人来说,如何在这繁花似锦的市场中,精准选中适合自身需求的低代码平台,无疑是一项重要而棘…

【C++ 设计模式】面向对象设计原则 Template Method 模式 Strategy 策略模式

一、面向对象设计原则 重新认识面向对象 理解隔离变化 • 从宏观层面来看,面向对象的构建方式更能适应软件的变化, 能将变化所带来的影响减为最小 各司其职 • 从微观层面来看,面向对象的方式更强调各个类的“责任” • 由于需求变化导…

[汇编实操]DOSBox工具: unable to open input file: 文件名.asm问题解决

出错原因1 :将文件放在debug文件下,mount后发现并没有该文件 解决方案 :重启DOSBox,重新mount,直到dir后可以看到该asm文件 出错原因2:DOS系统不支持8位以上的文件名 解决方案 :将文件名改为8…

随机微分方程的MATLAB数值求解

dt0.01; tout200; %总时间为2 xzeros(1,tout); x(1)0.5; %初始位置 mu0.2; sigma1; Wtsqrt(dt)*randn(1,tout); %产生随机序列Wt for t1:tout-1x(t1)x(t)mu*x(t)*dtsigma*x(t)*Wt(t); end t11:10:tout; %对原时间序列进行抽样 xtzeros(1,length(t1)); i1; for tt1xt(i)0.5*exp(…

单例设计模式是什么?什么是 Singleton 单例设计模式?Python 单例(单件)设计模式示例代码

什么是 Singleton 单例设计模式? 单例模式是一种创建型设计模式,它确保一个类只有一个实例,并提供一个全局访问点来访问该实例。 主要思想: 单例模式确保某个类只有一个实例,并提供了一个访问该实例的全局访问点。它…

Go 实现网络代理

使用 Go 语言开发网络代理服务可以通过以下步骤完成。这里,我们将使用 golang.org/x/net/proxy 包来创建一个简单的 SOCKS5 代理服务作为示例。 步骤 1. 安装 golang.org/x/net/proxy 包 使用以下命令安装 golang.org/x/net 包,该包包含 proxy 子包&am…

anaconda安装配置

创建分区 conda create -n cpu 安装Cpu版本 https://pytorch.org/ conda install pytorch torchvision torchaudio cpuonly -c pytorch 激活环境 conda activate cpu 验证 退出当前分区 conda deactivate 安装GPU版本 创建分区conda create -n gpu 激活环境 conda…

应对数据爆炸时代,揭秘向量数据库如何成为AI开发者的新宠,各数据库差异对比

项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实…

Python 跨文件夹导入自定义包

一、问题再现 有时我们自己编写一些模块时,跨文件夹调用会出现ModuleNotFoundError: No module named XXX 二、解决方案 只需要在下层文件夹中的__init__.py文件中,添加如下代码即可: import sys from os import path sys.path.append(pa…

NX二次开发UF_CAM_PREF_ask_integer_value 函数介绍

文章作者:里海 来源网站:https://blog.csdn.net/WangPaiFeiXingYuan UF_CAM_PREF_ask_integer_value Defined in: uf_cam_prefs.h int UF_CAM_PREF_ask_integer_value(UF_CAM_PREF_t pref, int * value ) overview 概述 This function provides the …

【2021集创赛】Diligent杯一等奖:基于Cortex-M3软核的智能识别称量平台

本作品参与极术社区组织的有奖征集|秀出你的集创赛作品风采,免费电子产品等你拿~活动。 杯赛题目:Diligent杯:基于FPGA开源软核的硬件加速智能平台 参赛组别:A组 设计任务: 利用业界主流软核处理器(仅限于Cortex-M系列及 RISC-V系…