tensorflow 歌曲题材分类

news2025/1/12 17:29:28

librosa音频处理

Librosa是一个用于音频、音乐分析、处理的python工具包,一些常见的时频处理、特征提取、绘制声音图形等功能应有尽有,功能十分强大.

加载音频 

import librosa
x , sr = librosa.load('music.au')
#歌曲的时长
d = librosa.get_duration(y=x, sr=22050, S=None, n_fft=2048, hop_length=512, center=True)

print('数据的维度',x.shape)
print('歌曲的频率',sr)
print('歌曲的时间',d)

可以看到音频信号是一维信号。 

音频文件的保存

import numpy as np
import librosa
import matplotlib.pyplot as plt
import librosa.display
sr = 400 # sample rate  一秒采样400个点
T = 1.0    # seconds
t = np.linspace(0, T, int(T*sr), endpoint=False) # time variable
x = 0.5*np.sin(2*np.pi*24*t)# pure sine wave at 24 Hz

#保存音频文件
librosa.output.write_wav('aa.wav', x, sr)
plt.figure(figsize=(14, 5))
librosa.display.waveplot(x,sr=sr)
plt.show()

音频信号的可视化

波形

import librosa
import matplotlib.pyplot as plt
import librosa.display
x , sr = librosa.load('music.au')

plt.figure(figsize=(14, 5))
librosa.display.waveplot(x, sr=sr)
plt.show()

频谱图

频谱图(Spectogram)是声音频率随时间变化的频谱的可视化表示,是给定音频信号的频率随时间变化的表示。'.stft' 将数据转换为短期傅里叶变换。STFT转换信号,以便我们可以知道给定时间给定频率的幅度。使用 STFT,我们可以确定音频信号在给定时间播放的各种频率的幅度。

Spectrogram特征是目前在语音识别和环境声音识别中很常用的一个特征,由于CNN在处理图像上展现了强大的能力,使得音频信号的频谱图特征的使用愈加广泛,甚至比MFCC使用的更多。

import librosa
import matplotlib.pyplot as plt
import librosa.display
x , sr = librosa.load('music.au')
print('x shape',x.shape)
X = librosa.stft(x)
print('X shape',X.shape)
Xdb = librosa.amplitude_to_db(abs(X))
print('Xdb shape',Xdb.shape)
plt.figure(figsize=(14, 5))
librosa.display.specshow(Xdb, sr=sr, x_axis='time', y_axis='hz')
plt.colorbar()
plt.show()

 

 音频信号特征提取

过零率 Zero Crossing Rate

过零率(zero crossing rate)是一个信号符号变化的比率,即,在每帧中,语音信号从正变为负或从负变为正的次数。 这个特征已在语音识别和音乐信息检索领域得到广泛使用,通常对类似金属、摇滚等高冲击性的声音的具有更高的价值。

import librosa
import matplotlib.pyplot as plt
import librosa.display
x , sr = librosa.load('music.au',sr=8000)

n0 = 9000
n1 = 9100
# plt.figure(figsize=(14, 5))
# plt.plot(x[n0:n1])
# plt.grid()
# plt.show()
zero_crossings=librosa.zero_crossings(x[n0:n1],pad=False)
print('在n0-n1之间过零率',sum(zero_crossings)/100)

  

光谱质心 Spectral Centroid

频谱质心(Spectral Centroid)指示声音的“质心”位于何处,并按照声音的频率的加权平均值来加以计算。 假设现有两首歌曲,一首是蓝调歌曲,另一首是金属歌曲。现在,与同等长度的蓝调歌曲相比,金属歌曲在接近尾声位置的频率更高。所以蓝调歌曲的频谱质心会在频谱偏中间的位置,而金属歌曲的频谱质心则靠近频谱末端。

梅尔频率倒谱系数 MFCC

信号的Mel频率倒谱系数(MFCC)是一小组特征(通常约10-20),其简明地描述了频谱包络的整体形状,它模拟了人声的特征。

import librosa
import matplotlib.pyplot as plt
import librosa.display
x , sr = librosa.load('music.au',sr=8000)

mfccs = librosa.feature.mfcc(x, sr=sr)
print(mfccs.shape)
librosa.display.specshow(mfccs, sr=sr, x_axis='time')
plt.show()

歌曲题材分类

 特征提取

import librosa
import numpy as np
import os
import glob

genres = 'blues classical country disco hiphop jazz metal pop reggae rock'.split()

data_set = []
label_set = []

label2id = {genre: i for i, genre in enumerate(genres)}
id2label = {i: genre for i, genre in enumerate(genres)}

print(label2id)

for g in os.listdir('./genres'):
    print(g)
    for filename in glob.glob('./genres/{}/*.au'.format(g)):
        y, sr = librosa.load(filename, mono=True, duration=30)
        ##提取特征
        chroma_stft = librosa.feature.chroma_stft(y=y, sr=sr)
        rmse = librosa.feature.rms(y=y)
        spec_cent = librosa.feature.spectral_centroid(y=y, sr=sr)
        spec_bw = librosa.feature.spectral_bandwidth(y=y, sr=sr)
        rolloff = librosa.feature.spectral_rolloff(y=y, sr=sr)
        zcr = librosa.feature.zero_crossing_rate(y)
        mfcc = librosa.feature.mfcc(y=y, sr=sr)

        to_append = f'{np.mean(chroma_stft)} {np.mean(rmse)} {np.mean(spec_cent)} {np.mean(spec_bw)} {np.mean(rolloff)} {np.mean(zcr)}'

        for e in mfcc:
            to_append += f' {np.mean(e)}'

        data_set.append([float(i) for i in to_append.split(" ")])
        label_set.append(label2id[g])

data=np.array(data_set)
label=np.array(label_set)
print('数据的维度',data.shape)
print('标签',label.shape)
np.savez('data.npz',data,label)

模型的搭建

from tensorflow.keras import models
from tensorflow.keras.layers import Dense, Dropout,Conv1D
import tensorflow as tf

def creat_model():
    model = models.Sequential([
        ])
    model.add(Dense(26, activation='relu', input_shape=(26,)))
    model.add(Dropout(0.3))
    model.add(Dense(10, activation='softmax'))
    return model

if __name__=='__main__':
    model = creat_model()
    model.summary()
    input = tf.Variable(tf.random.normal([26]))
    input=tf.reshape(input,(1,26))
    output = model(input)
    print('输出数据的维度',output.shape)

模型的训练

from sklearn.preprocessing import StandardScaler
import numpy as np
from sklearn.model_selection import train_test_split
from model import creat_model
import tensorflow as tf
import matplotlib.pyplot as plt

#导入数据
data=np.load('data.npz')['arr_0']
label=np.load('data.npz')['arr_1']
#归一化
scaler = StandardScaler()
X = scaler.fit_transform(np.array(data, dtype=float))
print('数据集的维度',X.shape)
#独热编码
label=tf.one_hot(label,10)
print('label shape',label.shape)
#划分训练集,测试集
X_train, X_test, label_train, label_test = train_test_split(X, np.array(label), test_size=0.2)
print('训练集',X_train.shape)
print('训练集标签',label_train.shape)

#模型的构建
model=creat_model()
print('打印模型')
model.summary()

#编译模型
model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])
#模型的训练
history=model.fit(X_train,label_train,epochs=500,batch_size=64,validation_data=(X_test,label_test))
acc = history.history['accuracy']
val_acc = history.history['val_accuracy']
loss = history.history['loss']
val_loss = history.history['val_loss']

plt.subplot(1, 2, 1)
plt.plot(acc, label='Training Accuracy')
plt.plot(val_acc, label='Validation Accuracy')
plt.title('Training and Validation Accuracy')
plt.legend()

plt.subplot(1, 2, 2)
plt.plot(loss, label='Training Loss')
plt.plot(val_loss, label='Validation Loss')
plt.title('Training and Validation Loss')
plt.legend()
plt.savefig('loss.png')
plt.show()

#模型的保存
model.save('model.h5')

#模型的评估
test_loss,test_acc=model.evaluate(X_test,label_test)
print('测试误差',test_loss)
print('测试准确率',test_acc)

 

 

参考文献:

librosa处理音频信号_huailiang2010的博客-CSDN博客_librosa 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/94455.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Matlab】论文各种图例配色Matlab绘制

1. Matlab 绘图 1.1. Plot 函数 x-pi:pi/10:pi; %以pi/10为步长 ytan(sin(x))-sin(tan(x)); %求出各点上的函数值 plot(x,y,--rs,... %绘制红色的虚线,且每个转折点上用正方形表示。LineWidth,2,... % 设置线宽为2Marke…

Web(十)JavaScript知识训练-JS分支与循环

1、执行下面语句后c的值是&#xff08;D &#xff09;。 var a2,b1,c3; if(a<b){ c0; } else{ c&#xff1b; } A、 1 B、 2 C、 3 D、 4 2、var afalse; var x a?"A":"B"; 在上面的程序片段中&#xff0c;x的值是&#xff08;B &#xff09; A、 A …

XXL-Job分布式任务调度框架-- 介绍和服务搭建

一 xxl-job介绍 1.1 xxl-job介绍 xxl-job是轻量级的分布式任务调度框架&#xff0c;目标是开发迅速、简单、清理、易扩展; 老版本是依赖quartz的定时任务触发&#xff0c;在v2.1.0版本开始 移除quartz依 。 分布式任务调度平台XXL-JOB/ 二 xxl-job的服务搭建 2.1 软件包获…

【数据结构-JAVA】ArrayList

目录 1. 线性表 2. 顺序表(ArrayList) 2.1 什么是顺序表&#xff1f; 2.2 顺序表的使用 2.2.1 ArrayList 的构造方法 2.2.2 ArrayList 的常规操作 2.2.3 ArrayList 的遍历 2.3 顺序表的优缺点 3. 练习题 3.1 练习1 一道面试题 3.2 练习2 杨辉三角形 3.3 练习3 洗牌算法 3.4 …

第十四届蓝桥杯集训——switch——配套用法示例

第十四届蓝桥杯集训——switch——配套用法示例 示例题目&#xff1a; 计算某年某月某日有多少天&#xff1f; 输入三个变量&#xff0c;变量year代表年份&#xff0c;变量month代表月份&#xff0c;变量day代表当月的天数。 取值范围&#xff1a;1853>year<2050;0>…

高比例风电电力系统储能运行及配置分析(Matlab实现)

目录 0 概述 1 案例及分析及分析 2 Matlab实现 3 结论 运行结果 目录 0 概述 1 案例及分析及分析 2 Matlab实现 3 结论 0 概述 高比例风电电力系统储能运行及配置分析 1 案例及分析及分析 针对附件2所示的十五天负荷功率&#xff08;最大值1200MW&#xff09;、风电功…

基于java+springmvc+mybatis+vue+mysql的数据学院教务管理系统

项目介绍 管理员后台管理页面&#xff1a; 功能&#xff1a;首页、个人中心、学生管理、教师管理、专业管理、班级管理、课程信息管理、选课信息管理、课程成绩管理、学生申请管理、学生咨询管理、咨询回复管理、课程作业管理 学生后台管理页面功能&#xff1a;首页、注册、登…

RocketMQ的TAG过滤和SQL过滤机制

写作目的 项目中各个中台都使用同一个DB。而DB下会使用中间件监听binlog转换成MQ消息&#xff0c;而下游的各个中台去MQ去拿自己感兴趣的消息。 TAG 如果使用TAG去获取自己感兴趣的消息&#xff0c;那么对于一条学生表变更binlog&#xff0c;最少要插入三条消息&#xff0c;比…

微服务框架 SpringCloud微服务架构 多级缓存 47 Lua 语法入门 47.1 初识Lua

微服务框架 【SpringCloudRabbitMQDockerRedis搜索分布式&#xff0c;系统详解springcloud微服务技术栈课程|黑马程序员Java微服务】 多级缓存 文章目录微服务框架多级缓存47 Lua 语法入门47.1 初识Lua47.1.1 初识Lua47.1.2 HelloWorld47 Lua 语法入门 47.1 初识Lua 47.1.1…

《纳瓦尔宝典》笔记三——做自己真正感兴趣的事情

你合上书本&#xff0c;留在你脑子里的才真正是你的智慧 目录 一、开始让你兴致盎然&#xff0c;后来又让你觉得索然无味了吗 二、在“成为自己”这件事“上&#xff0c;没有人比你做得好 三、专长无法被教授&#xff0c;但可以被学习 四、上学能带来什么 五、尽量做不需…

【大数据技术Hadoop+Spark】HBase分布式数据库架构、特点、数据存储方式、寻址机制详解(图文解释)

一、HBase简介 HBase起源于2006年Google发表的BigTable论文。HBase是一个高可靠性、高性能、面向列、可伸缩的分布式数据库&#xff0c;利用HBase可在廉价PC服务器上搭建起大规模结构化存储集群。HBase的目标是存储并处理大型的数据&#xff0c;更具体来说是仅需使用普通的硬件…

如何去图片水印?三个方法让你学会图片去水印

上大学的时候&#xff0c;老师给我们每人布置了一个关于介绍“我的家乡”的作业。课后在做这个PPT的时候&#xff0c;我发现在网上找的图片素材都带着水印&#xff0c;十分影响PPT展示效果。于是&#xff0c;我就上网找了一些如何去图片水印的方法&#xff0c;对这些方法进行实…

[附源码]Nodejs计算机毕业设计基于的宿舍楼跳蚤市场管理系统Express(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流 项目运行 环境配置&#xff1a; Node.js Vscode Mysql5.7 HBuilderXNavicat11VueExpress。 项目技术&#xff1a; Express框架 Node.js Vue 等等组成&#xff0c;B/S模式 Vscode管理前后端分…

logrotate 详解

logrotate 程序是一个日志文件管理工具。用于分割日志文件&#xff0c;删除旧的日志文件&#xff0c;并创建新的日志文件&#xff0c;起到“转储”作用。可以节省磁盘空间。下面就对 logrotate 日志轮转操作做一梳理记录。 1、配置文件介绍 Linux系统默认安装logrotate工具&am…

PAT乙级 1084 外观数列 python

题目 思路&#xff1a; 需要注意的点&#xff1a; 只有相邻的字符相同&#xff0c;才统计这个字符出现的次数 利用before作为后一个字符是否与前一个字符相同 进行字符的重复次数统计标志 另&#xff1a; 我发现用下列形式最后一个测试点就会超时 resultresultstr(count) j改…

12.16

为什么使用promise 一.指定回调函数的方式更加灵活 1. 旧的: 必须在启动异步任务前指定 2. promise: 启动异步任务 > 返回promie对象 > 给promise对象绑定回调函 数(甚至可以在异步任务结束后指定/多个) 二. 支持链式调用, 可以解决回调地狱问题 1. 什么是回调地狱?…

90后世界五百强新青年,每年沪漂8个月,长住7天酒店,如何做到不焦虑不躺平?

疫情三年&#xff0c;使许多行业与从业者陷入胶着的困境。特别是身处互联网时代的我们&#xff0c;每天不断接收大量信息&#xff0c;情绪极易被干扰&#xff0c;陷入现实与幻想的拉扯之中。996、内卷、emo、躺平、摆烂等网络热词层出不穷&#xff0c;展现了Z时代青年迷茫、敏感…

MySQL --- 函数大全 6

目录 1.结果集的分区中的每一行分配一个连续的整数 ROW_NUMBER() 2.将字符串追加到指定的数量 RPAD() 3.删除尾随空格 RTRIM() 4.将秒转换为“hh&#xff1a;mm&#xff1a;ss”格式 SEC_TO_TIME() 5.返回指定时间或日期时间值的第二部分 …

预训练时候 Pytorch FrozenBatchNorm (BN)一些小心得

在预训练模型中 会发现 这样使用&#xff1a; # resnet model builder function def build_resnet(archresnet50, pretrainedTrue,freeze_backbone_batchnormTrue, freeze_layer1True,norm_layermisc_nn_ops.FrozenBatchNorm2d):# weightsif pretrained: #如果是预训练 权重是…

Blazorise NumericPicker、DragDrop和Datagrid组件

Blazorise NumericPicker、DragDrop和Datagrid组件 添加了在“BaseAfterRenderComponent”中实现延迟执行的功能。 NumericPicker&#xff1a;现在可以检查大数值。 改进了DragDrop组件。 数据网格&#xff1a;引入了“CancellationTokenSource”和相应的过滤器更改取消选项。 …