Librosa库——语音识别，语音音色识别训练及应用

news2026/2/14 21:14:53

很多同学以为语音识别是非常难的，其实并不然，起初我也是这么认为，但后来发现语音识别是最简单的，因为同学们可能不知道Python有一个音频处理库Librosa，这个库非常的强大，可以进行音频处理、频谱表示、幅度转换、时频转换、特征提取（音色、音高提取）等等，关于Librosa的更多介绍或者应用需要大家去官网或者查看其他博客资料，这里我就简单安装，然后进行语音识别的讲解。

第一步：在终端安装Librosa库

方法一：使用pip命令

pip install librosa

方法二：使用conda命令

conda install -c conda-forge librosa

第二步：打开jupyter，导入该导的库

import librosa
import numpy as np
from sklearn import svm
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import IPython.display as ipd

第三步：制作语音数据，这里的意思就是自己录制不同人声音的音频录音，每个录音长短不做要求，当然个人认为录音时间在20-30秒就可以，至少3个录音音频，因为下面我使用的方法是多分类训练方法，必须3个音频，而且Librosa音频格式一般是WAV、MP3，下面是我用我3个录音来进行训练的音频文件分别是tbb-01.mp3（我直接说话的声音），这3个音频换成你们自己录的音，如果还不理解的咱们评论区见。

# 加载数据集
def load_data():
    # 加载tbb、aichen、xsc三种乐器的音频数据
    tbb, sr1 = librosa.load('tbb-01.mp3')
    aichen, sr2 = librosa.load('aichen-01.mp3')
    xsc, sr3 = librosa.load('xsc-01.mp3')

    # 提取MFCC特征，这里也就是不同人声音音色提取
    tbb_mfcc = librosa.feature.mfcc(y=tbb, sr=sr1)
    aichen_mfcc = librosa.feature.mfcc(y=aichen, sr=sr2)
    xsc_mfcc = librosa.feature.mfcc(y=xsc, sr=sr3)

    # 将不同人声音色的MFCC特征合并成一个数据集
    X = np.concatenate((tbb_mfcc.T, aichen_mfcc.T, xsc_mfcc.T), axis=0)

    # 生成标签向量
    y = np.concatenate((np.zeros(len(tbb_mfcc.T)), np.ones(len(aichen_mfcc.T)), 2*np.ones(len(xsc_mfcc.T))))

    return X, y

执行函数并且输出

# 加载数据集
X, y = load_data()
y

这个结果为什么是0开始到2呢，因为这里有3个音频，可以说是生成的数据集的默认标签，第一个音频的标签是0，第二个音频标签是1，第三个音频标签是2，以此类推，有多少个就有多少个，那为什么有多个0、1、2呢，因为在制作这个数据集时会将音频分成一段一段来打上标签，这样做数据集的数量就多了，训练效果就更好

第四步：利用上面处理的数据集进行训练

# 训练模型
def train(X, y):
    # 将数据集分成训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # 使用逻辑回归算法进行多类别分类
    model = LogisticRegression(multi_class='ovr')

    # 训练模型
    model.fit(X_train, y_train)

    return model

执行函数

# 训练模型
model = train(X, y)

第五步：进行模型测试

# 测试模型
def predict(model, audio_file):
    # 加载音频文件并提取MFCC特征
    y, sr = librosa.load(audio_file)
    mfcc = librosa.feature.mfcc(y=y, sr=sr)

    # 进行多类别分类预测
    label = model.predict(mfcc.T)
    proba = model.predict_proba(mfcc.T)

    # 获取概率最大的类别标签
    max_prob_idx = np.argmax(proba[0])
    max_prob_label = label[max_prob_idx]

    return max_prob_label

执行函数，这里我重新录制了一个我自己的声音来进行测试

# 测试模型
label = predict(model, 'tbb-02.mp3')

print('音色为：', label)

结果如下：

识别的标签是0，确实是正确的

那么语音识别其实到这里就结束了，当然我这里只做了音色识别，就是识别不同人说话的声音，Librosa库还可以进行其他的识别，等待大家去了解

这里再说一个库就是IPython.display，如下

import IPython.display as ipd

这个可以直接在jupyter进行音频播放

audio_data = 'nideyangzi.mp3'
ipd.Audio(audio_data)

结果如下：

好了，本次语音识别就到此结束，再次感谢大家的支持！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/618435.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

Librosa库——语音识别，语音音色识别训练及应用

相关文章

精彩回顾 | 来看 QTF 量化科技嘉年华上的 DolphinDB

直击CACLP：新冠红利退潮，谁在裸泳，谁在冲刺？

助力工业物联网，工业大数据之其他维度：组织机构【十五】

ChatGPT使用进阶，你一定要知道的应用技巧

前端053_单点登录SSO_刷新令牌获取新令牌

【Python】Python系列教程-- Python3 OS 文件/目录方法（二十七）

前端数据传输失败

小程序框架Mpx的下一代脚手架升级之路｜滴滴开源

C++知识第四篇之多态

力扣高频SQL50题(基础版)——第八天

电容为什么可以通交流隔直流？

hashMap 源码详解

App Store搜索广告如何筛词

旗开得胜，高考：人生的一次逆袭之旅

chatgpt赋能python：Python字段截取函数

关于分布式项目的补偿机制（案例总结）

走近人工智能|NLP的语言革命

scratch绘制多彩五角星中国电子学会图形化编程少儿编程 scratch编程等级考试三级真题和答案解析2023年5月

口琴试试看

Android系统的Ashmem匿名共享内存子系统分析（2）- 运行时库cutils的Ashmem访问接口