Librosa库——语音识别,语音音色识别训练及应用

news2024/12/23 10:22:49

很多同学以为语音识别是非常难的,其实并不然,起初我也是这么认为,但后来发现语音识别是最简单的,因为同学们可能不知道Python有一个音频处理库Librosa,这个库非常的强大,可以进行音频处理、频谱表示、幅度转换、时频转换、特征提取(音色、音高提取)等等,关于Librosa的更多介绍或者应用需要大家去官网或者查看其他博客资料,这里我就简单安装,然后进行语音识别的讲解。

第一步:在终端安装Librosa库

方法一:使用pip命令

pip install librosa

方法二:使用conda命令

conda install -c conda-forge librosa

第二步:打开jupyter,导入该导的库

import librosa
import numpy as np
from sklearn import svm
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import IPython.display as ipd

第三步:制作语音数据,这里的意思就是自己录制不同人声音的音频录音,每个录音长短不做要求,当然个人认为录音时间在20-30秒就可以,至少3个录音音频,因为下面我使用的方法是多分类训练方法,必须3个音频,而且Librosa音频格式一般是WAV、MP3,下面是我用我3个录音来进行训练的音频文件分别是tbb-01.mp3(我直接说话的声音),这3个音频换成你们自己录的音,如果还不理解的咱们评论区见。

# 加载数据集
def load_data():
    # 加载tbb、aichen、xsc三种乐器的音频数据
    tbb, sr1 = librosa.load('tbb-01.mp3')
    aichen, sr2 = librosa.load('aichen-01.mp3')
    xsc, sr3 = librosa.load('xsc-01.mp3')

    # 提取MFCC特征,这里也就是不同人声音音色提取
    tbb_mfcc = librosa.feature.mfcc(y=tbb, sr=sr1)
    aichen_mfcc = librosa.feature.mfcc(y=aichen, sr=sr2)
    xsc_mfcc = librosa.feature.mfcc(y=xsc, sr=sr3)

    # 将不同人声音色的MFCC特征合并成一个数据集
    X = np.concatenate((tbb_mfcc.T, aichen_mfcc.T, xsc_mfcc.T), axis=0)

    # 生成标签向量
    y = np.concatenate((np.zeros(len(tbb_mfcc.T)), np.ones(len(aichen_mfcc.T)), 2*np.ones(len(xsc_mfcc.T))))

    return X, y

执行函数并且输出

# 加载数据集
X, y = load_data()
y

 这个结果为什么是0开始到2呢,因为这里有3个音频,可以说是生成的数据集的默认标签,第一个音频的标签是0,第二个音频标签是1,第三个音频标签是2,以此类推,有多少个就有多少个,那为什么有多个0、1、2呢,因为在制作这个数据集时会将音频分成一段一段来打上标签,这样做数据集的数量就多了,训练效果就更好

第四步:利用上面处理的数据集进行训练

# 训练模型
def train(X, y):
    # 将数据集分成训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # 使用逻辑回归算法进行多类别分类
    model = LogisticRegression(multi_class='ovr')

    # 训练模型
    model.fit(X_train, y_train)

    return model

执行函数

# 训练模型
model = train(X, y)

第五步:进行模型测试

# 测试模型
def predict(model, audio_file):
    # 加载音频文件并提取MFCC特征
    y, sr = librosa.load(audio_file)
    mfcc = librosa.feature.mfcc(y=y, sr=sr)

    # 进行多类别分类预测
    label = model.predict(mfcc.T)
    proba = model.predict_proba(mfcc.T)

    # 获取概率最大的类别标签
    max_prob_idx = np.argmax(proba[0])
    max_prob_label = label[max_prob_idx]

    return max_prob_label

执行函数,这里我重新录制了一个我自己的声音来进行测试

# 测试模型
label = predict(model, 'tbb-02.mp3')

print('音色为:', label)

 结果如下:

识别的标签是0,确实是正确的

那么语音识别其实到这里就结束了,当然我这里只做了音色识别,就是识别不同人说话的声音,Librosa库还可以进行其他的识别,等待大家去了解

这里再说一个库就是IPython.display,如下

import IPython.display as ipd

这个可以直接在jupyter进行音频播放 

audio_data = 'nideyangzi.mp3'
ipd.Audio(audio_data)

结果如下:

好了,本次语音识别就到此结束,再次感谢大家的支持! 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/618435.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

精彩回顾 | 来看 QTF 量化科技嘉年华上的 DolphinDB

6月2日至6月3日,2023“量变质变”量化科技嘉年华在上海世博中心圆满举办。 DolphinDB 作为联合主办方,在6月3日上午的“因子挖掘与机器学习”分论坛中,为广大量化粉丝们奉上了一场干货满满的主题分享与圆桌讨论,现场座无虚席&…

直击CACLP:新冠红利退潮,谁在裸泳,谁在冲刺?

5月可谓是很多医疗人马不停蹄的一个月,上海的第87届CMEF刚结束,28至30日,体外诊断(IVD)旗帜性行业盛会——第20届CACLP也在南昌绿地国际博览中心顺利落幕了。 纷享销客已经连续五年参与这两大行业盛会了,…

助力工业物联网,工业大数据之其他维度:组织机构【十五】

文章目录 01:其他维度:组织机构02:其他维度:仓库、物流附录一:常见问题1.错误:没有开启Cross Join2.错误:Unable to move source 01:其他维度:组织机构 目标:…

ChatGPT使用进阶,你一定要知道的应用技巧

鉴于ChatGPT的巨大能力,深入学习ChatGPT使用技巧势在必行。作为伴随着ChatGPT等大语言模型(LLM)出现的还有一个新的工程领域:提示工程(Prompt Engineering)。 提示工程(Prompt Engineering&…

前端053_单点登录SSO_刷新令牌获取新令牌

刷新令牌获取新令牌 1、创建刷新令牌组件2、添加刷新组件路由配置3、EasyMock 添加刷新令牌接口4、定义 Api 调用刷新令牌接口5、Vuex 发送请求与重置状态6、重构刷新令牌组件7、测试当应用系统请求后台资源接口时,要在请求头带上 accessToken 去请求接口,如果 accessToken 有…

【Python】Python系列教程-- Python3 OS 文件/目录方法(二十七)

文章目录 前言语法错误异常异常处理try/excepttry/except...elsetry-finally 语句 抛出异常用户自定义异常定义清理行为预定义的清理行为 前言 往期回顾: Python系列教程–Python3介绍(一)Python系列教程–Python3 环境搭建(二&…

前端数据传输失败

1 问题 通过postman可用传输数据到java但页面数据传输不成功 postman结果: 页面传输结果: 2 方法 在使用页面传输数据时不能直接使用send(username,password),我们需要使用FromData属性,将username和password添加到FromData里&…

小程序框架Mpx的下一代脚手架升级之路|滴滴开源

导读 Mpx开源之路已经走过五个年头,目前支持了滴滴内部全量的小程序业务开发,是滴滴开源委员会孵化的精品项目。 2022年至今,我们对 Mpx 框架进行了多项重要功能升级,包括组合式API开发规范、分包异步构建支持、单元测试能力建设和…

C++知识第四篇之多态

目录 一.认识多态1. 多态分类2. 虚函数a. 介绍b. 虚函数的重写c. 协变d. 析构函数 3. 多态构成条件a. 虚函数调用多态b. 析构函数多态 4. C11新特性a. overrideb. final 5. 重载、重写(覆盖)、重定义(隐藏) 二. 抽象类1.介绍2. 接口继承 三. 多态原理1. 虚函数表2. 打印虚函数表…

力扣高频SQL50题(基础版)——第八天

力扣高频SQL50题(基础版)——第八天 1 游戏玩法分析 IV 1.1 题目内容 1.1.1 基本题目信息 1.1.2 示例输入输出 1.2 示例sql语句 SELECT ROUND(count(a2.f_date)/(SELECT count(distinct player_id) FROM Activity),2) fraction FROM Activity a1 INNER JOIN (SELECT player…

电容为什么可以通交流隔直流?

电容 电容是指容纳电荷的能力,在给定电位差下自由电荷的储藏量,记为C,国际单位是法拉(F)。 如上图所示,以平行板电容器为例,简单介绍下电容的基本原理。 在两块距离较近、相互平行的金属平板上…

hashMap 源码详解

1、 HashMap 底层源码解读(源码分析知识问答) 2、 什么是哈希碰撞?或者什么是哈希冲突?为什么会发生哈希冲突? 不同的关键字通过相同的哈希函数算出了一个相同的 哈希地址,这就叫做哈希冲突。 哈希冲突主要因为 哈希表底层的数组容…

App Store搜索广告如何筛词

苹果应用市场投放搜索广告,想要达到预期目标,需要长期的并且不断的优化。除了选词和出价思路需要进行决策之外,后期如何做好筛词和调价的优化也是非常重要的。 CPA是衡量关键词获取用户成本的指标,当应用的转换率较小并且CPA大于…

旗开得胜,高考:人生的一次逆袭之旅

亲爱的读者们,大家好! 明天就是一年一度的高考,这个注定会改变莘莘学子一生的重要时刻即将到来。在这个充满期待和紧张的日子里,我想与你们分享一个关于我自己高考的故事,希望能给你们带来鼓励和启示。 那是一个阳光…

chatgpt赋能python:Python字段截取函数

Python字段截取函数 在Python编程中,经常会遇到需要从字符串中截取特定字段的情况,比如从URL中截取域名、从邮件地址中截取用户名等等。Python提供了多种方法来实现这些功能,其中包括字符串的切片、正则表达式、split()函数等等。在本文中&a…

关于分布式项目的补偿机制(案例总结)

【辰兮要努力】:hello你好我是辰兮,很高兴你能来阅读,昵称是希望自己能不断精进,向着优秀程序员前行! 博客来源于项目以及编程中遇到的问题总结,偶尔会有读书分享,我会陆续更新Java前端、后台、…

走近人工智能|NLP的语言革命

前言: 自然语言处理(NLP)是指使用计算机处理和理解人类语言的技术。 文章目录 自然语言序言背景适用领域技术支持应用领域程序员如何学总结 自然语言 序言 自然语言处理(Natural Language Processing,NLP&#xff09…

scratch绘制多彩五角星 中国电子学会图形化编程 少儿编程 scratch编程等级考试三级真题和答案解析2023年5月

目录 scratch绘制多彩五角星 一、题目要求 1、准备工作 2、功能实现 二、案例分析

口琴试试看

自己的第一把口琴 给初学者入门的口琴推荐指南,选购口琴不再困难(2023.2更新) 初学者入门口琴选购 (复音/半音阶/布鲁斯十孔口琴推荐) 推荐半音:三种类型的口琴,该学哪一种?十孔口琴低音还面…

Android系统的Ashmem匿名共享内存子系统分析(2)- 运行时库cutils的Ashmem访问接口

声明 其实对于Android系统的Ashmem匿名共享内存系统早就有分析的想法,记得2019年6、7月份Mr.Deng离职期间约定一起对其进行研究的,但因为我个人问题没能实施这个计划,留下些许遗憾…文中参考了很多书籍及博客内容,可能涉及的比较…