Mel Frequency Cepstral Coefficients (MFCCs)

news2024/9/24 4:23:52

wiki里说
在声音处理中,梅尔频率倒谱( MFC ) 是声音的短期功率谱的表示,基于非线性梅尔频率标度上的对数功率谱的线性余弦变换。
倒谱和MFC 之间的区别在于,在 MFC 中,频带在梅尔尺度上等距分布,这比正常频谱中使用的线性间隔频带更接近人类听觉系统的响应。这种频率扭曲可以更好地表示声音,例如,在可能会降低传输带宽的音频压缩中以及音频信号的存储要求。
梅尔频率倒谱系数( MFCC ) 是共同构成 MFC 的系数。它们源自音频剪辑的一种倒谱表示。

信号的梅尔频率倒谱系数 (MFCC) 是一小组特征(通常为 10-20),它们简明地描述了 spectral envelope 的​​整体形状。在MIR中,它常被用来描述音色。
本文参考了Gender identification of a speaker using MFCC and GMM论文中描述的MFCC把语音转换为参数方法
将一个语音信号转换为MFCC要以下几个步骤:

在这里插入图片描述

  1. 预加重滤波器 pre-emphasis filter 滤波

让采样后的信号通过一个滤波器,并调整高低频率的强度。浊音区域的频谱通过预加重进行补偿,预加重会放大高频区域并执行滤波。简单描述实现就是:
在这里插入图片描述
α是滤波器的系数,常为0.95-0.97
但是这是很多年前因为有限的计算资源迫使开发人员创建的方法。
对于信号消歧而言,较高的频率比较低的频率更为重要。
在古早的时间里,应用模拟预加重滤波器会更容易获得好结果,因此大家都用了预加重。
预加重的另一个好特性是它有助于处理录音中经常出现的 DC offset 直流偏移,因此它可以改进基于能量的语音活动检测。
而现代语音识别不需要预加重。预加重在后期通过 channel normalization(如倒谱均值归一化)进行补偿,因此它应该根本没有影响。

预加重的好处:

  • 平衡频谱
  • 避免 Fourier transform 操作期间的数值问题
  • 改善信号噪声比 Signal-to-Noise Ratio (SNR)
  1. framing , 汉明窗Hamming window处理

与所有语音分析方法一样,MFCC 方法也适用于语音具有固定声学特征的短部分。即进行分帧framing,一帧有N个采样点:
这些部分通常选择为 20-30 毫秒,沿信号偏移 10-15 毫秒。
在大多数情况下,对整个信号进行傅里叶变换没有意义,因为会随着时间的推移丢失信号的频率轮廓(时序信息?)。通过对这个短时间帧进行傅立叶变换,我们可以通过连接相邻帧来获得信号频率轮廓的良好近似(这句话没怎么理解这个良好近似)。每一帧都包含其前一帧的一部分。
语音处理中的典型帧大小范围为 20 到 40 毫秒,连续帧之间有 50% (+/-10%) 的重叠。
通常的设置是:
帧大小为 25 ms,frame_size = 0.025 和 10 ms stride(15ms overlap ),frame_stride = 0.01。
在语音应用中,汉明窗通常是首选。其公式为:
在这里插入图片描述
可以用np.hamming

  1. 频率频谱图

语音信号被划分成分析窗口,通过FFT从时域变换到频域。这种表示语音信号频率分布的符号称为幅度谱。
amplitude spectrum / magnitude spectrum
我们现在可以做一个 N- 对每一帧进行点FFT计算频谱,也称为短时傅立叶变换(STFT),其中 N通常为 256 或 512,NFFT = 512;然后使用以下公式计算功率谱
在这里插入图片描述
也就是对每一帧进行FFT变换

  1. Mel-Frequency Warping

为了将获得的振幅谱转换为 mel-scale,使用相对于 mel-scale 线性放置的滤波器组。该组由重叠 50% 的三角形带通滤波器组成。一般滤波系数取值在20~30之间。

  1. 创建mel filter bank

mel filter的公式:
在这里插入图片描述
滤波组的公式:

  1. 计算log mel spectrum

计算滤波器组和频率频谱图的内积,再进行log计算
有点不懂的是他算的公式是20 * np.log10(fbank),有点不太清楚这个公式是哪里来的。感觉用librosa库的会多一些

  1. 离散余弦变换 (DCT)的 liftering

主要作用是对滤波器组进行去相关操作,丢弃除了自己设定的num_ceps以外的值,这些值代表滤波器组系数的快速变化,而这些细节对自动语音识别 (ASR) 没有什么帮助,然后将lift与mfcc相乘计算外积,以弱化较高的 MFCC,据称可以改善噪声信号中的语音识别
cep_lifter 是 Cepstral liftering order
num_ceps 是 number of cepstral coefficients (C1-C12, omitting C0)
lift = 1 + (cep_lifter / 2.0) * np.sin(np.pi * np.arange(num_ceps) / cep_lifter)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/355281.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Windows10 安装ElasticStack8.6.1

一、安装ElasticSearch8.6.1 1.官网下载ElasticSearch8.6.1压缩包后解压 2.安装为服务 elasticsearch-service.bat install 3.运行 elasticsearch-service.bat start 4.通过浏览器访问 http://localhost:9200/ 提示需要登录,但不知密码是啥。 5.重置密码 ela…

操作系统(day12)-- 基本分段存储,段页式存储

基本分段存储管理方式 不会产生内部碎片,会产生外部碎片 分段 按照程序自身的逻辑关系划分为 若干个段,每个段都有一个段名,每段从0开始编址 分段存储管理方式中一个段表项由段号(隐含)、段长、基地址 分段的段表项固…

Python基础2

1. python函数定义 函数定义语法: def 函数名(传入参数): 函数体 return 返回值 —————————————— 参数如果不需要,可以省略返回值如果不需要,可以省略函数必须先定义在使用 注意&#xff…

UIE微调:autoML平台实践(一)

参考:uie模型微调个人总结 github:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie 1、显存问题 之前是在实验室的服务器上跑(2080ti,12G显存),频频出现以下报错: 原…

python 刷题时常见的函数

collections.OrderedDict 1. move_to_end() move_to_end() 函数可以将指定的键值对移动到最前面或者最后面,即最左边或最右边 。 2. popitem() popitem()可以完成元素的删除操作,有一个可选参数last(默认为True),…

微软?还是Linux?

导读本周,微软宣布它成为了 Linux 基金会的白金成员,这距其前 CEO 巴尔默将 Linux 称之为“癌症”才 15 年。虽然此举对微软来说意义重大,但是并不是开源界的每个人都认为这对于 Linux 来说是好的变化,特别是这家位于雷德蒙的软件…

kafka-3-kafka应用的核心要点和内外网访问

kafka实战教程(python操作kafka),kafka配置文件详解 Kafka内外网访问的设置 1 kafka简介 根据官网的介绍,ApacheKafka是一个分布式流媒体平台,它主要有3种功能: (1)发布和订阅消息流,这个功能类似于消息队列&#x…

宁波大学2023年MBA招生考试初试成绩查询的通知

根据往年的情况,2023宁波大学MBA考试初试成绩可能将于2月21日公布,最早于20号出来,为了广大考生可以及时查询到自己的分数,杭州达立易考教育为大家汇总了信息。 宁波大学2023年全国硕士研究生招生考试初试成绩将于2月21日公…

Java Type类

文章目录Type简介Type分类1. 原始类型(Class)2. 参数化类型(ParameterizedType)3. 类型变量(TypeVariable)4. 通配符类型(WildcardType)5. 泛型数组类型(GenericArrayType)Type简介 Type是Java编程语言中所有类型的公共高级接口。它们包括原始类型、参数化类型、数组类型、类型…

Java数据结构-栈、队列常用类(Stack、ArrayDeque、LinkedLList)

数据结构的三要素包括:逻辑结构、存储结构、数据的运算。逻辑结构描述的是数据之间的逻辑关系,分为线性结构(线性表(数组、链表)、栈、队列)和非线性结构(图、树、集合)。物理结构也…

服务器是干什么用的?

首先,什么是服务器?服务器是提供计算服务器和网络服务的设备。服务器和计算机由CPU、硬盘、内存、系统总线等组成。比如我们访问一个网站,点击这个网站会发出访问请求,服务器会响应服务请求,进行相应的处理&#xff0c…

在windows中使用tomcat搭建Jenkins

1、 准备环境:JDK JDK官网下载:https://download.oracle.com/java/19/latest/jdk-19_windows-x64_bin.msi 2、 tomcat包 tocat官网下载:https://tomcat.apache.org/download-90.cgi 3、 Jenkins.war包 Jenkins官网下载:https://mi…

GEE学习笔记 七十六:【GEE之Python版教程十】字典

python中万物皆对象,字典在其他的语言中也有称之为对象,无论怎么称呼它其实就是 {key:value} 这种格式。 依然是运行代码前先注册GEE import ee ee.Initialize() 1、字典的API 首先看一下GEE的python版API(Welcome to GEE-Python-API’s d…

曾经的月薪3K,现在的月薪25K,我的测试经验值得你的借鉴

成功不能复制,但经验却可以借鉴!从曾经的月薪3K,到现在的月薪25K,我觉得我的涨薪之路的的确确可以给很多人一些参考。授人以鱼不如授人以渔,所以,今天我也想把我的经验分享给大家,希望可以帮助一…

Unity New Input System

安装 Input System是新的输入系统,用来取代旧的Input Manager,方便接收不同的输入设备 在Package Manager里安装 安装后可以选择只使用新的Input System,或选Both两者都使用,考虑很多插件还在使用旧的Input Manager&#xff0c…

nacos discovery和config

微服务和nacos版本都在2.x及之后。1、discovery用于服务注册,将想要注册的服务注册到nacos中,被naocs发现。pom引入的依赖是:yml配置文件中:2、config用于获取nacos配置管理->配置列表下配置文件中的内容pom引入的依赖是&#…

Android问题解决方案(一):Android 打空包后提示没有”android:exported“的属性设置

Android 打空包后提示没有”android:exported“的属性设置Android 打空包后提示没有”android:exported“的属性设置1、问题:2、文档3、参考链接:4、解决方案:Android 打空包后提示没有”android:exported“的属性设置 1、问题: …

SpringMVC——基础知识

基本概念 SpringMVC是基于servlet api构造的原始web框架,全称是Spring Web MVC 而MVC的全称是Model View Controller,翻译成中文分别是“模型”,“视图”,“控制器”,这是一种软件的架构模式 Model:用来…

JavaScript:简单理解防抖和节流,如何定义防抖和节流函数?

防抖 防抖函数,就是防止抖动,避免事件重复触发。比如监听输入框的输入,不应该在用户每输入一个字符就触发监听,而是在用户输入结束后再来监听。 流程为: 1、事件触发; 2、开启定时器; 3、当事…

致远OAA6版安装

准备工作,操作系统winserver2019,sqlserver2019。致远OA安装包0.SeeyonInstall.zip相关下载:winserver2019下载地址:cn_windows_server_2019_updated_july_2020_x64_dvd_2c9b67da.iso magnet:?xturn:btih:22A410DEA1B0886354A34D…