学习文本到语音转换技术时为何要掌握Mel频谱图?

news2024/11/26 0:42:13

理解Mel频谱图

“Mel”指的是梅尔频率刻度(Mel Frequency Scale),这是一种基于人类听觉感知方式的频率刻度。梅尔频率刻度旨在更好地模拟人耳对声音的感知,因为人类对频率的感知并不是线性的,而是对低频更敏感,对高频的感知则较为迟钝。在信号处理中,梅尔频谱图(Mel Spectrogram)通过将频谱图转换到梅尔频率刻度上,使得分析更加符合人类的听觉特性。

Signals 信号

信号是某一数量随时间变化的表现。对于音频来说,变化的数量是空气压力。我们如何以数字方式捕捉这些信息呢?我们可以对空气压力随时间的变化进行采样。采样数据的速率可以不同,但最常见的是44.1kHz,即每秒44,100次采样。我们所捕捉到的是信号的波形,这可以通过计算机软件进行解读、修改和分析。

import librosaimport librosa.displayimport matplotlib.pyplot as plty,sr = librosa.load("01.wav")plt.figure(figsize=(10,4))plt.plot(y)plt.title("Signal")plt.xlabel("Time (samples)")plt.ylabel("Amplitude")plt.grid(True)plt.tight_layout()plt.show()

我们已经有了可以处理的音频信号的数字表示。欢迎来到信号处理领域!不过,您可能会想,我们如何从中提取有用的信息呢?看起来这就像一团乱麻。在这里,我们的朋友傅里叶就派上用场了。

The Fourier Transform傅里叶变换

音频信号由几个单一频率的声波组成。当我们随时间对信号进行采样时,只捕捉到其结果的振幅。傅里叶变换是一种数学公式,它可以让我们将信号分解为各个独立的频率及其对应的振幅。换句话说,它将信号从时域转换到频域。转换的结果称为频谱

这是可能的,因为每个信号都可以分解为一组正弦波和余弦波,这些波相加后形成原始信号。这是一个非凡的定理,称为傅里叶定理。如果您想更直观地理解这个定理为何成立,可以点击这里。此外,3Blue1Brown也有一个关于傅里叶变换的精彩视频,如果您想了解更多,可以观看。

快速傅里叶变换(FFT)是一种能够高效计算傅里叶变换的算法,它在信号处理中被广泛应用。我将使用这个算法对我们示例音频的一个窗口段进行处理。

 n_fft =1024 ft = np.abs(librosa.stft(y[:n_fft],hop_length= n_fft+1)) plt.figure(figsize=(10,4)) plt.plot(ft) plt.title("Spectrum") plt.xlabel("Frequency Bin") plt.ylabel("Amplitude") plt.grid(True) plt.tight_layout() plt.show()

The Spectrogram频谱图

快速傅里叶变换(FFT)是一个强大的工具,可以让我们分析信号的频率内容,但如果信号的频率内容随时间变化怎么办呢?大多数音频信号,如音乐和语音,都是这样的情况。这些信号被称为非周期信号。我们需要一种方法来表示这些信号随时间变化的频谱。您可能会想,“嘿,我们能不能通过对信号的多个窗口段执行FFT来计算多个频谱呢?”是的!这正是所做的事情,这个过程称为短时傅里叶变换(STFT)。FFT在信号的重叠窗口段上进行计算,我们得到的结果称为声谱图。哇!这包含了很多内容。有很多事情在这里发生,一个好的视觉展示是很有必要的。

你可以将声谱图想象成一堆叠加在一起的FFT。它是一种视觉化表示信号在不同频率下随时间变化的响度或振幅的方法。在计算声谱图时,还有一些额外的细节处理。y轴被转换为对数刻度,颜色维度则转换为分贝(可以将其视为振幅的对数刻度)。这是因为人类只能感知到非常小且集中的频率和振幅范围。

只需几行代码,我们就创建了一个声谱图。好的,我们快到达终点了!我们已经对“声谱图”部分有了扎实的理解,但“梅尔”是什么呢?

The Mel Scal 梅尔量表

研究表明,人类对频率的感知并不是线性的。我们在检测低频率差异方面比在高频率方面更敏感。例如,我们可以轻松分辨500 Hz和1000 Hz之间的差异,但几乎无法分辨10,000 Hz和10,500 Hz之间的差异,尽管这两对之间的距离是相同的。

1937年,Stevens、Volkmann和Newmann提出了一种音高单位,使得音高上的等距离对听者来说听起来同样遥远。这被称为梅尔刻度。我们对频率进行数学运算以将其转换为梅尔刻度。通过这种转换,音频信号的分析更加符合人类的听觉感知特性。

The Mel Spectrogram梅尔频谱图

梅尔声谱图是将频率转换为梅尔刻度的声谱图。我知道,是不是很有趣?谁能想到呢?令人惊讶的是,在经过所有这些思维体操来试图理解梅尔声谱图之后,它实际上只需要几行代码就可以实现。通过这种转换,我们可以更好地模拟人类的听觉感知,使得音频信号的分析更加直观和有效。

 mel_spect =  librosa.feature.melspectrogram(y=y,sr=sr,n_fft=2048,hop_length=1024) mel_spect = librosa.power_to_db(mel_spect,ref=np.max) plt.figure(figsize=(10,4)) librosa.display.specshow(mel_spect,y_axis="mel",fmax=8000,x_axis="time") plt.title("Mel Spectrogram") plt.colorbar(format="%+2.0f dB") plt.grid(True) plt.tight_layout() plt.show()

总结

对于刚接触信号处理的人来说,这确实是大量的信息。不过,如果您继续回顾这篇文章中提出的概念(并花足够的时间思考它们),这些概念就会开始变得清晰!让我们简要回顾一下所做的事情。

a.对空气压力随时间的变化进行了采样,以数字方式表示音频信号

b.我们使用快速傅里叶变换(FFT)将音频信号从时域映射到频域,并在音频信号的重叠窗口段上执行了这一操作。

c.我们将y轴(频率)转换为对数刻度将颜色维度(振幅)转换为分贝,以形成声谱图。

d.我们将y轴(频率)映射到梅尔刻度上,以形成梅尔声谱图。

就是这样!听起来很简单,对吧?嗯,其实并不完全是这样,但我希望这篇文章能让梅尔声谱图看起来不那么令人生畏。我花了相当长的时间才理解它。不过,最终我发现梅尔并没有那么难以接近。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2045425.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

gitlab查看root密码

gitlab查看root密码 gitlab安装后会创建默认的root密码,密码存在配置文件cat /etc/gitlab/initial_root_password中。

深度解析Edge SCDN与CDN:安全加速,全面防护

在现代互联网应用中,CDN已成为提高网站和应用性能不可或缺的技术之一。然而,随着网络安全威胁的日益严峻,单纯依靠CDN提供的加速服务已经不足以满足企业的安全需求。因此,Edge SCDN出现了,它不仅具备CDN的加速特性&…

Selenium + Python 自动化测试12(unittest组织更多用例)

我们的目标是:按照这一套资料学习下来,大家可以独立完成自动化测试的任务。 上一篇我们讨论了unittest中test suite 的构建,可以测试多条测试用例。 本篇文章我们接着讲。使用discover()方法构建更多的测试用例。 1、引入需要完成的任务 上…

【鸿蒙教程】快速集成鸿蒙 IM SDK 并实现单聊发送消息

本文手把手教您快速集成鸿蒙版环信即时通讯 IM 并实现单聊。 教程目录 前提条件准备开发环境SDK导入及声明SDK 初始化注册监听回调注册登录发送消息 前提条件 DevEco Studio NEXT Developer Beta1(5.0.3.300)及以上;HarmonyOS SDK API 12…

4款视频剪辑免费软件推荐,剪辑必备的神器!

对于许多新入门的剪辑小白或者经费有限的剪辑朋友来说,寻找一款免费且好用的剪辑软件是非常重要的。今天,我就来给大家分享4款很实用且专业的免费剪辑软件。 1、福昕免费剪辑 直达链接:www.pdf365.cn/foxit-clip/ 第一个是款功能全面且易上…

支持海思3520D平台网络硬盘录像机NVR源码与NVR解决方案

支持海思3520D平台网络硬盘录像机NVR源码与NVR解决方案 本NVR模组基于HiSilicon(海思)平台,提供了一套完整的网络视频录像机(NVR)解决方案。该方案集成了视频接入、存储、回放、智能处理、告警及系统管理等功能模块&a…

数字化转型的权威指南:《数字化时代的敏捷架构》

「链接」https://shop.architectszone.org.cn/p/t_pc/goods_pc_detail/goods_detail/v_66bc7093e4b0d84dab16b12c 《数字化时代的敏捷架构》培训课程 全球最具影响力数字化转型架构出品方The Open Group 专注于企业架构师职业发展的平台AZone联合推出 The Open Group&#x…

第一百九十七节 Java集合教程 - Java集合Map映射

Java集合教程 - Java映射 映射表示包含的集合键值映射。 Map是一个集合&#xff0c;其中每个元素表示一个键值对作为<key&#xff0c;value> ;.<key&#xff0c;value> 对也称为映射中的条目。键和值必须是引用类型。 映射由 Map<K&#xff0c;V> 接口的实…

笔记:在WPF中如何注册控件级全局事件和应用程序级全局事件

一、目的&#xff1a;在WPF中如何注册控件级全局事件和应用程序级全局事件 二、实现 应用程序级全局事件 //注册应用程序级全局事件 EventManager.RegisterClassHandler(typeof(Button), Button.ClickEvent, new RoutedEventHandler(ic_event_Click)); 如上代码既会注册全局…

[爬虫基础]--抓取豆瓣top250电影, 简单易懂, 零基础入门

1. 抓取目标: 下载top250电影的图片, 并以电影名称作为文件名进行保存 2. 获取网页源代码: 我们每天看到的浏览器页面, 本质上都是html代码和css代码, 向服务器发出请求后, 服务器会返回一连串的信息, 经过浏览器选然后, 就变成了我们每天看到的界面 可以在网页中通过鼠标右…

Linux系统编程 --- day1

目录 1. 标准IO 2. 基本操作 2.1 fopen 2.2 fgetc 2.3 fputc 2.4 fgtes 2.5 fputs 2.6 fread 2.7 fwrite 3. linux的文件 1. 标准IO &#xff08;1&#xff09;标准io的概念 1975 Dennis r IO库&#xff0c;C语言的标准&#xff0c; IO --- input output I&#xff…

当前人形机器人公司及产品介绍

产品型号属地公司名字Optimus美国特斯拉Figure02美国FigureAIAtlas美国波士顿动力通用人形Apollo美国ApptronikPhoenix加拿大Sanctuary AIRoBee意大利OversonicASIMO日本本田NAO日本软银GR-1上海傅利叶远征A1上海智元XR4上海达闼先行者K1上海开普勒青龙上海国创AstribotS1深圳星…

AIDL使用及原理介绍

一、AIDL使用及理解 介绍参考官方文档&#xff1a;https://developer.android.com/develop/background-work/services/aidl?hlzh-cn 1.1、aidl文件的产物 1.1.1 aidl文件 interface IDownloadIpc {//开始下载DownloadResponse start(in DownloadInfoParcel downloadInfo);…

【数据结构与算法】A*算法——自动寻路

这里写目录标题 一.为什么用A*算法二.A*算法的实现原理三.A*算法的实现1.初始化地图2.格子初始化3.两个列表4.起点到终点的路径5.起点到终点的最佳路径★6.资源的释放 四.完整代码1.Astar.h2.Astar.cpp3.main.cpp4.运行结果 一.为什么用A*算法 上节课我们已经讲了最短路径算法…

【Qt】内置对话框

一.Qt内置对话框 Qt 提供了多种可复⽤的对话框类型&#xff0c;即 Qt 标准对话框。Qt标准对话框全部继承于QDialog类。常⽤标准对话框如下&#xff1a; 二.内置对话框分类 1.消息对话框 QMessageBox 1.1 概念 消息对话框是应⽤程序中最常⽤的界⾯元素。消息对话框主要⽤于为…

SpringBoot集成微信小程序(二)【登录、获取头像昵称及手机号】

一、背景 小程序可以通过微信官方提供的登录能力方便地获取微信提供的用户身份标识&#xff0c;快速建立小程序内的用户体系。 微信小程序官方文档&#xff1a;https://developers.weixin.qq.com/miniprogram/dev/framework/open-ability/login.html 二、技术栈 SpringBoot…

RFID在晶圆搬运机中的智能化实践

RFID在晶圆搬运机中的智能化实践 应用背景 在半导体制造行业&#xff0c;晶圆搬运是一个至关重要的环节&#xff0c;它不仅影响生产效率&#xff0c;还直接关系到产品的质量和成本。在如今的多品种少量生产中&#xff0c;要保障生产效率和品质&#xff0c;工序管理至关重要。…

Python环境安装及PIP安装(Mac OS版)

官网 https://www.python.org/downloads/ 安装python python-3.12.1-macos11.pkg下载后&#xff0c;安装一直下一步即可 验证是否安装成功&#xff0c;执行python3命令和pip3命令 配置环境变量 获取python3安装位置并配置在.bash_profile #查看python路径 which python3#…

卫星图像检测,分割,跟踪,超分辨率,数据集调研

卫星图像检测&#xff0c;分割&#xff0c;跟踪&#xff0c;超分辨率&#xff0c;数据集调研 超分辨率Image super-resolution: A comprehensive review, recent trends, challenges and applicationsA Review of GAN-Based Super-Resolution Reconstruction for Optical Remot…

ppt模板免费网站有哪些?自动美化工具推荐

新的8月&#xff0c;是时候以全新面貌迎接高效办公挑战了&#xff01; 想要你的PPT演示脱颖而出&#xff0c;却苦于找不到精美又免费的模板&#xff1f; 别担心&#xff0c;今天我来告诉你们&#xff1a;哪个软件有精美免费ppt模板&#xff1f; 今天我为你们精心汇总了6款PPT…