声学特征提取

news2024/11/26 18:48:29

声学特征提取流程图
在这里插入图片描述

语谱图

语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音数据能量。由于是采用二维平面表达三维信息,所以能量值的大小是通过颜色来表示的,颜色深,表示该点的语音能量越强。

语谱图形成过程

  • 信号预加重

因为语音信号的功率谱随频率的增加而减小,导致语音的大部分能量都集中在低频部分,从而导致高频部分的信噪比很低。因此一般使用一阶高通滤波器去提升信号在高频部分的信噪比。对语音进行完预加重后,然后就是分帧加窗操作;

  • 对信号进行分帧加窗,进行STFT, 得到每帧信号的频谱图;

对于一段语音,以10ms~30ms 为一帧,为了保证帧与帧之间平滑过渡保持连续性,帧与帧之间会有重叠。一段语音信号x(t) , 通过分帧之后, 数据由一维信号变为二维信号;分帧之后,变为x(m,n)m为帧长, 代表每一帧的长度;n 为帧的个数, n 列代 n个帧;

  • 对频谱图进行旋转加映射;
  • 将变换后的多帧频谱进行拼接,形成语谱图;

语谱图形成原理

频谱spectrum 的产生

将每一帧的数据都进行FFT变换(严格来讲, 每帧数据加窗后做FFT , 称之为STFT),由 x ( m , n ) x(m,n) x(m,n) 得到 X ( m , n ) X(m,n) X(m,n) X ( m , n ) X(m,n) X(m,n) 称作频谱, 反应了频率与能量之间的关系。

在实际使用中,频谱图有三种,即

  • 线性振幅谱
  • 对数振幅谱:(对数振幅谱中各谱线的振幅都作了对数计算,所以其纵坐标的单位是dB分贝)。
  • 自功率谱

这个变换的目的是使那些振幅较低的成分相对高振幅成分得以拉高,以便观察掩盖在低幅噪声中的周期信号。

语谱图作用

因为声谱图中有很多重要的特征, 比如音素特征;共振峰特征(formants 即频谱图中的峰值)以及观察他们的转变趋势, 可以更好的识别音频;

  • 语音信号的时间-频率表示方法:
  • 语谱图是研究语音(音素Phone)的工具
  • 语音学家对音素Phone及其特性进行直观研究
  • 隐马尔科夫模型隐含了语音到文本系统的语谱图模型有助于评估文本到语音系统——一个高质量的文本到语音系统应该产生合成语音,其频谱图应该与自然句子几乎一致

MFCC算法

参考地址

预加重

为了避免在后边的FFT操作中出现数值问题,我们需要加强一下高频信息,因为一般高频能量比低频小。其预加重函数如下所示:
y ( n ) = x ( n ) − α ⋅ x ( n − 1 y(n) = x(n)-\alpha\cdot x(n-1 y(n)=x(n)αx(n1

分帧

我们要对语音数据做傅里叶变换,将信息从时域转化为频域。但是如果对整段语音做FFT,就会损失时序信息。因此,我们假设在很短的一段时间t内的频率信息不变,对长度为t的帧做傅里叶变换,就能得到对语音数据的频域和时域信息的适当表达。例如我们这里的采样点数为200000个点,如果真的这样做的话,就很麻烦了,于是我们在语音分析中引入分帧的概念,将原始语音信号分成大小固定的N段语音信号,这里每一段语音信号都被称为一帧。

但是,如果我们这样分帧的话,帧与帧之间的连贯性就会变差,于是我们每一帧的前N个采样点数据与前一帧的后N个采样点数据一样。

对于整个采样点数据可以分为多少帧以及帧与帧之间交叉的采样点个数N,不是随便分的,一般来说帧长设置为25 m s ms ms,帧移设置为10 m s ms ms

帧数 = f s ⋅ 0.025 = 0.025 f s ( 个采样点 ) 帧数 = f_s\cdot 0.025=0.025f_s(个采样点) 帧数=fs0.025=0.025fs(个采样点)

帧移 = f s ⋅ 0.001 = 0.001 f s ( 个采样点 ) 帧移=f_s\cdot 0.001=0.001f_s(个采样点) 帧移=fs0.001=0.001fs(个采样点)

加窗

将信号分帧后,我们将每一帧代入窗函数,窗外的值设定为0,其目的是消除各个帧两端可能会造成的信号不连续性(即谱泄露 spectral leakage)。常用的窗函数有方窗、汉明窗和汉宁窗等,根据窗函数的频域特性,常采用汉明窗(hamming window)。

W ( n ) = ( 1 − α ) − a ⋅ c o s ( 2 ⋅ π ⋅ n N ) , 1 ≤ n ≤ N W(n)=(1-\alpha)-a\cdot cos(2\cdot \pi\cdot\frac{n}{N}), 1\leq n\leq N W(n)=(1α)acos(2πNn),1nN

梅尔滤波器

梅尔值,这是一个新的量度,相比于正常的频率机制,梅尔值更加接近于人耳的听觉机制,其在低频范围内增长速度很快,但在高频范围内,梅尔值的增长速度很慢。每一个频率值都对应着一个梅尔值,其对应关系如下

m = 2595 ⋅ log ⁡ 10 ( 1 + f 700 ) m = 2595\cdot \log_{10}(1+\frac{f}{700}) m=2595log10(1+700f)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/4205.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

zabbix监控Linux

1. 环境配置: 主机名主机地址操作系统角色zabbix192.168.188.201Rocky Linux release 8.6zabbix-servernode1192.168.188.111CentOS7zabbix-agent 2. 配置zabbix客户端: 1>. 下载并安装zabbix客户端: [rootnode1 ~]# wget https://mi…

Ubuntu 22.04安装Cuda11.7和cudnn

安装显卡驱动 打开‘软件和更新。 点击附加驱动安装显卡驱动 如果已经安装显卡驱动,请忽略上面的步骤。 安装gcc 新安装的Ubuntu22.04 没有安装gcc,需要安装gcc。在终端输入gcc -version 查看有没有gcc。 执行命令 sudo apt install gcc安装CUDA …

什么是蜂窝移动网络?

文章目录前言移动网络 vs WIFI蜂窝移动通信网蜂窝网络实现移动上网通信网架构总结前言 本博客仅做学习笔记,如有侵权,联系后即刻更改 科普: 移动网络 vs WIFI 计网课外实验月,我走在宿舍一楼正数着AP有多少个,突然W…

待业将近一个月,晚上11点接到面试邀约电话,我却拒绝了...

前言 一位测试朋友最近一直在找工作,前两天刚拒绝了一个面试。那天晚上11点多,他接到一个HR的面试电话,让他第二天早上10点去公司面试。朋友和HR聊了两句,了解到这位HR经常加班,于是果断拒绝了这个面试。我还为他可惜&…

LongAdder的源码学习与理解

👨‍💻个人主页: 才疏学浅的木子 🙇‍♂️ 本人也在学习阶段如若发现问题,请告知非常感谢 🙇‍♂️ 📒 本文来自专栏: Java基础 ❤️ 支持我:👍点赞 &#x1…

Android Studio开发之使用内容组件Content获取通讯信息讲解及实战(附源码 包括添加手机联系人和发短信)

运行有问题或需要源码请点赞关注收藏后评论区留言 一、利用ContentResolver读写联系人 在实际开发中,普通App很少会开放数据接口给其他应用访问。内容组件能够派上用场的情况往往是App想要访问系统应用的通讯数据,比如查看联系人,短信&#…

Linux top命令的cpu使用率和内存使用率

文章目录前言一、cpu使用率1.1 top简介1.2 cpu使用率的来源二、内存使用率2.1 总内存有关的数据2.2 进程使用内存有关的数据2.3 内存使用率的来源三、 pmap参考资料前言 NAMEtop - display Linux processes一、cpu使用率 1.1 top简介 top程序提供当前运行系统的动态实时视图…

网络协议:一文搞懂Socket套接字

本篇内容包括:Socket 套接字的简介、Socket 套接字的分类、Java 中的 Socket 即 java.net.ServerSocket、java.net.Socket 的使用,以及Java 使用套接字 Scoket 编程的Demo。 一、Socket 简介 TCP(传输控制协议)是一种面向连接的、…

Qt编写跨平台RTSP/RTMP/HTTP视频流播放器

一、前言 很早以前就做过这款播放器的入门版本,最开始用的ffmpeg去解析,后面陆续用vlc播放器、mpv播放器来做,毕竟播放器提供的接口使用也很方便,而且功能强大,后面发现播放器主要的应用场景是播放视频文件&#xff0…

安装配置Anaconda3

1.装anaconda,就不需要单独装python了 2、 下载Anaconda Anaconda | Anaconda Distribution 3、 安装Anaconda 其他默认 4、配置Anaconda环境变量 此电脑——属性——高级系统设置——环境变量——path——编辑——新建 C:\ProgramData\Anaconda3 C:\ProgramDa…

mybatis 自动化处理 mysql 的json类型字段 终极方案

文章目录mybatis 自动化处理 mysql 的json类型字段 终极方案mysql 建表 json 字段,添加1条json 数据对应的java对象 JsonEntitymybatis,不使用 通用mapper手动自定义1个类型处理器,专门处理 JsonNode 和Json 的互相转化将 自定义的类型处理器…

Java笔记(十二)

文献种类:专题技术总结文献 开发工具与关键技术: IntelliJ IDEA、Java 语言 作者: 方建恒 年级: 2020 撰写时间: 2022 年 11 月 8 日 Java笔记(十二) 今天我给大家继续分享一下我的Java笔记, 我们继续来了…

使用前缀和数组解决“区间和查询“问题

本文已收录到 GitHub AndroidFamily,有 Android 进阶知识体系,欢迎 Star。技术和职场问题,请关注公众号 [彭旭锐] 进 Android 面试交流群。 前言 大家好,我是小彭。 今天分享到一种非常有趣的数据结构 —— 前缀和数组。前缀和…

每日一题|2022-11-8|1684. 统计一致字符串的数目|哈希表|Golang

1684. 统计一致字符串的数目 思路1:丢人做法 哈希记录allowed,暴力遍历words所有字母,如果有不在哈希表里的,计数。最后用words的长度减去 计数 就行。 func countConsistentStrings(allowed string, words []string) int {has1 : make(map[…

如何判断一段程序是否是裸机程序?

在嵌入式MCU领域,一般将不移植操作系统直接烧录运行的程序称为裸机程序。 一般来说,非易失性存储,时钟,图形显示,网络通讯,用户I/O设备…都需要硬件依赖。 基于硬件基础,内存管理、文件系统、…

【API部署】fastapi与nuitka打包py项目

提示:分两部分:fastapi接口调用,与nuitka快速打包 功能:作为一名算法工程师,训练机器学习模型只是为客户提供解决方案的一部分。 除了生成和清理数据、选择和调整算法之外,还需交付和部署结果,…

130道基础OJ编程题之: 29 ~ 38 道

130道基础OJ编程题之: 29 ~ 38 道 文章目录130道基础OJ编程题之: 29 ~ 38 道0. 昔日OJ编程题:29. BC23 时间转换30. BC24 总成绩和平均分计算31. BC30 KiKi和酸奶32. BC31 发布信息33. BC3 输出学生信息34. BC33 计算平均成绩35. BC34 进制AB36. BC37 网购37.BC39 争夺前五名38…

【谷粒商城】

一、项目介绍 1.微服务架构图 2.微服务划分图 二、环境搭建 1.虚拟机搭建环境 这里我买了华为云,没用虚拟机 华为云配置 2.Linux 安装docker docker文档:https://docs.docker.com/engine/install/centos/ # 1. 卸载之前的dockersudo yum remove d…

[MySql]初识数据库与常见基本操作

专栏简介 :MySql数据库从入门到进阶. 题目来源:leetcode,牛客,剑指offer. 创作目标:记录学习MySql学习历程 希望在提升自己的同时,帮助他人,,与大家一起共同进步,互相成长. 学历代表过去,能力代表现在,学习能力代表未来! 文章目录 前言 1.初识数据库 1.1 数据库概述 1.2 数据库…

mysql隔离级别RR下的行锁、临键锁、间隙锁详解及运用

一:mysql 锁的基本概念 锁:悲观锁、乐观锁 悲观锁:写锁 for update、读锁for share 写锁:只允许当前事务读写,其它事务全部等待,包括读取数据,锁的数据范围需要具体分析 读锁:允…