语音识别:基于HMM

news2024/11/24 16:25:45

HMM语音识别的解码过程

从麦克风采集的输入音频波形被转换为固定尺寸的一组声学向量:

\mathbf{Y}_{1:T} = \mathbf{y}_{1}, \mathbf{y}_{2}, ..., \mathbf{y}_{T}

其中\mathbf{y}_{t}, t=1,2, ...,TD维的语音特征向量(例如MFCC)。

解码器尝试去找到上述特征向量序列对应的单词(word)的序列:

\mathbf{w}_{1:L} = w_{1}, w_{2},...,w_{L}

单词序列的长度是L

也即是解码器尝试寻找模型产生\mathbf{Y}的那个最有可能的单词序列\mathbf{w}

\widehat{\mathbf{w}} = \underset{\mathbf{w}}{arg max}{P(\mathbf{w} | \mathbf{Y})}

经过贝叶斯公式:

\widehat{\mathbf{w}} = \underset{\mathbf{w}}{arg max}\left \{ P(\mathbf{Y} | \mathbf{w}) P(\mathbf{w}) \right \}

似然概率P(\mathbf{Y} | \mathbf{w})是语音识别的声学模型,先验概率P(\mathbf{w})是语音模型。

P(\mathbf{Y}|\mathbf{w}) = \underset{\mathbf{Q}}{\sum_{}}P(\mathbf{Y|Q})P(\mathbf{Q}|\mathbf{w}))

\mathbf{Q} = \mathbf{q}^{(w_{1})}, \mathbf{q}^{(w_{2})}, ..., \mathbf{q}^{(w_{L})}

\mathbf{q}^{(w_{l})} = q_{1}, q_{2}, ...,q_{K_{w_{l}}}是一个单词由基本音素组成的发音序列(也就是单词的音标),

\mathbf{Q}是该句子的一个可能发音序列,由该句子的每个单词的基本音素拼接而成。

这里的求和是使用了全概率公式,因为一个单词可能由多个发音,所以句子的发音序列也是多个。

对于该句子的一个可能发音序列\mathbf{Q},可得

P(\mathbf{Q}|\mathbf{w}) = \prod_{l=1}^{L}P(\mathbf{q}^{(w_{l})}|w_{l})

剩下就是计算P(\mathbf{Y|Q})了。

P(\mathbf{Y|Q}) = \underset{\mathbf{S} }{\sum}P(\mathbf{S}, \mathbf{Y} | \mathbf{Q})

给定发音序列,对每一个可能的状态序列\mathbf{S}求句子HMM的概率。

\mathbf{S} = S_0, S_1, ... , S_{T+1}是特征序列对应的一个候选的状态序列。

P(\mathbf{S}, \mathbf{Y} | \mathbf{Q}) = a_{S_{0}S_{1}}\prod_{t=1}^{T}b_{S_{t}}(\mathbf{y}_t)a_{S_{t}S_{t+1}}

解码过程不需要计算所有可能状态序列的似然概率,我们只需要使用维特比(Viterbi)算法获取概率最大的那个状态序列路径。

P^{*}(\mathbf{Y}|\mathbf{Q}, \lambda ) = \underset{\mathbf{S}}{max}P(\mathbf{S}, \mathbf{Y}|\mathbf{Q}, \lambda )

模型参数:

HMM语音识别声学模型的训练过程(单音素)

R个语料片段,每个语料片段对应的特征向量序列为\mathbf{Y}^{(r)},r = 1, 2, ..., R\mathbf{Y}^{(r)}序列的长度为T^{(r)}

HMM的训练(选择正确的参数)意味着:找到模型的参数(如转移概率和发射概率),使得给定的所有输入语料\mathbf{Y}^{(r)},r = 1, 2, ..., R的概率最大:

关于\lambda

Maximize \sum_{r=0}^{R}\underset{\mathbf{S}}{\sum }p(\mathbf{Y}^{(r)}, \mathbf{S}|\lambda )

E-step

前向概率:

\alpha _{t}^{(rj)} = P(\mathbf{Y}_{1:t}^{(r)}, S_{t} = j;\lambda )

即对\mathbf{Y}^{(r)}的前t个特征向量与t时刻的状态为j的联合概率;

后向概率:

\beta _{t}^{(rj)} = P(\mathbf{Y}_{t+1:T^{(r)}}^{(r)},|S_{t} = i;\lambda )

给定t时刻的状态为i,模型生成t+1到T^{(r)}之间的特征向量序列的条件概率。

给定前向和向后的概率,对于任何给定的语料r,模型在时间t时占据状态j的概率是

其中,P^{r} = p(Y^{(r)};\lambda )可通过前向概率或者后向概率的递推公式获得,等于t = T^{(r)}+1时刻的前向概率,也等于t = 0时刻的后向概率。

M-step

对于所有的语料,给定初始的模型参数\lambda _{0}(均值,方差,转移概率),可通过如下的公式迭代参数

注意,这里使用的是单个高斯分布建模观察概率b_{j}(\mathbf{y}_{t}^{(r)}) = N(\mathbf{y}_{t}^{(r)}, \mu _{j}, \Sigma _{j})而不是GMM。

Kaldi中使用的HMM声学模型训练方法

因为转移概率对识别结果的影响很小,甚至有时候可以忽略。Kaldi中一般是将转移概率固定不变,不在训练中更新转移概率。声学模型包含的信息主要是状态定义和各个状态的观察概率(发射概率)分布。

使用从左到右的线性HMM模型结构(只有向右跳转和自跳转),训练过程中只更新每个状态的高斯混合模型(GMM)参数。

上面介绍的HMM训练方法是经典的训练HMM的方法(baum welch算法),该算法就是在给定一个初始的模型参数,通过不断的E-step,M-step迭代模型的参数。一种更加实际的方法是使用Viterbi训练方法:

1、给定初始的参数\lambda^{0}

2、使用维特比算法和当前的参数\lambda ^{k}找到能够解释\mathbf{Y}^{(r)}, r = 1, 2,..., R的最可能的状态序列\mathbf{Z}^{*},这样就得到了每一帧\mathbf{y}^{(r)}_{t}对应的状态。这个过程也叫做对齐(Align)或者强制对齐(Forced alignment),目的是获取每一帧对应的状态。

3、使用统计公式更新模型的参数\lambda ^{k+1}。因为此时已经有大量已知隐藏状态和特征(观察值)的帧,所以可以更新每个状态对应的发射概率分布(GMM)的均值和协方差以及权重等参数(可能会用到GMM的EM算法估计GMM的参数)

4、重复步骤2、3,直到状态序列不再更新(收敛)。

参考:

[1] Gales and Young (2007). “The Application of Hidden Markov Models in Speech Recognition”, Foundations and Trends in Signal Processing , 1 (3), 195–304: section 2.2.\
[2]《Kaldi语音识别实战》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1557901.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

是德科技keysight N9000B 信号分析仪

181/2461/8938产品概述: 工程的内涵就是将各种创意有机地联系起来,并解决遇到的问题。 CXA 信号分析仪具有出色的实际性能,它是一款出类拔萃、经济高效的基本信号表征工具。 它的功能十分强大,为一般用途和教育行业的用户执行测试…

罗永浩直播阿里云服务器是哪款?ECS经济型e实例性能如何?

罗永浩直播卖阿里云,带货爆款云服务器ECS经济型e实例是什么?阿里云服务器ECS经济型e实例的使命是什么?一般来讲,学生、开发者和小微企业主要使用云服务器主要开展网站建设、开发测试和业务灾备、搭建小程序后端服务、Web应用、云上…

量化交易入门(三十三)BIAS指标实现和回测

接下来我们还是用苹果股票2020年1月1日到2023年12月30日的历史数据进行回测,看看这个指标的效果如何,具体回测结果如下: 策略运行结果及解读 执行的结果: Starting Portfolio Value: 100000.00 Final Portfolio Value: 186723.0…

git基本操作二(小白快速上手)

1、前言 接上篇我们接着来继续讲 2、.gitignore忽略文件 创建一个.gitignore文件,并将其置于项目的根目录下,Git将自动识别并根据该规则忽略相应的文件和目录。 # 忽略所有的 .log 文件 *.log# 但跟踪所有的 build.log 文件 !build.log# 忽略所有的 /lo…

Visual Studio 2022 中 Qt 开发环境的搭建

Visual Studio 2022 中 Qt 开发环境的搭建 Visual Studio 2022 中 Qt 开发环境的搭建 Visual Studio 2022 中 Qt 开发环境的搭建 点击扩展,并选择管理扩展。 搜索qt,下载并安装 Qt Visual Studio Tools。 安装完成后,点击扩展,会…

pytorch常用的模块函数汇总(1)

目录 torch:核心库,包含张量操作、数学函数等基本功能 torch.nn:神经网络模块,包括各种层、损失函数和优化器等 torch.optim:优化算法模块,提供了各种优化器,如随机梯度下降 (SGD)、Adam、RMS…

基于SpringBoot的“校园台球厅人员与设备管理系统”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“校园台球厅人员与设备管理系统”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 系统功能结构图 系统首页界面图…

信息工程大学第五届超越杯程序设计竞赛(同步赛)题解

比赛传送门 博客园传送门 c 模板框架 #pragma GCC optimize(3,"Ofast","inline") #include<bits/stdc.h> #define rep(i,a,b) for (int ia;i<b;i) #define per(i,a,b) for (int ia;i>b;--i) #define se second #define fi first #define e…

YOLOv8算法改进【NO.111】利用shift-wise conv对顶会提出EMO中的iRMB进行二次创新

前 言 YOLO算法改进系列出到这&#xff0c;很多朋友问改进如何选择是最佳的&#xff0c;下面我就根据个人多年的写作发文章以及指导发文章的经验来看&#xff0c;按照优先顺序进行排序讲解YOLO算法改进方法的顺序选择。具体有需求的同学可以私信我沟通&#xff1a; 首推…

Vue + .NetCore前后端分离,不一样的快速发开框架

摘要&#xff1a; 随着前端技术的快速发展&#xff0c;Vue.NetCore框架已成为前后端分离开发中的热门选择。本文将深入探讨Vue.NetCore前后端分离的快速开发框架&#xff0c;以及它如何助力开发人员提高效率、降低开发复杂度。文章将从基础功能、核心优势、适用范围、依赖环境等…

Qt for WebAssembly 环境搭建 - Windows新手入门

Qt for WebAssembly 环境搭建 - Windows新手入门 一、所需工具软件1、安装Python2、安装Git2.1 注册Github账号2.2 下载安装Git2.2.1配置Git&#xff1a;2.2.2 配置Git环境2.2.3解决gitgithub.com: Permission denied (publickey) 3 安装em编译器 二、Qt配置编译器三、参考链接…

wireshark 使用

wireshark介绍 wireshak可以抓取经过主机网卡的所有数据包&#xff08;包括虚拟机使用的虚拟网卡的数据包&#xff09;。 环境安装 安装wireshark: https://blog.csdn.net/Eoning/article/details/132141665 安装网络助手工具&#xff1a;https://soft.3dmgame.com/down/213…

【Java SE】深入理解static关键字

&#x1f970;&#x1f970;&#x1f970;来都来了&#xff0c;不妨点个关注叭&#xff01; &#x1f449;博客主页&#xff1a;欢迎各位大佬!&#x1f448; 文章目录 1.static关键字1.1 static的概念1.2 static的作用1.3 static的用法1.3.1 static修饰成员变量1.3.2 static修饰…

记一次由gzip引起的nginx转发事故

故事背景 书接前几篇文章&#xff0c;仍然是交付甲方遇到的一个特殊诉求&#xff0c;从而引发了本期的事故。甲方的诉求是前端的请求过来&#xff0c;需要加密&#xff0c;但是要经过waf&#xff0c;必须要求是请求明文&#xff0c;那就要在waf和nginx之间做一个解密前置应用处…

【3】3道链表力扣题:删除链表中的节点、反转链表、判断一个链表是否有环

3道链表力扣题 一、删除链表中的节点&#x1f30f; 题目链接&#x1f4d5; 示例&#x1f340; 分析&#x1f4bb; 代码 二、反转链表&#x1f30f; 题目链接&#x1f4d5; 示例&#x1f340; 分析① 递归② 迭代 三、判断一个链表是否有环&#x1f30f; 题目链接&#x1f4d5; …

学习transformer模型-Input Embedding 嵌入层的简明介绍

今天介绍transformer模型的Input Embedding 嵌入层。 背景 嵌入层的目标是使模型能够更多地了解单词、标记或其他输入之间的关系。 从头开始嵌入Embeddings from Scratch 嵌入序列需要分词器tokenizer、词汇表和索引&#xff0c;以及词汇表中每个单词的三维嵌入。Embedding a s…

git clone 后如何 checkout 到 remote branch

what/why 通常情况使用git clone github_repository_address下载下来的仓库使用git branch查看当前所有分支时只能看到master分支&#xff0c;但是想要切换到其他分支进行工作怎么办❓ 其实使用git clone下载的repository没那么简单&#x1f625;&#xff0c;clone得到的是仓库…

一个 hipsolver 特征值示例

1&#xff0c;原理 通过雅可比旋转&#xff0c;对对称矩阵计算特征值和特征向量&#xff1b; 通过初等正交变换&#xff0c;每次把其中一个非主对角元素消成零&#xff0c;最终只剩主对角线非零元素为特征值&#xff0c;同时把初等变换累积下来&#xff0c;构成特征向量。 2&a…

使用1panel部署Ollama WebUI(dcoekr版)浅谈

文章目录 说明配置镜像加速Ollama WebUI容器部署Ollama WebUI使用问题解决&#xff1a;访问页面空白 说明 1Panel简化了docker的部署&#xff0c;提供了可视化的操作&#xff0c;但是我在尝试创建Ollama WebUI容器时&#xff0c;遇到了从github拉取镜像网速很慢的问题&#xf…

Java反射系列(3):从spring反射工具ReflectionUtils说起

传送门 在比较早的时候&#xff0c;就讨论过java反射的一些用法及概念&#xff1a; Java反射系列(1)&#xff1a;入门基础 以及反射的基石Class对象&#xff01; Java反射系列(2)&#xff1a;从Class获取父类方法说起 今天就从工作中实际的例子来看看反射的应用。 兼容…