语音识别综述

news2026/2/14 2:21:55

在这里插入图片描述

语音识别的基本单位

Phoneme： 音位，音素
- a unit of sound 是声音的最基本单位**，每个词语token的声音由多个 phoneme 组成**

Grapheme（字位）

smallest unot of a writing system 每个单词书写最基本的单位，简单来说：
英文的grapheme可以认为是词缀，由［26个英文字母 + 空格 + 标点符号］组成

*** 中文的Grapheme是汉字**

Word词

英文可以用单词，作为语音识别的基本单位，但包括中文再内的很多语言无法使用word作为基本单位。（word数量太过于庞大，word之间难于分隔等）

Morpheme（词素）

the smallest meaningful unit 类似英文单词中词缀

Bytes

用byte的序列来表示计算机中的每个字符（比如使用utf-8对字符编码），用用byte作为语音识别的基本单位可以让是识别系统将不同的语言统一处理，和语言本身无关，英文上叫 The system can be language independent

获取语音特征

获取语音特征的方法从难到易依次是:
- waveform -> spectrogram -> filter bank output -> MFCC

语音识别的网络结构

语音识别的结构一般可以分为两种，一种是直接输出 word embedding（feature base）；一种将语音识别模型和和其他模型相组合的end2end结构，如：speech recognition + 翻译模型、speech recognition + 分类模型、speech recognition + Slot filling模型，这里主要分析这一种类型

语音识别模型

主流的语音模型总体上可以分为seq2seq结构和HMM结构，而seq2seq结构有LAS、CTC、RNN-T、Neural Transducer、MoChA等

LAS

在这里插入图片描述

encoder 中的 Self-Attention 用来对输入数据去噪同时提取有效数据
Attend 中的 Attention 用来得到当前时刻encoder和decoder之间的语义向量（content vector）

down sampling 下采样

因为语音识别的数据量很大，因此在LAS的 encoder 内往往需要对数据进行下采样的操作，从而降低数据维度，在RNN中，一般使用如下两种方式进行下采样：

合并第**一个RNN的输出（两个和并为1个）然后传入第二个RNN
在第一个RNN的输出中选择部分输出传入第二个RNN**

Beam search

在这里插入图片描述

在这里插入图片描述

Location-aware attention

在这里插入图片描述

总结，

慢慢的将其全部都搞定都行啦的理由与打算。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/153477.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Vue初识系之Webpack

Vue初识系之Webpack

文章目录一 Webpack简介二 Webpack的安装和使用2.1 安装Webpack2.2 配置参数初识2.3 使用webpack一 Webpack简介 webpack本质上是一个现代JavaScript应用程序的静态模块打包器（modulebundler）。当webpack处理应用程序时，它会递归地构建一个依…

阅读更多...

LeetCode（String)2194. Cells in a Range on an Excel Sheet

LeetCode（String)2194. Cells in a Range on an Excel Sheet

1.问题 A cell (r, c) of an excel sheet is represented as a string “” where: denotes the column number c of the cell. It is represented by alphabetical letters. For example, the 1st column is denoted by A, the 2nd by B, the 3rd by C, and so on. is the ro…

阅读更多...

Java抽象类：概述

Java抽象类：概述

1.抽象类在Java中abstract是抽象的意思，可以修饰类、成员方法。 abstract修饰类：这个类就是抽象类。 abstract修饰方法：这个方法就是抽象方法。修饰符 abstract class 类名{修饰符 abstract 返回值类型方法名(形参列表); } public ab…

阅读更多...

助力旅游业复苏，IPIDEA让旅游资源聚合更简单

助力旅游业复苏，IPIDEA让旅游资源聚合更简单

目前我国疫情防控政策的优化，极大的简化了出境手续，对于深受疫情影响的旅游业来说，这无疑是一个好消息。随着旅游消费需求持续的增长，旅游业将会逐渐进入全面复苏的新进程，焕发新的活力。全球旅游市场都在关注着中国…

阅读更多...

ABAP 内表的定义，与PERFORM传值的定义＜转载＞

ABAP 内表的定义，与PERFORM传值的定义＜转载＞

很早之前就想总结一下内表和定义和perform的传值定义，结果要么没时间，要么有时间忘了。今天在网上看到一个博文写的还比较清楚，故读书人窃来一用 ^ - ^ 原文链接：https://blog.csdn.net/lmf496891416/article/details/117702217 …

阅读更多...

5 UML views and the 9+4 UML Diagrams 关系

5 UML views and the 9+4 UML Diagrams 关系

Refer：UML2.5图概述-Lib教程 UML旨在通过的建模图形Diagram，可视化 5 种不同的视图View。这五个视图是： 一、Users View : 用户视图 1. Use case Diagram：用例图性二、Structural Views : 结构视图 2. Class Diagrams&#xf…

阅读更多...

数码钢琴行业市场运行态势及投资战略规划分析

数码钢琴行业市场运行态势及投资战略规划分析

2023-2029年中国数码钢琴行业市场运行态势及投资战略规划报告报告编号：1691312 免费目录下载：http://www.cninfo360.com/yjbg/jdhy/sxjd/20230109/1691312.html 本报告著作权归博研咨询所有，未经书面许可，任何组织和个人不得以…

阅读更多...

C语言进阶（5）——内存操作函数的解析

C语言进阶（5）——内存操作函数的解析

1.memcpy函数 void * memcpy ( void * destination, const void * source, size_t num ); 用途：各种数据类型，从源数组拷贝num个字节到指定目标空间里面。要点： （1）函数memcpy从source的位置开始向后复制num个字节的数…

阅读更多...

【虹科案例】虹科数字化仪在超声波中的应用以及如何选择合适的数字化仪

【虹科案例】虹科数字化仪在超声波中的应用以及如何选择合适的数字化仪

图 1：虹科M4i.4451-x8——用于采集超声波信号的 PCIe 4 通道 14 位 500 MS/s 数字化仪超声波是一种频率大于人类听觉范围上限的声学声压波。超声波设备的工作频率从 20 kHz 到几千兆赫兹。表 1 总结了一系列常见的超声波应用的特性。每个应用中使用的频率范围反映…

阅读更多...

JSP SSM 仓库租赁管理系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

JSP SSM 仓库租赁管理系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

一、源码特点 JSP SSM 仓库租赁管理系统是一套完善的web设计系统（系统采用SSM框架进行设计开发，springspringMVCmybatis），对理解JSP java编程开发语言有帮助，系统具有完整的源代码和数据库，系统主要采…

阅读更多...

C语言进阶——字符串函数和内存函数

C语言进阶——字符串函数和内存函数

目录一. strlen 二. strcpy 三. strcat 四. strcmp 五. strncpy 六. strncat 七. strncmp 八. strstr 九. strtok 一. strlen 字符串以 \0 作为结束标志，strlen函数返回的是在字符串中 \0 前面出现的字符个数（不包含 \0 …

阅读更多...

TCP/IP网络编程（1）——理解网络编程和套接字编程

TCP/IP网络编程（1）——理解网络编程和套接字编程

文章目录一、理解网络编程和套接字编程1.1 socket套接字1.1.1 一个例子来表示TCP的网络连接1.1.2 程序实现1.2 文件操作1.2.1 文件描述符一、理解网络编程和套接字编程 1.1 socket套接字网络编程又称为套接字编程，为什么要用套接字？我们把插头插到插座…

阅读更多...

Linux常用命令——ngrep命令

Linux常用命令——ngrep命令

在线Linux命令查询工具(http://www.lzltool.com/LinuxCommand) ngrep 方便的数据包匹配和显示工具补充说明 ngrep命令是grep命令的网络版，他力求更多的grep特征，用于搜寻指定的数据包。正由于安装ngrep需用到libpcap库， 所以支持大量的操…

阅读更多...

【Java】面向对象笔记

【Java】面向对象笔记

开篇主线类及类的成员属性、方法、构造器； 代码块，内部类面向对象三大特征继承、封装、多态其他关键字 this,super,static,final,abstract,interface等面向对象的两个要素一、是什么类：对一类事物的描述，是抽象的…

阅读更多...

Java综合练习

Java综合练习

Java综合练习一、涉及到的知识点二、卖飞机票三、找质数四、开发验证码五、数组元素的复制六、评委打分七、数字加密八、数字解密九、抢红包方法一：判断是否被抽取方法二：打乱数组十、模拟双色球土、二维数组一、涉及到的知识点变量、数组运算符程序流…

阅读更多...

python采集IP代理数据，防止数据采集IP被封情况

python采集IP代理数据，防止数据采集IP被封情况

前言嗨喽，大家好呀~这里是爱看美女的茜茜呐又到了学Python时刻~ 为什么要IP代理： 当采集数据, 批量采集数据, 请求速度过快, 网站可能会把你IP封掉 <你的网络进不去这个网站> IP代理换一个IP, 再去采集请求数据一. 抓包分析数据来源 1. 明…

阅读更多...

Runtime、ProcessBuilder的区别（Java中，两种方法来启动其他程序）

Runtime、ProcessBuilder的区别（Java中，两种方法来启动其他程序）

目录 ■Runtime、ProcessBuilder 区别： ■Java中提供了两种方法来启动其他程序 ■代码・Runtime ・ProcessBuilder ■类的方法・Process.waitFor()方法・Process.getErrorStream()方法・Process.redirectErrorStream(true)方法: ■可运行代码・java…

阅读更多...

解读YOLOv8的改进模块

解读YOLOv8的改进模块

回顾一下YOLOv5 Backbone：CSPDarkNet结构，主要结构思想的体现在C3模块，这里也是梯度分流的主要思想所在的地方；PAN-FPN：双流的FPN，必须香，也必须快，但是量化还是有些需要图优化才可以…

阅读更多...

“数据二十条”发布背后：国企下场探路，技术路径日渐清晰

“数据二十条”发布背后：国企下场探路，技术路径日渐清晰

科技云报道原创。近日，中共中央、国务院对外发布了《关于构建数据基础制度更好发挥数据要素作用的意见》（又称“数据二十条”），为数据要素的流通和使用起到了举旗定向的作用，让从业者都感到振奋。必须承认的是&…

阅读更多...

通信原理与MATLAB(十二):MSK的调制解调

通信原理与MATLAB(十二):MSK的调制解调

目录1.MSK的调制原理2.MSK的解调原理3.MSK代码4.结果图5.特点1.MSK的调制原理 MSK调制原理如下图所示，基带码元先差分编码，然后经过串并转换分成I、Q两路，再与对应的载波相乘，然后再相加完成QAM的调制。其中注意:I、Q两路码元分…

阅读更多...

推荐文章

最新文章