人工智能:语音识别技术介绍

news2025/1/21 6:32:58

❤️作者主页:IT技术分享社区

❤️作者简介:大家好,我是IT技术分享社区的博主,从事C#、Java开发九年,对数据库、C#、Java、前端、运维、电脑技巧等经验丰富。

❤️个人荣誉: 数据库领域优质创作者🏆,华为云享专家🏆,阿里云专家博主🏆 

❤️个人博客:IT技术分享社区

❤️公众号/小程序:IT技术分享社区 (运营五年)

❤️好文章点赞 👍 收藏 ⭐再看,养成习惯

目录

1、什么是语音

2、什么是语音识别

3、语音识别的原理

4、语音识别系统的组成

4.1 预处理

4.2 特征提取

4.3 声学模型训练

4.4 语言模型训练

4.5 语音解码器


今天给大家介绍一下关于语音识别相关的知识,希望对大家有所帮助!

1、什么是语音

语音指的是人类通过发声器官发出来具有一定意义、用来沟通交流的声音。

计算机中语音存储:以波形文件的方式存储,通过波形反映语音的变化,从而可以获取音强、音长等参数信息。

音域参数:傅利叶谱、梅尔频率到谱系数,主要用来提取语音内容以及音色的差别,用来更进一步辨别语音信息。

2、什么是语音识别

语音识别简单来说就是把语音内容自动转换为文字的过程,是人与机器交互的一种技术。

涉及领域:声学、人工智能、数字信号处理、心理学等方面。

语音识别的输入:对一段声音文件进行播放的序列。

语音识别的输出:输出的结果是一段文本序列。

3、语音识别的原理

语音识别需要经过特征提取、声学模型、语音模型、语音解码和搜索算法四个部分。

特征提取:把要分析的信号从最原始信号提取出来,这个阶段主要是对语音的幅度标准化、频响校正、分帧、加窗、始末端点检测等预处理操作,为声学模型提供需要特征向量。

声学模型:依靠声学模型进行语音参数分析(语音共振峰频率、幅度等)和对语音的线性预测参数进行分析。

语言模型:根据相关语言学理论,计算出声音片段可能词组序列的概率。

语音解码和搜索算法:根据声学模型+发音词典+语音模型构建的搜索空间,找到最合适的路径。解码完成后最终输出文本。

4、语音识别系统的组成

一个完整的语音识别系统包括:预处理、特征提取、声学模型训练、语言模型训练、语音解码器。

4.1 预处理

对输入的原始声音信号进行处理,过滤掉其中的背景噪音、非重要信息,还要对找到语音信号的开始和结束、语音分帧、提升高频部分的信号等操作。

4.2 特征提取

最常用的特征提取方法为梅尔顿到谱系数(MFCC),因为它拥有良好的抗噪性和健壮性。

4.3 声学模型训练

根据悬恋语音库的特征参数训练出声学模型参数,从而可以在识别时与声学模型进行匹配得到相应结果。目前主流语音识别系统一般都会采用HMM进行声学模型建模。

4.4 语言模型训练

用来预测哪个词序列正确的可能性更大。

4.5 语音解码器

解码器也就是语音识别技术中的识别过程,根据输入的语音信号,然后和训练好的HMM声学模型、语言模型、发音字典建立一个搜索空间,根据搜索算法找到最合适的路径。从而找到最合适的词串。

5、语音识别的使用场景

语音识别在日常生活中使用非常广泛主要分为封闭式和开放式应用。

封闭式应用:主要指针对特定控制指令的应用。

比如常见的有智能家居比如通过语音指令控制灯开关、热水器开关温度调节、打开空调等,大大丰富了我们日常的生活;

开放式应用:开放式主要是厂商提供语音识别服务,一般会公有云或者私有云的方式部署提供对应的SDK,让使用服务的客户进行语音识别服务的调用。

常见的场景有输入法、会议字幕实时输出、视频剪辑字幕配置等场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/43814.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

移动Web

her~~llo,我是你们的好朋友Lyle,是名梦想成为计算机大佬的男人! 博客是为了记录自我的学习历程,加强记忆方便复习,如有不足之处还望多多包涵!非常欢迎大家的批评指正。 目录 一、字体图标 1.1 使用字体图…

Windows使用scp上传文件到linux服务器

我不是管理员,所以上传有点麻烦,需要在windows电脑上操作scp命令, 命令格式:上传文件夹带上-r,上传文件就不用带-r了,而且只能上传到tmp目录下,然后再使用mv命令移动到你想要的目录下&#xff…

宝塔上的wordpress站点更换域名+配置SSL+改版百度收录

前言 好久没写文章了,甚是想念,近半年来发生了很多事情,心态也变了很多。 这个博客自创办以来,原域名叫“is-hash.com”,是我2019年的突发奇想注册此域名,“is-hash”即为“是#”(hash是#的英…

力扣第73题

一、题目:73. 矩阵置零 二、题目解析: 解题步骤:注意题目要求原地算法–>利用矩阵的第一行和第一列记录矩阵需要置0的行和列,只要把0所在行和列的第一个位置置为0, 然后再根据第一行和第一列0的位置,对…

设备树覆盖:实现 DTO

前面我们学习了dts,也知道这个dtc、dtb。这个dto是什么? 实现 DTO 包括分割设备树、构建、分区和运行。 在实现可以正常工作之后,您还必须保持两个 DT 之间的兼容性,并确定用于确保每个 DT 分区安全性的策略。 1、分割 DT 首先…

Linux-用户概念和用户管理命令,用户组概念和用户组管理命令。

一,用户概念和用户管理命令: 1,linux是一个多用户操作系统,多个用户可以在同一时间内登录同一系统。 用户可理解为获取系统资源权限的集合,每个用户都会分配一个uid。分为三种: 超级用户:uid为…

String的方法介绍以及实现

今天需要掌握的有如下方法,有点多,但是不难,加油吧 1.字符串的查找 2.字符串的转化 3.字符串的截取 4.字符串的替换 5.字符串的拆分 6.字符串的其他方法 1.字符串的查找 public class TestDemo {public static void main(String[] ar…

java进阶—集合

前面我们知道了一个能存东西的数据结构,数组 java 基础——数组,现在我们来看一个高级一点的东西,集合 这里先提一点,集合的底层其实是数组 集合(collection)是什么呢? 我们可以把集合想象成…

接口测试需求分析

测试接口的时候,可能很多人都会想,按着研发给的接口协议文档来测,不就好了吗? 其实,对于接口的测试,还需要有点深度的需求分析,然后再进行对应的测试。对于接口测试,这里有个不太详…

python 高级技巧

闭包 定义双层嵌套函数,内层函数可以访问外层函数的变量 将内层函数作为外层函数的返回,此层函数就是闭包函数 在函数嵌套的前提下,内部函数使用了外部函数的变量,并且外部函数返回了内部函数,我们把这个使用外部函数变…

12小时,教室与生产线接力 复旦MBA科创青干营首个整合实践活动日

针对有志于投身科创事业的复旦MBA学生,复旦管院特别开设“复旦MBA科创青干营”,将科创管理教育与MBA培养体系深度融合。在MBA核心课基础上,学院为学生定制了原创、系统和注重实战的科创课程,并通过科创企业参访、科创先锋论坛、科…

初学者如何打开ABAQUS力学有限元仿真的大门

作者 | 静安 仿真秀专栏作者 导读:明年6月,笔者即将研究生毕业,从最初摸爬滚打一个人自学有限元力学仿真,到现在已经有三年多了。我研究方向是静力学仿真(Abaqus)和基于python的Abaqus二次开发。时至今日&…

MySQL命令行插入数据乱码分析

MySQL命令行插入数据乱码分析 1.起因 在开发过程中, 在linux 的上MySQL 的客户端提交插入数据的SQL, 然后数据在页面展示的时候乱码,在网上查找了一些资料,说是MySQL 的客户端连接设置是Latin1导致的;(当然肯定还是有是由其他的…

【iOS开发-AFNetWorking下的POST和GET】

文章目录写在开头GET 和POSTGET 和POST的区别联系AFNetWorking使用方法DEMOGET请求数据GET方法GET请求到的数据解析POST请求POST的请求测试1POST请求测试二请求的数据拼接POST- DEMO2POST方法2参数理解POST方法2的注意头像对于DATA的转换在Block里进行拼接方法MIME Type的简单认…

QFileInfo(文件信息)和临时文件

QFileInfo提供有关文件在文件系统中的名称和位置(路径),其访问权限以及它是目录还是符号链接等的信息。文件的大小和上次修改/读取时间也可用。QFileInfo还可用于获取有关Qt资源的信息 QFileInfo可以指向具有相对或绝对文件路径的文件。绝对…

FFmpeg实现fmp4+h265 aac切片命令

目录 背景 环境 FFmpeg实现fmp4h265 aac切片命令 使用go创建hls server 使用hls.js demo播放 播放地址:hls.js demo 背景 Chrome在104/105版本后,支持硬解h265,使得hls利用浏览器硬解特性播放h265视频。hls官方要求h265必须使用fmp4格…

Yolov5算法解读

yolov5于2020年由glenn-jocher首次提出,直至今日yolov5仍然在不断进行升级迭代。 Yolov5有YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四个版本。文件中,这几个模型的结构基本一样,不同的是depth_multiple模型深度和width_multiple模型宽度这两个参…

[网络] TCP协议中的三次握手是什么?利用3次握手的SYN Flood DDOS攻击知道吗?

文章目录前言术语TCP协议三次握手的由来网络协议里的握手阶段Sequence Number是什么?TCP协议三次握手都发送了什么数据?TCP数据包长什么样?SYN Flood DDOS攻击是什么?结语前言 介于TCP协议中三次握手经常会被问到,以及…

NBA体育决策和数据挖掘分析

业务挑战 体育运用大数据主要体现在以下三个方面: 预测比赛结果和奖牌归属;更好地训练运动员 。数据和模型驱动体育决策让获胜和成功变得更有可能,体育统计(Sports Analytics)成为体育竞争的“杀手锏”。最近我们被客户要求撰写关于体育统计…

鲲鹏devkit性能分析工具介绍(一)

鲲鹏devkit性能分析工具介绍(一) 鲲鹏性能分析工具由四个子工具组成,分别为:系统性能分析、Java性能分析、系统诊断和调优助手。 系统性能分析是针对基于鲲鹏的服务器的性能分析工具,能收集服务器的处理器硬件、操作…