语音识别相关概念

news2025/1/17 2:50:41

声音如何保存成数字信号?

声音是听觉对声波产生的感知,而声波是一种在时间和振幅上连续的模拟量,本质是介质的振动,,比如空气的振动。那么只需要把这个振动信号记录下来,并用一串数字来表达振动信号振动的快慢和振动的幅度,就可以实现声音的记录

以前的留声机就是通过唱片上凹槽的深浅、长短来表征声音的振幅和持续时间。


而通过麦克风来采集声音步骤如下:

  • 首先,声波通过空气传播到麦克风的振膜
  • 然后,振膜随空气抖动的振幅大小产生相应的电学信号。我们把这种带有声学表征的电学信号叫做模拟信号(Analog signal)。
  • 最后,通过A/DC(模数转换器)将模拟信号转换成数字信号(Digital signal)。即通过脉冲编码调制(Pulse Code Modulation,PCM)对连续变化的模拟信号进行抽样、量化和编码转换成离散的数字信号

PCM编码过程如下图所示:

PCM编码过程

(1) 采样
将时间连续的模拟信号按照采样率提取样值,变为时间轴上离散的抽样信号的过程

人耳可以听到的声波频率范围是 20Hz~22.05kHz,因此44.1kHz/16bit的音频数据被认为是无损音频

(2) 量化
抽样信号虽然是时间轴上离散的信号,但仍然是模拟信号,其样值在一定的取值范围内,可有无限多个值。显然,对无限个样值给出数字码组来对应是不可能的。为了实现以数字码表示样值,必须采用“四舍五入”的方法把样值分级“取整”,使一定取值范围内的样值由无限多个值变为有限个值。这一过程称为量化。

量化后的抽样信号与量化前的抽样信号相比较,当然有所失真,且不再是模拟信号。这种量化失真在接收端还原模拟信号时表现为噪声,并称为量化噪声。量化噪声的大小取决于把样值分级“取整”的方式,分的级数越多,即量化级差或间隔越小,量化噪声也越小。

(3) 编码
量化后的抽样信号就转化为按抽样时序排列的一串十进制数字码流,即十进制数字信号。简单高效的数据系统是二进制码系统,因此应将十进制数字代码变换成二进制编码。这种把量化的抽样信号变换成给定字长(采样位数)的二进制码流的过程称为编码

经过上面的PCM编码过程得到的数字信号就是PCM音频数据

PCM文件

PCM文件就是未经封装的音频原始文件或者叫做音频“裸数据”。涉及3个基本概念:采样位深、采样率和通道数。

采样位深
采样位深也就是每个采样点用多少bit来表示

从物理意义上来说,位深代表的是振动幅度的表达精确程度或者说粒度。

假设数字信号是一个1到-1的区间,如果位深为16bit,那么第1个bit表示正负号,并且剩下的15个bit可以表征0~32767个数,那么振幅就可以精确到1/32768的粒度了。

一般在网络电话中用的就是16bit的位深,这样不太会影响听感,并且存储和传输的耗费也不是很大。而在做音乐或者更高保真度要求的场景中则可以使用32bit甚至64bit的位深来减少失真(高采样位深可以减少失真)。

题外话:有的音乐就追求这种模糊感,所以“8bit”有的时候也代表一种听感朦胧的音乐艺术类型。

采样率
采样率就是1秒内采集到的采样点的个数(赫兹Hz)。常用为 16kHz和48kHz。

根据奈奎斯特采样定理在进行模拟/数字信号的转换过程中,当采样频率 f s f_s fs大于信号中最高频率 f m a x f_{max} fmax的2倍时采样之后的数字信号才可以完整地保留原始信号中的信息。也就是说采样率和保留的声音频率基本上是2倍的关系。

下图的频谱图对比16kHz采样率和48kHz采样率的音频:

16kHz采样率的音频在8kHz以上的频谱基本是没有能量的(黑色),也就是说这部分高频的信息由于采样率不够已经丢失了。从听感上来说人耳可以听到的频率范围大概是20~20kHz之间。如果采样率不够,那么和实际听感比起来声音就会显得“低沉”或者说“闷”

采样率的选择依据场景决定:

  • 如果只是为了听见人声、听懂对方在说什么,那么为了节省传输码率我们可以把采样率降到8kHz(比如打电话)。
  • 而在网络音视频会议场景需要平衡音质和传输带宽消耗,一般可以使用16kHz或者32kHz的采样率。
  • 如果是开线上音乐会或者音乐直播,我们通常会用较高的采样率来保证音质,比如44.1kHz或者48kHz。
  • 更极端一点,在音乐制作录音的时候,会采用96kHz甚至更高的采样率来方便后续的调音和制作。

通道数

在平时买音响的时候听过2.1声道或者5.1声道等名词,这些数字代表了有多少个播放单元。
比如,2.1声道中的2指的是左右两个音箱,1指的是中间一个低音音箱。每个音箱都会播放一个单独的音频,这时候就需要同时有3路音频信号同时播放,或者叫通道数为3。

由于编/解码器能力的限制(比如使用了单通道编/解码器),或者采集设备能力的限制(只能采集单通道的信号),音频信号通常为单声道的

听歌的时候,戴上耳机如果听到左右耳朵是不一样的,能够感觉到声音是从不同方向传过来的,那么就说明这个音频是双声道。我们通常也把这种双声道音频叫做立体声(stereo)。

除了播放需要多声道以外,采集也可能采集到多通道的数据。比如麦克风阵列采集到的原始信号,有多少个麦克风就会有多少个通道的音频信号。因此,这里通道数的物理含义其实就是同一时间采集或播放的音频信号的总数

假设有一个立体声的PCM音乐文件,它记录了1分40秒的采样率为48kHz的音频,如果这个文件的采样位深是16bit,那么这个立体声文件应该占用多大的存储空间呢?如果不经过压缩实时传输播放,又至少需要多少的带宽呢?
一个PCM音频文件的存储大小就是采样位深、采样率、通道数和持续时间的累乘

16 × 48000 × 2 × 100 = 1.53 ∗ 1 0 8 b i t = 18.31 M B 16\times 48000\times 2\times 100=1.53*10^{8}bit=18.31MB 16×48000×2×100=1.53108bit=18.31MB

实时传输所需的带宽就是它每秒所需的比特带宽

16 × 48000 × 2 = 1.53 ∗ 1 0 6 b p s 16\times 48000\times 2=1.53*10^{6}bps 16×48000×2=1.53106bps

PCM音频数据的存储方式

采集的PCM音频数据是需要保存到本地文件中,如果用单声道采集的,则按时间的先后顺序依次存入,如果是双声道的话则按时间先后顺序交叉地存入,如下图所示:

PCM音频数据一般无法通过播放器直接播放。可以使用 ffplay 或者 Audition 工具进行播放:
ffplay -f s16le -ar 44100 -ac 1 -i raw.pcm

  • f s16le:设置音频格式为有符号16位小端格式(signed 16 bits little endian),对应Android中的AudioFormat.ENCODING_PCM_16BIT
  • ar 44100:设置音频采样率(audio rate)为44100
  • ac 1:设置声道数(audio channels)1,单声道为1,双声道为2
  • i raw.pcm:设置输入的pcm音频文件

通常将PCM音频数据转化为WAVE文件就可以用播放器直接解析播放,WAVE是微软公司专门为Windows开发的一种标准数字音频文件,该文件能记录各种单声道或立体声的声音信息,并能保证声音不失真。它符合资源互换文件格式(RIFF)规范。

音频的封装

平时经常看到的音频文件格式,比如MP3、FLAC和WAV等,它们有什么区别?它们所需的存储空间一样么?

有损和无损音频编码封装格式
有损的音频封装格式主要是通过压缩算法把文件大小尽量减少,但是在解压缩的时候却无法完美还原音频原来的数据(即有损)。比如MP3、AAC、AMR和WMA等编码封装格式。

有损音频格式比如MP3一般可以达到1:10的压缩比,即存储体积为未压缩音频的十分之一。但在听感上和无损格式比起来,如果不是专业人士很难听出区别。

无损音频封装则采用可完美还原的压缩算法,比如FLAC和APE等编码封装格式。FLAC与APE的压缩比基本相同,其中FLAC的压缩比为58.70%,而APE的压缩能力则要更高一些,压缩比为55.50%。它们都能压缩到接近源文件一半大小。无损封装甚至还可以不压缩编码,直接加个文件头作为封装,比如WAVE格式的封装。

WAVE文件的封装
WAVE文件作为多媒体中使用的声波文件格式之一,文件后缀名为.wav。它是以RIFF(Resource Interchange File Format)的缩写。因此,每个WAVE文件的头四个字节便是“RIFF”

WAVE文件由WAVE文件头部分和WAVE文件数据体部分组成,其中0~43字节存放采样率、通道数、数据部分的标识符等头信息,44字节以后的就是数据部分。简单地理解就是PCM文件加一个文件头描述文件的基本信息

什么是分贝?

分贝除了用于声学领域之外,在NVH测量领域,到处可见分贝。它不是一个单位,它是个无量纲。我们经常在声学、振动、电子学、电信、音频工程&设计等领域见到它。

分贝最初使用是在电信行业,是为了量化长导线传输电报和电话信号时的功率损失而开发出来的。是为了纪念美国电话发明家亚历山大·格雷厄姆·贝尔(Alexander Graham Bell),以他的名字命名的。分贝定义为1/10贝尔(Bel)。

1.分贝定义
分贝(dB)定义为两个数值的对数比率,这两个数值分别是测量值和参考值(也称为基准值)。存在两种定义情况。

一种为功率之比: 1 d B = 10 log ⁡ 10 ( W W 0 ) 1dB=10\log_{10}(\frac{W}{W_0}) 1dB=10log10(W0W)

一种为幅值之比: 1 d B = 10 log ⁡ 10 ( X X 0 ) 2 = 20 log ⁡ 10 ( X X 0 ) 1dB=10\log_{10}(\frac{X}{X_0})^2=20\log_{10}(\frac{X}{X_0}) 1dB=10log10(X0X)2=20log10(X0X)

下标为0的数值均为幅值和功率的参考值。


  • 功率量的例子:声功率(W),声强( W / m 2 W/m^2 W/m2),电功率,电强等。
  • 幅值量的例子如:声压(Pa),电压(V),加速度( m / t 2 m/t^2 m/t2),温度等。但有一点要注意对于场量的幅值应该是RMS值,如声压场。

注:没有特殊要求时,参考值通常为1。

因为分贝值完全依赖于测量值与参考值之比,因此,计算时选择合适的参考值尤为关键。常见信号的dB参考值如下表所示:

2. 声音大小
在声学领域,dB经常用作为表征声压级SPL(Sound Pressure Level)的大小。

声压的参考值是20μPa,这个值表示人耳在1000Hz处的平均可听阈值,或者是人耳在1000Hz处可被感知的平均最小声压波动值。

声音是叠加在大气压之上的声压波动,大气压为 1.01325 × 1 0 5 P a 1.01325×10^5Pa 1.01325×105Pa。相比于大气压,声压幅值波动非常小。人耳可听的声压幅值波动范围为 2 × 1 0 − 5 P a 2×10^{-5}Pa 2×105Pa ~ 20 P a 20Pa 20Pa

这个声压幅值波动区间很大,二者的比值达到了 1 0 6 10^6 106。从线性角度来说这个声压幅值的波动区间,很不方便。

使用dB表示的声压级的概念,可以方便的反映出这个波动的幅值。

人类耳朵对声音强度的反应是成对数形式的,大概意思就是当声音的强度增加到某一程度时,人的听觉会变的较不敏锐,刚好近似对数的单位刻度。

人耳可听的声压幅值波动范围为 2 × 1 0 − 5 P a 2×10^{-5}Pa 2×105Pa ~ 20 P a 20Pa 20Pa,用幅值dB表示对应的分贝数为0 ~ 120dB,因此,当用分贝表示声压级的大小时,表征起来更为方便。现实世界中各种常见情况中声音分贝大小如下图:

请添加图片描述

3. dB的性质
贝尔最初是用来表示电信功率讯号的增益和衰减的单位,1个贝尔的增益是以功率在放大后与放大前的比值。所以,电压增益的分贝表达式是从功率的角度来考虑的,即分贝应该理解为功率的增大或衰减情况。

用对数dB形式表达增益之所以在工程上得到了广泛的应用,是因为:

  1. 当用对数dB表达增益随频率变化的曲线时,可大大扩大线性增益变化的区间。人耳可听的声压幅值波动范围为 2 × 1 0 − 5 P a 2×10^-5Pa 2×105Pa ~ 20 P a 20Pa 20Pa,而用幅值dB表示时对应的dB数值仅仅为0 ~ 120dB。

  2. 计算多级放大的总增益时,可将乘法化为加法进行运算。

  3. dB值可正可负。正值表示增大,负值表示衰减。若 X / X 0 < 1 X/X_0<1 X/X0<1,则dB值为负值。也就是说测量值大于参考值的为正,小于参考值的为负。

  4. 幅值比互为倒数时,dB值互为正负。这是因为: 20 log ⁡ 10 ( X 0 X ) = 20 log ⁡ 10 ( 1 X / X 0 ) = − 20 log ⁡ 10 ( X X 0 ) 20\log_{10}(\frac{X_0}{X})=20\log_{10}(\frac{1}{X/X_0})=-20\log_{10}(\frac{X}{X_0}) 20log10(XX0)=20log10(X/X01)=20log10(X0X)

  5. dB值与线性幅值比的关系如下表所示:
    请添加图片描述

    表中红色字体表示的是几个比较重要的dB值。像dB增大6dB表示线性幅值增大一倍

4. -3dB
-3dB在NVH领域起着其他值不可比拟的作用。

通过上表,-3dB对应的幅值比为0.708,即 2 / 2 \sqrt2/2 2 /2倍。如果是按功率比来计算,则功率比为1/2,也就是原来功率的一半,因此,-3dB称为“半功率点”

抗混叠滤波器是按幅值衰减0.707或者功率衰减一半所对应的频率作为滤波截止频率的。其它类型的滤波器,如高通、低通、带通和带阻滤波器的截止频率也是-3dB点

5. dB叠加
以声压级的叠加来进行说明。声压级的合成运算不是简单的加减运算,声压级不能直接相加,必须以能量形式相加计算,因此,声压级的合成公式如下:

L p r e s u l t = 10 ⋅ log ⁡ 10 ( 1 0 L p 1 10 + 1 0 L p 2 10 + . . . + 1 0 L p n 10 ) L_{presult}=10·\log_{10}(10^{\frac{L_{p1}}{10}}+10^{\frac{L_{p2}}{10}}+...+10^{\frac{L_{pn}}{10}}) Lpresult=10log10(1010Lp1+1010Lp2+...+1010Lpn)

若两个声压级 SPL1=SPL2=60dB,但两个声源是相关、同相位的,则合成后的声压级SPL为66dB,因为60dB对应0.02Pa,两个相加为0.04Pa,对应66dB。(但是现实很少有相关同相位的两个声源)


若任意两个声压级SPL1=SPL2,则合成后的声压级为: S P L 1 + 2 = S P L 1 + 10 log ⁡ 10 ( 2 ) = S P L 1 + 3 d B SPL_{1+2}=SPL_1+10\log_{10}(2)=SPL_1+3dB SPL1+2=SPL1+10log10(2)=SPL1+3dB

也就是说两个声压级相同,则合成后的声压级比之前大3dB。

声压级的分解通常用于修正背景噪声的影响,如噪声测量值 L m e a s u r e d L_{measured} Lmeasured 修正背景噪音 L B G N LBGN LBGN 的影响,不是简简单单地 L s o u r c e = L m e a s u r e d − L B G N Lsource =Lmeasured-LBGN Lsource=LmeasuredLBGN, 而是 L p r e s u l t = 10 ⋅ log ⁡ 10 ( 1 0 L p t o t a l 10 − 1 0 L p b a c k g r o u n d 10 ) L_{presult}=10·\log_{10}(10^{\frac{L_{ptotal}}{10}}-10^{\frac{L_{pbackground}}{10}}) Lpresult=10log10(1010Lptotal1010Lpbackground)

国际规范中关于背景噪声的修正原则如下图表示。当背景噪音与声源的声压级差值小于6dB时,测量无效;当二者差值位于6~15dB之间时需要修正,修正按以上公式修正;当二者差值大于15dB时,可忽略背景噪声对测量结果的影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2132779.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

中学生考试成绩在线查询系统

时代在发展&#xff0c;社会在进步&#xff0c;传统的成绩发布方式已经显得力不从心了。老师们&#xff0c;是时候尝试一种更高效、更安全的成绩查询方式了。 还在为如何保护学生隐私而头疼&#xff1f;还在担心成绩的公平性和准确性&#xff1f;易查分小程序将这些这些问题都将…

vue+IntersectionObserver + scrollIntoView 实现电梯导航

一、电梯导航 电梯导航也被称为锚点导航&#xff0c;当点击锚点元素时&#xff0c;页面内相应标记的元素滚动到视口。而且页面内元素滚动时相应锚点也会高亮。电梯导航一般把锚点放在左右两侧&#xff0c;类似电梯一样。 二、scrollIntoView() 介绍 scrollIntoView() 方法会…

加密软件有哪些数据防护功能?

1.文件透明加密&#xff1a;采用透明加密技术&#xff0c;自动对指定类型的敏感文件进行实时加密&#xff0c;确保数据在存储和传输过程中的安全性。 2.权限管理与访问控制&#xff1a;通过细粒度的权限管理&#xff0c;控制员工对敏感数据的访问权限&#xff0c;包括读取、修…

基于SpringBoot+Vue的预制菜平台系统

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 【2025最新】基于JavaSpringBootVueMySQL的…

蓝桥杯真题——数星星

输入样例&#xff1a; 5 1 1 5 1 7 1 3 3 5 5 输出样例&#xff1a; 1 2 1 1 0 分析&#xff1a; 根据题目&#xff0c;是逐行读入数据&#xff0c;我们要求每颗星星左下方的星星数量&#xff0c;就是要迅速求一个区间内的值 于是我们联想到树状数组来解决问题 代码演示…

商业银行零售业务数智运营探索与应用

一、商业银行零售业务面临新形势 根据国家金融监督管理总局近期发布的数据,2024年一季度商业银行净息差降至1.54%,较2023年四季度的1.69%下降15个基点。在当前经营环境复杂、客户投资预期降低等多重因素的叠加作用下,商业银行经营压力日益加大。与此同时,随着数字化转型的不…

【技术调研】三维(3)-ThreeJs-几何体、材质、贴图、灯光及案例

几何体 ​ 几何体是构建模型的基础,模型=几何体+材质。threejs中已内置了很多几何体。这里不一一介绍。 BufferGeometry 是面片、线或点几何体的有效表述。包括顶点位置,面片索引、法相量、颜色值、UV 坐标和自定义缓存属性值。使用 BufferGeometry 可以有效减少向 GPU 传输…

代码随想录训练营Day3 | 链表理论基础 | 203.移除链表元素 | 707.设计链表 | 206.反转链表

今天任务&#xff1a;学习链表理论基础 链表的类型 链表的存储方式 链表的定义…

基于SpringBoot+Vue+MySQL的招聘管理系统

系统展示 用户前台界面 管理员后台界面 企业后台界面 系统背景 在当今数字化转型的大潮中&#xff0c;企业对于高效、智能化的人力资源管理系统的需求日益增长。招聘作为人力资源管理的首要环节&#xff0c;其效率与效果直接影响到企业的人才储备与竞争力。因此&#xff0c;构建…

linux 操作系统下crontab命令及使用案例介绍

linux 操作系统下crontab命令及使用案例介绍 Linux 操作系统下的 crontab 命令用于设置周期性执行的任务 crontab 命令概述 基本语法 bash crontab [-u user] file crontab [-u user] [-l | -r | -e] [-i] [-s] 主要功能 创建、编辑和管理用户的计划任务&#xff08;cron…

基于中心点的目标检测方法CenterNet—CVPR2019

Anchor Free目标检测算法—CenterNet Objects as Points论文解析 Anchor Free和Anchor Base方法的区别在于是否在检测的过程中生成大量的先验框。CenterNet直接预测物体的中心点的位置坐标。 CenterNet本质上类似于一种关键点的识别。识别的是物体的中心点位置。 有了中心点之…

【工具】前端JavaScript代码在线执行器 方便通过网页 手机测试js代码

【工具】前端JavaScript代码在线执行器 方便通过网页 手机测试js代码 自动补全js代码格式化代码色彩打印日志清空日志待补充 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport"…

基于SpringBoot+Vue+MySQL的热门网络游戏推荐系统

系统展示 用户前台界面 管理员后台界面 系统背景 基于SpringBootVueMySQL的热门网络游戏推荐系统&#xff0c;其背景主要源于当前网络游戏市场的蓬勃发展与用户需求的日益多样化。随着互联网的普及和技术的不断进步&#xff0c;网络游戏已成为人们休闲娱乐的重要方式之一。面对…

JAVA开源项目 校园管理系统 计算机毕业设计

本文项目编号 T 026 &#xff0c;文末自助获取源码 \color{red}{T026&#xff0c;文末自助获取源码} T026&#xff0c;文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 管…

网络安全-intigriti-0422-XSS-Challenge Write-up

目录 一、环境 二、解题 2.1看源码 一、环境 Intigriti April Challenge 二、解题 要求&#xff1a;弹出域名就算成功 2.1看源码 我们看到marge方法&#xff0c;肯定是原型链污染题目 接的是传参&#xff0c;我们可控的点在于qs.config和qs.settings&#xff0c;这两个可…

逆向工程 反编译 C# net core

索引器访问 在您的代码中&#xff0c;您试图使用 configurationRoot.get_Item("AgileConfig:appId") 来访问配置项&#xff0c;但这里存在几个问题&#xff1a; 错误的访问方法&#xff1a;在 .NET 的 IConfigurationRoot 接口中&#xff0c;没有直接名为 get_Item 的…

python fastapi 打包exe

创建虚拟环境 python -m venv 国内依赖仓库 # 换源 pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple pip config set install.trusted-host mirrors.aliyun.com 安装nuitka pip install nuitka 生成exe nuitka --mingw64 --show-progress --s…

[000-01-008].第08节:Sentinel 环境搭建

1.Sentinel的构成&#xff1a; 核心库-后台默认的端口是8719控制台-前台默认的是8080端口 2.2.搭建Sentinel环境&#xff1a; a.下载Sentinel&#xff1a; 1.sentinel官方提供了UI控制台&#xff0c;方便我们对系统做限流设置。可以在GitHub下载 b.下载后运行Sentinel&#…

自动驾驶系列—掌握速度,驾驭安全,限速信息提醒功能(SLIF)介绍

&#x1f31f;&#x1f31f; 欢迎来到我的技术小筑&#xff0c;一个专为技术探索者打造的交流空间。在这里&#xff0c;我们不仅分享代码的智慧&#xff0c;还探讨技术的深度与广度。无论您是资深开发者还是技术新手&#xff0c;这里都有一片属于您的天空。让我们在知识的海洋中…

心觉:收钱就像喝水一样简单,是如何做到的?

Hi&#xff0c;我是心觉&#xff0c;与你一起玩转潜意识、脑波音乐和吸引力法则&#xff0c;轻松掌控自己的人生&#xff01; 挑战每日一省写作168/1000天 真的存在赚钱跟喝水一样简单的事情 这两天亲身体验过 某位做知识付费的大佬&#xff0c;昨天写一篇文章就哗哗哗的开…