音视频学习—音视频理论基础(2)
- 1、音频的基本概念
- 2、声音的三要素
- 3、声音的本质
- 4、奈奎斯特采样定律
- 5、采样和采样率
- 6、采样数和采样位数
- 7、量化
- 8、比特率(码率)
- 9、响度和强度
- 10、编码
- 11、音频帧
- 12、音频文件大小的计算
- 总结
1、音频的基本概念
音频是一种模拟信号,它是由声波转化而来的电信号。声波是通过气体、液体或固体传播的机械波,代表了声音的震动。在录制过程中,声音被转换成电信号,然后被储存在数字格式中。
2、声音的三要素
声音的三要素是频率、振幅和波形
频率是指声波的振动次数,通常使用赫兹(Hz
)来表示。人类能够听到的声音的频率范围是20Hz
到20kHz
。频率越高,声音越尖锐;频率越低,声音越低沉。
振幅是指声波的振动幅度,也就是声音的响度或音量。振幅越大,声音越响亮;振幅越小,声音越微弱。
波形是指声波的形状。不同的声波形状会对声音的音色产生影响。例如,正弦波是一种最简单的波形,它产生的声音音色清晰、纯正;而复杂波形则产生的声音音色更具有丰富性和复杂性。
在数字音频领域,频率、振幅和波形被转化为数字信号,然后存储和传输。对于数字音频,频率通常表示采样率,振幅表示采样精度,波形则是由采样数据重建出来的。
3、声音的本质
声音的本质包括音调、音量和音色。
音调是指声音的高低、频率。较高的频率产生的声音音调更高,较低的频率产生的声音音调更低。例如,钢琴和小提琴演奏同样的音符,由于它们频率不同,所以发出的声音音调也不同。
音量是指声音的响度、强弱。通常使用分贝(dB
)衡量声音的音量大小。人类能够听到的声音范围是0dB
到140dB
,其中0dB
表示最小听力阈值,而140dB
表示极度嘈杂的声音。音量的大小与振幅相关,振幅越大,声音就越响亮。
音色是指声音的特征,它决定了声音的品质和风格。每个乐器的音色都是独特的,这也是为何我们可以轻松地区分小提琴和钢琴的声音。音色的不同源于声波的波形特征,这种特征被称为谐波。不同的谐波组合形成了不同的音色。
4、奈奎斯特采样定律
奈奎斯特采样定律,也称为奈氏定理,指在进行模拟/数字信号的转换过程中,当采样频率fs.max
大于信号中最高频率fmax
的2倍时(fs.max>2fmax
),采样之后的数字信号完整地保留了原始信号中的信息,一般实际应用中保证采样频率为信号最高频率的2.56~4
倍;采样定理又称奈奎斯特定理。
奈奎斯特采样定律的表达式为:Fs > 2 × Fm
其中,Fs
为采样频率,Fm
为信号中最高能达到的频率。比如,一个信号最高频率为10kHz
,那么采样频率需要大于20kHz
,才能保证信号能够被准确地重建。如果采样率低于奈奎斯特采样定律所要求的最小值,信号就会发生混叠失真现象,即信号的高频部分被混淆到了低频部分,导致信号质量下降。
5、采样和采样率
在数字音频中,采样是将模拟音频信号转换为数字信号的过程。模拟音频信号是连续时间变化的信号,而数字信号则是离散时间的抽样信号。具体来说,采样将连续的音频波形在一定时间间隔内进行离散化,将其转化为一系列数字值。
采样率是指数字音频信号中的采样数量,通常以每秒采样次数(Hz或kHz)来表示。它表示将连续时间的音频信号离散化成数字信号的速率。采样率越高,数字音频数据就越精确,音质也越好,但同时文件也越大。常见的采样率包括44.1kHz
、48kHz
、96kHz
等。
例如,CD
音质的采样率为44.1kHz
,表示每秒钟录制了44100
个采样点来描述声波。在数字音频中,采样的精度也会影响到音频的质量,通常使用位深度(比特数)来描述。CD
音质的采样精度为16 bits
,表示每个采样点使用16
比特来表示。
6、采样数和采样位数
采样数指的是每秒钟对模拟信号进行采样的次数,它决定了数字音频信号的频率范围,常见的采样数有44.1kHz、48kHz、96kHz
等。
采样位数指的是每个采样点对应的二进制数的位数,它决定了数字音频信号的动态范围和信噪比。通常,采样位数越高,数字音频信号的信噪比就会越高,可以表达更广泛的音频强度范围。常见的采样位数有8
位、16
位、24
位、32
位等。
通道数指的是数字音频信号中的声道数。常见的通道数有单声道(mono
)和双声道(stereo
),还有多声道,如5.1
声道、7.1
声道等。多声道可以通过在不同的声道中播放不同的音频信号来实现更加立体的音效。
需要注意的是,采样数、采样位数和通道数三者共同决定了数字音频信号的质量和大小。采样率和采样位数越高、通道数越多,音频文件的体积就越大,音质也会越好。因此,在实际应用中需要根据需求来选择采样率、采样位数和通道数。
7、量化
量化是指将连续的模拟信号转换成离散的数字信号的过程。在数字信号处理中,量化是将采样后的连续信号按照一定的准则映射到离散标准值集合中的过程,其中,这些标准值形成一个有限制的数字集合。这些数字集合就是存储数字信号所用的码字,它们代表了信号的离散取值。
量化的过程是通过量化器来实现的,量化器将采样信号中的每个样本映射为最接近的数字信号的取值。数字信号的每个码字都是用二进制编码表示的。一般来说,采样精度越高,量化器刻度越小,数字信号的准确度就越高,质量也越好。
量化过程中,由于原始的模拟信号的取值范围很大,而二进制编码能表示的数字范围相对较小,因此,在量化过程中难免会出现误差。这种误差叫做量化误差,它是原始模拟信号与离散化数字信号之间的差值。在数字音频中,这种误差会对音质造成一定的影响。
8、比特率(码率)
比特率是指数字音频数据的传输速率,通常使用比特每秒(bps
)来衡量。它表示单位时间内传输的数据量,也叫作数据传输速率。比特率越高,音频质量越好,但文件大小也越大。
在数字音频领域中,比特率通常表示为kbps
(千比特每秒)或者Mbps
(兆比特每秒)。例如,128kbps
的MP3
音频表示每秒传输128
千比特的音频数据。高清音频通常需要更高的比特率,否则会因压缩损失而影响音质。
不同的数字音频格式使用不同的比特率。例如,MP3
音频的标准比特率通常为128kbps
或者192kbps
,而Apple Lossless
和FLAC
等无损音频格式则需要更高的比特率以保证音频质量。总之,比特率是数字音频的一个重要指标,它直接影响到音频的质量和存储空间。
9、响度和强度
响度和强度都是声音的感知特性,但它们描述的是不同的方面:
响度是人类主观感受到的声音强度,用分贝(dB
)表示。通常,人们对于听觉上的相同强度,低频和高频声音的响度是不同的。响度与声音的物理特性、频率、振幅等都有关系。相同的振幅,低频声音的响度要高于高频声音的响度。相同的频率,振幅更大的声音响度更高,但人类对于高强度声音的响度感受不如低强度声音强烈。
强度是声波能量传递的测量值,表示单位时间内通过单位面积的能量。强度与声音源的振幅成正比,与声音的传播距离的平方成反比。强度同样也可用分贝表示。它是声波在空气中传播带来的物理现象,与人类听觉感知不同。
10、编码
每个量化值都是一个样本,将所有这些样本进行存储的过程称为编码。
在音视频领域中,编码是指将音频信号或视频信号转换为数字信号,以便于在数字系统中储存、传输、处理和回放。音频编码主要包括有损编码和无损编码两种方式。有损音频编码可以压缩数据的大小,但会丢失一些信息,比如MP3、AAC、WMA
等。无损音频编码则可以达到无失真的压缩,数据大小相对较大,比如FLAC、ALAC
等。视频编码也存在有损和无损两种编码方式,但更多是有损编码。常用的有损视频编码标准有MPEG-1、MPEG-2、MPEG-4、H.264/AVC、H.265/HEVC
等,其中H.264/AVC
和H.265/HEVC
是目前应用最广泛的两种视频编码标准。视频编码主要使用了运动估计、变换编码、量化和熵编码等技术来对视频进行压缩编码。
通常所说的音频裸数据格式就是脉冲编码调制(
PCM
)数据。PCM是一种用于数字音频编码的标准方法,它将模拟音频信号进行采样,并将每个采样值量化为离散的数字值。这些数字值表示音频信号在每个采样点上的振幅,然后以二进制形式存储。PCM
数据是一种常见的音频数据格式,它可以通过将数字值转换为模拟信号来恢复原始的音频信号。
11、音频帧
音频帧是指一段连续的音频数据,包含多个采样点。通常音频帧的长度与采样率和采样位数有关。
12、音频文件大小的计算
文件大小 = 采样率 * 录音时间 * 采样位数 / 8 * 通道数
总结
本文概述了音频的基本概念,如频率、振幅、采样等。并详细介绍了数字音频处理中的一些重要概念,如采样率、采样位数、量化、编码等。后续我会继续跟进的。
为了方便交流,我创建了一个后端和音视频技术的qq群,群号:333138957(可以扫下面的码加群)。
如果你对音视频和后端开发感兴趣,欢迎加入我们进行深入交流。共同学习,携手推进行业发展!
qq群:
微信群: