目录
1. 基本知识
2.采样率和采样位数
3.音频编码
4. 声道数
5. 码率
6. 音频格式
日常生活中,音视频随处可见,包括视频、音频、编解码、封装容器、音视频等概念。
1. 基本知识
音频数据的承载方式最常用的是脉冲编码调制,即PCM。于自然界中,声音是连续不断的,是一种模拟信号。将声音保存在计算机中最常用的方法是把声音进行数字化处理,即转换为数字信号,然后存储到磁盘。
声音是一种波,有振幅和频率,保存声音就要保存声音在各个时间点上的振幅,但数字信息并不能连续保存所有时间点的振幅。实际上,并不需要保存连续的信号,也可以还原出人耳可接受的声音。
根据奈奎斯特采样定理,为了不失真地恢复模拟信号,采样频率应该不小于模拟信号频谱中最高频率的2倍。根据以上分析,PCM的采集分为以下步骤:
模拟信号——>采样——>量化——>编码——>数字信号
音频是一个专业术语,人类能够听到的所有声音都成为音频,它可以包括噪声。声音被录制下来后,无论是说话声、歌声、乐器声都可以通过数字音乐软件处理。常见把声音制作成CD时,所有声音并没有改变,因为CD本来就是音频文件的一种类型。
2.采样率和采样位数
采样率,即采样的频率。奈奎斯特采样定理规定采样率要大于原声波最高频率的2倍,人耳能听到的最高频率约为20kHz,所以为满足人耳听觉要求,采样率至少应为40kHz,通常为44.1kHz,更高的频率通常为48kHz。
注:人耳听觉频率范围为[20Hz,20kHz]。
采样位数涉及上面提到的振幅量化。波形振幅在模拟信号上是连续的样本值,而在信号中,数字信号一般是不连续的,所以模拟信号量化后,只能取一个近似的整数值。为了记录这些振幅值,采样器会使用一个固定的位数,通常是8位、16位或者32位。
注:位数越多,记录的值越准确,还原度越高,但是占用的硬盘空间越大。
位数 | 最小值 | 最大值 |
8 | -128 | 127 |
16 | -32 768 | 32 767 |
32 | -2 147 483 648 | 2 147 483 647 |
3.音频编码
因数字信号是由0和1组成的,所以需要将幅度值转换为一系列0和1进行存储,也就是编码,最后得到的数据就是数字信号,即一连串0和1组成的数据。
音频编码是指要在计算机内播放或者处理音频文件,也就是要对声音文件进行数、模转换,这个过程同样由采样和量化构成,人耳所能听到的声音,最低频率是20Hz,最高频率是20kHz。
由于20kHz以上的声音人耳听不见,所以音频文件格式的最大带宽是20kHz,采样速率需要介于40Hz~50kHz,而且对每个样本需要更多的量化位数。
音频数字化的标准是每个样本16位—96dB的信噪比,采用线性脉冲编码调制(PCM),每个量化步长都具有相等的长度。在音频文件的制作中,采用的正式这个标准。
1、取样。对连续信号按一定的时间间隔取样。奈奎斯特取样定理认为,只要取样频率大于等于信号中所包含的最高频率的两倍,则可以根据其取样完全恢复出原始信号,这相当于当信号是最高频率时,每一周期至少要采取两个点。但这只是理论上的定理,在实际操作中,人们用混叠波形,从而使取得的信号更接近原始信号。
2、量化。取样的离散音频要转化为计算机能够表示的数据范围,这个过程称为量化。量化的等级取决于量化精度,也就是用多少位二进制数来表示一个音频数据。一般有8位,12位或16位。量化精度越高,声音的保真度越高。
3、编码。对音频信号取样并量化成二进制,但实际上就是对音频信号进行编码,但用不同的取样频率和不同的量化位数记录声音,在单位时间中,所需存贮空间是不一样的。波形声音的主要参数包括:取样频率、量化位数、声道数、压缩编码方案和数码率等。未压缩前,波形声音的码率计算公式为:波形声音的码率 = 取样频率 × 量化位数 × 声道数 / 8。波形声音的码率一般比较大,所以必需对转换后的数据进行压缩。
4. 声道数
声道数是指所支持的能发不同声音的音响的个数,常见的声道数如下。
- 单声道:1个声道
- 双声道:2个声道
- 立体声道:默认两个声道。
- 立体声道(4声道):4个声道。
5. 码率
码率指一个数据流中每秒能通过的信号量,单位为b/s,8b(位)等于1Byte(比特)。可以用以下公式进行计算:
码率=采样率*采样位数*声道数
6. 音频格式
常见的音频格式有CD、WAVE、MP3、MIDI、AAC、WMA、AC-3等。