1. 基本知识

音频数据的承载方式最常用的是脉冲编码调制，即PCM。于自然界中，声音是连续不断的，是一种模拟信号。将声音保存在计算机中最常用的方法是把声音进行数字化处理，即转换为数字信号，然后存储到磁盘。

声音是一种波，有振幅和频率，保存声音就要保存声音在各个时间点上的振幅，但数字信息并不能连续保存所有时间点的振幅。实际上，并不需要保存连续的信号，也可以还原出人耳可接受的声音。

根据奈奎斯特采样定理，为了不失真地恢复模拟信号，采样频率应该不小于模拟信号频谱中最高频率的2倍。根据以上分析，PCM的采集分为以下步骤：

模拟信号——>采样——>量化——>编码——>数字信号

音频是一个专业术语，人类能够听到的所有声音都成为音频，它可以包括噪声。声音被录制下来后，无论是说话声、歌声、乐器声都可以通过数字音乐软件处理。常见把声音制作成CD时，所有声音并没有改变，因为CD本来就是音频文件的一种类型。

2.采样率和采样位数

采样率，即采样的频率。奈奎斯特采样定理规定采样率要大于原声波最高频率的2倍，人耳能听到的最高频率约为20kHz，所以为满足人耳听觉要求，采样率至少应为40kHz,通常为44.1kHz，更高的频率通常为48kHz。

注：人耳听觉频率范围为[20Hz,20kHz]。

采样位数涉及上面提到的振幅量化。波形振幅在模拟信号上是连续的样本值，而在信号中,数字信号一般是不连续的，所以模拟信号量化后，只能取一个近似的整数值。为了记录这些振幅值，采样器会使用一个固定的位数，通常是8位、16位或者32位。

注：位数越多，记录的值越准确，还原度越高，但是占用的硬盘空间越大。

音频采样位数
位数	最小值	最大值
8	-128	127
16	-32 768	32 767
32	-2 147 483 648	2 147 483 647

3.音频编码

因数字信号是由0和1组成的，所以需要将幅度值转换为一系列0和1进行存储，也就是编码，最后得到的数据就是数字信号，即一连串0和1组成的数据。

音频编码是指要在计算机内播放或者处理音频文件，也就是要对声音文件进行数、模转换，这个过程同样由采样和量化构成，人耳所能听到的声音，最低频率是20Hz，最高频率是20kHz。

由于20kHz以上的声音人耳听不见，所以音频文件格式的最大带宽是20kHz，采样速率需要介于40Hz~50kHz，而且对每个样本需要更多的量化位数。

音频数字化的标准是每个样本16位—96dB的信噪比，采用线性脉冲编码调制（PCM），每个量化步长都具有相等的长度。在音频文件的制作中，采用的正式这个标准。

1、取样。对连续信号按一定的时间间隔取样。奈奎斯特取样定理认为，只要取样频率大于等于信号中所包含的最高频率的两倍，则可以根据其取样完全恢复出原始信号，这相当于当信号是最高频率时，每一周期至少要采取两个点。但这只是理论上的定理，在实际操作中，人们用混叠波形，从而使取得的信号更接近原始信号。

2、量化。取样的离散音频要转化为计算机能够表示的数据范围，这个过程称为量化。量化的等级取决于量化精度，也就是用多少位二进制数来表示一个音频数据。一般有8位，12位或16位。量化精度越高，声音的保真度越高。

3、编码。对音频信号取样并量化成二进制，但实际上就是对音频信号进行编码，但用不同的取样频率和不同的量化位数记录声音，在单位时间中，所需存贮空间是不一样的。波形声音的主要参数包括：取样频率、量化位数、声道数、压缩编码方案和数码率等。未压缩前，波形声音的码率计算公式为：波形声音的码率 = 取样频率 × 量化位数 × 声道数 / 8。波形声音的码率一般比较大，所以必需对转换后的数据进行压缩。