音频处理关键知识点

1 引言

现实生活中，我们听到的声音都是时间连续的，我们称为这种信号叫模拟信号。模拟信号需要进行数字化以后才能在计算机中使用。

目前我们在计算机上进行音频播放都需要依赖于音频文件。音频文件的生成过程是将声音信息采样、量化和编码产生的数字信号的过程，人耳所能听到的声音，最低的频率是从20Hz起一直到最高频率20KHZ，因此音频文件格式的最大带宽是20KHZ。根据奈奎斯特的理论，只有采样频率高于声音信号最高频率的两倍时，才能把数字信号表示的声音还原成为原来的声音，所以音频文件的采样率一般在40~50KHZ，比如最常见的CD音质采样率44.1KHZ。

2 音频信号

音频信号（audio signals）是表示机械波的信号，是机械波的波长、强度变化的信息载体。根据机械波的特征，可分为规则信号和不规则信号。其中规则信号又可以分为音乐等。规则信号是一种连续变化的模拟信号，可用一条连续的曲线来表示。

音频信号常见的分为：

语音信号
音乐信号

3 音频信号的模数转换

模数转换是指：现实中声音的模拟信号转换为数字信号的过程。

模数转换过程会经过一系列的信号处理过程：模拟信号-->采样->量化->编码->数字信号。

音频模拟信号-->数字信号转换

模拟信号经过->抽样->量化->编码->数字信号

下面以麦克风的声音采集举例：

首先，声波通过空气传播到麦克风的振膜。
然后，振膜随空气抖动的振幅大小产生相应的电学信号。我们把这种带有声学表征的电学信号叫做模拟信号（Analog Signal）。
最后，通过 A/DC（模数转换器）将模拟信号转换成数字信号（Digital Signal）。即通过 PCM（Pulse Code Modulation）脉冲编码调制对连续变化的模拟信号进行抽样、量化和编码转换成离散的数字信号。

4 声音的三要素

声音的三要素分别是音调、音量、音色，具体如下：

音调：指的是声音频率的高低，表示人的听觉分辨一个声音的调子高低的程度，物体振动的快，发出的声音的音调就高，振动的慢，发出的音调就低。
音量：又称音强、响度，指声音的振幅大小，表示人耳对所听到的声音大小强弱的主观感受。
音色：又称音品，指不同声音表现在波形方面总是有与众不同的特性，不同的物体振动都有不同的特点，反映每个物体发出的声音的特有的品质，音色具体由谐波决定，好听的声音绝不仅仅是一个正弦波，而是谐波。

5 采样率sample rate

采样： 波是无限光滑的，采样的过程就是从波中抽取某些点的频率值，就是把模拟信号数字化。如下图所示：（蓝色代表模拟音频信号，红色代表采样得到的量化数值）

采样率：采样率就是 1 秒内采集到的采样点的个数，一般用赫兹 Hz 来表示。采样率是指将模拟信号转换成数字信号时的采样频率，人耳能听到的声音一般在 20Hz~20KHz 之间，根据采样定理，采样频率大于信号中最高频率的 2 倍时，采样之后的数字信号便能完整的反应真实信号，也就是说采样率和保留的声音频率基本上是 2 倍的关系.

由上图我们可以看到，16kHz 采样率的音频在 8kHz 以上的频谱基本是没有能量的（黑色），也就是说这部分高频的信息由于采样率不够已经丢失了。从听感上来说人耳可以听到的频率范围大概是 50～20kHz 之间。如果采样率不够，那么和实际听感比起来声音就会显得“低沉”或者说“闷”。

用多大的采样率取决于业务场景,下面列举了常见业务场景的采样率：

8,000 Hz - voip电话所用采样率, 对于人的说话已经足够
11,025 Hz-AM调幅广播所用采样率
22,050 Hz和24,000 Hz- FM调频广播所用采样率
32,000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率
44,100 Hz - 音频 CD, 也常用于 MPEG-1 音频（VCD, SVCD, MP3）所用采样率
47,250 Hz - 商用 PCM 录音机所用采样率
48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率
50,000 Hz - 商用数字录音机所用采样率
96,000 或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音轨、BD-ROM（蓝光盘）音轨、和 HD-DVD （高清晰度 DVD）音轨所用所用采样率
2.8224 MHz - Direct Stream Digital 的 1 位 sigma-delta modulation 过程所用采样率。

采样越高，声音的还原就越真实越自然，人对频率的识别范围是 20HZ - 20000HZ, 如果每秒钟能对声音做 20000 个采样, 回放时就足可以满足人耳的需求. 所以 22050 的采样频率是常用的, 44100已是CD音质, 超过48000的采样对人耳已经没有意义。这和电影的每秒 24 帧图片的道理差不多。

重采样：主要是分为上采样和下采样，在进行采样的过程中，需要注意采样的倍率的问题，并不是可以随意的改变采样率的大小的，根据采样定理：在进行模拟/数字信号的转换过程中，当采样频率大于信号中最高频率的2倍时，采样之后的数字信号完整地保留了原始信号中的信息，一般实际应用中保证采样频率为信号是最高频率的5~10倍。采样定理又称奈奎斯特定理。

上采样：在进行采样的过程中，通常是分为上采样和下采样的，而区分的依据是重新采样的时候新采样率和原采样率的大小的比较，如果是大于原信号就成为是上采样，如果是小于原信号就称为下采样。而上采样的实质也就是内插或插值。
下采样：新的采样率的大小小于原采样率的大小。
方法：重采样的时候，主要是有最邻近法、双线性内插法以及三次卷积内插法这三种。在卷积网络中还有反卷积，亚像素卷积等。

6 采样位深Sample Bits

也叫采样位宽，采样深度，量化精度，采样后需要量化，每个采样点会有对应量化的数值，采样位深也就是每个采样点用多少 bit 来表示。从物理意义上来说，位深代表的是振动幅度的表达精确程度或者说粒度

"采样频率"和"采样位数"是数字化声音的两个最基本要素，相当于视频中的屏幕大小
（例如800*600）和颜色分辨率（例如24bit）。

音频量化的量化位数常用的有：

8bit (也就是1字节) 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级;
16bit (也就是2字节) 可以细到 65536 个数, 这已是 CD 标准了;
24bit (3字节) 振幅可以达到1677216，DVD的标准
32bit (也就是4字节) 能把振幅细分到 4294967296 个等级, 实在是没必要了

常用场景：

网络电话中用的就是 16bit 的位深，这样不太会影响听感，并且存储和传输的耗费也不是很大。
音乐或者更高保真度要求的场景中则可以使用 32bit 甚至 64bit 的位深来减少失真。

7 声道Sound Channel

也叫通道，声道是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号，所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。

音频声道是音频信号的独立通道，用于录制、存储和播放声音。音频声道的类型和配置直接影响听众的听觉体验。从单声道的简单配置到复杂的多声道环绕声系统，不同的声道配置被设计用来满足不同的音频播放需求，从基础的通信到高质量的音乐和电影欣赏。随着技术的进步，三维音频和立体声扩展等更先进的系统正在变得越来越普及，为用户带来更加沉浸和真实的听觉体验。

声道的分类如下：

单声道（Mono）

定义：单声道是最基本的声道类型，所有的声音都通过一个单一的声道播放。

特点：单声道无法提供空间感，所有声源好像都来自同一个点。

应用：常用于电话通信、无线电广播以及某些类型的语音录制。

立体声（Stereo）

定义：立体声使用两个声道（左和右）来播放声音，提供比单声道更丰富的听觉体验。

特点：通过左右声道的不同，立体声能够模拟空间中的声音位置，给听者一种声音在空间中分布的感觉。

应用：广泛应用于音乐、电影、电视和广播中。

3. 多声道

A. 5.1环绕声

配置：包含前左、前中、前右、后左、后右五个全频声道，加上一个低频效果声道（.1）。

特点：能够在水平平面上提供全方位的声音体验，常用于家庭影院系统。

B. 7.1环绕声

配置：在5.1环绕声的基础上增加了两个后环绕声道。

特点：提供更加立体和包围感强的声音效果，常见于电影院和高端家庭影院。