【音视频开发】为什么无损音频会有44.1Khz这样的奇葩采样率？

news2025/7/15 2:41:05

文章目录

一、问题：为什么无损音频会有44.1Khz这样的奇葩采样率？
二、PCM流程
- 2.1 PCM流程
- 2.2 PCM量化方式
- 2.2 量化位数
- 2.3 比特率
三、答疑解惑
- 3.1 使用采样定理来解释
- 3.2 以影片磁带录音？硬件限制而来的 44.1kHz
- 3.3 关于44100和质数的关系
四、参考链接

一、问题：为什么无损音频会有44.1Khz这样的奇葩采样率？

在这里插入图片描述
相信每一个刚接触音频的玩家，看到44100Hz这种奇葩采样率的时候，脑袋上都会冒出下面这个黑人问号：

二、PCM流程

2.1 PCM流程

PCM: Pluse Code Modulation 脉冲编码调制
在这里插入图片描述

2.2 PCM量化方式

在这里插入图片描述

模拟信号的切细规则是CD格式。
“采样频率为44.1kHz，量化位数为16位”是指以每秒44,100次执行采样，然后以16位精度（从2到16的幂级数）读取电平。运作方式。采样也称为采样，但是采样首先出现，没有采样就无法进行量化。

2.2 量化位数

在这里插入图片描述

2.3 比特率

数据比特率：1秒时间内的比特数目，用于衡量音频数据单位时间内的容量大小。

以CD的音质为例：

量化格式为16比特（2字节）
采样率是44100
声道数为2
这些信息就描述了CD的音质

而对于CD音质的数据，比特率是多少呢？

44100 * 16 * 2 = 1378.125kbps

那么1分钟，这类CD音质的数据需要占据多大的存储空间呢？

1378.125 * 60 / 8 / 1024 = 10.09MB

三、答疑解惑

3.1 使用采样定理来解释

音频采样也是一种信号的转化，即由模拟信号转化为数字信号。既然是信号间的转化，那么它便符合【奈奎斯特采样定理】。

图：奈奎斯特采样定理界面在这里插入图片描述

奈奎斯特采样定理指出，当采样频率低于2倍频谱峰值时，将会出现混淆现象，若超过2倍则不会出现混淆。由于人类的听力范围约为20 Hz至20，000 Hz，因此采样率必须大于40 kHz。

采样定理
根据奈奎斯特定理（Nyquist Theorem），取样频率两倍大于被取样讯号的最大频率，即可重构出原始的被取样讯号。
香农采样定理
奈奎斯特采样定理（Nyquist）

时域采样定理（香农采样定理，又称奈奎斯特采样定理）的表述如下：

频带为 F 的连续信号 f(t) 可用一系列离散的采样值 f(t1), f(t1±Δ t)， f(t1±2Δ t)，…来表示,只要这些采样点的时间间隔 Δ t≤1/2 F，便可根据各采样值完全恢复原来的信号 f(t)。

时域采样定理的另一种表述方式是：

频带为F的连续信号f(t)可用一系列离散的采样值f(t1),f(t1±Δt)，f(t1±2Δt)，…来表示,只要这些采样点的时间间隔Δt≤1/2F，便可根据各采样值完全恢复原来的信号f(t)。时域采样定理的另一种表述方式是：当时间信号函数f(t)的最高频率分量为fM时,f(t)的值可由一系列采样间隔小于或等于1/2fM的采样值来确定,即采样点的重复频率f≥2fM。图为模拟信号和采样样本的示意图。

在这里插入图片描述

但实际上，重构出原始讯号所用来抗混叠（Anti-Aliasing）、消除某频率以上讯号的低通滤波器（Low Pass Filter）并非是理想的，它有个过渡频宽（Transition Band）会导致在这个频宽内的讯号仍被衰减通过。

因此，如果取样频率不足于被取样讯号的最大频率加上其低通滤波器的过渡频宽的两倍，最大频率附近的声音讯号依然会有混叠现象，将会导致讯号失真（Distortion）。

为了完整保留最大声音频率，必须预留过度频宽，典型的过度频宽大小为2050Hz

我们人类的耳朵可捕捉到的声波范围是20~20kHz。所以对于人类来说，超出该范围的声音无意义（反正听不到）。大于20kHz的波称为超声波（超音波），小于20Hz的波称为次声波，超声波和次声波我们人耳都是听不到的。

我们计算采样频率的时候在最大频率20kHz加上过度频宽并乘以2，这也是为何CD是使用44.1kHz作为取样频率的原因，算法如下：

(20000Hz + 2050Hz) * 2 = 44100Hz = 44.1kHz

3.2 以影片磁带录音？硬件限制而来的 44.1kHz

其实不少影音规格、参数有时都是受当时硬件的限制而制定出来，好似因为 CRT 电视的亮度与电压不是成线性正比，于是就有了 Gamma 2.2 这个常见的电视设定，CD 和数码音乐的 44.1kHz 这个奇特数字也是有点类似。

因为早期只有影片录影的磁带才有足够容量来录制一定长度的数码音乐讯号，而当时这类磁带又分为欧洲主流的 PAL 和美国、日本主流的 NTSC 制式，为了减低制作成本，以最少的改动来运用当时现有的器材，于是在取样率方面就要同时迁就 PAL（625 线、50Hz）和 NTSC（525 线、60Hz）的规格。

撇除不可用的线数（e.g. 625 - 37 = 588 线、525 - 35 = 490 线），隔行扫描的线数除以二（e.g. 588 / 2 = 294、490 / 2 = 245），于是就计算出了这个可以共用 PAL 和 NTSC 磁带的取样率：

PAL：   294 × 50 × 3 = 44,100 Hz
NTSC：  245 × 60 × 3 = 44,100 Hz

当中「× 3」是每条线可以储存 3 次取样，而 44.1kHz 也超过了人耳聆听范围 20Hz - 20kHz 所需要的取样率，其后 44.1kHz 也被应用到 1982 年的 CD「Red Book」定义规格当中，于是也沿用至今。

最早的数字录音由一台录像机 + 一部PCM编码器制作的，由于当时使用的是PAL录像制式（帕制，与之对应的有NTSC），场频50Hz，可用扫描线数294条，一条视频扫描线的磁迹中记录3个音频数据块，把他们相乘，就得到了44100这个奇葩数字…（索尼和飞利浦的工程师要背锅）

在这里插入图片描述

7、80 年代的数码录音采用的就是「现成」的录影带（Video Cassette Tape）。
在这里插入图片描述

当年的数码录影、影像系统分为欧洲的 PAL 和美国、日本的 NTSC，虽然来到全高清和 4K 年代仍有 50Hz、60Hz 之分，但近年的电视基本都同时支援，所以大家也没太留意制式的分别了。
在这里插入图片描述
CD 也沿用了 44.1kHz 的取样率规格，所以早期在 rip 碟的时候也是保留 44.1kHz 有最佳音质。

3.3 关于44100和质数的关系

44100 是前四个质数
$（{\displaystyle 2^{2}\cdot 3^{2}\cdot 5^{2}\cdot 7^{2}}）$
，因此具有许多有用的整数因子，对于很多运算来说是个简单的数字。

使用了 44.1 kHz 的各种减半和倍增 –WAV文件中的较低速率 11.025 kHz 和 22.05 kHz，适用于低带宽应用，而较高的 88.2 kHz 和 176.4 kHz 速率用于母带制作和DVD 音频 – 较高的速率对于提供额外分辨率的通常原因都很有用（因此对编辑引入的失真不太敏感），并且还使低通滤波更容易，因为可以实现更大的过渡带（在20 kHz和采样率下的人听觉之间）。88.2 kHz 和 176.4 kHz 速率主要用于最终目标是 CD 的情况。