ffmpeg音频编码

news2025/4/4 21:49:51

音视频播放的流程

根据我之前的文章我们已经从解复用，解码得到原始数据，现在我们逆向，将frame转化packet。也就是原始数据转化为压缩后的数据文件。

介绍

PCM样本格式

PCM(Pulse Code Modulation，脉冲编码调制)⾳频数据是未经压缩的⾳频采样数据裸流，它是由模拟信号经过采样、量化、编码转换成的标准数字⾳频数据。

描述PCM数据的6个参数：

1. Sample Rate : 采样频率。8kHz(电话)、44.1kHz(CD)、48kHz(DVD)。
2. Sample Size : 量化位数。通常该值为16-bit。
3. Number of Channels : 通道个数。常⻅的⾳频有⽴体声(stereo)和单声道(mono)两种类型，⽴体声包含左声道和右声道。另外还有环绕⽴体声等其它不太常⽤的类型。
4. Sign : 表示样本数据是否是有符号位，⽐如⽤⼀字节表示的样本数据，有符号的话表示范围为-128 ~127，⽆符号是0 ~ 255。有符号位16bits数据取值范围为-32768~32767。
5. Byte Ordering : 字节序。字节序是little-endian还是big-endian。通常均为little-endian也就是低位数据存储低字节。
6. Integer Or Floating Point : 整形或浮点型。⼤多数格式的PCM样本数据使⽤整形表示，⽽在⼀些对精度要求⾼的应⽤⽅⾯，使⽤浮点类型表示PCM样本数据（浮点数 float值域为 [-1.0, 1.0]）。

ffplay使⽤示例如下： //播放格式为f32le，双声道，采样频率48000Hz的PCM数据
ffplay -f f32le -ac 2 -ar 48000 pcm_audio

FFmpeg⽀持的PCM数据格式

使⽤ffmpeg -formats命令，获取ffmpeg⽀持的⾳视频格式，其中我们可以找到⽀持的PCM格式。

s是有符号，u是⽆符号，f是浮点数。 be是⼤端，le是⼩端。

DE u16be PCM unsigned 16-bit big-endian
DE f64be PCM 64-bit floating-point big-endian

FFmpeg中Packed和Planar的PCM数据区别

1.FFmpeg中⾳视频数据基本上都有Packed和Planar两种存储⽅式，对于双声道⾳频来说，
Packed⽅式为两个声道的数据交错存储；Planar⽅式为两个声道分开存储。假设⼀个L/R为⼀个采样点，数据存储的⽅式如下所示：

Packed: L R L R L R L R
Planar: L L L L ... R R R R...

2.FFmpeg默认的AAC编码器不⽀持AV_SAMPLE_FMT_S16格式的编码，只⽀持
AV_SAMPLE_FMT_FLTP，这种格式是按平⾯存储，样点是float类型，所谓平⾯也就是每个声道单独存储，⽐如左声道存储到data[0]中，右声道存储到data[1]中。

3.FFmpeg⾳频解码后和编码前的数据是存放在AVFrame结构中的。
Packed格式，frame.data[0]或frame.extended_data[0]包含所有的⾳频数据中。
Planar格式，frame.data[i]或者frame.extended_data[i]表示第i个声道的数据（假设声道0是第⼀个）, AVFrame.data数组⼤⼩固定为8，如果声道数超过8，需要从frame.extended_data获取声道数据。

packed格式  只能保存在AVFrame的	
uint8_t *data[0] L uint8_t *data[1] R 偶左奇右
AV_SAMPLE_FMT_U8, ///< unsigned 8 bits
AV_SAMPLE_FMT_S16, ///< signed 16 bits
AV_SAMPLE_FMT_S32, ///< signed 32 bits
AV_SAMPLE_FMT_FLT, ///< float
AV_SAMPLE_FMT_DBL, ///< double

planar格式 planar为FFmpeg内部存储⾳频使⽤的采样格式，所有的Planar格式后⾯都有字⺟P标识。
1 AV_SAMPLE_FMT_U8P, ///< unsigned 8 bits, planar
2 AV_SAMPLE_FMT_S16P, ///< signed 16 bits, planar
3 AV_SAMPLE_FMT_S32P, ///< signed 32 bits, planar
4 AV_SAMPLE_FMT_FLTP, ///< float, planar
5 AV_SAMPLE_FMT_DBLP, ///< double, planar
6 AV_SAMPLE_FMT_S64, ///< signed 64 bits
7 AV_SAMPLE_FMT_S64P, ///< signed 64 bits, planar


uint8_t *data[0];  plane 0: LLLLLLLLLLLLLLLLLLLLLLLLLL...
uint8_t *data[1];  plane 1: RRRRRRRRRRRRRRRRRRRR....

补充说明

Planar模式是ffmpeg内部存储模式，我们实际使⽤的⾳频⽂件都是Packed模式的。
FFmpeg解码不同格式的⾳频输出的⾳频采样格式不是⼀样。测试发现，其中AAC解码输出的数据为浮点型的 AV_SAMPLE_FMT_FLTP 格式，MP3解码输出的数据为 AV_SAMPLE_FMT_S16P 格式（使⽤的mp3⽂件为16位深）。具体采样格式可以查看解码后的AVFrame中的format成员或编解码器的AVCodecContext中的sample_fmt成员。
Planar或者Packed模式直接影响到保存⽂件时写⽂件的操作，操作数据的时候⼀定要先检测⾳频采样格式。

PCM字节序

big endian是指低地址存放最⾼有效字节
little endian则是低地址存放最低有效字节
举例0x12345678
--> Big Endian
| 12 | 34 | 56 | 78 |
--> little endian
| 78 | 56 | 34 | 12 |
-->
所有⽹络协议都是采⽤big endian的⽅式来传输数据的。所以也把big endian⽅式称之为⽹络字节序。当两台采⽤不同字节序的主机通信时，在发送数据之前都必须经过字节序的转换成为⽹络字节序后再进⾏传输。

ffmpeg音频编码流程

重要api说明
avcodec_find_encoder：根据指定的AVCodecID查找注册的编码器。
avcodec_alloc_context3：为AVCodecContext分配内存。
avcodec_open2：打开编码器。
avcodec_send_frame：将AVFrame⾮压缩数据给编码器。
avcodec_receive_packet：获取到编码后的AVPacket数据，收到的packet需要⾃⼰释放内存。
av_frame_get_buffer: 为⾳频或视频帧分配新的buffer。在调⽤这个函数之前，必须在AVFame上设置好以下属性：format(视频为像素格式，⾳频为样本格式)、nb_samples(样本个数，针对⾳频)、channel_layout(通道类型，针对⾳频)、width/height(宽⾼，针对视频）。
av_frame_make_writable：确保AVFrame是可写的，使⽤av_frame_make_writable()的问题是，在最坏的情况下，它会在您使⽤encode再次更改整个输⼊frame之前复制它. 如果frame不可写，av_frame_make_writable()将分配新的缓冲区，并复制这个输⼊input frame数据，避免和编码器需要缓存该帧时造成冲突。
av_samples_fill_arrays 填充⾳频帧

对于 flush encoder的操作：
编码器通常的冲洗⽅法：调⽤⼀次 avcodec_send_frame(NULL)(返回成功)，然后不停调⽤
avcodec_receive_packet() 直到其返回 AVERROR_EOF，取出所有缓存帧，avcodec_receive_packet() 返回 AVERROR_EOF 这⼀次是没有有效数据的，仅仅获取到⼀个结束标志