音视频封装格式解析（1）——H264格式简析，I/P/B帧是什么？H264压缩原理

文章目录

1. H264编码参数
2. H264编码原理
- 2.1 压缩原理
- 2.2 编码结构解析
3. NALU结构
4. H264 annexb模式
5. 补充说明
- 5.1 I帧
- 5.2 P帧
- 5.3 B帧

1. H264编码参数

视频质量和⽹络带宽占⽤是相⽭盾的。通常情况下，视频流占⽤的带宽越⾼则视频质量也越⾼，需要的⽹络带宽也越⼤。
评判⼀种视频编解码技术的优劣，是⽐较在相同的带宽条件下，哪个视频质量更好；在相同的视频质量条件下，哪个占⽤的⽹络带宽更少（⽂件体积⼩）。然⽽在我们⾁眼分辨的范围内，当码率⾼到⼀定
程度时，就没有什么差别了。所以码率设置有它的最优值
1）pc视频推荐码率

2）手机端视频推荐码率

2. H264编码原理

假设传入帧率25，19201080，的RGB24图像，需要的带宽是：
19201080325 /1024 /1024 = 148.315MB/s = 1186.523Mbps，非常大，所以需要视频压缩和编码技术。
视频由单张图片帧组成，每张图片帧之间的像素块存在相似性，因此可以进行图像压缩。

2.1 压缩原理

H264，采用帧内和帧间压缩（I、P、B帧策略），并采用16*16的分块大小，对视频图像进行压缩编码。
I帧：帧内编码帧，I帧通常是每个GOP的第一个帧，是一个完整图像经过空间压缩后的产物。
P帧：前向预测编码帧，参考前一个（I帧或P帧）的时间冗余信息，以此压缩传输数据量。
B帧：双向预测帧，参考前一个I或P帧及后一个P帧之间的时间冗余信息，以此压缩传输数据量。
压缩率：B>P>I

2.2 编码结构解析

H264为方便网络传输，提供了视频编码和分片策略。
因此H264将其组织成为序列(GOP)、图⽚(pictrue)、⽚(Slice)、宏块(Macroblock)、⼦块(subblock)五个层次。
GOP （图像组）主要⽤作形容⼀个IDR帧到下⼀个IDR帧之间的间隔了多少个帧。
Reference（参考周期）指两个P帧之间的距离。

IDR：即时编码刷新帧，一个序列的第一个图像叫做IDR图像，IDR都是I帧图像。
核心作用：解码重同步，当解码器解码到IDR图像时，立即将参考帧队列清空，将已解码的数据全部输出或抛弃，重新寻找参数集，开始一个新的序列。
IDR之后的图像永远不会使用IDR之前的图像数据进行解码，但I帧可以。

总结：码率不变的前提下，GOP值越⼤，P、B帧的数量会越多，平均每个I、P、B帧所占⽤的字节数就越多，也就更容易获取较好的图像质量；Reference越⼤，B帧的数量越多，同理也更容易获得较好的图像质量。
但并不是GOP值越高，图像质量一定越高，但遇到场景切换时，H264编码器自动强制插入一个IDR帧，此时实际的GOP值减小了。并且，P、B帧是由I帧预测过来的，图像中的错误会传播，知道下一个IDR帧才会恢复，所以不宜设置的过大。
同时，由于P、B帧较为复杂，过多的P、B帧会影响编码效率。

（⼀个序列就是⼀段内容差别不是很⼤的图像编码后⽣成的⼀串数据流。当运动变化⽐较少的时候，⼀个序列可以很⻓，因为运动变化的少就代表图像画⾯的内容变动很⼩，所以就可以编⼀个I帧，然后⼀直P帧、B帧了。当运动变化多时，可能⼀个序列就⽐较短了，⽐如就包含⼀个I帧和3、4个P帧。）

3. NALU结构

H264原始码流，由一个接一个的NALU（网络抽象单元）组成。
NALU结构分为两层，包含视频编码层（VCL）和NAL(⽹络提取层)。
视频编码层（VCL即 Video Coding Layer）：包括核心压缩引擎和块、宏块于片的语法级别定义，尽可能独立于网络进行高效编码。
网络提取层（NAL即NetWork Abstraction Layer）：将VCL产生的比特字符串适配到多元的网络、环境中，覆盖了所有片级以上的语法级别。
RBSP：Raw Byte Sequence Payload。原始字节序列负荷。

SPS：序列参数集，SPS中保存了一组编码视频序列(Coded video sequence)的全局参数。
PPS: 图像参数集，对应的是一个序列中某一副或者某几副图像的参数
I帧、P帧、B帧
发I帧之前，至少要发一次SPS和PPS

在VCL进行数据传输或存储之前，编码的VCL数据被映射或封装进NAL单元。
一个NALU单元=startCode（3、4个字节） + 头部信息（1个字节） + 原始字节序列负荷RBSP

H.264标准指出，当数据流是储存在介质上时，在每个NALU 前添加起始码：0x000001 或 0x00000001，⽤来指示⼀个NALU 的起始和终⽌位置：
在这样的机制下，在码流中检测起始码，作为⼀个NALU得起始标识，当检测到下⼀个起始码时，当前NALU结束。
3字节的0x000001只有⼀种场合下使⽤，就是⼀个完整的帧被编为多个slice（⽚）的时候，包含这些slice的NALU 使⽤3字节起始码。其余场合都是4字节0x00000001的。

0x68 & 0x1f = 0x07 :sps
0x68 & 0x1f = 0x08 :pps
0x68 & 0x1f = 0x05 :I帧

4. H264 annexb模式

ES–Elementary Streams (原始流) 是直接从编码器出来的数据流
container 容器
H264有两种封装：

⼀种是annexb模式，传统模式，有startcode，SPS和PPS是在ES中。
⼀种是mp4模式，⼀般mp4 mkv flv都是mp4模式，没有startcode，SPS和PPS以及其它信息被封装在container中，每⼀个frame前⾯4个字节是这个frame的⻓度。
很多解码器只⽀持annexb这种模式，因此需要将mp4做转换：在ffmpeg中⽤ h264_mp4toannexb_filter可以做转换。

    // 转成annexb模式
    // 1 获取相应的比特流过滤器
    //FLV/MP4/MKV等结构中，h264需要h264_mp4toannexb处理。添加SPS/PPS等信息。
    const AVBitStreamFilter *bsfilter = av_bsf_get_by_name("h264_mp4toannexb");
    AVBSFContext *bsf_ctx = NULL;
    // 2 初始化过滤器上下文
    av_bsf_alloc(bsfilter, &bsf_ctx); //AVBSFContext;
    // 3 添加解码器属性
    avcodec_parameters_copy(bsf_ctx->par_in, ifmt_ctx->streams[idx]->codecpar);
    av_bsf_init(bsf_ctx);

    av_bsf_send_packet  av_bsf_receive_packet

5. 补充说明

I P B三种帧的说明

5.1 I帧

I帧:帧内编码帧，I帧表示关键帧，你可以理解为这⼀帧画⾯的完整保留；解码时只需要本帧数
据就可以完成（因为包含完整画⾯）
I帧特点:

它是⼀个全帧压缩编码帧。它将全帧图像信息进⾏JPEG压缩编码及传输;
解码时仅⽤I帧的数据就可重构完整图像;
I帧描述了图像背景和运动主体的详情;
I帧不需要参考其他画⾯⽽⽣成;
I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量);
I帧是帧组GOP的基础帧(如果为IDR则为第⼀帧),在⼀组中只有⼀个IDR帧，⼀个或多个I
帧(包括IDR帧);
I帧不需要考虑运动⽮量;
I帧所占数据的信息量⽐较⼤。

5.2 P帧

P帧:前向预测编码帧。P帧表示的是这⼀帧跟之前的⼀个关键帧（或P帧）的差别，解码时需
要⽤之前缓存的画⾯叠加上本帧定义的差别，⽣成最终画⾯。（也就是差别帧，P帧没有完整
画⾯数据，只有与前⼀帧的画⾯差别的数据）

P帧的预测与重构:P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动⽮量,取预测
差值和运动⽮量⼀起传送。在接收端根据运动⽮量从I帧中找出P帧“某点”的预测值并与差值
相加以得到P帧“某点”样值,从⽽可得到完整的P帧。

P帧特点:

P帧是I帧后⾯相隔1~2帧的编码帧;
P帧采⽤运动补偿的⽅法传送它与前⾯的I或P帧的差值及运动⽮量(预测误差);
解码时必须将I帧中的预测值与预测误差求和后才能重构完整的P帧图像;
P帧属于前向预测的帧间编码。它只参考前⾯最靠近它的I帧或P帧;
P帧可以是其后⾯P帧的参考帧,也可以是其前后的B帧的参考帧;
由于P帧是参考帧,它可能造成解码错误的扩散;
由于是差值传送,P帧的压缩⽐较⾼。

5.3 B帧

B帧:双向预测内插编码帧。B帧是双向差别帧，也就是B帧记录的是本帧与前后帧的差别，换⾔之，要解码B帧，不仅要取得之前的缓存画⾯，还要解码之后的画⾯，通过前后画⾯的与本帧数据的叠加取得最终的画⾯。B帧压缩率⾼，但是解码时CPU会⽐较累。

B帧的预测与重构：
B帧以前⾯的I或P帧和后⾯的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动⽮量,并
取预测差值和运动⽮量传送。接收端根据运动⽮量在两个参考帧中“找出(算出)”预测值并与
差值求和,得到B帧“某点”样值,从⽽可得到完整的B帧。

B帧特点：
1）B帧是由前⾯的I或P帧和后⾯的P帧来进⾏预测的;
2）B帧传送的是它与前⾯的I或P帧和后⾯的P帧之间的预测误差及运动⽮量;
3）B帧是双向预测编码帧;
4）B帧压缩⽐最⾼,因为它只反映两参考帧间运动主体的变化情况,预测⽐较准确;
5）B帧不是参考帧,不会造成解码错误的扩散。
注:I、B、P各帧是根据压缩算法的需要，是⼈为定义的,它们都是实实在在的物理帧。⼀般来
说，I帧的压缩率是7（跟JPG差不多），P帧是20，B帧可以达到50。可⻅使⽤B帧能节省⼤量
空间，节省出来的空间可以⽤来保存多⼀些I帧，这样在相同码率下，可以提供更好的画质。