H264原始码流格式分析

1.H264码流结构组成

H.264裸码流（Raw Bitstream）数据主要由一系列的NALU（网络抽象层单元）组成。每个NALU包含一个NAL头和一个RBSP（原始字节序列载荷）。

1.1 H.264码流层次

H.264码流的结构可以分为两个层次：VCL（视频编码层）和NAL（网络抽象层）。下图为H.264码流中的层次图：

VCL层：负责对视频的原始数据进行压缩。VCL数据编码器直接输出的原始数据比特串（SODB），表示图像被压缩后的编码比特流。

SODB：生成压缩原始的图像编码数据比特串。
编码图像：宏块进行的帧内编码/帧间编码/熵编码等处理。

NAL层：负责将VCL数据封装成NAL单元（NALU），并在网络上传输或存储到磁盘上。每个NAL单元之前需要添加StartCodePrefix，形成H.264码流。NAL层还处理拆包和组包的工作，以适应网络传输的最大传输单元（通常为1500字节）。

1.2 NALU网络层组成

一个NALU由两个主要部分组成：

头部（Header）：

NALU的头部包含了关于该单元的一些元数据信息，例如NAL单元类型（如序列参数集、图像参数集、帧数据单元等），NALU的优先级、参考帧标识、重要性指示等。头部的信息有助于解码器正确解析和处理每个NAL单元。
载荷（Payload）：

NALU的载荷部分包含了实际的编码数据。这些数据可以是帧的视频数据、补充增强信息或其他特定于编码标准的数据。在视频解码过程中，解码器通过解析头部信息来识别NALU的类型，并且根据类型和载荷数据进行相应的解码和处理。

在H.264/AVC中，定义了多种NALU的类型，以适应不同的应用场景。常见的类型包括：

帧内预测（I）片：仅使用当前帧的信息进行编码。

预测（P）片：使用前一帧的信息进行编码。

双向预测（B）片：使用前一帧和后一帧的信息进行编码。

1.3 序列参数集SPS

序列参数集（Sequence Parameter Set，SPS）包含了描述视频序列全局参数的信息，这些参数对于解码器正确解码视频流至关重要。以下是SPS的一些主要内容和结构：

profile_idc：标识H.264码流的profile，例如Baseline、Main、High等。
level_idc：标识码流的Level，定义了最大分辨率、最大帧率等参数。
seq_parameter_set_id：序列参数集的ID，用于标识不同的SPS。
log2_max_frame_num_minus4：用于计算frame_num的最大值，frame_num标识图像的解码顺序。
pic_order_cnt_type：指明图像播放顺序的编码方法。
log2_max_pic_order_cnt_lsb_minus4：用于计算POC（Picture Order Count）的最大值。
max_num_ref_frames：指定参考帧队列的最大长度。
gaps_in_frame_num_value_allowed_flag：指示是否允许frame_num不连续。
pic_width_in_mbs_minus1：图像宽度，以宏块为单位。
pic_height_in_map_units_minus1：图像高度，以宏块为单位。

SPS中的信息对于解码器初始化和正确解码视频流至关重要。如果SPS数据丢失或损坏，解码器可能无法正确解码视频。

1.4 图像参数集PPS

图像参数集（Picture Parameter Set，PPS）包含了与单个图像编码相关的参数，这些参数用于控制图像的编码方式。以下是PPS的一些主要内容和结构：

pic_parameter_set_id：当前PPS的唯一ID，取值范围为0-255。
seq_parameter_set_id：指明该PPS对应的SPS（序列参数集）ID。
entropy_coding_mode_flag：表示使用的熵编码类型，0为CAVLC，1为CABAC。
num_slice_groups_minus1：表示slice group的数量，通常为0。
num_ref_idx_l0_default_active_minus1和num_ref_idx_l1_default_active_minus1：表示P/B slice的前向和后向参考帧的最大个数减1。
weighted_pred_flag：表示P slice的预测权重方式，0为默认预测权重，1为显式方式。
weighted_bipred_flag：表示B slice的预测权重方式，0为默认预测权重，1为显式方式，2为隐式方式。
pic_init_qp_minus26：用于计算Y分量的初始QP值。
chroma_qp_index_offset：表示Cb分量QP相对于slice QP的偏移量。
deblocking_filter_control_present_flag：表示是否存在去块效应滤波器的控制语法元素。
constrained_intra_pred_flag：表示帧内预测方式是否存在限制条件。
transform_8x8_mode_flag：表示是否使用8x8大小的DCT变换方式。
pic_scaling_matrix_present_flag：表示量化参数矩阵是否存在。
second_chroma_qp_index_offset：表示Cr分量QP相对于slice QP的偏移量。

PPS中的信息对于解码器正确解码视频流至关重要。PPS通常紧跟在SPS之后，并且可以有多个，因为不同的slice group可能有不同的参数设置。

2.常用的两种NALU格式

2.1 AnnexB

AnnexB是一种常见的NALU（网络抽象层单元）封装格式，主要用于H.264和H.265视频编码标准。AnnexB格式的基本结构如下：

[开始代码] [NALU单元] [开始代码] [NALU单元] ...

每个NALU单元由一个开始代码和随后的原始字节数据组成，通过分隔符0x00 00 00 01或者0x00 00 01区分不同的NALU单元。如果在RBSP（原始字节流载荷）中出现了0x000000、0x000001、0x000002或0x000003这样的序列，就需要插入一个0x03字节来避免这些序列被误识别。例如，将0x000001变成0x00000301，这样在解码时可以去除0x03字节，恢复原始数据。这种方法确保了数据的完整性和正确解码。例如：

原始数据：0x000001 插入“模拟预防”字节后：0x00000301 解码时去除0x03字节，恢复为：0x000001
原始数据：0x000000 插入“模拟预防”字节后：0x00000300 解码时去除0x03字节，恢复为：0x000000
原始数据：0x000002 插入“模拟预防”字节后：0x00000302 解码时去除0x03字节，恢复为：0x000002
原始数据：0x000003 插入“模拟预防”字节后：0x00000303 解码时去除0x03字节，恢复为：0x000003

如果插入的数据本身包含了“模拟预防”字节（例如0x00000301），编码器会将其转义为0x0000030301。

2.2 AVCC

AVCC（AVC Configuration）格式是一种用于存储和传输H.264视频流的格式，通常用于MP4、MKV等容器中。与Annex B格式不同，AVCC格式不使用起始码（start code）来分隔NALU（网络抽象层单元），而是使用NALU长度前缀。

AVCC格式结构：

头部信息（extradata）：
- 包含SPS（序列参数集）和PPS（图像参数集）等参数信息。
- 头部信息的格式如下：
  - 第1字节：版本号（通常为0x01）
  - 第2字节：AVC Profile（与第一个SPS的第2字节相同）
  - 第3字节：AVC Compatibility（与第一个SPS的第3字节相同）
  - 第4字节：AVC Level（与第一个SPS的第4字节相同）
  - 第5字节：保留位（前6位全1），后2位表示NALU长度字段的字节数减1（通常为3，即4字节）
  - 第6字节：保留位（前3位全1），后5位表示SPS的个数（通常为1）
  - 后续字节：SPS数据（包括16位SPS长度和SPS NALU数据）
  - PPS数据（包括16位PPS长度和PPS NALU数据）
NALU数据：
- 每个NALU前面都有一个长度前缀（通常为4字节），表示该NALU的长度。
- NALU数据不包含起始码。

假设有一个NALU数据为0x65 88 84 21，其长度为4字节。在AVCC格式中，这个NALU会被存储为：

0x00 00 00 04 65 88 84 21

其中，0x00 00 00 04表示NALU的长度为4字节，后面的65 88 84 21是实际的NALU数据。

在解析AVCC格式时，需要先读取头部信息（extradata），然后根据NALU长度前缀来提取每个NALU的数据。

2.3 AnnexB和AVCC的优缺点

Annex B和AVCC是H.264视频编码中常见的两种NALU（网络抽象层单元）封装格式。它们各有优缺点，适用于不同的应用场景。以下是它们的优劣之处：

	Annex B
优点	简单直接：使用起始码（start code）`0x000001`或`0x00000001`来分隔NALU，便于解析和同步。广泛支持：许多硬件解码器和流媒体协议（如RTSP、RTP）默认支持Annex B格式。实时流媒体：适合实时流媒体传输，因为起始码可以快速定位NALU的边界。
缺点	额外开销：起始码会增加一些额外的字节，导致数据冗余。不适合文件存储：在文件存储中，起始码的存在可能会增加文件大小，不如AVCC格式高效。

	AVCC
优点	高效存储：使用NALU长度前缀（通常为4字节）来标识NALU的长度，减少了数据冗余，适合文件存储。灵活性高：适用于多种容器格式（如MP4、MKV），便于在不同平台和设备之间传输和存储。标准化：AVCC格式在许多多媒体框架和库（如FFmpeg、GStreamer）中得到广泛支持。
缺点	解析复杂：需要解析NALU长度前缀，增加了解码器的复杂性。实时性较差：不如Annex B格式适合实时流媒体传输，因为需要额外的步骤来解析NALU长度。