系统化学习 H264视频编码（01）基础概念

说明：我们参考黄金圈学习法（什么是黄金圈法则?->模型黄金圈法则，本文使用：why-what）来学习音H264视频编码。本系列文章侧重于理解视频编码的知识体系和实践方法，理论方面会更多地讲清楚音视频中概念的起源以及各个概念的联系。知其然，知其所以然。同时更强调知识系统的建立。

针对本文，我们先解决最关键的问题，那就是为什么要进行视频编码？视频编码解决什么问题？

1 为什么要进行音视频的编码？（why）

音视频编码主要解决了以下关键问题：

减少数据量和降低传输带宽：通过压缩技术显著减少原始音视频数据的大小，适应有限的网络带宽，实现高效传输。
提高存储效率：压缩数据使得在相同存储空间内可以保存更多的音视频内容，提升了存储设备的使用效率。
消除冗余：编码技术通过预测和统计方法减少音视频中的时间和空间冗余，进一步降低数据量。
适应不同网络和设备，保证质量：编码允许根据不同网络条件和设备性能调整音视频流的质量，同时保持可接受的数据质量。

有了前面的了解，接下来我们开始研究H264的基础知识：H264的发展、视频封装格式和文件格式、。也就是what。

2 H264基础知识（what）

2.1 视频编码发展史

2.1.1 视频编码发展史简介（what）

H.264编码作为当前广泛使用的视频编码标准，其发展历史可以追溯到早期的视频编码技术。以下是从H.261和MPEG-1一直到H.264、H.265的演进历史。这里用一张图来表示视频编码发展史，具体如下所示：

其中涉及编码格式的关键内容解释如下：

H.261：1988年，国际电信联盟ITU-T发布了H.261标准，这是首个为视频会议和可视电话等应用设计的低码率视频编码标准。H.261采用了基于波形的混合编码方法，引入了宏块（Macroblock）和基于宏块的运动补偿（Motion Compensation），奠定了现代视频编码的基础。
MPEG-1：1991年，国际标准化组织ISO推出了MPEG-1标准，主要用于视频信息的存储和传输，例如VCD。MPEG-1继承了H.261的一些特性，并引入了双向预测帧和亚像素精度的运动补偿等新技术。
H.263：作为H.261的改进版，ITU-T在1995年推出了H.263标准，针对低于64kb/s的窄带通信信道进行了优化。H.263增加了半像素运动补偿和更高效的编码模式，提高了压缩效率。
MPEG-2：1994年，MPEG-2标准发布，它在MPEG-1的基础上增加了对隔行扫描的支持，适用于DVD视频、数字电视和HDTV传输系统。MPEG-2成为了全球广泛使用的视频编码格式。
MPEG-4：1999年，MPEG-4 Visual标准发布，它是一个更为复杂和灵活的编码框架，支持多种Profile和Level，从简单的编码到支持4K分辨率和高色彩采样的编码。
H.264/AVC：经过多年的研究和发展，H.264/AVC在2003年由ITU-T和ISO/IEC联合发布。H.264结合了之前标准的优点，并引入了新的编码技术，如更灵活的宏块划分、更多的参考帧、先进的帧内预测和高压缩比的数据压缩算法。H.264在压缩效率、图像质量和网络适应性方面都有显著提升，成为互联网上视频编码的主流标准。
H.265/HEVC：H.265编码的历史可以追溯到2004年，当时ITU-T视频编码专家组（VCEG）开始研究新技术以创建新的视频压缩标准5。2005年，VCEG开始将某些主题指定为“关键技术领域”（KTA）以供进一步研究，并建立了KTA代码库来评估这些技术15。2009年，实验结果显示，与H.264/AVC High Profile相比，平均比特率减少了约20%，这促使MPEG与VCEG合作启动了新的标准化工作5。2013年1月，HEVC标准的第一个版本被批准并于同年6月发布

H.264的发展历程是视频编码技术不断进步和优化的过程，每一次标准的更新都旨在提供更高的压缩效率和更好的图像质量，同时适应不断变化的网络和存储需求。随着技术的发展，H.264之后又出现了H.265/HEVC等更高效的编码标准，继续推动视频编码技术向前发展。

2.1.2 视频编码持续发展，到底发展了个啥？（why）

从H.261和MPEG-1到H.264、H.265的演进，主要解决和应对以下几个问题和需求：

提高压缩效率：随着技术的发展和应用需求的提升，对视频质量的要求越来越高，同时对存储和传输带宽的需求也越来越大。每一代新的编码标准都致力于提供更高的压缩效率，以减少所需的存储空间和传输带宽。
支持更高分辨率和帧率：随着显示技术的进步，消费者对高清晰度视频（如HD、4K、8K）的需求不断增长。新的编码标准需要能够支持这些更高分辨率和帧率的视频内容，同时保持合理的文件大小和传输速率。
改善视频质量：在相同或更低的比特率下，新一代编码标准旨在提供更好的视频质量，包括更少的压缩伪影、更高的色彩精度和更宽的动态范围。
适应新的应用场景：随着互联网和移动设备的普及，视频内容的分发和消费方式发生了变化。新的编码标准需要适应流媒体、实时通信、移动视频等新兴应用的需求。
解决版权和许可问题：随着市场对开放标准的需求增加，新一代编码标准也在寻求更合理的版权和许可模式，以降低采用新技术的门槛。
提升错误恢复和网络适应性：网络环境复杂多变，新的编码标准需要更好地处理数据传输中的错误和丢包，提供更强的网络适应性和错误恢复能力。
支持并行处理和硬件加速：随着计算硬件的发展，新的编码标准需要更好地利用多核处理器、GPU和其他硬件加速技术，以提高编码和解码的效率。
满足国际标准和兼容性：为了确保全球范围内的互操作性和兼容性，视频编码标准需要经过国际标准化组织的严格审查和认可。

总的来说，大框架是已经固定了的。视频编码标准的演进其实就是一个不断追求更高效率、更好质量、更广泛应用和更合理成本的过程。每一代新标准的推出都是对现有技术的改进和对新需求的响应。大框架不变，细节处持续迭代更新。

2.1.3 常见的视频编码方式总结

随着历史不断的演进，一些标准慢慢消失，一些标准被保留下来，接下来介绍那些被最终保留下来的历史赢家：

H.264(AVC，Advanced Video Coding)：由ITU-T组织主导，是一种视频压缩标准，广泛使用的高精度视频的录制、压缩和发布格式。
H.265(HEVC，High Efficiency Video Coding)：由ITU-T组织主导，也是一种视频压缩标准，是H.264/MPEG-4 AVC 的继任者。HEVC被认为不仅提升图像质量，同时也能达到H.264/MPEG-4 AVC两倍之压缩率（等同于同样画面质量下比特率减少了50%），可支持4K分辨率甚至到超高画质电视，最高分辨率可达到8K的分辨率。
MPEG系列（MPEG-1、MPEG-2、MPEG-4）：由ISO下属的MPEG组开发，MPEG-1主要解决多媒体的存储问题，它的成功制定，使得以VCD和MP3为代表的MPEG-1产品迅速在世界范围内普及。MPEG格式目前有三个压缩标准；MPEG-2用于HDTV 以及数字电视等；MPEG-4是为了播放流式媒体的高质量视频而专门设计的，以求使用最少的数据获得最佳的图像质量。（为啥没有MPEG－3编码，因为这个项目原本目标是为高分辨率电视（HDTV ）设计，随后发现MPEG-2已足够HDTV应用，故MPEG-3的研发便中止）
VP8、VP9：谷歌研发，主要用于分别对标 H264编码和 H265编码，后针对VP9编码进行多项优化后推出新编解码器AV1（AV1是Google VP10、Mozilla Daala以及Cisco Thor三款开源编码项目共同研发成果。AV1打破了之前编码标准中传统的二维运动矢量模型的限制，第一次引入了仿射变换运动模型，不仅可以描述平移运动，同时可以更好的表述如旋转、缩放等更加复杂的运动，有效的提升了视频编码效率）。

2.2 视频封装格式和文件格式解读

2.2.1 什么是视频封装格式和文件格式

视频封装格式，也常被称为容器格式（Container Format），是一种将视频、音频、字幕以及其他流数据封装在一起以便存储和传输的文件格式。封装格式并不涉及视频或音频数据的具体编码方式，它只是定义了如何将这些数据组织起来。像AVI(Audio Video Interleaved)、MPEG(Moving Picture Experts Group)、WMV(Windows Media Video)是⼀种视频封装格式，相当于⼀种储存视频信息的容器。

视频文件格式，是指用于存储和传输视频数据的特定方式，它定义了视频文件如何组织数据，包括视频编码、音频编码、元数据、字幕和其他流信息。比如我们知道Windows系统中的视频⽂件名都有后缀，XXX.avi、XXX.rm、XXX.flv等。

常见的几种视频封装格式和文件格式之间的对应关系如下表所示：

2.2.2 为什么会有一堆封装格式和文件格式的标准？

从技术角度来看，一种标准是最佳的，然而历史从来不会这么发展。从企业发展和市场角度来看，存在多种视频编码和封装标准的原因主要包括：

市场竞争：不同的企业可能开发自己的标准来获得市场竞争优势，通过技术创新来吸引用户和客户。
专利和授权：技术标准可能涉及专利权，企业通过开发自己的标准来控制专利授权，从而获得潜在的许可收入。
满足特定需求：不同的市场和应用场景可能需要特定的功能和特性，多种标准可以更好地满足这些多样化的需求。
创新推动：标准的竞争可以促进技术的创新和发展，推动整个行业向前发展。
兼容性和过渡：在技术演进过程中，为了保持向后兼容性，可能需要开发新的标准来逐步替代旧标准。
行业分割：不同的行业可能根据特定的需求和规范发展自己的标准。
法规和政策：政府法规和政策可能影响技术标准的发展和采用。
开放标准与专有标准：开放标准和专有标准之间的竞争，其中开放标准通常免费提供给所有用户，而专有标准可能涉及版权和许可费用。
风险分散：企业可能参与多个标准的发展，以分散技术投资风险。
全球化挑战：全球市场存在多样性，不同的地区可能偏好或要求使用不同的标准。
用户习惯：用户可能对特定格式或标准有使用习惯，改变这些习惯需要时间和教育成本。
生态系统建设：围绕特定标准可能已经建立了完整的生态系统，包括硬件、软件、工具和专业知识，这为新标准的采纳带来挑战。

尽管从技术角度来看，一种统一的标准可能是最理想的，但由于上述市场和商业因素，导致了多种标准并存的现象。随着技术的发展和市场的变化，一些标准可能会逐渐被淘汰或合并，而新的标准可能会出现以满足新的需求。

2.3 宏块的概念

2.3.1 什么是宏块？（what）

宏块是视频编码中的基本处理单元，它是视频帧中划分出来的固定大小的矩形区域，用于进行编码操作，如预测、变换和量化等，以实现数据压缩。

宏块(macro block)的理解：视频帧被送到H264 编码器的缓冲中时，编码器为每一幅图片划分宏块。H264 编码默认是使用 16X16 像素大小的区域作为一个宏块（注意：H265使用的是最大64X64像素大小的区域），视频中的一帧图像划分成宏块的效果如下：

同时在上图中我们实际上还可以在 16X16 像素的宏块上更划分出更小的子块。子块的大小可以是 8X16､ 16X8､ 8X8､ 4X8､ 8X4､ 4X4非常灵活。而再次划分成子块的目的就是用很小的数据去记录这个数据。

2.3.2 为什么引入宏块？（why）

引入宏块作为视频编码的基本单元，主要原因包括：

提高压缩效率：宏块允许编码器对视频帧进行局部压缩，利用空间上的冗余来减少数据量。
实现数据的独立处理：宏块作为独立的处理单元，可以并行处理，提高了编码和解码的效率。
适应不同区域特性：视频帧的不同区域可能具有不同的纹理和运动特性，宏块允许编码器对这些不同区域应用不同的编码策略。
简化编码流程：宏块提供了一种标准化的方法来组织和处理视频数据，简化了编码器的设计和实现。
优化预测和变换操作：宏块的大小和划分方式可以优化帧内预测和变换操作，进一步提高压缩性能。

2.4 YUV格式 vs RGB格式

2.4.1 什么是YUV格式、 RGB格式？（what）

YUV格式： YUV是一种颜色编码系统，用于将颜色信息分解为亮度（Y）、蓝色色差（U）、红色色差（V）三个分量。这种格式主要用于视频和图像的编解码过程中，因为它能够更有效地表示颜色信息，并且在压缩时可以利用人眼对颜色和亮度敏感度的不同来减少数据量。

RGB格式： RGB代表红色（Red）、绿色（Green）、蓝色（Blue），是一种基本的颜色模型，用于通过三种基本颜色的光的叠加来表示其他颜色。在数字图像和显示设备中，RGB格式用来存储和显示彩色图像，每个像素由红、绿、蓝三个颜色通道的值组成，这些值组合起来可以表示出各种颜色。

接下来用一张图来表示两者之间的区别，如下所示：

2.4.2 为什么视频编码使用YUV格式，而不是RGB格式？（why）

H264视频编解码中使用YUV而不是RGB的原因主要包括：

人类视觉特性：YUV格式利用了人类视觉系统对亮度信息比色度信息更敏感的特性。人眼对亮度的变化感知更为明显，而对颜色的细微差别则不太敏感。因此，可以在色度信息上应用更多的压缩，而对视觉质量的影响较小。
压缩效率：在YUV格式中，亮度信息（Y）与色度信息（U和V）分离，可以对它们分别进行不同的处理和压缩。通常色度信息的采样率低于亮度信息，这样可以减少数据量而不会显著影响视觉质量。
减少冗余：在自然图像和视频中，相邻像素之间的亮度变化通常小于颜色变化。YUV格式通过分离亮度和色度，可以更有效地减少这种空间上的冗余。
适应不同显示设备：YUV格式更适合广播和电视系统，这些系统通常基于YUV或类似的颜色空间。使用YUV格式可以直接与这些系统兼容，简化了从数字到模拟信号的转换。
编码效率：在视频编码标准如H.264和H.265中，YUV格式的亮度和色度分量可以独立进行编码，利用它们各自的统计特性来提高编码效率。
灵活性：YUV格式提供了更大的灵活性来应用不同的编码策略，例如对亮度和色度分量使用不同的量化级别和预测模式。

总之，YUV格式在视频编解码中的使用，主要是为了提高压缩效率，同时保持或提升视频的视觉质量，并适应不同的显示和传输需求。

有了这些基础，我们再进一步去H264编码中更深一层的概念，见下一篇文章：

H264视频编码（02） I帧 P帧 B帧引入及相关概念解读-CSDN博客