AV1帧间预测（二）：运动补偿

news2025/4/10 2:38:25

运动补偿(Motion Compensation,MC)是帧间预测最基础的工具，AV1支持两种运动补偿方式，一种是传统的平移运动补偿，另一种是仿射运动补偿。下面分别介绍这两种运动补偿方法。

平移运动补偿

平移运动补偿是最传统的运动补偿方式，H.264/H.265的运动补偿都是这种方式，待编码块根据运动向量（Motion Vector，MV）在参考帧中寻找预测块，这个过程便是运动搜索。

AV1的运动搜索支持1/8像素精度，对于非整像素位置使用可分离的插值滤波器生成子像素。

图1 子像素插值

子像素的生成过程如图1，首先进行水平插值，然后再进行垂直插值。对于插值滤波器，如果截止频率高则会更多的保留高频分量，如果截止频率低则会去除更多的高频分量。在VP9中，插值滤波器可以自适应的在3种8抽头滤波器中选择，每种滤波器对应不同的截止频率，选定一种滤波器后水平和垂直方向都使用该滤波器。AV1在VP9的基础上允许水平和垂直方向选择不同的滤波器，每个方向可以从3种滤波器中选择，截止频率由低到高分别为SMOOTH、REGULAR和SHARP。图2是水平和垂直方向选择各种滤波器的热力图。

图2 插值滤波器热力图

为了降低解码复杂度，SMOOTH和REGULAR使用6抽头滤波器，SHARP使用8抽头滤波器。三种滤波器对应的半像素插值的滤波系数如下，

为了降低最坏情况下的复杂度（所有块都划分到4x4），某一维度小于等于4的块只允许使用两种4抽头滤波器进行半像素插值且没有SHARP滤波器。

仿射运动补偿

仿射模型参数估计

除了平移运动，视频内容很可能还包含旋转、缩放等仿射运动，AV1支持仿射运动补偿，通过仿射变换模型将(x,y)处的像素投影到(x',y')，

(1)

其中h_ij是仿射变换系数，(h13,h23)是平移因子和平移运动中的mv作用相同，h11和h22控制着水平和垂直方向的缩放，h11、h12、h21、h22共同控制旋转。

AV1共有两种affine mode，一种是全局affine mode，和参考帧相绑定，编码块可以根据参考帧索引使用对应的全局模型。平移因子(h13,h23)使用15比特精度编码，4个非平移因子h11、h12、h21、h22使用12比特精度编码。全局模型主要捕获整体的旋转和缩放特征，更关注整体的运动。

另一种affine mode是编码块级的局部模型，然而如果对每个块都传输affine参数将会消耗大量码率，因此AV1使用空域相邻块的mv来估计affine mode参数。局部模型中平移因子(h13,h23)类似于mv在码流中显示传输，其他4个参数使用相邻块mv估计得到。编码器会扫描最近相邻块，寻找和当前块参考帧相同的块作为候选项（最多8个候选项），利用候选项的mv来计算仿射模型参数。对每个候选项计算它的中心坐标相对当前块中心坐标的偏移当作变换前的位置，这个偏移值加上两个块间的mvd作为变换后的位置，用最小二乘法计算变换前后位置即可求解出模型参数。

图3 局部仿射模型参数估计

以图3为例，(xi,yi)是第i个块的中心坐标，mvi是对应运动向量。按Blk1到Blk7的顺序遍历相邻块，选择和当前块参考帧相同的块，这里选中Blk1、Blk2、Blk5和Blk7。

首先计算中心坐标偏移值作为变换前的位置，

对应变换后为位置为，

由仿射变换公式（1）可得，

将4个块变换前后的坐标带入上面公式即可用最小二乘法求得仿射变换的非平移参数h11、h12、h21、h22。

注意，为了保证空域相关性若mvd任何一个分量的绝对值超过8个像素则不使用该参考块，同时如果有效参考块数量小于2则无法用最小二乘法求解则不能使用局部仿射模型。

仿射运动估计

得到仿射模型后便可以对编码块使用仿射运动估计，即通过仿射运动找到每个像素在参考图像中对应的坐标得到预测像素。仿射运动只对8x8及以上的块才能使用，对于大于8x8的块首先将其划分为8x8子块，对每个8x8子块的中心坐标通过平移运动因子(h13,h23)计算在参考图像中对应的坐标，如同4中当前块中心(x0,y0)在参考图像中对应的坐标为(x1,y1)，块中其他像素(x,y)以(x1,y1)为中心进行旋转和缩放得到仿射变换后的坐标(x',y')，

图4 仿射预测

AV1中仿射预测是1/64像素精度，使用8抽头滤波器（角点位置使用6抽头滤波器）进行分像素插值。如图1所示，普通的平移运动可以复用子像素插值的中间结果从而减少计算量。对于8x8的块插值，首先利用15x15区域内的像素使用水平插值生成15x8的中间结果，然后在中间结果上使用垂直插值生成8x8块。水平插值需要(15x8)x8=960次乘法，垂直插值需要(8x8)x8=512次乘法，总共需要1472次乘法。

而仿射变换后的每个像素偏移值可能不同，导致无法复用中间插值结果，如果直接进行插值计算需要64x8x8=4096次乘法。为了减少计算量，仿射变换可以通过两次错切变换完成（关于错切的定义可自行百度），