简介

题目：A Fast Sub-pixel Motion Estimation Algorithm for H.264/AVC Video Coding
原文：https://ieeexplore.ieee.org/document/5688303
级别：SCI
年份：2011 年
机构：上海交通大学
结论：亚像素搜索计算复杂度极大的降低，减少超过 50%的亚像素搜索点，同时质量退化可忽略不计；
资源下载： https://download.csdn.net/download/yanceyxin/88036738

论文解读

摘要

运动估计是视频编码最耗时的模块之一，与传统视频编码标准中 ME 相比，H264 中使用多个分区尺寸使得运动估计更加耗时；快速算法降低了整像素搜索的复杂度，亚像素搜索的计算开销变得相当大，该篇论文提出在分块选择前进行“粗”亚像素选择，然后对最佳分块进行“精”亚像素搜索，与传统算法相比，可以减少 50%的亚像素搜索点，且质量下降可忽略不计。

核心原理

大多数的亚像素 ME 优化方法都是基于单峰曲面假设下，分两步进行亚像素搜索：预测一个亚像素 MV（SPMV）、在 SPMV 小区域范围内搜索获取最终的亚像素 MV；这些方法可以总结为两种，即时空信息和 SAD 面建模；

两种获取 SPMV 的方法：时空信息（如公式 1其中 β=4 在 1/4 像素， β=8在 1/8 像素）、SAD 建模（如公式 4）
在这里插入图片描述
快速亚像素 ME 方法对比： 实践证明，只有 MB 最佳分区才需要精确的亚像素 MV ，其他分区仅用于模式间的选择；如果亚像素的SAD足以选择最佳分区，则不需要在第一阶段搜索更精确的亚像素点。整像素 SAD 平面信息可以被使用决定是否关闭亚像素 SAD，因此文章提出 Rough-strategy-based Fast Sub-pixel Motion Estimation algorithm（RFSME）。
在这里插入图片描述
RFSME
算法总流程：

使用 SAD 和 MV 的比特数作为 COST：

■ step1： 整像素最佳 COST 位置和他的4 相邻整像素位置的两平均 COST（水平平均、垂直平均），如果相差很小，意味着 COST 平面是十分平坦 flat，此时的最佳整像素 COST 是接近最佳亚像素 COST，因此此时的整像素最佳 COST 足以去估计最佳亚像素 COST，这时候当前分块的亚像素 ME就可以被跳过；此时的整像素最佳分块位置被使用在 step4；如下，其中 blocktype(i)包括 8x8、8x4、4x8、4x4，blocktype(ii)包括 16x16、8x16、8x16；th1、th2、rF 分别为 10、20、5/4。
在这里插入图片描述
■ step2： 如果在 step1 中 COST 平面不平坦flat，那么两个亚像素 MV 预测方法被使用得到两个 SPMVs，最小COST 被选择，命名为 COSTstep2，对应的 MV 被定义为 MVstep2。表 1 列出的是最佳亚像素 MV 和 MVstep2 的绝对距离，可以表明 MVstep2 可以对最佳亚像素提供一个好的预测。COSTstep2 和最佳整像素 COST（COSTbest_full_pixel的绝对差被定义 D=｜COSTstep2 - COSTbest_full_pixel｜；如果 D 很小，意味着COST 没有减少太多，那么此时 COSTstep2 已经足够接近最佳亚像素 COST 来作为模式选择了。此时 COSTstep2 被应用在 step4 中的位置选择。下式中rD 取值 3/2，COSTmin_step2 = min(COSTstep2, COSTbest_full_pixel)。
在这里插入图片描述
■ step3： 如果 D 是大的，COSTstep2 可能不接近最佳亚像素 COST，此时 MVstep2 相邻的垂直两个、垂直两个点被检测，通过公式 8-9 来确定选择最终的 1/4 像素点。

■ step4： 从 step1、2、3 选址出来的 COSTrough 被使用用来选择最佳分块位置；
■ step5： 小范围的亚像素进一步精搜索被应用在 COSTrough 周围，选择 8 个 1/4 像素在 COSTrough 周围搜索，因为此时只对最佳分区执行，所以每个位置的平均搜索点是减少的相比传统的快速亚像素搜索算法。