这几天对目标跟踪挺感兴趣的,但是在CSDN和知乎上面找的相关介绍资料都看的一知半解,所以自己找了一篇 2022-04-26 发表的综述文章作下笔记学习下。
目录
一、基于相关滤波的目标跟踪算法
1、相关滤波视频目标跟踪算法的框架
2、相关滤波目标跟踪算法的优化方向
特征优化:
手工特征
深度特征
模型优化:
核化方法
尺度估计方法
边界效应问题
二、基于深度学习的目标跟踪算法
全卷积孪生网络
区域候选孪生网络
三、个人总结
什么是目标跟踪?
是指在视频序列第一帧指定目标后,在后续帧持续跟踪目标,即利用边界框(通常用矩形框表示)标定目标,实现目标的定位与尺度估计(目标跟踪问题通常分为单目标跟踪和多目标跟踪,这里主要关注单目标跟踪问题)
一、基于相关滤波的目标跟踪算法
2010 年,基于相关滤波的目标跟踪算法开始出现[12],由于其具备良好的精度和超高的速度,迅速引起了相关研究者的广泛关注,围绕相关滤波算法框架,许多优化方法,如特征优化模型优化应运而生,使得相关滤波目标跟踪算法发展成为近十年来目标跟踪的主流方法之一,在相关工作数量和各大数据集的性能表现上均具有明显优势。
1、相关滤波视频目标跟踪算法的框架
目标跟踪算法的输入是一段连续的视频序列,以及视频第一帧指定的跟踪目标(以矩形标定框A 的形式给出),目标跟踪算法的输出是在后续
视频 t > 1 中估计目标的位置以及大小,同样以标定框 B 的形式给出。
相关滤波目标跟踪算法的主要思想是,在当前帧更新相关滤波器(记作 F ),在下一帧利用所得的 𝐀F通过循环卷积的操作实现目标中心点定位。
相关滤波视频目标跟踪算法主要包含以下 5个步骤:
步骤 1 (获得搜索区域):由于相邻两帧目标移动范围有限,利用第 t - 1 帧的跟踪结果 B(t-1),通过适当扩大 B(t-1) 得到目标搜索区域,并在视频第
t 帧图像的上述搜索区域内进行目标定位搜索
步骤 2(对搜索区域进行特征提取得到特征图):用步骤 1 得到的第 t 帧的搜索区域,对该区域内的图像进行特征提取,得到特征图 H。
步骤 3 (相关滤波器作用于特征图进行目标定位):相关滤波器 F 作用于提取的特征图 H,利用公式 得到响应图 C。式中 * 为循环卷积,计算响应图 C的最大值所在位置的坐标,即可得到当前帧图像上的目标中心位置,B(t) 的大小可由 B(t-1) 进行缩放得到
步骤 4(利用当前跟踪结果完成滤波更新):利用当前跟踪结果,以目标为中心点截取子图像,类似步骤 2 提取特征图 X,然后通过最小化公式(2),求解相关滤波器 F
这里 Y 是以空间中心点为最高值的 2-D 高斯分布 图 。 上 述 优 化 问 题 可 以 利 用 快 速 傅 里 叶 变 换(FFT)方法得到闭合解。
步骤 5(交替迭代):令 t = t + 1,返回步骤 1进行交替迭代。在视频每一帧重复上述步骤,可以逐帧得到滤波器以及每帧目标的位置及尺寸,完成
视频目标跟踪任务
2、相关滤波目标跟踪算法的优化方向
在相关滤波目标跟踪算法基本框架下,大量的相关研究进一步开展,主要可以分为对特征和模型的优化两类。
特征优化:
手工特征
对特征的改进首先体现在由采用单通道特征改变为融合多通道特征。Henriques 等人先后提出的著名的 CSK (Circulant Structure with Kernels) 和KCF (Kernelized Correlation Filter) 算 法 [26, 27] 是 相关滤波目标跟踪算法中具有里程碑意义的工作。CSK 在 MOSSE 的基础上扩展了密集采样并采取了核化相关滤波方法,KCF 在 CSK 的基础上又进一 步 采 用 了 多 通 道 梯 度 特 征 HOG (Histogram ofOriented Gradient) [28]。这使得基于相关滤波的目标跟踪算法超越了之前最优的方法,并仍然保持着超高的运行速度,CSK 的 CPU 运行速度超过 300fps,KCF 也保持在 200 fps 以上。
Danelljan 等人[29] 最早考虑了颜色特征在视频 目 标 跟 踪的 作 用 , 综 合 评 估了 RGB , LAB ,YCbCr,rg,HSV 等各类颜色空间提取的特征在目标跟踪中的效果,并提出了基于多通道颜色特征CN (Color Names),这也成为后续相关滤波目标跟踪采用的主要手工颜色特征。在多通道特征应用之后,特征改进的下一个重要发展是融合不同类别的特征。Li 等人[30] 采用 HOG 特征和 CN 特征组合的方式,使得梯度特征 HOG 和颜色特征 CN达到互补的效果,这也成为后续相关滤波目标跟踪算法最常用的手工特征。
Possegger 等 人 [31] 在 DAT (distractor-awaretracker) 方法中提出了颜色直方图特征,即统计前景目标和背景区域的颜色直方图并归一化,得到前背景颜色概率模型。将颜色直方图特征用于目标跟踪任务,通过逐像素判断其属于前景的概率,得到像素级前背景概率分布图,从而抑制与前景相似的干扰区域并缓解模型漂移 (model drift)。而后,Staple (Sum of Template And Pixel-wise LEarners) [32]算法分析发现 HOG 对目标形变效果不好,但对光照变化等情况鲁棒;而 DAT 中的颜色直方图特征对变形不敏感,但对光照变化和前背景颜色相似敏感,于是将 HOG 特征和颜色直方图特征结合,得到了效果鲁棒且超实时(80 fps)的跟踪器 Staple,算法效果与利用深度特征的方法接近,而且速度具有明显优势。另一结合颜色直方图特征的相关滤波方 法 是 的 CSR-DCF (Discriminative CorrelationFilter with Channel and Spatial Reliability) [33],算法提出空间可靠性和通道可靠性的思想,计算目标前景空间分布和多特征通道权重分布,算法在 VOT挑战赛上取得了良好的效果。
深度特征
最近,由于深度卷积特征的广泛应用和优越效果,将深度特征集成到相关滤波目标跟踪算法也逐渐成为主流[34, 35]。DeepSRDCF[34] 将 HOG 特征换为 VGG (Visual Geometry Group) 网络中单层卷积层的深度特征,使得目标跟踪精度相较于 HOG特征有了很大提升。同期的工作 HCF (HierarchicalConvolutional Features for Visual Tracking)[35],结合多层卷积特征(VGG 19 网络的 Conv5-4 , Conv4-4和 Conv3-4 层)提升目标跟踪精度。
深度特征展现出强大的性能表现后,大量的相关滤波目标跟踪方法[36-41] 开始采用深度特征。有研究尝试如果简单地将 VGG 网络换成更先进的GoogLeNet 或 ResNet 提取深度特征,并没有像其他领域的研究一样对跟踪性能带来进一步的提升,如图 4 所示,经典目标跟踪算法 ECO (3.1.3 节介绍) 用更深的网络进行特征提取,跟踪性能并没有明显提升,这表明相关滤波目标跟踪方法无法从更深 的卷 积网 络特 征中 获益 。
UPDT (Unveiling thePower of Deep Tracking)[41] 试图从这一问题入手,进一步发掘深度特征在目标跟踪中的潜力。文章发现深度特征可以更有效地表示高层语义信息,对目标旋转、变形等外观变化建模具备更强的鲁棒性;但同时平移和尺度不变性使得其无法精确定位目标,即准确性很差。相反,浅层特征(手工特征)可以更好地表示和建模纹理和颜色信息,保留高空间分辨率,更加适合准确的像素级目标定位;但是对旋转变形的鲁棒性很差。于是 UPDT 算法利用深度特征保持鲁棒性,同时采用浅层特征负责准确性,利用两种特征检测得到的响应图进行自适应融合,兼顾目标定位的准确性和跟踪的鲁棒性,从图4 可以看到 UPDT 算法在 ECO 的基础上更好地发掘了深度特征的潜力和优势。
模型优化:
核化方法
很多方法在相关滤波器的学习过程进行优化,其中最早的经典算法 CSK 和 KCF[26, 27] 是典型的代表。早期的 MOSSE[12] 提出了相关滤波理论用于视频目标跟踪问题的思想,而 CSK 和 KCF 正式提出了较成熟的相关滤波目标跟踪算法框架。作者利用了岭回归的核心思想,采用了循环移位对样本进行密集采样,并利用循环矩阵性质,缓和了目标样本密集采样带来的计算量问题,并推导了回归方法与相关滤波算法的等价性。作者同时提出了非线性核化方法将低维线性空间映射到高维空间,并给出了闭合解的形式,对相关滤波目标跟踪算法优化并提升算法精度和鲁棒性。
尺度估计方法
尺度估计是相关滤波目标跟踪算法模型优化的重要组成。在跟踪过程中,目标尺度大小经常发生变化,因此目标跟踪任务除了定位目标中心位置外,还需要估计其尺度大小。Danelljan 等人提出的DSST (Discriminative Scale Space Tracking)[42] 算法首先利用基于 HOG 特征的相关滤波学习定位目标相邻帧的位置平移量,而后又训练独立的相关滤波器用于检测尺度变化,如图 5 所示,DSST 开创了平移检测滤波和尺度检测滤波相结合的方法。在此基础上进一步改进的 fDSST (fast DSST)[43] 方法对 DSST 进行了加速优化,得到了更高效率的尺度检测方法。
Li 等人提出的 SAMF[30] (Scale Adaptivewith Multiple Features) 是另一类相关滤波目标跟踪的尺度检测方法。SAMF 直接对待检测区域进行固定次数的多尺度采样,并利用学得的滤波器在各个尺度进行目标检测,直相较而言,DSST 采用了 33 个不同大小的缩放尺度,而 SAMF 仅采用了 7 个,因此 DSST 尺度估计相对精确。而 SAMF 只需要学习一个滤波接器,取最大响应值所在尺度作为估计的结果,且可以同时得到目标跟踪任务的位置平移和尺度估计的最优解。在后续的工作中,由于简单而有效,SAMF 也得到了更广泛的应用,成为基于相关滤波目标跟踪尺度估计的重要手段。
边界效应问题
相关滤波目标跟踪算法中样本循环平移的思想在大大解决了训练样本匮乏问题的同时,边界效应 (boundary effects)[44] 的引入使得跟踪效果受到了一定程度的影响。边界效应是指循环平移产生的训练样本是合成样本,如图 6-(a) 所示,在样本生成过程中,目标边界随之循环平移,产生大量非真实训练样本,降低了模型的判别能力。
为 解 决 边 界 效 应 的 问 题 , 经 典 方 法 之 一 是SRDCF[45] 算法,其核心想法是考虑在相关滤波目标跟踪的目标函数中加入空间正则化项进行约束。为 解 决 边 界 效 应 的 问 题 , 经 典 方 法 之 一 是SRDCF[45] 算法,其核心想法是考虑在相关滤波目标跟踪的目标函数中加入空间正则化项进行约束。
SRDCF 作为目标跟踪经典方法,着眼考虑并有效缓解相关滤波跟踪算法的边界效应问题,是该体 系 下 极 具 代 表 性 的 工 作 。 后 续 很 多 工 作 在SRDCF 的基础上开展,例如考虑到空间正则化方法的时序性,STRCF (Spatial-Temporal RegularizedCorrelation Filter)[46] 提出了时空域上的正则化方法,并采取 ADMM (Alternating Direction Method ofMultipliers) 算法进行求解,使得 STRCF 达到了CPU 上接近实时的运行速度。类似的,DSARCF(Dynamic Saliency-Aware Regularization CorrelationFilter)[25, 47] 针对目标时序变化的问题,利用动态更新的显著图指导相关滤波空间正则化并实现其时序自适应调整。
另一类典型的缓解边界效应问题的方法是边界约束相关滤波方法 CFLB (Correlation filters withlimited boundaries) 和 背 景 指 导 相 关 滤 波 方 法BACF (Background-Aware Correlation Filters) [44, 48]系列,见图 7。此类方法利用包含更大背景的区域用于目标检测和滤波器学习,与 SRDCF 的滤波器系数从中心到边缘连续过渡不同,CFLB 和 BACF直接通过裁剪矩阵对滤波器边缘进行补零操作,得到作用域较小的相关滤波器。CFLB 与 MOSSE 类似仅采用单通道灰度特征,虽然速度高达 160 fps,但精度较差,而改进后的 BACF 将特征扩展为多通道 HOG 特征,并采取 ADMM 迭代法进行求解,不仅精度超过了 SRDCF,而且达到了实时的运行速度。在 SRDCF[45] 和 BACF[48] 的基础,ASRCF (Adaptive Spatially-Regularized CorrelationFilter)[49] 兼顾了两者的思想和优势,与 DSARCF[47]类似,提出了自适应空间正则化算法用于相关滤波目标跟踪,如图 8 所示,ASRCF 采用的空间正则化权重图在跟踪过程中可根据目标的特点进行自适 应 动 态 调 整 。 同 时 , 作 者 推 导 出 SRDCF 和BACF 均可通过超参数设置由 ASRCF 变形得到,因此该方法具有更强的泛化能力,另外也同时兼顾了算法精度和速度,可以看做是基于空间正则化方法的相关滤波目标跟踪算法的集大成之作。
........看不懂的部分省略
二、基于深度学习的目标跟踪算法
全卷积孪生网络
最近,深度学习在计算机视觉领域展现了强大的性能[13,14],基于深度学习的目标跟踪算法也相继问世,其中孪生网络由于相 比于其他深度学习
算法框架具备较高的计算速度,因此受到更广泛的关注和研究[15],围绕孪生滤波网络的一系列方法也展现出强大的竞争力。
孪生网络 (Siamese Network)[51] 是指具有相同或相似结构的两个并行网络,基于孪生网络的相关算法早在 20 世纪 90 年代就被应用于模板匹配、相似度量等任务。由于孪生网络的参数较少,运行速度较快,被应用于很多其他任务。孪生网络最早用 于 视 频 目 标 跟 踪 任 务 是 在 发 表 于 2016 年 的SINT[52] 和 SiameseFC[24],算法首次将目标跟踪问题转化为给定模板与候选图像的匹配问题。最早的SiameseFC 算法就达到了较高的跟踪精度,并且维持了超高的算法运行速度(86 fps),也为后续的系 列 方 法 提 供 了 良 好 的 基 础 。
SiameseFC 算法的网络结构:
上层分支 z 表示目标模板图像,由视频序列第一帧给定的目标区域生成,下层分支的输入是当前帧搜索区域,x 表示搜索区域内部不同的目标候选图像, z 和 x 经过相同的特征映射操作 φ 将原始图像映射到特征空间,得到具有相同通道数的特征向量,最后经过卷积操作 * 得到响应图,其中各个位置的值代表同目标候选图像与目标模板图像的相似度,通过取最大值选择最相似目标候选区域,完成目标定位跟踪。上图中特征映射操作 φ 由卷积神经网络实现,并且两个分支中 φ 具有相同的网络结构,因此称为孪生网络,而且在 SiameseFC 算法中网络结构中只包含卷积层和池化层,因此其也是一种典型的全 卷 积 孪 生 网 络 ( Fully-Convolutional SiameseNetwork)。
区域候选孪生网络
SiameseFC 算法用于视频目标跟踪后,由于其网络结构简单,算法速度较高,引起相关学者的广泛 关 注 和 大 量 研 究 , 其 中 典 型 的 代 表 是SiameseRPN[53] 系 列 算 法 。 SiameseRPN 算 法 以SiameseFC 为 基 础 , 将 目 标 检 测 经 典 算 法 FastR-CNN[54] 的 RPN (Region Proposal Network) 即区域候选网络提取目标候选框的思想融入其中。如图 11 所示,相当于在待检测搜索区域上提取 k 个目标候选框,网络上半部分与 Fast R-CNN 的分类网络类似,得到 k 个目标候选框的响应图,再选取最高的响应值确定目标位置,下半部分与 FastR-CNN 的回归网络类似,得到目标候选框与目标真实标定框的坐标差,作为补偿量修正检测结果。RPN 可以产生不同比例的候选框,因此很大程度上解决了目标跟踪问题中物体严重形变的问题。
在SiameseRPN 的基础上,DaSiamRPN[55] 通过训练集数据增广提高模型的泛化能力,还通过引入不同困难度的负样本训练提升模型的判别能力。最近的SPM[56] 和 C-RPN (Cascade RPN)[57] 算法都 是多阶段的 SiamRPN 扩展,其中 SPM 引入了经典的目标检测方法 Faster R-CNN[58] 的思路到目标跟踪网络,而 C-RPN 则借鉴了目标检测领域的级联网络 Cascade R-CNN[59] 的 思 想 。 SiameseRPN++[60]和 SiamDW[61] 两个工作围绕如何在目标跟踪方法中 使 用 更 加 深 层 的 主 干 网 络 问 题 展 开 研 究 。SiameseRPN++[60] 改进了 SiameseRPN 中的样本采样策略,防止出现正样本都位于图像中心而影响目标定位的问题,在相关数据集上表现出良好的跟踪精度和鲁棒性。
SiamDW[61] 研究了如何在孪生网络目标跟踪算法中利用更深和更宽的卷积神经网络提升算法的鲁棒性和精度。文章分析了直接利用更深的网络不能提升算法性能的原因:1)增加神经元的感受野会减少特征的区分度和目标的定位精度;2)卷积网络填补操作会对定位造成偏差。为解决上述问题,SiamDW 提出新的残差模块用于消除填补操作的负面影响,此外还进一步搭建了新的网络结构控制感受野的大小和网络步长。模块应用于 SiameseFC 和 SiameseRPN 算法得到了更好的跟踪结果和实时的运行速度。基于上述两项研究可以看到,在目标跟踪方法中应用更深的主干网络进行特征提取,可以进一步发挥深度学习方法在目标跟踪中的效力。
........ 省略
三、个人总结
1、目标跟踪算法主要基于相关滤波、孪生网络。
2、相关滤波的网络框架:
- 获得搜索区域
- 提取搜索区域的特征,生成特征图
- 相关滤波器作用于特征图,进行目标定位
- 利用当前跟踪结果完成滤波更新
3、孪生网络首次将目标跟踪问题转化为给定模板与候选图像的匹配问题,其结构是
- 目标模板图像、当前搜索区域经过相同的特征提取操作,得到两个相同的通道数量的特征向量
- 对上一步得到的两个特征向量进行卷积操作得到响应图,此图各个位置的值代表目标候选图像与目标模板图像的相似度
- 对相应图取最大值得到最相似目标候选区域,完成目标定位跟踪
- 重复上面操作
总的来说这篇综述入门了解值得一看,这里是地址:Single Object Tracking Research: A Survey,这里只是摘抄部分,想要详细了解的建议看原文。