Fully-Convolutional Siamese Networks for Object Tracking(SiamFC,ECCV2016)
全卷积网络的优势在于,可以将一个更大的搜索图像作为输入提供给网络,它将在单个评估中计算所有平移后的子窗口的相似度,而不是提供与模板图像具有同样大小的图像。
模板分支的输入图像大小为127×127×3,搜索分支的输入图像大小为255×255×3,经过特征提取网络(作者采用了AlexNet的网络结构)后,分别得到6×6×128的模板特征图和22×22×128的搜索特征图,而后进行互相关操作,生成17×17×1的响应图。
特征图计算公式:(W - F + 2P) / S + 1 --> 卷积层没有使用任何填充,故P=0
用大的搜索图像进行训练
采用正负样本的判别性方法,并使用logistic损失来训练网络。
其中y∈{+1, -1}为真实标签, v v v为网络输出的单个响应值, D D D是生成的响应图, u u u是 D D D中的某一个值, ∣ D ∣ |D| ∣D∣为响应图的大小。响应图中的标签值根据以下公式得到:
实际考虑因素
离线获取每一帧的模板图像和搜索图像,以避免在训练期间调整图像大小。模板图像的大小可根据以下公式计算得到:
其中 A = 12 7 2 A=127^2 A=1272, ( w , h ) (w, h) (w,h)为图像的宽和高, s s s是对图像的一种变换,即先进行(w+2p)×(h+2p)的扩展,再将其resize成127×127的大小。
对于搜索图像,以上一帧预测框的中心为裁剪中心,裁剪出255×255大小的图片。
当模板图像和搜索图像不够裁剪时,会利用图像RGB通道的均值对其进行填充,填充效果如下所示。
网络最终生成的是17×17的heat map,而输入的搜索图像为255×255,为了实现映射关系,作者将17×17的响应图进行双三次插值生成272×272的图像来确定目标的位置。