一、摘要
问题:在以往的VSOD中,一般主要是研究时空结构,利用隐式注意力模型去聚合相邻视频帧的互补信息。但很少有方法去关注跨视频帧的亲和力,即建立显式注意力图式去完成VSOD。
解决:提出一个新的注意力正确性策略去监督聚合过程。
具体实现:采用成对训练模式,利用积极和消极的聚合监督去探索VSOD的视频间亲和力。
该方法的优点:成功抑制视频帧的负对应,增强了对显著对象的判别(区分性)特征的挖掘。
优化:为了增强视频内的一致性,提出了部分感知的相似性聚合模块,帮助视频内的亲和力去分割视频级上下文的显著对象。
二、实现流程
该方法目的:学习相邻视频帧之间的相互对应关系,并利用额外的跨视频监督,从而促进从视频内和视频间上下文中检测显著对象。
具体实现过程:提出了一个PACNet,这是一个部分感知视频间和视频内增强方法,他不仅能探索视频内的对应关系,而且可以跨视频注意力监督。
PACNet:
使用视频内相关性去生成由ground truth masks监督的显著性图;为了抑制显著性挖掘的负对应,利用视频内相似性去产生由零显著性图监督的负面(消极)结果。绿色的线表示视频内的正相关性,红色线表示成对视频间的负对应性。
为了提高视频内的时间依赖性,提出了一个基于注意力的聚合模块,可以动态的计算相邻帧之间的内在相关性,但由于所有视频帧之间的像素相关性挖掘成本是很高的,因此这里提出了一个有效的部分感知注意力排名策略。这种操作可以只考虑几个排名靠前的相关性特征来降低计算成本。
将视频间亲和力和注意力正确性策略集成到我们的网络中,去学习有用处的相关性,同时抑制非显著的视觉线索,去实现更准确的VSOD。
注意力正确性策略监督聚合过程图:
三、关于VSOD的部分感知注意力正确性
部分感知相似性聚合块的流程图:
大概内容如图,利用两个卷积对输入的连续帧T嵌入特征图,之后利用矩阵乘法进行融合,融合之后通过Top-K选取排名较高的相关性特征,接着进行排序和平均操作进一步处理,为了突出显著性检测的区别性特征,利用合并操作来整合空间平面的特征图。(即把动态信息和静态信息结合起来)
基于自顶向下的特征融合模块说明:
𝑮4由部分感知相似性聚合模块产生,其产生用于显著对象检测的时间相关性的指导信息。通过卷积操作将深时间特征图与浅相邻层逐步集成,这改善了用于检测的空间显著性线索。
PACNet模型的总体流程图:
PACNet模型包括正监督和负监督。输入的视频帧首先通过骨干网络进行处理,然后进行视频内和视频间聚合。视频间的亲和力利用掩蔽功能和跨视频注意力的相互作用。正特征图进一步通过基于自顶向下的多层特征融合来利用。
注:本文有具体的参数设置,算法过程等,这里暂时不作总结