引用表达式分割(reference Expression Segmentation, RES)旨在提供文本所引用的图像(即引用表达式)中目标对象的分割掩码。
目前存在的挑战
1)现有的方法需要大规模的掩码注释。
2)此外,这种方法不能很好地推广到未见/零射击场景
改进
1)提出了一个弱监督的RES自举架构(包含新算法)SafaRi(基于自回归轮廓预测的RES方法)
2)不会在完全监督的REC任务上预训练我们的模型。只用mask和box注释的小部分进行训练
3)提出Cross-modal Fusion with Attention Consisteny模块,以便提高图像-文本区域级对齐和进一步增强图像目标物体的空间定位
4)提出一种 基于zero-shot proposal scoring 的Mask Validity Filtering(掩码有效性过滤)策略
5)提出SpARC(新颖的REC技术,)以zero-shot获得边界框
在此之前最新的方法 Partial-RES(提出了一种部分(弱)监督的RES任务解决方案)
该方法存在的问题如下:
1)在更实用和真正的弱监督设置中,框的百分比应该等于掩码的百分比
2)在预训练阶段,模型已经意识到在弱监督阶段使用的相同数据集的基础信息
3)该方法没有考虑到图像和语言特征之间的跨模态区域级交互作用,这对定位任务至关重要
流程图
SafaRi架构图
Swin transformer and RoBERTa as our image and text feature extractors.
FFN 代表 cross-feed-forward network,
SA 代表 self Attention CA 代表 Cross-Multi-Head Attention
创新点
X-FACt.
1 )Fused Feature Extractors.
2)Attention Mask Consistency Regularization.
Weak-Supervision with γ-Scheduling
step1 :初始RES训练
在RES任务上使用X%的标记数据训练SafaRi (得到训练过的伪标签器并更新了模型参数)
step2 伪标签
使用step1中已训练的模型对剩下的(100-x)%数据进行推理得到掩码,推断的掩码随后通过提议的掩码有效性过滤(MVF),以零拍方式验证这些生成的掩码的有效性。然后从有效掩码中采样轮廓点,并作为伪掩码添加到相应的图像-文本对中
step3 γ-调度(用来在再训练步骤中平衡真实掩码和伪掩码的数量)再训练。
我们使用包含x% Ground Truth (GT) mask (M)和Pseudo-Mask (M)的更新训练数据集重新训练SafaRi(从先前的训练中初始化),并使用Pseudo-Mask loss加权超参数γ最小化最终损失LSafaRi:
Mask Validity Filtering with SpARC
组成包括
1)ZS-REC(SpARC即空间感知RedBox Clip) with SpARC module.(使用ZS-REC获得边界框)
1)Proposal scoring with red-box prompting
2)Spatial Reasoning component
2)Validation of Inferred Masks with SpARC(使用获得的边界框验证推断的掩码)
具体步骤:我们从每个Mask的最外层(最上、最下、最右、最左)点生成一个边界框,并使用SpARC计算生成的框与使用ZS-REC步骤获得的框之间的Dice Similarity Coefficient (DSC)[49]。我们拒绝了DSC值小于τ = 0.1的噪声伪掩模(消融见补充)。从过滤后的伪Mask中重新采样轮廓点并添加到训练集中(图2)。
结论
1)提出了一个弱监督的RES学习框架,考虑了有限的mask(和box)注释,并采用了基于轮廓的序列预测方法
2)不会在完全监督的REC任务上预训练我们的模型
3)将轻量级门控跨模态注意与注意掩模一致性正则化模块结合在特征主干
4)引入了一个具有自标记功能的自引导管道,其中使用我们提出的掩码有效性过滤方法验证伪标签
5)展示了SafaRi在零差参考视频对象分割任务上出色的泛化能力。将我们的方法扩展到多图像和视频设置可以被视为一个有前途的未来工作