SafaRi:弱监督引用表达式分割的自适应序列转换器

news2026/2/13 22:10:33

引用表达式分割(reference Expression Segmentation, RES)旨在提供文本所引用的图像(即引用表达式)中目标对象的分割掩码。

目前存在的挑战

1)现有的方法需要大规模的掩码注释。

2)此外，这种方法不能很好地推广到未见/零射击场景

改进

1）提出了一个弱监督的RES自举架构（包含新算法）SafaRi(基于自回归轮廓预测的RES方法）

2）不会在完全监督的REC任务上预训练我们的模型。只用mask和box注释的小部分进行训练

3）提出Cross-modal Fusion with Attention Consisteny模块，以便提高图像-文本区域级对齐和进一步增强图像目标物体的空间定位

4）提出一种基于zero-shot proposal scoring 的Mask Validity Filtering（掩码有效性过滤）策略

5）提出SpARC（新颖的REC技术，）以zero-shot获得边界框

在此之前最新的方法 Partial-RES（提出了一种部分(弱)监督的RES任务解决方案）

该方法存在的问题如下：

1）在更实用和真正的弱监督设置中，框的百分比应该等于掩码的百分比

2）在预训练阶段，模型已经意识到在弱监督阶段使用的相同数据集的基础信息

3）该方法没有考虑到图像和语言特征之间的跨模态区域级交互作用，这对定位任务至关重要

流程图

SafaRi架构图

Swin transformer and RoBERTa as our image and text feature extractors.

FFN 代表 cross-feed-forward network,

SA 代表 self Attention CA 代表 Cross-Multi-Head Attention

创新点

X-FACt.

1 ）Fused Feature Extractors.

2）Attention Mask Consistency Regularization.

Weak-Supervision with γ-Scheduling

step1 :初始RES训练

在RES任务上使用X%的标记数据训练SafaRi （得到训练过的伪标签器并更新了模型参数）

step2 伪标签

使用step1中已训练的模型对剩下的(100-x)%数据进行推理得到掩码，推断的掩码随后通过提议的掩码有效性过滤(MVF)，以零拍方式验证这些生成的掩码的有效性。然后从有效掩码中采样轮廓点，并作为伪掩码添加到相应的图像-文本对中

step3 γ-调度（用来在再训练步骤中平衡真实掩码和伪掩码的数量）再训练。

我们使用包含x% Ground Truth (GT) mask (M)和Pseudo-Mask (M)的更新训练数据集重新训练SafaRi(从先前的训练中初始化)，并使用Pseudo-Mask loss加权超参数γ最小化最终损失LSafaRi:

Mask Validity Filtering with SpARC

组成包括

1)ZS-REC（SpARC即空间感知RedBox Clip) with SpARC module.（使用ZS-REC获得边界框）

1)Proposal scoring with red-box prompting

2)Spatial Reasoning component

2）Validation of Inferred Masks with SpARC（使用获得的边界框验证推断的掩码）

具体步骤：我们从每个Mask的最外层(最上、最下、最右、最左)点生成一个边界框，并使用SpARC计算生成的框与使用ZS-REC步骤获得的框之间的Dice Similarity Coefficient (DSC)[49]。我们拒绝了DSC值小于τ = 0.1的噪声伪掩模(消融见补充)。从过滤后的伪Mask中重新采样轮廓点并添加到训练集中(图2)。