[论文阅读笔记33] Matching Anything by Segmenting Anything (CVPR2024 highlight)

news2025/4/5 6:03:02

这篇文章借助SAM模型强大的泛化性，在任意域上进行任意的多目标跟踪，而无需任何额外的标注。
其核心思想就是在训练的过程中，利用strong augmentation对一张图片进行变换，然后用SAM分割出其中的对象，因此可以找到一组图像中目标的pixel的对应关系，从而实现了自监督的信号。

论文：https://arxiv.org/abs/2406.04221
代码：https://github.com/siyuanliii/masa

0. Abstract

MOT的本质是在帧间进行同一个目标的稳定关联。现有的MOT主要依赖于特定domain的数据集（比如行人MOT challenge，车辆VisDrone等），限制了cross domain的泛化性。

针对这个问题，作者提出了MASA，可以实现在任意域中跟踪任意目标。具体来说，利用SAM能够给出的丰富的目标分割，MASA的任务就是通过data augmentation学习一个instance level的对应。MASA将SAM的输出视为密集的region proposal，然后学习在巨大的图像库中，来匹配这些proposal。进一步地，设计了一个adapter来进行跟踪，实现了zero-shot跟踪的能力。

1. Introduction

前面的背景叙述先忽略，我们先看整体的方法。

这个工作的主要目标就是和现有的检测、分割模型结合起来，能够实现任意区域、目标的匹配与跟踪。但是做这种“任意”的事情，标签成本肯定是逃不过去的坎。

为了解决这个问题，作者对同一张图像应用不同的几何变换。在几何变换前后，像素的对应关系我们是已知的。再加上SAM的分割能力，就可以将这些像素自动分组成一个instance（object），这样就实现了像素级到实例级的对应，可以作为一个自监督信号。

除了上面这个self-training pipeline，作者构建了一个adapter，实现tracking的功能。

此外，作者提出了一个多任务训练的pipeline，其对SAM进行知识蒸馏。这种方法可以学习 SAM 的目标的位置、形状和外观先验，并在对比相似性学习期间模拟真实的检测。

整体的框图如下：
在这里插入图片描述

2. Methodology

2.1 训练

其实方法部分比较直接。首先前面讲，需要一个对比学习的范式来学习SAM在不同augmentation下分割的object的相似度。作者直接采用了朴素的对比学习损失：

$\mathcal{L}_{\mathcal{C}}=-\sum_{q \in Q} \log \frac{e^{\frac{\operatorname{sim}\left(q, q^{+}\right)}{\tau}}}{e^{\frac{\operatorname{sim}\left(q, q^{+}\right)}{\tau}}+\sum_{q^{-} \in Q^{-}} e^{\frac{\operatorname{sim}\left(q, q^{-}\right)}{\tau}}}$

那么问题就是， $q$ , 也就是目标特征，怎么来呢？

这就是文章的第二个贡献，adapter。

对于用较大的foundation model进行特定task微调的，往往需要一个adapter来进行适应。 这是因为直接微调foundation model肯定成本很高，并且可能会过拟合而丢失它原本具有的泛化性。

具体来说，作者提出的adapter具有特征金字塔结构，这是为了适应不同尺度的目标。对于Detic和Grounding DINO这种检测大模型来说，作者直接用了FPN。对SAM来说，作者用转置卷积和最大池化来上采样和下采样backbone中的特征图。

为了适应目标的不同形变，作者采用了可变形卷积：

$F(p)=\frac{1}{L} \sum_{j=1}^L \sum_{k=1}^K w_k \cdot F^j\left(p+p_k+\Delta p_k^j\right) \cdot \Delta m_k^j$

在获取adapter各种融合之后的特征图后，采用ROI Align以及额外的4个轻量级卷积层（作者称为track head）来获取目标的实例级特征。（也就是对比学习损失中的 $q$ ）

此外，为了更好地让adapter捕捉instance level的特征，作者还设定了一个auxiliary task，也就是，detection head。detection head直接采用了RCNN的检测头，来根据当前的feature map检测图中的目标（作者正文没说，应该是以SAM的结果作为监督信号，稍后看代码），这样的话，就实现了一个知识蒸馏的效果。也就是从SAM的分割结果中，蒸馏出目标的形状、位置信息。

在这里插入图片描述

2.2 推理

在推理阶段，采用了QDTrack（Quasi-Dense Similarity Learning for Multiple Object Tracking）的匹配策略：

bi-softmax计算相似度：

$\begin{gathered}s_1(\tau, r)=\frac{1}{2}\left[\frac{\exp \left(\mathbf{q}_r \cdot \mathbf{q}_\tau\right)}{\sum_{r^{\prime} \in P} \exp \left(\mathbf{q}_{r^{\prime}} \cdot \mathbf{q}_\tau\right)}+\frac{\exp \left(\mathbf{q}_r \cdot \mathbf{q}_\tau\right)}{\sum_{\tau^{\prime} \in \mathcal{T}} \exp \left(\mathbf{q}_r \cdot \mathbf{q}_{\tau^{\prime}}\right)}\right] \\ s_2(\tau, r)=\frac{\mathbf{q}_r \cdot \mathbf{q}_\tau}{\left\|\mathbf{q}_r\right\|\left\|\mathbf{q}_\tau\right\|} \\ s(\tau, r)=\frac{1}{2}\left(s_1(\tau, r)+s_2(\tau, r)\right)\end{gathered}$