《GroupViT: Semantic Segmentation Emerges from Text Supervision》论文解读

news2026/3/3 15:29:47

会议：CVPR

年份：2022

代码：https://github.com/NVlabs/GroupViT

研究背景与动机：

主要贡献：

在深度网络中超越规则形状的图像网格，引入了一种新的GroupViT架构，以将视觉概念进行分层自底向上的分组为不规则形状的Group。
没有任何像素级标签和训练，只有使用对比损失的图像级文本监督，GroupViT成功地学会了将图像区域分组在一起，并以零样本的方式迁移到几个语义分割词汇表。
据我们所知，本文是在不使用任何像素标签的情况下，探索从文本监督单独到几个语义分割任务的零样本迁移的第一项工作，并为这项新任务建立了强大的基线。

网络架构

group简单说如果有一些聚类的中心点，从这些中心点开始发散，把周围相似的点逐渐扩散成一个group，最后这个group即相当于一个Segmentation mask。

Group ViT的贡献就是在现有的ViT模型中加入计算单元Grouping Block，同时加入了可学习的Group Tokens。这样模型在初期学习的时候就能慢慢一点点的将相邻的元素group起来，最后变成一个个segmentation mask。

(a) GroupViT 的架构和训练管道。GroupViT 包含一个 Transformer 层的层次结构，分为阶段，每个层都在逐渐更大的视觉段上运行。右边的图像显示了出现在不同Group阶段的视觉片段。较低的阶段将像素Group为对象部分，例如大象的鼻子和腿；较高的阶段进一步将它们合并到整个对象中，例如整个大象和背景森林。
(b) 分组块的架构。每个分组阶段都以一个Group块结束，该Group块计算学习的组标记和段（图像）标记之间的相似性。该分配是通过组标记的 gumbel softmax 计算的，并转换为 one-hot 硬分配。分配给同一组的片段标记合并在一起，并表示输入到下一个分组阶段的新段标记。

输入图像：输入的图像首先被分割成多个图像块，每个图像块都被称为“Image Token”。
线性投影：这些图像块经过线性投影后，形成初始的表示。
Transformer层：这些表示随后被输入到一系列的Transformer层中进行处理。
Grouping Block：在Transformer层之间，有多个“Grouping Block”，每个Grouping Block通过Gumbel-Softmax方法进行分组。具体来说，Grouping Block接收来自上一层的特征表示，利用可学习的Group Token对这些表示进行分组，形成新的表示。
组表示和细分表示：在每个Grouping Block中，分组后的表示（{g^l_i}）和细分表示（{s^l_i}）会被送到下一个Transformer层中进行进一步处理。
文本编码器：同时，文本描述（如图中的“Two elephants in the jungle this morning”）会被输入到文本编码器中，生成文本的表示（z^T）。
对比损失：图像表示（z^I）和文本表示（z^T）通过多层感知机（MLP）进行处理，并利用对比损失进行训练，以便图像和文本表示在共享空间中靠近。