（参考写法）Transformer-Based Visual Segmentation:A Survey

基于Transformer的视觉分割综述

南洋理工大学NTU、上海人工智能实验室AI Lab整理300+论文

论文地址：https://arxiv.org/pdf/2304.09854.pdf

代码地址：https://github.com/lxtGH/Awesome-Segmentation-With-Transformer

前言

SAM （Segment Anything ）作为一个视觉的分割基础模型，在短短的3个月时间吸引了很多研究者的关注和跟进。

如果你想系统地了解SAM背后的技术，并跟上内卷的步伐，并能做出属于自己的SAM模型，那么接下这篇Transformer-Based的Segmentation Survey是不容错过！

近期，南洋理工大学和上海人工智能实验室几位研究人员写了一篇关于Transformer-Based的Segmentation的综述，系统地回顾了近些年来基于Transformer的分割与检测模型，调研的最新模型截止至今年6月！

同时，综述还包括了相关领域的最新论文以及大量的实验分析与对比，并披露了多个具有广阔前景的未来研究方向！

Abstract

视觉分割旨在将图像、视频帧或点云分割为多个片段或组。这种技术具有许多现实世界的应用，如自动驾驶、图像编辑、机器人感知和医学分析。（视觉分割定义+应用举例）

在过去的十年里，基于深度学习的方法在这个领域取得了显著的进展。（之前是基于什么发展的）

最近，Transformer成为一种基于自注意力机制的神经网络，最初设计用于自然语言处理，在各种视觉处理任务中明显超越了以往的卷积或循环方法。（提出本文要用的方法Transformer）

具体而言，视觉Transformer为各种分割任务提供了强大、统一甚至更简单的解决方案。本综述全面概述了基于Transformer的视觉分割，总结了最近的进展。（讲了Transformer的强大）

（接下来对于论文架构进行了阐述）

首先，本文回顾了背景，包括问题定义、数据集和以往的卷积方法。

接下来，本文总结了一个元架构，将所有最近的基于Transformer的方法统一起来。基于这个元架构，本文研究了各种方法设计，包括对这个元架构的修改和相关应用。

此外，本文还介绍了几个相关的设置，包括3D点云分割、基础模型调优、域适应分割、高效分割和医学分割。

此外，本文在几个广泛认可的数据集上编译和重新评估了这些方法。

最后，本文确定了这个领域的开放挑战，并提出了未来研究的方向。项目页面可以在https://github.com/lxtGH/Awesome-Segmentation-With-Transformer上找到，本文仍会持续和跟踪最新的基于Transformer的分割与检测方法。

Index Terms—Vision Transformer Review, Dense Prediction, Image Segmentation, Video Segmentation, Scene Understanding

1. Introduction

视觉分割的目的是将给定图像或视频的像素分成一组语义区域。它是计算机视觉中的一个基本问题，涉及许多现实世界的应用，如机器人，自动监控，图像/视频编辑，社交媒体，自动驾驶等。从手工特征[1]，[2]和经典机器学习模型[3]，[4]，[5]开始，分割问题已经涉及了大量的研究工作。在过去的十年中，深度神经网络、卷积神经网络(cnn)[6]、[7]、[8]，如全卷积网络(FCNs)[9]、[10]、[11]、[12]在不同的分割任务上取得了显著的成功，并取得了更好的结果。与传统分割方法相比，基于cnn的方法具有更好的泛化能力。由于其优异的性能，cnn和FCN结构一直是分割研究工作的基本组成部分。

最近，随着自然语言处理(NLP)的成功，Transformer[13]被引入作为循环神经网络[14]的替代品。Transformer包含一种新颖的自关注设计，可以并行处理各种令牌。然后，在Transformer设计的基础上，BERT[15]和GPT-3[16]对模型参数进行缩放，并使用大量未标记文本信息进行预训练。它们在许多NLP任务上实现了强大的性能，加速了transformer向视觉社区的发展。最近，研究人员将Transformer应用于计算机视觉(CV)任务。早期的方法[17]，[18]结合自关注层来增强cnn。与此同时，几个作品[19][20]使用纯自关注层代替卷积层。之后，有两种显著的方法提高了CV任务。一种是vision transformer (ViT)[21]，它是一种纯transformer，直接取图像patch的序列对整幅图像进行分类。它在多个图像识别数据集上实现了最先进的性能。另一种是detection Transformer(DETR)[22]，它引入了对象查询的概念。每个对象查询代表一个实例。对象查询取代了以前检测框架中复杂的锚设计，简化了检测和分割的流程。接下来的工作对各个视觉任务进行了改进设计，包括表征学习[23]、[24]、目标检测[25]、分割[26]、底层图像处理[27]、视频理解[28]、3D场景理解[29]、图像/视频生成[30]。

对于视觉分割，目前最先进的方法都是基于Transformer架构的。与CNN方法相比，大多数基于Transformer的方法管道更简单，但性能更强。由于基于Transformer的视觉模型的迅速兴起，人们对视觉Transformer[31]，[32]，[33]进行了一些研究。然而，大多数主要集中在通用Transformer设计及其在几个具体视觉任务[34]，[35]，[36]上的应用。同时，对于基于深度学习的分割[37]，[38]，[39]也有前人的研究。然而，据我们所知，还没有关于使用视觉变换进行视觉分割或基于查询的对象检测的调查。我们相信，总结这些工作并继续跟踪这一不断发展的领域将对社区有益。

1.1 Contribution

在本文中，我们系统地介绍了基于Transformer的视觉分割方法的最新进展。我们从定义任务、数据集和基于cnn的方法开始，然后转向基于Transformer的方法，涵盖现有方法和未来的工作方向。我们从比较技术性的角度对调查组现有代表性作品的方法进行了详细介绍。特别是，对于主要的回顾部分，我们首先在3.1节中总结了现有的meta -architecture方法的核心框架，这是DETR的扩展。通过改变元架构的组件，我们在3.2节中将现有的方法分为六类，包括表示学习、解码器中的交互设计、优化对象查询、使用关联查询和条件查询生成。

此外，我们还调查了密切相关的具体设置，包括点云分割，基础模型调优，领域感知分割，数据/模型高效分割，分类诊断分割和跟踪，以及医疗分割。我们用几个广泛使用的细分基准来评估发表在顶级会议和期刊上的有影响力的作品的性能。此外，我们还在背景部分概述了以前基于神经网络的模型和其他领域的相关文献，如对象检测、对象跟踪和参考分割。

1.2 Scope

本调查将涵盖几个主流分割任务，包括语义分割，实例分割，全景分割，以及它们的变体，如视频和点云分割。此外，我们将在第4节中介绍相关的下游设置。我们专注于基于transformer的方法，仅回顾一些密切相关的基于cnn的方法以供参考。虽然有很多预印本或已出版的作品，但我们只收录了最具代表性的作品。

1.3 Organization

调查的其余部分组织如下。总的来说，图1显示了我们调查的流程。在第2节中，我们首先介绍了关于问题定义、数据集和基于cnn的方法的背景知识。然后，我们回顾了第3节和第4节中关于基于transformer的分割方法的代表性论文。我们在第5节对实验结果进行比较。最后,我们在第6节提出了未来的方向，在第7节总结了调查。

图1. Survey的内容路线图

1.1 ViT和DETR 的出现使得分割与检测领域有了十足的进展，目前几乎各个数据集基准上，排名靠前的方法都是基于Transformer的。为此有必要系统地总结与对比下这个方向的方法与技术特点。

1.2 近期的大模型架构均基于Transformer结构，包括多模态模型以及分割的基础模型（SAM），视觉各个任务向着统一的模型建模靠拢。

1.3 分割与检测衍生出来了很多相关下游任务，这些任务很多方法也是采用Transformer结构来解决。

2. Background

这篇综述的特色，以及与以往的Transformer综述有什么区别？

在本节中，我们首先提出了不同分割任务的统一问题定义。然后详细介绍了常用的数据集和评估指标。接下来，我们对transformer之前的方法进行总结。最后，我们回顾了transformer的基本概念。为了便于理解本次调查，我们在表1中列出了简要的注释，以供参考。

2.1 Problem Definition

Image Segmentation.

给定输入图像I∈R （H×W×3），图像分割的目标是输出一组掩模，其中ci表示二进制掩模mi的真类标号，G表示掩模个数，H×W表示空间大小。根据类标签和掩码的范围，图像分割可以分为语义分割(SS)、实例分割(IS)和全景分割(PS)三种不同的任务，如图2 (a)所示。对于语义分割，类可以是前景对象(thing)或背景(stuff)，每个类只有一个二值掩码，表示属于该类的像素。每个SS掩码不与其他掩码重叠。对于IS，每个类可以有多个二进制掩码，并且所有类都是前景对象。一些IS面具可能与其他面具重叠。对于PS，取决于类定义，每个类可能有不同数量的掩码。对于可数的thing类，每个类可以为不同的实例拥有多个掩码。对于不可数的stuff类，每个类只有一个掩码。每个PS掩码不与其他掩码重叠。可以从像素的角度来理解图像分割。给定输入I∈R（H×W×3），图像分割的输出是一个双通道密集分割图S = {kj, cj}H×W j=1。其中，k表示像素j的恒等，c表示像素j的类标号。对于SS，所有像素的恒等都为零。对于IS，每个实例都有一个唯一的标识。对于PS，属于事物类的像素具有唯一的标识。像素stuff类的恒等式为零。从这两个角度来看，PS统一了SS和IS。我们在图2中提供了可视化示例。

Video Segmentation.

给定一个视频片段输入为V∈R T ×H×W×3，其中T表示帧数，视频分割的目标是获得一个掩码管{yi} N i=1 = {(mi, ci)} N i=1，其中N为掩码管mi∈{0,1}T ×H×W的个数，ci表示掩码管mi的类标号。视频全光分割(VPS)要求每个像素的分割和跟踪结果在时间上保持一致。每个管罩都可以分为可数的物类和无数的物类。每个东西管面罩也有一个唯一的ID来评估跟踪性能。对于材质遮罩，跟踪默认为零。当N = C且任务只包含素材类，且所有素材类都没有id时，VPS就变成了视频语义分割(VSS)。如果{yi} N i=1重叠，且C只包含thing类，忽略所有的stuff类，则VPS变成视频实例分割(VIS)。我们在图2 (b)中提供了可视化示例，总结了T = 2时VPS, VIS和VSS之间的差异。

2.2 Datasets and Metrics

Commonly Used Datasets.

在表2中，我们列出了图像和视频分割常用的数据集。对于图像分割，最常用的数据集是COCO [43]， ADE20k[44]和cityscape[45]。对于视频分割，最常用的数据集是VSPW[48]和Youtube-VIS[49]。我们将在第5节中比较几个数据集的结果。

表2. 常用的数据集以及分割任务总结

Common Metric.

对于SS和VSS，常用的度量是平均交联(mIoU)，它计算输出图像和视频掩模以及地面真值掩模之间的像素化兴趣联合。对于IS，度量是掩码平均精度(mAP)，通过用掩码IoU替换方框IoU来扩展目标检测。对于VIS，度量是3D mAP，它以时空方式扩展掩膜mAP。对于PS，度量是全光质量(PQ)，它通过设置一个固定的阈值0.5来统一物体和物体的预测。对于VPS，常用的指标是视频全光质量(VPQ)和分割跟踪质量(STQ)。前者将PQ扩展到时间窗口计算中，而后者以逐像素的方式将分割和跟踪解耦。请注意，还有其他指标，包括像素精度和时间一致性。为简单起见，我们只报告文献中使用的主要指标。我们在补充材料中提出了这些指标的详细公式。

2.3 Segmentation Approaches Before Transformer

Semantic Segmentation.

在ViT和DETR出现之前，SS通常被视为密集像素分类问题，最初由FCN提出。那么，接下来的工作都是基于FCN框架的。这些方法可以分为以下几个方面:更好的编解码器框架[53]、[54]、更大的核[55]、[56]、多尺度池化[11]、[57]、多尺度特征融合[12]、[58]、[59]、[60]、非局部建模[18]、[61]、[62]、高效建模[63]、[64]、[65]、更好的边界划分[66]、[67]、[68]、[69]。变压器提出后，以全局上下文建模为目标，一些作品设计了自关注算子的变体来取代CNN预测头[61]，[70]。