一、前言

在这里插入图片描述
论文：https://arxiv.org/pdf/2304.02643.pdf

项目：https://github.com/facebookresearch/segment-anything

Demo：https://segment-anything.com

本文介绍了Facebook AI Research的Segment Anything (SA) 项目：用于图像分割的新任务、模型和数据集。在数据收集循环中使用该模型，它构建了迄今为止最大的分割数据集，在 1100 万张许可和尊重隐私的图像上有超过 10 亿个掩码。该模型被设计和训练为可提示的，因此它可以将零样本转移到新的图像分布和任务中。

通过评估它在众多任务上的能力，它的零样本性能令人印象深刻——通常与之前完全监督的结果具有竞争力，甚至优于之前的结果。

二、论文出发点

在大规模数据集上预训练的大型语言模型正在通过强大的零样本和少样本泛化彻底改变 NLP。

本文的目标是建立图像分割的基础模型，寻求开发一个可提示的模型，并使用能够实现强大泛化的任务在广泛的数据集上对其进行预训练，用该模型使用提示工程解决新数据分布上的一系列下游分割问题。

该计划的成功取决于三个组成部分：任务、模型和数据。因此，需要解决以下有关图像分割的问题：

什么任务将实现零样本泛化？
对应的模型架构是怎样的？
哪些数据可以为这项任务和模型提供支持？

在这里插入图片描述

三、创新思路

首先定义一个可提示的分割任务，该任务足够通用以提供强大的预训练目标并支持广泛的下游应用程序。它需要一个支持灵活提示的模型，并且可以在提示时实时输出分割掩码，以供交互使用。为了训练模型，需要多样化、大规模的数据源。该模型必须支持灵活的提示，需要分摊实时计算掩码以允许交互式使用，并且必须具有歧义意识。同时，为了实现对新数据分布的强泛化，有必要在大量不同的掩码集上训练 SAM，而不是已经存在的任何分割数据集。

四、方法

4.1 Segment Anything Task

先将提示的概念从 NLP 转化为分割，其中提示可以是一组前景/背景点、粗略的框或遮罩、自由格式的文本，或者一般来说，任何指示要分割的内容的信息一个图像。然后，可提示的分割任务是在给定任何提示的情况下返回有效的分割掩码。“有效”掩码的要求仅仅意味着即使提示不明确并且可能指代多个对象，输出也应该是一个合理的掩码这些对象中的至少一个。此要求类似于期望语言模型对模棱两可的提示输出连贯的响应。选择这个任务是因为它会产生一个自然的预训练算法和一个通过提示将零镜头转移到下游分割任务的通用方法。每列显示 SAM 从单个模糊点提示（绿色圆圈）生成的 3 个有效掩码:

在这里插入图片描述

4.2 Segment Anything Model

SAM 具有三个组件：图像编码器、灵活提示编码器和快速掩码解码器。图像编码器输出一个图像embedding，然后可以通过各种输入提示有效地查询，以分摊的实时速度生成对象掩码。对于对应于多个对象的模糊提示，SAM 可以输出多个有效掩码和相关的置信度分数。同时，SAM使用中使用的focal loss 和dice loss 的线性组合来监督掩码预测，并使用几何提示的混合来训练可提示的分割任务。

在这里插入图片描述