论文翻译：Segment Anything

news2025/7/17 8:27:14

论文地址：https://arxiv.org/abs/2304.02643
代码地址：https://github.com/facebookresearch/segment-anything
数据集地址：https://ai.facebook.com/datasets/segment-anything/
在这里插入图片描述

“Segment Anything"项目旨在通过引入新的任务、数据集和模型，使图像分割在计算机视觉领域民主化。该项目包括通用的"Segment Anything Model”（SAM）和最大的分割数据集"Segment Anything 1-Billion mask"（SA-1B）。该模型具有可提示性，并能够在新任务和图像分布上实现零样本迁移。此外，它展现了令人印象深刻的性能，常常超过完全监督的方法。SA-1B数据集可供研究目的使用，而SAM则以Apache 2.0许可证开源。这一举措旨在实现广泛的应用，并鼓励进一步研究计算机视觉基础模型。

任务

在这里插入图片描述

基于提示技术，自然语言处理（NLP）和计算机视觉领域中的基础模型可以实现对新数据集和任务的零样本学习和少样本学习。可提示分割任务旨在根据给定的提示生成有效的分割掩码，提示可以包含空间或文本信息，用于识别对象。

在分割任务中，提示可以是点、框、掩码、文本或任何指示图像中要分割的对象的信息。可提示分割任务要求针对任何给定的提示生成有效的分割掩码。即使提示不明确并且可能指代多个对象，输出结果应该为至少一个对象提供合理的掩码，类似于语言模型对不明确提示的连贯回答。该任务通过提示技术实现了自然的预训练算法，并为零样本迁移至下游分割任务提供了一种通用方法。

可提示分割任务提供了一种自然的预训练算法，对每个训练样本模拟了一系列提示序列，并将模型的掩码预测与真实结果进行比较。这个任务从交互式分割中得到了启发，目标是在提示不明确的情况下预测出有效的掩码。这确保了预训练模型在涉及歧义的使用案例中（例如自动注释）的有效性。

模型

在这里插入图片描述

SAM具有三个组成部分：图像编码器（经过MAE预训练的ViT）、灵活的提示编码器和快速的掩码解码器。

作者考虑了两组用于分割的提示：稀疏提示（点、框、文本）和密集提示（掩码）。点和框使用位置编码与每种提示类型的学习嵌入相结合表示，而自由文本使用来自CLIP的文本编码器。密集提示（如掩码）使用卷积进行嵌入，并与图像嵌入逐元素求和。

掩码解码器将图像和提示嵌入以及输出令牌有效地映射到一个掩码。受以前的研究启发，它使用一个修改后的Transformer解码器块，后跟一个动态掩码预测头。解码器块在两个方向上（提示到图像和图像到提示）使用提示自注意力和交叉注意力来更新所有嵌入。经过两个块后，图像嵌入被上采样，并且MLP将输出令牌映射到一个动态线性分类器，该分类器计算每个图像位置的掩码前景概率。

该模型经过修改，可以预测单个模糊提示的多个输出掩码，其中发现三个掩码输出足以应对大多数常见情况。在训练过程中，使用掩码的最小损失，同时为每个掩码预测一个置信度分数。掩码预测使用焦点损失和Dice损失的线性组合进行监督。通过几何提示的混合和每个掩码11轮的交互设置，训练可提示分割任务，从而实现与数据引擎的无缝集成。

数据引擎

由于互联网上缺乏大量的分割掩码数据，作者构建了一个数据引擎，以收集包含11亿个掩码数据集SA-1B。数据引擎包括三个阶段：

辅助手动阶段。在第一阶段，专业的注释员使用基于浏览器的交互式分割工具（由SAM提供支持）通过点击前景和背景对象点来标记掩码。模型辅助注释实时运行，提供交互式体验。注释员在没有语义约束的情况下标记对象，并优先标记突出的对象。SAM最初在公开的分割数据集上进行训练，并使用新标记的掩码进行重新训练，共进行了六次重新训练迭代。随着SAM的改进，每个掩码的平均注释时间从34秒减少到14秒，每个图像的平均掩码数量从20个增加到44个。在此阶段，从12万张图像中收集了430万个掩码。

在半自动阶段，目的是增加掩码的多样性和提高模型的分割能力。自动检测到有信心的掩码，并将其与预填充的图像一起呈现给注释员，然后注释员标记额外的未标注对象。使用通用的“对象”类别，使用第一阶段的掩码训练了一个边界框检测器。这个阶段从18万张图像中收集了590万个额外的掩码，总共达到1020万个掩码。模型定期使用新收集的数据进行重新训练（5次）。对于更具挑战性的对象，每个掩码的平均注释时间增加到了34秒，每个图像的平均掩码数量从44个增加到72个，包括自动生成的掩码。

在完全自动阶段，由于收集到更多的掩码和开发了具有模糊感知的模型，注释完全自动化。模型通过一个32x32的点网格进行预测，并为有效对象预测一组掩码。使用IoU预测模块选择可信的掩码，并只选择稳定的掩码。对重复的掩码应用非极大值抑制（NMS），并处理重叠的缩放图像裁剪以提高较小的掩码质量。完全自动的掩码生成应用于所有1100万个图像，总共生成了11亿个高质量的掩码。

数据集

在这里插入图片描述
SA-1B是一个数据集，包含了1100万张多样化、高分辨率、经过许可且保护隐私的图像，以及11亿个高质量的分割掩码。这些图像相较于现有的数据集具有更高的分辨率（平均为3300×4950像素，缩小至1500像素），其中人脸和车牌已经进行了模糊处理。99.1%的分割掩码是完全自动地生成的，并且其质量是重点关注的。对于自动预测和专业修正的掩码进行的比较表明，94%的配对具有超过90%的IoU（交并比）。这种高质量的掩码也得到了人工评价的确认。SA-1B中物体中心的空间分布在图像角落方面覆盖范围更广，相较于其他数据集，SA-1B具有更多的图像、掩码和每个图像的掩码数量。它还包含了更高比例的小型和中型相对尺寸的掩码。SA-1B中掩码的形状复杂性与其他数据集大致相似。

性能分析

SA-1B在欧洲、亚洲和大洋洲以及中等收入国家的图像比例较高，但在非洲和低收入国家方面的代表性不足。然而，SA-1B的所有地区至少有2800万个口罩。该数据集在根据被感知性别呈现、被感知年龄组和被感知肤色方面进行了公平性分析。结果表明，在性别和年龄组方面，SAM的表现相似，并且在被感知肤色组方面没有显著差异。然而，在SAM被用作更大系统的组成部分时可能存在偏见，并且在分割服装方面发现了在被感知性别呈现方面的偏见迹象。

在这里插入图片描述