【视觉分割新SOTA|论文解读4】一种最先进的图像分割模型SAM—

【视觉分割新SOTA|论文解读4】一种最先进的图像分割模型——Segment Anything Model (SAM)——Zero-Shot Transfer Experiments&Discussi

文章目录

【视觉分割新SOTA|论文解读4】一种最先进的图像分割模型——Segment Anything Model (SAM)——Zero-Shot Transfer Experiments&Discussi
7. Zero-Shot Transfer Experiments
- - 实现细节
- 7.1 Zero-Shot Single Point Valid Mask Evaluation
- - 任务
  - 数据集
  - 结果
- 7.2 Zero-Shot Edge Detection
- - 方法
  - 结果
- 7.3 Zero-Shot Object Proposals
- - 方法
  - 结果
- 7.4 Zero-Shot Instance Segmentation
- - 方法
  - 结果
- 7.5 Zero-Shot Text-to-Mask
- - 方法
  - 结果
- 7.6 Ablations
8. Discussion
- 8.1 基础模型
- 8.2 组合性
- 8.3 局限性
- 8.4 结论

欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！
祝所有的硕博生都能遇到好的导师！好的审稿人！好的同门！顺利毕业！

大多数高校硕博生毕业要求需要参加学术会议，发表EI或者SCI检索的学术论文会议论文：
可访问艾思科蓝官网，浏览即将召开的学术会议列表。会议入口：https://ais.cn/u/mmmiUz

参考链接：https://ai.meta.com/research/publications/segment-anything/

7. Zero-Shot Transfer Experiments

在本节中，我们展示了与“分割任意模型”（SAM）相关的零-shot迁移实验。我们考虑了五个任务，其中四个任务与用于训练SAM的可提示分割任务显著不同。这些实验评估SAM在训练过程中未见过的数据集和任务上的表现（我们对“零-shot迁移”的使用遵循CLIP【82】中的用法）。这些数据集可能包括新颖的图像分布，例如水下图像或以自我为中心的图像（如图8所示），据我们所知，这些图像不出现在SA-1B中。
在这里插入图片描述

我们的实验首先测试可提示分割的核心目标：从任何提示中生成有效掩膜。我们强调单个前景点提示的挑战性场景，因为它相较于其他更具体的提示更容易产生歧义。接下来，我们进行了一系列实验，涵盖低、中、高层次的图像理解，基本上与该领域的历史发展相平行。具体而言，我们要求SAM执行以下任务：**(1) 边缘检测，(2) 分割所有对象，即生成目标提案，(3) 分割检测到的对象，即实例分割，(4) 作为概念验证，从自由格式文本中分割对象。**这四个任务与SAM的训练任务存在显著差异，且通过提示工程实现。

我们的实验以消融研究结束。

实现细节

除非另有说明：(1) SAM使用经过MAE【47】预训练的ViT-H【33】图像编码器，(2) SAM是在SA-1B上训练的，注意该数据集仅包含来自我们数据引擎最终阶段的自动生成掩膜。有关其他模型和训练细节（如超参数），请参见§A。

7.1 Zero-Shot Single Point Valid Mask Evaluation

任务

我们评估从单个前景点中分割对象的能力。该任务是病态的，因为一个点可能对应多个对象。大多数数据集的真实掩膜并未列举所有可能的掩膜，这使得自动化评估指标不够可靠。因此，我们用人类评估补充了标准的mIoU指标（即预测掩膜与真实掩膜之间所有IoU的均值），人类评估者将掩膜质量从1（毫无意义）到10（像素完美）进行评分。具体细节见§D.1、§E和§G。默认情况下，我们从真实掩膜的“中心”采样点（在掩膜内部距离变换的最大值处），遵循交互式分割的标准评估协议【92】。由于SAM能够预测多个掩膜，我们默认仅评估模型最自信的掩膜。基准测试均为单掩膜方法。我们主要与RITM【92】进行比较，RITM是一个强大的交互式分割器，在我们的基准测试中表现优于其他强基线【67, 18】。

数据集

我们使用了一套新编制的包含23个数据集的套件，具有多样的图像分布。图8列出了这些数据集，并展示了每个数据集的样本（更多细节见附录表7）。我们使用所有23个数据集进行mIoU评估。对于人类评估，我们使用图9b中列出的子集（由于这类研究的资源需求）。该子集包括SAM在自动评估指标上优于和劣于RITM的数据集。
在这里插入图片描述

结果

首先，我们在完整的23个数据集上使用mIoU进行自动评估，并将每个数据集的结果与RITM进行比较，如图9a所示。SAM在23个数据集中有16个的结果更高，最大提升约为47 IoU。我们还提供了一个“oracle”结果，其中选择与真实掩膜最相关的SAM的3个掩膜，而不是选择最自信的掩膜。这揭示了模糊性对自动评估的影响。特别是，当oracle执行模糊性解析时，SAM在所有数据集上均优于RITM。

人类评估的结果如图9b所示。误差条为均值掩膜评分的95%置信区间（所有差异均显著，具体见§E）。我们观察到，评注者对SAM掩膜的质量评分显著高于最强基线RITM。经过消融的“模糊性无感知”版本SAM，其单输出掩膜的评分持续较低，但仍高于RITM。SAM的平均评分介于7和9之间，符合定性评分指南：“高分（7-9）：对象可识别，错误小且罕见（例如，错过一个小的、严重遮挡的断开组件等）。”这些结果表明，SAM已学会从单点中分割有效掩膜。需要注意的是，对于像DRAM和IBD这样SAM在自动指标上表现较差的数据集，其在人工评估中的评分却始终较高。

图9c展示了其他基准，SimpleClick【67】和FocalClick【18】在单点性能上均低于RITM和SAM。随着点数从1增加到9，我们观察到方法间的差距减小。这是可以预期的，因为任务变得更简单；此外，SAM并未针对极高的IoU范围进行优化。最后，在图9d中，我们将默认的中心点采样替换为随机点采样。我们观察到SAM与基准间的差距增大，且SAM在两种采样方法下均能取得相当的结果。

7.2 Zero-Shot Edge Detection

方法

我们使用BSDS500【72, 3】数据集对SAM进行经典的低级边缘检测任务评估。我们采用了简化版的自动掩膜生成流程。具体而言，我们用16×16的前景点规则网格对SAM进行提示，生成768个预测掩膜（每个点3个掩膜）。通过非极大值抑制（NMS）去除冗余掩膜。随后，使用未阈值掩膜概率图的Sobel滤波和标准轻量级后处理（包括边缘NMS）计算边缘图（具体细节见§D.2）。
在这里插入图片描述

结果

我们在图10中可视化了代表性的边缘图（更多细节见图15）。从定性上看，尽管SAM并未针对边缘检测进行训练，但其生成的边缘图仍然合理。与真实边缘相比，SAM预测的边缘数量更多，包括一些在BSDS500中未标注的合理边缘。这一偏差在表3中以定量形式反映：在50%精度下的召回率（R50）较高，但牺牲了精度。SAM自然落后于那些学习了BSDS500偏差的最先进方法，即知道哪些边缘需要抑制的方法。然而，与在BSDS500上训练的开创性深度学习方法HED【108】相比，SAM的表现良好，并显著优于之前的（尽管过时的）零样本迁移方法。
在这里插入图片描述

7.3 Zero-Shot Object Proposals

方法

接下来，我们在中级任务对象提议生成上评估SAM【2, 102】。该任务在目标检测研究中发挥了重要作用，是开创性系统（如[102, 41, 84]）中的一个中间步骤。为了生成对象提议，我们运行了稍微修改过的自动掩膜生成流程，并将掩膜输出为提议（具体细节见§D.3）。我们在LVIS v1数据集上计算标准的平均召回率（AR）指标【44】。我们关注LVIS数据集，因为其大量类别提供了具有挑战性的测试。我们将SAM与实现为ViTDet【62】的强基线进行比较（该基线使用了级联Mask R-CNN【48, 11】ViT-H）。需要注意的是，这一“基线”对应于“伪装为提议生成器的检测器”（DMP）方法【16】，该方法在AR上具有优势，因此这是一个真正具有挑战性的比较。

结果

在表4中，我们不出所料地看到，使用ViTDet-H的检测结果作为对象提议（即DMP方法【16】）在整体表现上最好。然而，SAM在多个指标上表现显著优秀。特别地，SAM在中等和大物体，以及稀有和常见物体的检测上优于ViTDet-H。实际上，SAM仅在小物体和频繁物体上表现逊色于ViTDet-H，因为ViTDet-H在LVIS上训练时能够轻松学习到特定的注释偏差，而SAM并未如此。我们还与一个去除模糊性、未意识到的SAM版本（“single out.”）进行了比较，该版本在所有AR指标上的表现显著低于SAM。
在这里插入图片描述

7.4 Zero-Shot Instance Segmentation

方法

**在更高层次的视觉任务中，我们将SAM作为实例分割器的分割模块。其实现相对简单：我们运行之前使用的目标检测器ViTDet，并用其输出的框对SAM进行提示。**这展示了如何将SAM整合到更大的系统中。

结果

我们在COCO和LVIS数据集上比较了SAM和ViTDet预测的掩膜，结果见表5。在掩膜平均精度（mask AP）指标上，我们观察到两个数据集的差距，尽管SAM与ViTDet的结果相对接近，但仍有差距。通过可视化输出，我们发现SAM的掩膜在质量上通常优于ViTDet，边界更清晰（具体细节见§D.4和图16）。为了验证这一观察结果，我们进行了额外的人类研究，请求标注者在之前使用的1到10的质量评分标准上对ViTDet和SAM的掩膜进行评分。结果见图11，SAM在该人类研究中始终优于ViTDet。

我们推测，在COCO数据集中，由于掩膜AP的差距较大且地面真值质量相对较低（人类研究的结果证实了这一点），ViTDet学习了COCO掩膜的特定偏差。由于SAM是一种零-shot方法，无法利用这些（通常是不理想的）偏差。LVIS数据集的地面真值质量更高，但仍然存在特定的特性（例如，掩膜不包含孔洞，构造上是简单多边形）和偏差（针对模态和非模态掩膜）。同样，SAM没有经过训练以学习这些偏差，而ViTDet则能够利用它们。
在这里插入图片描述

7.5 Zero-Shot Text-to-Mask

方法

最后，我们考虑一个更高层次的任务：根据自由格式的文本进行对象分割。该实验旨在验证SAM处理文本提示的能力。虽然我们在之前的所有实验中使用了相同的SAM，但此次实验对SAM的训练过程进行了修改，使其具备文本感知能力，而无需新的文本注释。具体而言，对于每个面积大于100²的手动收集掩膜，我们提取其CLIP图像嵌入。在训练过程中，我们用提取的CLIP图像嵌入作为SAM的首次交互提示。关键观察是，由于CLIP的图像嵌入经过训练与其文本嵌入对齐，我们可以用图像嵌入进行训练，而在推理时使用文本嵌入。也就是说，在推理阶段，我们将文本输入CLIP的文本编码器，然后将生成的文本嵌入作为提示提供给SAM（具体细节见§D.5）。
在这里插入图片描述

结果

我们在图12中展示了定性结果。SAM能够基于简单的文本提示（如“一个轮子”）以及短语（如“海狸牙格栅”）进行对象分割。当SAM仅根据文本提示未能正确选择对象时，增加一个额外的点往往能修正预测，类似于文献[31]的结果。

7.6 Ablations

我们对包含23个数据集的实验进行了多个消融实验，采用单中心点提示协议。需注意，单个点可能存在歧义，而这种歧义在仅包含单一掩膜的真实标签中可能未被体现。由于SAM处于零-shot迁移设置，SAM的高排名掩膜与根据数据注释指南生成的掩膜之间可能存在系统性偏差。因此，我们还报告了相对于真实标签的最佳掩膜（“oracle”）。

图13（左）展示了SAM在数据引擎各阶段累积数据上的性能。我们观察到，每个阶段的mIoU均有所提升。在使用所有三个阶段进行训练时，自动生成的掩膜数量远超手动和半自动掩膜。为此，我们发现将手动和半自动掩膜在训练中过采样10倍能获得最佳结果。此设置使得训练变得复杂。因此，我们测试了仅使用自动生成掩膜的第四种设置。在这种数据下，SAM的性能仅比使用所有数据时低约0.5 mIoU。因此，我们默认仅使用自动生成的掩膜以简化训练设置。

在图13（中），我们考察数据量的影响。完整的SA-1B数据集包含1100万张图像，而我们均匀地将其下采样至100万和10万张进行消融实验。在10万张图像时，所有设置下的mIoU均出现显著下降。然而，在100万张图像（约为完整数据集的10%）时，我们观察到的结果与使用完整数据集相当。这种数据模式仍包含约1亿个掩膜，可能是许多应用场景的实用设置。

最后，图13（右）展示了使用ViT-B、ViT-L和ViT-H图像编码器的结果。ViT-H相较于ViT-B有显著提升，但相较于ViT-L的增益则较小。目前进一步扩大图像编码器似乎并无实质性效果。
在这里插入图片描述

8. Discussion

8.1 基础模型

自机器学习早期起，预训练模型就已被适配于下游任务【99】。近年来，随着对模型规模日益重视，该范式变得愈发重要，这类模型最近被重新命名为“基础模型”，即“在大规模广泛数据上训练并可适应各种下游任务的模型”【8】。我们的工作与这一定义高度契合，但需注意，图像分割的基础模型范围本质上有限，因为它代表了计算机视觉中的一个重要但有限的子集。我们还对比了我们的方法与文献【8】中强调自监督学习在基础模型中的作用，虽然我们的模型以自监督技术（MAE【47】）初始化，但其绝大多数能力来自于大规模的监督训练。在数据引擎能够扩展可用注释的情况下（如我们的工作），监督训练提供了一种有效的解决方案。

8.2 组合性

预训练模型可以为新能力提供动力，甚至超出训练时的设想。其中一个显著的例子是CLIP【82】作为更大系统（如DALL·E【83】）中的一个组件使用。我们的目标是使SAM能够轻松进行这种组合。我们旨在通过要求SAM对广泛的分割提示预测有效掩膜来实现这一目标。这样可以在SAM和其他组件之间创建可靠的接口。例如，MCC【106】可以轻松使用SAM分割感兴趣的对象，从单个RGB-D图像中实现对未见对象的强泛化以进行3D重建。在另一个例子中，SAM可以通过可穿戴设备检测到的视线点进行提示，从而启用新应用。得益于SAM对新领域（如自我中心图像）的泛化能力，这种系统在没有额外训练的情况下也能正常工作。

8.3 局限性

虽然SAM总体表现良好，但并非完美。它有时可能会遗漏细微结构，产生小的断开组件，并且其边界的清晰度不如那些“放大”的计算密集型方法【18】。通常，我们预期在提供多个点时，专用的交互式分割方法会优于SAM【67】。与这些方法不同，SAM的设计侧重于通用性和使用广度，而非高IoU的交互式分割。此外，SAM可以实时处理提示，但使用重型图像编码器时，其整体性能不够实时。我们对文本到掩膜任务的探索性尝试并不完全稳健，尽管我们相信通过更多努力可以改进。虽然SAM可以执行多种任务，但如何设计简单提示以实现语义和全景分割仍不明确。最后，我们预期一些领域特定工具（如【7】）在其各自领域的表现会优于SAM。

8.4 结论

Segment Anything项目旨在将图像分割提升至基础模型时代。我们的主要贡献是一个新任务（可提示分割）、模型（SAM）和数据集（SA-1B），使得这一跃迁成为可能。SAM是否能达到基础模型的地位还有待观察，取决于其在社区中的使用情况，但无论如何，我们预计这项工作的视角、超过10亿个掩膜的发布以及我们的可提示分割模型将为未来铺平道路。

欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！
祝所有的硕博生都能遇到好的导师！好的审稿人！好的同门！顺利毕业！