【视觉分割新SOTA|论文解读4】一种最先进的图像分割模型SAM——Zero-Shot Transfer ExperimentsDiscussion

news2024/11/24 4:39:02

【视觉分割新SOTA|论文解读4】一种最先进的图像分割模型——Segment Anything Model (SAM)——Zero-Shot Transfer Experiments&Discussi

【视觉分割新SOTA|论文解读4】一种最先进的图像分割模型——Segment Anything Model (SAM)——Zero-Shot Transfer Experiments&Discussi


文章目录

  • 【视觉分割新SOTA|论文解读4】一种最先进的图像分割模型——Segment Anything Model (SAM)——Zero-Shot Transfer Experiments&Discussi
  • 7. Zero-Shot Transfer Experiments
      • 实现细节
    • 7.1 Zero-Shot Single Point Valid Mask Evaluation
      • 任务
      • 数据集
      • 结果
    • 7.2 Zero-Shot Edge Detection
      • 方法
      • 结果
    • 7.3 Zero-Shot Object Proposals
      • 方法
      • 结果
    • 7.4 Zero-Shot Instance Segmentation
      • 方法
      • 结果
    • 7.5 Zero-Shot Text-to-Mask
      • 方法
      • 结果
    • 7.6 Ablations
  • 8. Discussion
    • 8.1 基础模型
    • 8.2 组合性
    • 8.3 局限性
    • 8.4 结论


欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!

大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz

参考链接:https://ai.meta.com/research/publications/segment-anything/

7. Zero-Shot Transfer Experiments

在本节中,我们展示了与“分割任意模型”(SAM)相关的零-shot迁移实验。我们考虑了五个任务,其中四个任务与用于训练SAM的可提示分割任务显著不同。这些实验评估SAM在训练过程中未见过的数据集和任务上的表现(我们对“零-shot迁移”的使用遵循CLIP【82】中的用法)。这些数据集可能包括新颖的图像分布,例如水下图像或以自我为中心的图像(如图8所示),据我们所知,这些图像不出现在SA-1B中。
在这里插入图片描述

我们的实验首先测试可提示分割的核心目标:从任何提示中生成有效掩膜。我们强调单个前景点提示的挑战性场景,因为它相较于其他更具体的提示更容易产生歧义。接下来,我们进行了一系列实验,涵盖低、中、高层次的图像理解,基本上与该领域的历史发展相平行。具体而言,我们要求SAM执行以下任务:**(1) 边缘检测,(2) 分割所有对象,即生成目标提案,(3) 分割检测到的对象,即实例分割,(4) 作为概念验证,从自由格式文本中分割对象。**这四个任务与SAM的训练任务存在显著差异,且通过提示工程实现。

我们的实验以消融研究结束

实现细节

除非另有说明:(1) SAM使用经过MAE【47】预训练的ViT-H【33】图像编码器,(2) SAM是在SA-1B上训练的,注意该数据集仅包含来自我们数据引擎最终阶段的自动生成掩膜。有关其他模型和训练细节(如超参数),请参见§A。

7.1 Zero-Shot Single Point Valid Mask Evaluation

任务

我们评估从单个前景点中分割对象的能力。该任务是病态的,因为一个点可能对应多个对象。大多数数据集的真实掩膜并未列举所有可能的掩膜,这使得自动化评估指标不够可靠。因此,我们用人类评估补充了标准的mIoU指标(即预测掩膜与真实掩膜之间所有IoU的均值),人类评估者将掩膜质量从1(毫无意义)到10(像素完美)进行评分。具体细节见§D.1、§E和§G。默认情况下,我们从真实掩膜的“中心”采样点(在掩膜内部距离变换的最大值处),遵循交互式分割的标准评估协议【92】。由于SAM能够预测多个掩膜,我们默认仅评估模型最自信的掩膜。基准测试均为单掩膜方法。我们主要与RITM【92】进行比较,RITM是一个强大的交互式分割器,在我们的基准测试中表现优于其他强基线【67, 18】。

数据集

我们使用了一套新编制的包含23个数据集的套件,具有多样的图像分布。图8列出了这些数据集,并展示了每个数据集的样本(更多细节见附录表7)。我们使用所有23个数据集进行mIoU评估。对于人类评估,我们使用图9b中列出的子集(由于这类研究的资源需求)。该子集包括SAM在自动评估指标上优于和劣于RITM的数据集。
在这里插入图片描述

结果

首先,我们在完整的23个数据集上使用mIoU进行自动评估,并将每个数据集的结果与RITM进行比较,如图9a所示。SAM在23个数据集中有16个的结果更高,最大提升约为47 IoU。我们还提供了一个“oracle”结果,其中选择与真实掩膜最相关的SAM的3个掩膜,而不是选择最自信的掩膜。这揭示了模糊性对自动评估的影响。特别是,当oracle执行模糊性解析时,SAM在所有数据集上均优于RITM。

人类评估的结果如图9b所示。误差条为均值掩膜评分的95%置信区间(所有差异均显著,具体见§E)。我们观察到,评注者对SAM掩膜的质量评分显著高于最强基线RITM。经过消融的“模糊性无感知”版本SAM,其单输出掩膜的评分持续较低,但仍高于RITM。SAM的平均评分介于7和9之间,符合定性评分指南:“高分(7-9):对象可识别,错误小且罕见(例如,错过一个小的、严重遮挡的断开组件等)。”这些结果表明,SAM已学会从单点中分割有效掩膜。需要注意的是,对于像DRAM和IBD这样SAM在自动指标上表现较差的数据集,其在人工评估中的评分却始终较高。

图9c展示了其他基准,SimpleClick【67】和FocalClick【18】在单点性能上均低于RITM和SAM。随着点数从1增加到9,我们观察到方法间的差距减小。这是可以预期的,因为任务变得更简单;此外,SAM并未针对极高的IoU范围进行优化。最后,在图9d中,我们将默认的中心点采样替换为随机点采样。我们观察到SAM与基准间的差距增大,且SAM在两种采样方法下均能取得相当的结果。

7.2 Zero-Shot Edge Detection

方法

我们使用BSDS500【72, 3】数据集对SAM进行经典的低级边缘检测任务评估。我们采用了简化版的自动掩膜生成流程。具体而言,我们用16×16的前景点规则网格对SAM进行提示,生成768个预测掩膜(每个点3个掩膜)。通过非极大值抑制(NMS)去除冗余掩膜。随后,使用未阈值掩膜概率图的Sobel滤波和标准轻量级后处理(包括边缘NMS)计算边缘图(具体细节见§D.2)。
在这里插入图片描述

结果

我们在图10中可视化了代表性的边缘图(更多细节见图15)。从定性上看,尽管SAM并未针对边缘检测进行训练,但其生成的边缘图仍然合理。与真实边缘相比,SAM预测的边缘数量更多,包括一些在BSDS500中未标注的合理边缘。这一偏差在表3中以定量形式反映:在50%精度下的召回率(R50)较高,但牺牲了精度。SAM自然落后于那些学习了BSDS500偏差的最先进方法,即知道哪些边缘需要抑制的方法。然而,与在BSDS500上训练的开创性深度学习方法HED【108】相比,SAM的表现良好,并显著优于之前的(尽管过时的)零样本迁移方法。
在这里插入图片描述

7.3 Zero-Shot Object Proposals

方法

接下来,我们在中级任务对象提议生成上评估SAM【2, 102】。该任务在目标检测研究中发挥了重要作用,是开创性系统(如[102, 41, 84])中的一个中间步骤。为了生成对象提议,我们运行了稍微修改过的自动掩膜生成流程,并将掩膜输出为提议(具体细节见§D.3)。我们在LVIS v1数据集上计算标准的平均召回率(AR)指标【44】。我们关注LVIS数据集,因为其大量类别提供了具有挑战性的测试。我们将SAM与实现为ViTDet【62】的强基线进行比较(该基线使用了级联Mask R-CNN【48, 11】ViT-H)。需要注意的是,这一“基线”对应于“伪装为提议生成器的检测器”(DMP)方法【16】,该方法在AR上具有优势,因此这是一个真正具有挑战性的比较。

结果

在表4中,我们不出所料地看到,使用ViTDet-H的检测结果作为对象提议(即DMP方法【16】)在整体表现上最好。然而,SAM在多个指标上表现显著优秀。特别地,SAM在中等和大物体,以及稀有和常见物体的检测上优于ViTDet-H。实际上,SAM仅在小物体和频繁物体上表现逊色于ViTDet-H,因为ViTDet-H在LVIS上训练时能够轻松学习到特定的注释偏差,而SAM并未如此。我们还与一个去除模糊性、未意识到的SAM版本(“single out.”)进行了比较,该版本在所有AR指标上的表现显著低于SAM。
在这里插入图片描述

7.4 Zero-Shot Instance Segmentation

方法

**在更高层次的视觉任务中,我们将SAM作为实例分割器的分割模块。其实现相对简单:我们运行之前使用的目标检测器ViTDet,并用其输出的框对SAM进行提示。**这展示了如何将SAM整合到更大的系统中。

结果

我们在COCO和LVIS数据集上比较了SAM和ViTDet预测的掩膜,结果见表5。在掩膜平均精度(mask AP)指标上,我们观察到两个数据集的差距,尽管SAM与ViTDet的结果相对接近,但仍有差距。通过可视化输出,我们发现SAM的掩膜在质量上通常优于ViTDet,边界更清晰(具体细节见§D.4和图16)。为了验证这一观察结果,我们进行了额外的人类研究,请求标注者在之前使用的1到10的质量评分标准上对ViTDet和SAM的掩膜进行评分。结果见图11,SAM在该人类研究中始终优于ViTDet。

我们推测,在COCO数据集中,由于掩膜AP的差距较大且地面真值质量相对较低(人类研究的结果证实了这一点),ViTDet学习了COCO掩膜的特定偏差。由于SAM是一种零-shot方法,无法利用这些(通常是不理想的)偏差。LVIS数据集的地面真值质量更高,但仍然存在特定的特性(例如,掩膜不包含孔洞,构造上是简单多边形)和偏差(针对模态和非模态掩膜)。同样,SAM没有经过训练以学习这些偏差,而ViTDet则能够利用它们。
在这里插入图片描述

7.5 Zero-Shot Text-to-Mask

方法

最后,我们考虑一个更高层次的任务:根据自由格式的文本进行对象分割。该实验旨在验证SAM处理文本提示的能力。虽然我们在之前的所有实验中使用了相同的SAM,但此次实验对SAM的训练过程进行了修改,使其具备文本感知能力,而无需新的文本注释。具体而言,对于每个面积大于100²的手动收集掩膜,我们提取其CLIP图像嵌入。在训练过程中,我们用提取的CLIP图像嵌入作为SAM的首次交互提示。关键观察是,由于CLIP的图像嵌入经过训练与其文本嵌入对齐,我们可以用图像嵌入进行训练,而在推理时使用文本嵌入。也就是说,在推理阶段,我们将文本输入CLIP的文本编码器,然后将生成的文本嵌入作为提示提供给SAM(具体细节见§D.5)。
在这里插入图片描述

结果

我们在图12中展示了定性结果。SAM能够基于简单的文本提示(如“一个轮子”)以及短语(如“海狸牙格栅”)进行对象分割。当SAM仅根据文本提示未能正确选择对象时,增加一个额外的点往往能修正预测,类似于文献[31]的结果。

7.6 Ablations

我们对包含23个数据集的实验进行了多个消融实验,采用单中心点提示协议。需注意,单个点可能存在歧义,而这种歧义在仅包含单一掩膜的真实标签中可能未被体现。由于SAM处于零-shot迁移设置,SAM的高排名掩膜与根据数据注释指南生成的掩膜之间可能存在系统性偏差。因此,我们还报告了相对于真实标签的最佳掩膜(“oracle”)。

图13(左)展示了SAM在数据引擎各阶段累积数据上的性能。我们观察到,每个阶段的mIoU均有所提升。在使用所有三个阶段进行训练时,自动生成的掩膜数量远超手动和半自动掩膜。为此,我们发现将手动和半自动掩膜在训练中过采样10倍能获得最佳结果。此设置使得训练变得复杂。因此,我们测试了仅使用自动生成掩膜的第四种设置。在这种数据下,SAM的性能仅比使用所有数据时低约0.5 mIoU。因此,我们默认仅使用自动生成的掩膜以简化训练设置。

在图13(中),我们考察数据量的影响。完整的SA-1B数据集包含1100万张图像,而我们均匀地将其下采样至100万和10万张进行消融实验。在10万张图像时,所有设置下的mIoU均出现显著下降。然而,在100万张图像(约为完整数据集的10%)时,我们观察到的结果与使用完整数据集相当。这种数据模式仍包含约1亿个掩膜,可能是许多应用场景的实用设置。

最后,图13(右)展示了使用ViT-B、ViT-L和ViT-H图像编码器的结果。ViT-H相较于ViT-B有显著提升,但相较于ViT-L的增益则较小。目前进一步扩大图像编码器似乎并无实质性效果。
在这里插入图片描述

8. Discussion

8.1 基础模型

自机器学习早期起,预训练模型就已被适配于下游任务【99】。近年来,随着对模型规模日益重视,该范式变得愈发重要,这类模型最近被重新命名为“基础模型”,即“在大规模广泛数据上训练并可适应各种下游任务的模型”【8】。我们的工作与这一定义高度契合,但需注意,图像分割的基础模型范围本质上有限,因为它代表了计算机视觉中的一个重要但有限的子集。我们还对比了我们的方法与文献【8】中强调自监督学习在基础模型中的作用,虽然我们的模型以自监督技术(MAE【47】)初始化,但其绝大多数能力来自于大规模的监督训练。在数据引擎能够扩展可用注释的情况下(如我们的工作),监督训练提供了一种有效的解决方案。

8.2 组合性

预训练模型可以为新能力提供动力,甚至超出训练时的设想。其中一个显著的例子是CLIP【82】作为更大系统(如DALL·E【83】)中的一个组件使用。我们的目标是使SAM能够轻松进行这种组合。我们旨在通过要求SAM对广泛的分割提示预测有效掩膜来实现这一目标。这样可以在SAM和其他组件之间创建可靠的接口。例如,MCC【106】可以轻松使用SAM分割感兴趣的对象,从单个RGB-D图像中实现对未见对象的强泛化以进行3D重建。在另一个例子中,SAM可以通过可穿戴设备检测到的视线点进行提示,从而启用新应用。得益于SAM对新领域(如自我中心图像)的泛化能力,这种系统在没有额外训练的情况下也能正常工作。

8.3 局限性

虽然SAM总体表现良好,但并非完美。它有时可能会遗漏细微结构,产生小的断开组件,并且其边界的清晰度不如那些“放大”的计算密集型方法【18】。通常,我们预期在提供多个点时,专用的交互式分割方法会优于SAM【67】。与这些方法不同,SAM的设计侧重于通用性和使用广度,而非高IoU的交互式分割。此外,SAM可以实时处理提示,但使用重型图像编码器时,其整体性能不够实时。我们对文本到掩膜任务的探索性尝试并不完全稳健,尽管我们相信通过更多努力可以改进。虽然SAM可以执行多种任务,但如何设计简单提示以实现语义和全景分割仍不明确。最后,我们预期一些领域特定工具(如【7】)在其各自领域的表现会优于SAM。

8.4 结论

Segment Anything项目旨在将图像分割提升至基础模型时代。我们的主要贡献是一个新任务(可提示分割)、模型(SAM)和数据集(SA-1B),使得这一跃迁成为可能。SAM是否能达到基础模型的地位还有待观察,取决于其在社区中的使用情况,但无论如何,我们预计这项工作的视角、超过10亿个掩膜的发布以及我们的可提示分割模型将为未来铺平道路。

欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!

大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2212620.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

iOS 18.0.1 修復 iPhone 16 觸控失靈、訊息過早錄音等問題

上月末不少 iPhone 16、16 Pro 用戶表示自己的螢幕出現了觸摸後突然大面積無法響應的情況,當時我們猜測 Apple 會推出相應的修復更新,如今為解決這個問題而來的 iOS 18.0.1 終於正式上線了。不過在更新日誌中,官方並未說明導致斷觸的具體原因…

【企业办公系统】签到及考勤数据管理

员工在系统点击签到时,系统会从是否工作日、是否请假、签到时间和地点是否正确上进行判断,确定是否计入考勤。其中,考勤状态分为正常、地区异常、早退异常、迟到异常、旷工异常。此外,除了通过逻辑判断以外,系统还需要…

Xilinx UltraScale系列FPGA纯verilog图像缩放,工程项目解决方案,提供2套工程源码和技术支持

目录 1、前言工程概述免责声明FPGA高端图像处理培训 2、相关方案推荐我这里已有的FPGA图像缩放方案本方案在Xilinx Artix7 系列FPGA上的应用本方案在Xilinx Kintex7 系列FPGA上的应用本方案在Xilinx Zynq7000 系列FPGA上的应用本方案在国产FPGA紫光同创系列上的应用本方案在国产…

Python OpenCV精讲系列 - 目标检测与识别深入理解(二十)

💖💖⚡️⚡️专栏:Python OpenCV精讲⚡️⚡️💖💖 本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计,从基础概念入手,逐步深入到图像处理、特征检测、物体识…

java ---- 关于接口的常见面试题

🚀 个人简介:某大型国企资深软件开发工程师,信息系统项目管理师、CSDN优质创作者、阿里云专家博主,华为云云享专家,分享前端后端相关技术与工作常见问题~ 💟 作 者:码喽的自我修养&#x1f9…

前端学习-css的元素显示模式(十五)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 前言 什么是元素显示模式 块元素 常见的块元素 块元素的特点 注意 行内元素 行内元素的特点 注意 行内块元素 行内块元素的特点 元素显示模式的转换 语法格…

决策智能与强化学习:重放比率(replay ratio)

知乎:DILab决策实验室(已授权)链接:https://zhuanlan.zhihu.com/p/898641863 0. 概览 近年来,深度强化学习(Deep Reinforcement Learning, DRL)在诸多领域取得了显著的成果。然而,随…

01电力电子技术介绍

电力电子技术介绍 介绍 讲到电力电子技术就要先说说一位老先生,他就是威廉纽厄尔(William Newell)。1972年,他在美国杜克大学首次提出了电力电子的概念。电力电子的概念可以表示为一个倒三角的关系。 首先,我们看到电…

C# WinForm实现画笔签名及解决MemoryBmp格式问题

目录 需求 实现效果 开发运行环境 设计实现 界面布局 初始化 画笔绘图 清空画布 导出位图数据 小结 需求 我的文章 《C# 结合JavaScript实现手写板签名并上传到服务器》主要介绍了 web 版的需求实现,本文应项目需求介绍如何通过 C# WinForm 通过画布画笔…

Gitxray:一款基于GitHub REST API的网络安全工具

关于Gitxray Gitxray是一款基于GitHub REST API的网络安全工具,支持利用公共 GitHub REST API 进行OSINT、信息安全取证和安全检测等任务。 Gitxray(Git X-Ray 的缩写)是一款多功能安全工具,专为 GitHub 存储库而设计。它可以用于…

NASA:ARCTAS 区域的二级 FIRSTLOOK 气溶胶产品子集。 它包含气溶胶光学深度和粒子类型,以及相关的大气数据

目录 简介 信息 代码 引用 网址推荐 知识星球 机器学习 MISR L2 FIRSTLOOK Aerosol Product subset for the ARCTAS region V001 简介 这是 ARCTAS 区域的二级 FIRSTLOOK 气溶胶产品子集。 它包含气溶胶光学深度和粒子类型,以及相关的大气数据,…

基于Segment Anything 模型的智能抠图开发的产品原型,基于官网案例升级改造

最近在研究图像处理的过程中,接触到了Mate开源的 Segment Anything模型,花点时间研究了一番,之前也写了一篇部署模型的教程,感兴趣的同学可以查看一下之前的文章 基于丹摩DAMODEL部署Segment Anything 模型,智能分割一…

多模态模型架构的演进

人工智能咨询培训老师叶梓 转载标明出处 多模态学习正成为连接不同类型数据(如图像、文本、音频等)的桥梁。随着深度学习技术的发展,多模态模型在理解和处理跨领域数据方面表现出了显著的效能。来自普渡大学、混沌工业公司、斯坦福大学和亚马…

ICM20948 DMP代码详解(80)

接前一篇文章:ICM20948 DMP代码详解(79) 本回继续对“上半场”即ICM20948传感器各寄存器初始化状态进行回顾复盘。 接下来是 icm20948_sensor_setup() ---> icm20948_set_fsr() ---> inv_icm20948_set_fsr() ---> inv_icm20948_set_accel…

ARM 之十九 详解 Semihosting、SWO 以及在 MDK-ARM、IAR、Eclipse、SEGGER-ES 的使用

在嵌入式系统开发中,我们通常会将标准输入输出作为一个控制台功能添加到我的嵌入式应用程序中。这样我就有了一个命令行接口,可以检查和修改目标系统。在 ARM 架构中,Semihosting 和 SWO 是经常会遇到的两个概念,在调试输出方面也…

python+appium+雷电模拟器安卓自动化及踩坑

一、环境安装 环境:window11 1.1 安装Android SDK AndroidDevTools - Android开发工具 Android SDK下载 Android Studio下载 Gradle下载 SDK Tools下载 这里面任选一个就可以,最终下载完主要要安装操作安卓的工具adb,安装这个步骤的前提是要…

MarsCode--字符串有多少种可能性【简单】

问题描述 给定一个数字,我们按照如下规则把它翻译为字符串:0 翻译成 “a” ,1 翻译成 “b”,……,11 翻译成 “l”,……,25 翻译成 “z”。一个数字可能有多个翻译。请编程实现一个函数&#x…

[翻译]MOSIP Blue Book

目录 Preface(前言) Executive summary(执行摘要) 1 Introduction(介绍/序言) 1.1 Principles on Identification(识别原则) 1.2 Need for a Foundational ID(需要基…

【Java进阶】Java进阶-手撕java agent

文章目录 Java Agent一、定义与工作原理二、主要特点三、应用场景四、使用注意事项 Java Agent相关接口1. Instrumentation接口2. ClassFileTransformer接口3. 其他相关类和接口 手写一个Java Agent1. 编写Java Agent代码2. 编写MANIFEST.MF文件3. 编译代码并打包成JAR文件4. 运…

JavaWeb——Maven(2/8):概述-介绍安装(步骤、具体操作、测试)

目录 介绍 安装 步驟 具体操作 测试 主要讲解两个方面:Maven的介绍以及Maven的安装。 先来介绍一下没问当中的一些概念和模型。 介绍 Apache Maven是一个项目管理和构建工具,它基于项目对象模型(POM:project object model…