【论文阅读】Segment Anything(SAM)——可分割一切的CV大模型

news2024/12/25 1:49:28

【前言】随着ChatGPT席卷自然语言处理,Facebook凭借着Segment Anything在CV圈也算扳回一城。迄今为止,github的star已经超过3万,火的可谓一塌糊涂。作为AI菜鸟,可不得自己爬到巨人肩膀上瞅一瞅~

论文地址:https://arxiv.org/abs/2304.02643

代码地址:GitHub - facebookresearch/segment-anything: The repository provides code for running inference with the SegmentAnything Model (SAM), links for downloading the trained model checkpoints, and example notebooks that show how to use the model.

demo地址:

Segment Anything | Meta AI

1. 引言

作者首先阐述了此项研究的目的,那就是开发一个可提示的(promptable)模型,在大型数据集上通过特定的任务对其进行预训练,使之具有很强的泛化性,即能够通过提示(prompt)解决新数据集上的一系列下游分割任务。

实现此目的需要解决的问题包括:

  • 什么样的任务可以具有zero-shot的泛化性?
  • 对应的网络结构是怎样的?
  • 什么样的数据集能够驱动此类任务和模型?

通过分析上述问题,作者提出了一套解决思路:首先需要定义一个可提示的分割任务(a promptable segmentation task),该任务可提供强大的预训练基础以支持一系列的下游应用。其次,开发一个支持灵活提示(flexible prompting)并能够实时输出分割掩膜的模型。最后需要一个具有丰富多样性的大规模数据集用于模型训练。

总言之,集齐任务(Task)、模型(Model)、数据(Data)三剑客,就可以召唤zero-shot的应用了。如下图所示。

  • 任务Task:建立一个可提示的分割任务,使得对于点、框选、mask、文本等任意形式的分割提示,都可返回一个有效的分割掩膜。即使输入的提示比较模棱两可,模型都能输出较合理的分割结果(比如一个点可能指向衣服,也可能指向人,输出的掩膜必须是这些潜在目标中的某一个,而不是随意生成的)。
  • 模型Model:模型需要支持灵活的提示并能实时计算交互生成的掩膜,因此作者设计了一个图像编码器和一个提示编码器,然后通过一个轻量化的掩膜解码器进行结合并预测输出分割掩膜。
  • 数据Data:强泛化性的模型需要丰富多样性的大规模数据集,为此作者建立一个数据引擎,通过人工(全人工)、半自动(人工校验)、全自动三个阶段生成数据,构建了数据集SA-1B,包括超过1.1千万的影像和10亿掩膜,是现有数据集规模的400多倍。

下面分别具体介绍这三部分的内容。

2. Segment Anything Task

在NLP的翻译任务中,提示prompt为下一个文本(token),由此可以设计分割任务的提示,即前景/背景的点、边界框、掩膜或文本等任何可以表明分割目标的信息。对于给定任意提示,模型都可以返回一个有效的分割掩膜(“有效”可以简单理解为当一个提示是模棱两可的时候都能得到合理的掩膜输出)。

针对同一提示可能存在的多种合理输出(一列为一组)

【预训练】该分割任务需要结合一系列提示(点、边界框、掩膜或文本等)进行模型预训练,并将模型输出结果与真实结果进行对比。与交互式分割不同,本任务针对任意的提示都可预测一个有效的掩膜,因此需要选择特定的模型和训练损失函数。

【Zero-shot transfer】因为该预训练模型在推理时可对任何提示作出响应,因此可结合相应的提示完成下游任务。

【相关任务】分割是一个广泛的领域,包括交互式分割、语义分割、实例分割、目标检测、前景分割等。这个可提示的分割任务的目标是建立一个适用于大多数分割任务的通用模型,能够作为一个组件在新的、不同的任务上进行推理。

3. Segment Anything Model

该模型基于Transformer结构,由图像编码器(Image Encoder)、提示编码器(Prompt Encoder)和掩膜解码器(Mask Decoder)组成。

【Image Encoder】使用MAE预训练的ViT模型处理高分辨率的输入。

【Prompt Encoder】通过位置编码表示点和框(离散的),并对不同的提示进行求和。密集的提示(masks)采用卷积进行编码并使用image embedding进行逐元素累加。

【Mask Decoder】将image embedding、 prompt embeddings以及输出的token映射为mask掩膜。由一个transformer解码块后接一个动态掩膜预测头组成。

【模糊输出的解决办法】针对单个提示,模型可存在多个输出(3种输出足够解决大多数问题)。在训练时,只对最小loss的掩膜进行后向传播。最后可通过置信度对输出的每个mask进行排序。

【效率】在CPU的浏览器上可达50ms,支持无缝实时交互。

【训练】模型损失函数为 focal loss 和 dice loss的线性组合。

4. Segment Anything Data Engine

【人工阶段】通过基于SAM的交互式标注工具进行标注并优化,标注时没有给掩膜赋予标签信息。在这个阶段,SAM首先通过常见公开的分割数据集进行训练,提供非精确的掩膜信息(此处SAM的作用类似于EISeg交互式标注工具),并对掩膜进行优化,然后仅采用优化后新生成的标注数据进行再次训练。六次迭代训练后,共生成了12万张图像的430万掩膜。

【半自动阶段】首先自动检测显著的目标,然后人工校正未被标注的目标,达到增加样本多样性的目的。迭代训练后共生成了18万张图像的590万掩膜。

【全自动阶段】自动化的基础是: ①大规模、多样性的掩膜样本数据提升了模型的性能;②开发了一个模糊感知模型,即使存在多种可能的结果,也能有合理的输出。

具体地,通过生成32x32的格网,并在每个格网点预测一系列对应的有效目标掩膜而实现。输出结果采用(IOU=0.5)+NMS进行生成,共计11亿的高质量掩膜。

5. Segment Anything Dataset

通过三个阶段生成了数据集SA-1B,该数据集包括:

  • 影像:1.1千万张,通过下采样保证最短边长为1500。
  • 掩膜:11亿,99.1%为全自动生成(SA-1B只包含全自动生成的数据)。
  • 掩膜质量:随机采样500张图,并采用交互式工具修正,然后通过IOU进行结果比对,95%影像对的IOU精度高于90%。

后面作者也采用了一系列方式来验证SA-1B的质量和可靠性,以及该模型在不同任务中的应用效果,可参见文章第5-7章。一句话言之就是构建了一个非常大规模、高质量的分割数据集和一个具有强泛化性的支持可提示任务的模型

6. Discussion

  • 该模型可作为计算机视觉的基准模型(foundation model)并用于下游任务。
  • 通过创建SAM与其他组件的接口,使得SAM具有较强的可集成性。
  • SAM具有泛化性和通用性,并能够实时处理提示信息。

        

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/658328.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

NDK编译C++源码生成Android平台so文件(opencv_android)

1.准备CPP文件 编写CMakeLists.txt 编写 mk文件 android-8 is unsupported. Using minimum supported version android-16 APP_PLATFORM android-16 is higher than android:minSdkVersion 1 in ./AndroidManifest.xml 修改Application.mk中的APP_PLATFORM为 android-21 builg…

59、基于51单片机多机 NRF24L01 无线温湿度 DHT11报警系统设计(程序+原理图+PCB源文件+参考论文+开题报告+任务书+元器件清单等)

摘 要 温湿度在工农业生产中占有很重要的地位,是工农业生产的重要组成数据。温湿度过高会造成粮食发霉长芽,还会引起大棚蔬菜一系列的病害。因此对其适时准确的测量就显得尤为重要。而一般的测量过程较为复杂繁琐,误差还大。比如现在所使…

MySQL-SQL存储过程/触发器详解(上)

♥️作者:小刘在C站 ♥️个人主页: 小刘主页 ♥️努力不一定有回报,但一定会有收获加油!一起努力,共赴美好人生! ♥️学习两年总结出的运维经验,以及思科模拟器全套网络实验教程。专栏&#xf…

Python 循环与判断(详解)

❄️作者介绍:奇妙的大歪❄️ 🎀个人名言:但行前路,不负韶华!🎀 🐽个人简介:云计算网络运维专业人员🐽 前言 在Python中,循环语句有两个,一个是fo…

Redis缓存穿透-击穿-雪崩详细分析加解决办法

Redis 缓存穿透 问题描述-如图 缓存穿透的原因 key 对应的数据在数据源并不存在,每次针对此key 的请求从缓存获取不到,请求都会压到数据源, 可能压垮数据源比如: 用一个不存在的用户id 获取用户信息,不论缓存还是数据库都没有,…

Spring Boot 集成 Redisson分布式锁(拿来即用版)

Redisson 是一种基于 Redis 的 Java 驻留集群的分布式对象和服务库,可以为我们提供丰富的分布式锁和线程安全集合的实现。在 Spring Boot 应用程序中使用 Redisson 可以方便地实现分布式应用程序的某些方面,例如分布式锁、分布式集合、分布式事件发布和订…

JSON5的作用、安装及使用

JSON5是对JSON的扩展,让人可以更容易手工编写和维护,用来减少一些JSON的限制,诸如json语法不支持注释,不支持字符串换行,所有的key都必须双引号,末尾不能有多余的逗号…等等,一大堆极其严格的要…

chatgpt赋能python:Python的退役与SEO

Python的退役与SEO 随着Python编程语言的流行和普及,越来越多的人开始使用它来开发各种类型的应用程序。但是,就像我们所知道的,所有技术都会发生变化,包括编程语言。因此,Python程式员可能会感到困惑和担忧&#xff…

JavaScript对象 (八):对象类型的使用、值类型和引用类型、函数的this指向、工厂方法创建对象、构造函数和类、new创建对象

1. 对象类型的使用 1.1 认识对象类型 基础数据类型可以存储一些简单的值,但是现实世界的事物抽象成程序时,往往比较复杂。 比如一个人,有自己的特性(比如姓名、年龄、身高),有一些行为(比如跑…

课程17:菜单管理功能实现

🚀前言 本文是《.Net Core从零学习搭建权限管理系统》教程专栏的课程(点击链接,跳转到专栏主页,欢迎订阅,持续更新…) 专栏介绍:以实战为线索,基于.Net 7 + REST + Vue、前后端分离,不依赖任何第三方框架,从零一步一步讲解权限管理系统搭建。 专栏适用于人群:We…

为什么运行时安全性重新流行起来?

容器通过以更高效和可扩展的方式创建、打包和部署应用程序,彻底改变了软件开发过程。 然而,能力越大,责任越大,对“左移安全性”的高度关注为那些在运行时忽视安全性的组织带来了风险。 通过对容器运行时安全采取多层次、全面的…

云服务器ECS_云主机_服务器托管_弹性计算-阿里云

阿里云服务器ECS(Elastic Compute Service)是一种安全可靠、弹性可伸缩的云计算服务,阿里云提供多种云服务器ECS实例规格,如通用算力型u1、ECS计算型c7、通用型g7、GPU实例等,阿里云服务器网分享阿里云服务器ECS详细介…

Linux文件操作四剑客

目录 一、grep (一)作用 (二)格式 (三)选项 (四)案例 1、查看/etc目录下所有包含bash的文件名:grep -rl bash /etc 2、查看/var/log目录下所有包含error的文…

读发布!设计与部署稳定的分布式系统(第2版)笔记04_集成点

1. 第一个拥有10亿用户的网站 1.1. 2016年,Facebook宣布其每日活跃用户数量为11.3亿 1.2. 对整个应用程序来说,“五个9”的可靠性远远不够,这每天会让成千上万的用户失望 1.3. 假如按照六西格玛质量标准来衡量,那么Facebook每天…

LIN-网络管理:休眠(Go To Sleep)和唤醒(Wake up)

文章目录 一、LIN总线的两种状态二、休眠模式(Go To Sleep)①利用诊断帧中的主机请求帧 0x3C 作休眠命令②当总线静默(没有显性和隐性电平之间的切换)4s~10s 时,节点自动进入休眠状态。 三、唤醒模式(Wake up&#xff…

智能图片降噪-Topaz Photo AI

今天给各位小伙伴们测试了一款可以使视频智能无损放大的软件——Topaz Photo AI。 小编在很早之前也有了解过Topaz系列的软件,都是通过人工智能处理的,对小白新手们很适用,由于使用人工智能方面的软件或程序对硬件要求都比较高,因…

交通指南系统

一、实验目的 1. 掌握图的基本存储方法; 2. 掌握有关图的操作算法并用高级语言实现; 3. 熟练掌握图的两种搜索路径的遍历方法。 二、实验内容 假设以一个带权有向图表示某一区域的公交线路网,图中顶点代表一些区域中的重要场所&#xff0…

设计模式(二十二):行为型之备忘录模式

设计模式系列文章 设计模式(一):创建型之单例模式 设计模式(二、三):创建型之工厂方法和抽象工厂模式 设计模式(四):创建型之原型模式 设计模式(五):创建型之建造者模式 设计模式(六):结构型之代理模式 设计模式…

【C】转义字符以及注释的介绍

转义字符 转义字符顾名思义就是转变意思。就是把原来字符的意思转变了&#xff0c;让它拥有别的意思。 如果我们想要在屏幕上打印&#xff1a;c:\code:\test.c 这样一串文字的话&#xff0c;我们代码肯定会这样写&#xff1a; #include<stdio.h> int main() {printf(&q…

压缩感知入门④基于总体最小二乘的扰动压缩感知重构算法

压缩感知系列博客&#xff1a;压缩感知入门①从零开始压缩感知压缩感知入门②信号的稀疏表示和约束等距性压缩感知入门③基于ADMM的全变分正则化的压缩感知重构算法压缩感知入门④基于总体最小二乘的扰动压缩感知重构算法 文章目录 1. Problem2. 仿真结果3. MATLAB算法4. 源码地…