【图像分割】SAM:Segment Anything论文学习V1

news2024/10/6 8:33:00

论文:2304.Segment Anything
代码: https://github.com/facebookresearch/segment-anything
官网与demo:https://segment-anything.com/

概要:SAM是什么?

是通用的分割模型
可以通过 模糊的点选择、文字输入、标注框对图片进行标注

图1 项目内容(发布模型、数据集):

图1:我们的目标是通过引入三个相互连接的组件来构建一个用于分割的基础模型:一个可提示(promptable)的分割任务,一个分割模型(SAM)用于数据标注( powers data annotation),并通过提示工程实现对各种任务的零样本转移,以及一个数据引擎用于收集SA-1B,我们超过10亿个掩码的数据集
在这里插入图片描述

模型概述 (SAM overview)

在这里插入图片描述
一个重量级的(heavyweight)图像编码器输出一个图像的特征编码,可以通过各种输入提示(a variety of input prompts)高效地查询,以实现分割目标掩码,并以摊销的实时速度进行处理。对于与多个对象对应的模糊提示,SAM可以输出多个有效的掩码,并附带置信度得分。
备注

(·图像嵌入 image embedding是指将图像转换为固定长度高纬向量表示的过程。它是通过将图像输入到深度神经网络中的图像编码器(image
encoder)来实现的。图像编码器是一个经过训练的模型,它可以将图像转换为高维向量,其中每个维度代表图像的某种特征或语义信息。通过将图像转换为向量表示,我们可以使用向量空间中的距离度量来衡量图像之间的相似性或差异。这种向量表示还可以作为输入用于其他任务,例如图像分类、图像检索和图像生成等。)

部分效果图

一个模糊点提示的多结果输出

每一列显示由SAM从一个模糊点提示( ambiguous point prompt)(绿色圆圈)生成的3个有效掩码
在这里插入图片描述

在各种数据集的zero-shot 推理能力

“zero-shot”(零样本)通常指的是在没有接受特定任务训练的情况下,模型可以对该任务进行预测或处理的能力
在这里插入图片描述

零样本的边缘检测能力

Zero-shot edge prediction
在这里插入图片描述

基于文字提示的分割 ( Zero-shot text-to-mask)

SAM可以使用简单而微妙的文本提示(text prompts)。当SAM无法做出正确的预测时,一个额外的点提示(point prompt)可以提供帮助。
在这里插入图片描述

SAM潜在空间掩模嵌入相似性的可视化

( Visualization of thresholding the similarities of mask embeddings from SAM’s latent space)
查询由洋红色框(magenta box)表示;顶部行显示低阈值的匹配,下面一行显示高阈值的匹配。在同一图像中最相似的掩码嵌入通常可以在语义上与查询掩码嵌入相似,即使SAM没有通过显式的语义监督进行训练
在这里插入图片描述

原文阅读

论文原摘要

我们介绍 Segment Anything(SA)项目:一个用于图像分割的新任务、模型和数据集(dataset)。使用我们的高效模型在数据收集循环中(data collection loop),我们构建了迄今为止最大的分割数据集(by far),其中包含了在1100万张经过授权(licensed)且尊重隐私(privacy respecting)的图像上搜集超过10亿个掩码(masks)。
该模型经过设计和训练,可以根据提示(promptable)进行零样本转移(zero-shot),适用于新的图像分布和任务( to new image distributions and tasks)。我们对其在众多任务上进行评估,并发现它的零样本性能令人印象深刻(impressive),甚至优于以前的全监督方法(prior fully supervised results)相竞争(competitive)。发布了Segment Anything模型(SAM)和相应的·数据集(SA-1B),其中包含10亿个掩码(masks)和1100万张图像,以促进计(foster research)算机视觉基础模型的研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/588426.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Scala学习(十一)---集合高阶

文章目录 1.集合常用方法2.衍生集合3.集合的常用函数 1.集合常用方法 class Test_Func {} object Test_Func{def main(args: Array[String]): Unit {val list List(1, 2, 3, 4, 5)//定义一个List集合val set Set(6, 7, 8, 9)//定义一个Set集合//1.获取集合长度,…

Spring Boot如何与其他技术进行集成,如Spring Cloud、Spring Security、Spring Data等?

Spring Boot与其他技术集成 Spring Boot 是一个快速构建 Spring 应用程序的框架,它提供了自动配置和快速开发的特性,使得开发人员可以更加专注于业务逻辑的实现而不是搭建框架。Spring Boot 可以轻松集成其他 Spring 生态系统中的技术,例如 …

pnpm无法加载文件 (解决方法 )

例如:我现在要运行一个TS的项目,我的电脑上没有安装pnpm,导致我的vscode一直报错无法加载 Pnpm安装 npm install -g pnpm pnpm : 无法加载文件 pnpm : 无法加载文件 C:\Users\HP\AppData\Roaming\npm\pnpm.ps1,因为在此系统上禁…

微念“跌倒”,李子柒也吃不饱

文 | 螳螂观察 作者 | 青月 “共有从前,各有未来。” 杨幂官宣与嘉行传媒结束合作关系的微文,同样适用于现在的微念与李子柒。 李子柒与微念之间的这场MCN机构与网红IP之间由于利益分配的矛盾,经过500多天的博弈后,最终以李子柒…

2.6. Java内存管理与垃圾回收

2.6.1. Java内存模型 在Java中,内存被划分为以下几个区域: 堆(Heap):存储对象实例和数组,是垃圾回收的主要区域。栈(Stack):存储局部变量和方法调用。每个线程有自己的…

Python scapy二层、三层发送接收数据包

环境: Linux环境:安装scapy, 执行scapy 安装scapy yum install python3-pip (安装python3 pip) pip3 install --upgrade pip yum remove python-pip(删除pip) pip3 install scapy (安装scapy) 简介: …

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(5月29日论文合集)

文章目录 一、检测相关(12篇)1.1 Linear Object Detection in Document Images using Multiple Object Tracking1.2 Hybrid Energy Based Model in the Feature Space for Out-of-Distribution Detection1.3 BEV-IO: Enhancing Birds-Eye-View 3D Detection with Instance Occu…

原来你是这样的5G 一文了解亚马逊云科技的云上5G专网

根据麦肯锡公司发布的《2021年离散制造业上云调查》报告显示:云转型所带来的IT价值仅占其潜在价值的5%,但其业务价值高达95%。随着云计算技术的快速发展以及云的IT价值在敏捷性、弹性和经济性几个方面的充分呈现加上同5G技术和应用…

8项seo的日常工作

SEO的日常工作涵盖了一系列任务和活动,旨在优化网站以提高在搜索引擎中的排名和可见性。 以下是SEO的日常工作内容: 关键词研究和优化:定期进行关键词研究,寻找与目标受众和业务相关的热门关键词。优化网站内容、标题、元描述和链…

《Cocos Creator游戏实战》签到日历实现思路

在线体验地址 Cocos Creator | SignCalendar Cocos Store 购买地址(如果没有显示,那就是还在审核): https://store.cocos.com/app/detail/4975微店购买地址: https://weidian.com/item.html?itemID6354270477 运行效…

【书评】《写作脑科学》杨滢(@屠龙的胭脂井)

《写作脑科学》是一本介绍写作与脑科学关系的书籍,作者是杨滢。 本书通过对脑科学的研究和分析,揭示了写作的本质和技巧,为写作者提供了有益的指导和启示。 本书的主要内容分为八个部分 第1章 为什么写作跟大脑有关第2章 快速写作&#xff…

Photoshop 2023 Beta 内置Ai绘图功能介绍安装教程

距离Adobe软件公司首次将图像编辑及数字绘画软件Photoshop推出到大众面前已经过去35年,最近该公司又再次书写了属于Photoshop的历史新篇章。 最近,Adobe 宣布 Photoshop(Beta)迎来更新,新增「创意填充(Gen…

3.3. 日期与时间类(Date、Calendar、LocalDate等)

在Java中,我们经常需要处理日期和时间。Java提供了一些类来帮助我们完成这些任务,如Date、Calendar、LocalDate、LocalTime、LocalDateTime和ZonedDateTime等。我们将分别介绍这些类,并给出相应的示例。 1. Date类 Date类是Java提供的一个表…

Redis的地理位置(GEO)+Hypterloglog+事务测试

GEOADD 命令 - 将指定的地理空间位置(纬度、经度、名称)添加到指定的key中,这些数据将会存储到sorted set 有效的经度从-180度到180度。有效的纬度从-85.05112878度到85.05112878度。 当坐标位置超出上述指定范围时,该命令将会返…

chatgpt赋能python:Python中Numpy报错分析

Python中Numpy报错分析 Numpy是Python中重要的开源数值计算库,它提供了数组和矩阵的操作。在使用Numpy的过程中,有时候我们会遇到一些报错信息,本文将对常见的Numpy报错进行分析和解决方法的介绍。 NumPy报错信息 当我们在使用Numpy时出现…

融合PWA技术的小程序:为用户带来原生应用体验

PWA代表“渐进式网络应用”(Progressive Web Application)。它是一种结合了网页和移动应用程序功能的技术概念。PWA旨在提供类似于原生应用程序的用户体验,包括离线访问、推送通知、后台同步等功能,同时又具有网页的优势&#xff…

AIGC领域优秀的资源汇总(应用、论文、开源项目)

AIGC领域介绍,及一些比较优秀的应用,和论文,开源项目汇总。 AIGC大纲 一、AIGC概念 ​ AIGC,全名“AI generated content”,又称生成式AI,意为人工智能生成内容。例如AI文本续写,文字转图像的…

NRF52系列多个 base uuid 的问题,以client为例。

基础uuid知识 nordic的nrf sdk希望我们设置uuid的方式跟蓝牙技术联盟SIG的方式一样,也就是服务和特性的uuid是基于同一个base uuid修改产生的,比如base uuid是0x0000xxxx-0000-1000-8000-00805F9B34FB,那么服务和特性的128bit uuid就要基于此…

java8内部调用无法引用值的问题

问题:Variable used in lambda expression should be final or effectively final 具体原因: 这段代码试图将 20 赋给一个局部变量,它无法通过编译,但绝非编写错误。 这实际上是语言的设计者有意为之,用以鼓励用户使用…

优化版本 穿越火线(CF) FPS AI 自瞄 代码 权重 数据集(下面有链接)

更新初衷 本人在制作过程中,有一些爱钻研的朋友来问以及提出增加一些新的功能点回会更好,本着学习研究态度,在第一个版本上进行优化,增加一些内容 不喜欢看过程的小伙伴直接看最下面 界面 解决问题: 1、进入慢 2、无…