Segment Anything：SAM系列模型总结

Segment Anything：SAM系列模型总结

news2025/4/11 8:01:24

Segment Anything | Meta AIhttps://segment-anything.com/

SAM

https://arxiv.org/pdf/2304.02643.pdf

新的图像分割任务:这样的任务需要实现零样本泛化。
新的模型：Segment Anthing Model。目前分为vit_b，vit_l，vit_h
新的数据集：SA-1B。其中包括10亿个掩码和1100万张图像

图像编码器 作者使用经过MAE预训练的Vision Transformer (ViT) ，并对其进行微调以处理高分辨率输入。图像编码器在每张图像上运行一次，并可以在对模型进行提示之前应用。

提示编码器 作者考虑两种类型的提示：稀疏提示（点、框、文本）和密集提示（掩码）。使用位置编码表示点和框，与每种提示类型的学习嵌入相加，而对于自由文本，则使用来自CLIP的现成文本编码器。密集提示（即掩码）使用卷积进行嵌入，并与图像嵌入进行逐元素求和。

掩码解码器 掩码解码器高效地将图像嵌入、提示嵌入和输出标记映射到一个掩码上。这种设计受到《基于Trasformers的端到端目标检测》和Maskformer的启发，使用了一个修改的Transformer解码器block，后跟一个动态掩码预测头。修改后的解码器block在两个方向（提示到图像嵌入和图像嵌入到提示）上使用自注意力和交叉注意力来更新所有嵌入。在运行两个Block后，对图像嵌入进行上采样，并通过MLP层将输出标记映射到一个动态线性分类器（该分类器用于计算每个图像位置的掩码前景概率）。

相关解读链接：

【Paper日记】Segment Anything - 知乎

EfficientSAM

MobileSAM

MobileM-v2

FastSAM

网络结构上和SAM基本上没什么关系

在线demo链接：Examples – casia-iva-lab/fastsam – Replicate

将SAM分成两个相对独立的任务：实例分割和prompt。因此使用yolo这种CNN的模型就可以完成类似SAM的任务。

基于YOLOv8-seg实现了FastSAM，它比SAM快50倍，且训练数据只有SAM的1/50，同时运行速度不受point输入数量的影响
FastSAM定义Segment Anything Task（SAT）为根据提示进行语义分割任务，提示指：前景|背景点、bounding boxes、mask、text;
将SAT分解为2阶段，第一阶段为对输入图像的全景实例分割，第二阶段为根据提示输入对全景实例分割结果进行稀疏化选择

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1396053.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

使用人工智能助手 Github Copilot 进行编程 01

使用人工智能助手 Github Copilot 进行编程 01

本章涵盖了 AI 助⼿如何改变新程序员的学习⽅式为什么编程永远不会再⼀样了AI 助⼿如 Copilot 的⼯作原理Copilot 如何解决⼊⻔级编程问题AI 辅助编程的潜在危险在本章中，我们将讨论人类如何与计算机进行交流。我们将向您介绍您的 AI 助手 GitHub Copilot&#x…

阅读更多...

Git 基本命令与操作流

Git 基本命令与操作流

记录 Git 中的基本命令和创建仓库、提交文件、删除文件等方面的操作 Git 基本命令 git status：查看状态 nothing to commit, working directory clean：所有已跟踪文件在上次提交后都未被更改过，或者说当前目录下没有出现任何处于未跟踪状态…

阅读更多...

一篇文章带你彻底了解flex布局

一篇文章带你彻底了解flex布局

哈喽，大家好呀，我是前端理想哥，今天我们来聊聊 flex 布局。好，主角登场。 CSS 弹性盒子模型( Flexible Box 或者 Flexbox ) 先来看看它的定义：弹性布局是指通过调整其内元素的宽高，从而在任何显示设备上…

阅读更多...

Conmi的正确答案——eclipse C/C++显示“未解析的包含：＜xxx.h＞”/“Unresolved inclusion: ＜xxx.h＞”

Conmi的正确答案——eclipse C/C++显示“未解析的包含：＜xxx.h＞”/“Unresolved inclusion: ＜xxx.h＞”

eclipse IDE 版本：2023-12 部分采自：解决方法：关于问题 “C - Unresolved inclusion: <iostream>” 解释事项：方法一可能版本不同，部分界面修改了。这里使用的是方法二的解决方法。（或者各位大神的描…

阅读更多...

Dubbo使用详解

Dubbo使用详解

简介 Dubbo是一个高性能、轻量级的开源Java RPC框架，由阿里巴巴公司开发并开源。它提供了三大核心能力：面向接口的远程方法调用，智能容错和负载均衡，以及服务自动注册和发现。Dubbo使得应用可通过高性能的 RPC 实现服务的输出和输…

阅读更多...

ITSS内幕揭秘！不看后悔！

ITSS内幕揭秘！不看后悔！

1️⃣ ITSS？那是啥玩意？ ITSS，就是一套超酷的信息技术服务标准大全！它规范了所有信息技术服务的小秘密，确保服务可靠又让人放心！💪 2️⃣ 哪些公司需要这个神器？ ITSS可是个大家伙&a…

阅读更多...

Unity 程序员UI编码规范

Unity 程序员UI编码规范

今天给大家分享Unity UI开发相关的一些编码和规范，有了这些指导规范，帮助你的项目获得更好的性能，少走弯路。Unity GUI（也被称为UGUI）经常是项目性能问题的来源。考虑使用多分辨率和宽高比大部分情况下&#xff0c…

阅读更多...

解锁文字魔法：探索自然语言处理的秘密——从技术揭秘到应用实战！

解锁文字魔法：探索自然语言处理的秘密——从技术揭秘到应用实战！

目录前言关键技术——揭密自然语言处理的秘密武器！ 领域应用——自然语言处理技术在不同领域的奇妙表演！ 超越极限——自然语言处理技术面临的顽强挑战揭秘！ 科技VS伦理——自然语言处理技术的发展与伦理社会的纠结较量！ 开…

阅读更多...

EasyX图形化学习（三）

EasyX图形化学习（三）

1.帧率： 即每秒钟界面刷新次数，下面以60帧为例： 1.数据类型 clock_t： 用来保存时间的数据类型。 2.clock( ) 函数： 用于返回程序运行的时间,无需参数。 3.例子： 先定义所需帧率： const …

阅读更多...

力扣 | 11. 盛最多水的容器

力扣 | 11. 盛最多水的容器

双指针解法–对撞指针暴力解法public int maxArea1(int[] height) {int n height.length;int ans 0;for (int i 0; i < n; i) {for (int j i 1; j < n; j) {int area Math.min(height[i], height[j]) * (j - i);ans Math.max(ans, area);}}return ans;}双指针解法…

阅读更多...

力扣每日一练（24-1-18）

力扣每日一练（24-1-18）

经验一：不要把问题想复杂 Python： min_price float(inf)max_profit 0for price in prices:min_price min(min_price, price)max_profit max(max_profit, price - min_price)return max_profit C#： public int MaxProfit(int[] prices) {i…

阅读更多...

MySQL（视图，存储函数，存储过程）

MySQL（视图，存储函数，存储过程）

作业1： 作业实现： 首先创建学生表，课程表，以及学生选课表。 CREATE TABLE Student (Sno INT PRIMARY KEY,Sname VARCHAR(20) NOT NULL,Ssex CHAR(1) CHECK (Ssex IN (男, 女)),Sage INT,SDept VARCHAR(20) DEFAULT 计算机 );CRE…

阅读更多...

AI小程序添加深度合成类目解决办法

AI小程序添加深度合成类目解决办法

基于文言一心和gpt等大模型做了一个ai助理小程序，在提交“一点AI助理”小程序时，审核如下： 失败原因1 审核失败原因你好，你的小程序涉及提供提供文本深度合成技术 (如: AI问答) 等相关服务，请补充选择：深度…

阅读更多...

骨传导蓝牙耳机怎么使用？使用骨传导耳机对人体有没有伤害？

骨传导蓝牙耳机怎么使用？使用骨传导耳机对人体有没有伤害？

骨传导蓝牙耳机的使用方法和传统的入耳式蓝牙耳机使用方法相差无几，都是通过蓝牙来进行连接使用，但骨传导耳机会自带内存，所以在此前提上可以存储音乐独立使用，比传统的入耳式蓝牙耳机使用更方便一些。那么使用骨传导耳机会不会对…

阅读更多...

【方案】世微AP51656 电流采样降压恒流驱动 60V3A LED灯 SOT89-5

【方案】世微AP51656 电流采样降压恒流驱动 60V3A LED灯 SOT89-5

1，方案应用：3A输出 LED灯BOM表 2，方案应用：3A输出 LED灯线路图 3，产品描述 AP51656是一款连续电感电流导通模式的降压恒流源，用于驱动一颗或多颗串联LED输入电压范围从 5 V 到 60V，输出电流可…

阅读更多...

17.自主练习

17.自主练习

一、建表 1、建库、建表 # 创建数据库 create database mysql_exampleTest; use mysql_exampleTest; # 学生表 CREATE TABLE Student( s_id VARCHAR(20), s_name VARCHAR(20) NOT NULL DEFAULT , s_birth VARCHAR(20) NOT NULL DEFAULT , s_sex VARCHAR(10) NOT NULL…

阅读更多...

油猴脚本注入js获取DY作品数据

油猴脚本注入js获取DY作品数据

油猴脚本的执行时机: 元素还未生成 https://bbs.tampermonkey.net.cn/thread-3843-1-1.html 而在控制台执行时, 通常元素已经生成逻辑就是在网页每次发送请求时, 拦截它请求的响应数据作操作; 所以当用户作品很多时, 也需要一直滚动到全部作品请求加载完成, 触发下载 &#…

阅读更多...

数据库经典面试题

数据库经典面试题

习题一 1.1 创建表 ①创建Student表 mysql> create table Student ( -> Sno int primary key, -> Sname varchar(255), -> Ssex varchar(10), -> Sdept varchar(50) -> ); Query OK, 0 rows affected (0.01 sec) ②创建Course表 mysql…

阅读更多...

树莓派4B +Ubuntu20.04+ROS1的使用（2）

树莓派4B +Ubuntu20.04+ROS1的使用（2）

首先确定一下主机与从机的ip地址（非常重要） 在这次实验中，主机是一台Ubuntu20.04.03系统的台式机，我们间通过这台准备来远程遥控树莓派上的ros1系统，它的ip地址是192.168.230.181 从机是一台搭载Ubuntu20.04桌面版ro…

阅读更多...

项目管理十大知识领域之项目人力资源管理

项目管理十大知识领域之项目人力资源管理

一、项目人力资源管理的概述作为项目管理的重要组成部分，项目人力资源管理旨在有效管理和利用项目团队的人力资源，以实现项目目标。它涵盖了对人员的招聘、培训、激励和绩效管理等方面，旨在确保项目团队的高效运转和成员的专业发展。项目人…

阅读更多...

推荐文章

最新文章