Segment Anything--SAM框架(二)

news2024/10/6 12:28:22

文章目录

  • prologue
  • paper && code
    • Image encoder
    • Prompt encoder
    • Lightweight mask decoder
    • Making the model ambiguity-aware

prologue

  • 没什么事,写一写SAM的paper中关于模型框架的部分和实际代码部分。

paper && code

开局一张图
SAM有三个组件,如图所示:图像编码器、灵活的提示编码器和快速掩码解码器。我们在 Transformer 视觉模型 的基础上,对实时性能进行了特定的权衡。文章正文介绍的比较简单,有用的东西都放在附录里面了。顺便说一句上面的图还是很简洁明了的。
在这里插入图片描述
在附录A中

Image encoder

一般来说,图像编码器可以是任何输出 C×H×W 图像嵌入的网络。受可扩展性和对强预训练的访问的启发,我们使用 MAE [47] 预训练的视觉转换器 (ViT) [33],并以最小的适应处理高分辨率输入,特别是具有 14×14 窗口注意的 ViT-H/16 和四个等间距的全局注意块。图像编码器的输出是输入图像的 16 倍缩小嵌入。由于我们的运行时目标是实时处理每个提示,我们可以提供大量的图像编码器FLOPs,因为它们每张图像只计算一次,而不是每个提示。

按照标准做法,我们使用通过重新缩放图像和填充较短边获得的 1024×1024 的输入分辨率。因此,图像嵌入为64×64。为了减少通道维度,在[62]之后,我们使用1×1卷积来获得256个通道,然后使用3×3卷积以及256个通道。每个卷积层后面都有一个层归一化[4]。

这部分了解MAE(Masked Autoencoders Are Scalable Vision Learners)和VIT就很熟悉了,MAE是用来做自监督预训练,VIT提特征。

在这里插入图片描述
MAE主要就是mask一部分图片块让decoer重建原图;
在这里插入图片描述
VIT(An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale)
原始VIT把图片切成PATCH做分类任务,可以用来提特征。

Prompt encoder

稀疏提示被映射到 256 维向量嵌入,如下所示。一个点表示为点位置位置编码[95]和两个学习嵌入之一的总和,表示该点是否在前景或背景中。框由嵌入对表示:(1)其左上角的位置编码与表示“左上角”和(2)相同结构的学习嵌入相加,但使用表示“右下角”的学习嵌入。最后,为了表示自由形式的文本,我们使用来自 CLIP [82] 的文本编码器(任何文本编码器通常都可以)。我们专注于本节的其余部分的几何提示,并在第 D.5 节中深入讨论文本提示。(这里关于clip的部分也就是代码没有放出来的,可以根据这里的细节复现,也有人这么做了)

密集提示(即掩码)与图像具有空间对应关系。我们以比输入图像低 4 倍的分辨率输入掩码,然后使用两个输出通道 4 和 16 的 2×2、stride-2 卷积分别缩小额外的 4 倍。最终的 1×1 卷积将通道维度映射到 256。每一层都由 GELU 激活 [50] 和层归一化分隔。掩码然后按元素添加图像嵌入。如果没有掩码提示,则将表示“无掩码”的学习嵌入添加到每个图像嵌入位置。

Lightweight mask decoder

在这里插入图片描述
这部分还是看代码来的快,上图左边深色区域在代码transformer.py中,右边浅色部分在mask_decoder.py中。

在这里插入图片描述
下图的四块分别对应着左边深橙色的四个步骤,也就是原文如下
在这里插入图片描述

在这里插入图片描述
右边橙色
在这里插入图片描述

Making the model ambiguity-aware

如前所述,单个输入提示可能是模糊的,因为它对应于多个有效掩码,模型将学会对这些掩码进行平均。我们通过简单的修改来消除这个问题:我们没有使用预测单个掩码,而是使用少量输出标记并同时预测多个掩码。

默认情况下,我们预测三个掩码,因为我们观察到三层(整体、部分和子部分)通常足以描述嵌套掩码。

在训练期间,我们计算地面实况和每个预测掩码之间的损失(稍后描述),但仅从最低损失反向传播。这是用于具有多个输出的模型的常用技术 [15, 45, 64]。为了在应用程序中使用,我们想对预测的掩码进行排名,因此我们添加了一个小头(在额外的输出令牌上运行),它估计每个预测掩码与其覆盖的对象之间的 IoU。具有多个提示的歧义非常罕见,三个输出掩码通常变得相似。为了最小化训练时退化损失的计算并确保单个明确掩码接收常规梯度信号,当给出多个提示时,我们只预测单个掩码。这是通过为额外的掩码预测添加第四个输出标记来实现的。这个第四个掩码永远不会为单个提示返回,并且是为多个提示返回的唯一掩码。

累了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1295376.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

图数据库知识点9 | 大数据框架与图数据架构异同

开门见山,直奔主题,接续前面的知识点: 【图数据库知识点1|图数据库与关系型数据库的区别?】 【图数据库知识点2 | 图思维方式】 【图数据库知识点3 | 图数据库解决了什么问题?】 【图数据库知识点4 | 图计算与图数…

TypeScript枚举类型、类型断言

一. 概念 TypeScript中的枚举是一种数据类型,它是一组具有预定义名称的有限值的集合。枚举类型可以使代码更加可读、可维护和易于理解。 类似对象,枚举是将一组无序但极度相关数组集合在一起声明存储。 二. 枚举特性 1. 内部进行了双向赋值 enum Numb…

奕碳科技亮相COP28:展现中国智慧,引领全球碳减排新篇章

11月30日,联合国气候变化框架公约第28次缔约方大会 (COP28) 在阿联酋迪拜开幕。COP28是全球气候治理的重要盛会,汇聚了世界各国领导人、企业界和科学界代表,共同探讨和制定应对全球气候变化的策略与行动计划。在这样的背景下,企业群体的积极参…

力扣题:字符的统计-12.7

力扣题-12.7 [力扣刷题攻略] Re:从零开始的力扣刷题生活 力扣题1:467. 环绕字符串中唯一的子字符串 解题思想:记录下以字母s[i]结尾的最大的字串个数,然后统计a-z每个字母结尾的最大字串的个数进行i相加 class Solution(object…

「Verilog学习笔记」同步FIFO

专栏前言 本专栏的内容主要是记录本人学习Verilog过程中的一些知识点,刷题网站用的是牛客网 timescale 1ns/1ns /**********************************RAM************************************/ module dual_port_RAM #(parameter DEPTH 16,parameter WIDTH 8)(in…

Anaconda建虚拟环境并在jupyter中打开

1.假设要用yaml格式创建虚拟环境 从开始里打开anaconda powersheel 输入以下 conda env create -f environment.yaml conda activate env_name activate以下虚拟环境 修改名称 如果不用yaml也可以用 conda create --name my_first_env python3.6 这个来指定 2.(base)变(…

海思3516DV500下的目标识别算法运行评估,包含yolov7,yolov8

目前在3516DV500下,自己训练的模型的评估实测结果。根据实际模型会有些许差异。 涉及到技术细节的部分因为商业用途,有部分省略。如需相关技术服务项目合作可私信联系。 我司推出的目标识别跟踪模块,支持热红外、可见光主流多光谱视频输入与目…

LCR 090. 打家劫舍 II(leetcode)动态规划

文章目录 前言一、题目分析二、算法原理1.状态表示2.状态转移方程3.初始化4.填表顺序5.返回值是什么 三、代码实现总结 前言 在本文章中,我们将要详细介绍一下LeetcodeLCR 090. 打家劫舍 II。采用动态规划解决,这是一道经典的多状态dp问题 一、题目分析…

微前端 -- wujie 预加载和原理 无界传参

目录 wujie 预加载和原理 原理解析 MessageChannel 无界传参 1.全局变量 2.Props 3.event bus wujie 预加载和原理 提前把无界实例创建好 runPreload 赋值给sandbox.preload 预先加载好 startApp 判断是否有preload 需要从wujie的实例导出preloadApp,参数跟startApp 一…

Grad-CAM原理

这篇是我对哔哩哔哩up主 霹雳吧啦Wz 的视频的文字版学习笔记 感谢他对知识的分享 只要大家一提到深度学习 缺乏一定的解释性 比如说在我们之前讲的分类网络当中 网络它为什么要这么预测 它针对每个类别所关注的点在哪里呢 在great cam这篇论文当中呢 就完美的解决了在cam这篇论…

《文存阅刊》期刊发表简介

《文存阅刊》以“深研文化创新,崇尚科学真理,坚持双百方针,打造学术精品”为办刊宗旨,涵盖艺术、文学、社科等多项内容,适应了文化市场需求,很好的回应了广大文化理论工作者的关切,为下一步打造…

QMenu风格设计qss+阴影

Qt的菜单经常在软件开发中用到&#xff0c;默认的菜单效果都不符合设计师的要求&#xff0c;本篇介绍QMenu菜单的风格设计&#xff0c;包括样式表和阴影。 1.QMenu样式表的设计 首先看一个默认的菜单 void QGraphicsDropShadowEffectDemo::slotShowDialog() {qDebug() <&l…

机器学习第15天:GBDT模型

☁️主页 Nowl &#x1f525;专栏《机器学习实战》 《机器学习》 &#x1f4d1;君子坐而论道&#xff0c;少年起而行之 ​​ 文章目录 GBDT模型介绍 Boosting 残差 GBDT的缺点 python代码实现 代码 模型参数解释 结语 GBDT模型介绍 GBDT&#xff08;Gradient Boos…

pytest +uiautomator2+weditor app自动化从零开始

目录结构1.0 把设备连接单独移出去了 模块操作代码&#xff0c;有一些流程操作和断言方法 from devices import dv from time import sleep import random from tool.jt import capture_screenshotdef initialization(func):def wrapper():sleep(1)dv.app_stop(com.visteon.…

Linux学习笔记3 xshell(lnmp)

xshell能连接虚拟机的前提是真机能够ping通虚拟机网址 装OpenSSL依赖文件 [rootlocalhost nginx-1.12.2]# yum -y install openssl pcre-devel 依赖检测[rootlocalhost nginx-1.12.2]# ./configure [rootlocalhost nginx-1.12.2]# yum -y install zlib [rootlocalhost n…

Windows下使用CMD修改本地IP

在网络适配器界面查看当前网线连接的哪个网口&#xff0c;我当前连的是 以太网 这个名字的&#xff1a; 在windows下使用管理员权限打开CMD命令工具&#xff0c;输入如下命令(如我想本地ip改成192.168.2.4)&#xff1a; netsh interface ip set address "以太网" st…

Vue:用IDEA开发Vue,标签语法爆红问题处理

一、场景描述 我在IDEA中&#xff0c;学习Vue课程。 入门学习时&#xff0c;是在html文件中&#xff0c;script引入vue.js文件方式。 此时&#xff0c;在html文件中用v-标签&#xff0c;爆红。 二、解决办法 打开 菜单栏 File - Settings 选择 Editor - Files Type&#xf…

虾皮关键词广告怎么选

在虾皮&#xff08;Shopee&#xff09;平台上&#xff0c;关键词广告是提高商品曝光度和销量的有效手段。然而&#xff0c;选择合适的关键词对于广告效果至关重要。本文将为您提供一些建议&#xff0c;帮助您选择适合虾皮关键词广告的关键词。 先给大家推荐一款shopee知虾数据…

云上巴蜀丨云轴科技ZStack成功实践精选(川渝)

巴蜀——古政权必争之地 不仅拥有优越的战略位置 而且拥有丰富的自然资源&#xff0c;悠久的历史文化 如今的川渝经济、人口发展迅速 2023年前三季度&#xff0c;四川与重庆GDP增速均超过国家平均线&#xff0c;为6.5%为5.6% 川渝经济发展带动数字化发展浪潮 云轴科技ZSt…

LeetCode题:174. 地下城游戏

目录 一、题目要求 二、解题思路 &#xff08;1&#xff09;状态表示 &#xff08;2&#xff09;状态转移方程 &#xff08;3&#xff09;初始化dp表 &#xff08;4&#xff09;填表顺序 &#xff08;5&#xff09;返回值 三、代码 一、题目要求 174. 地下城游戏 恶魔们…