论文阅读：Segment Anything之阅读笔记

论文阅读：Segment Anything之阅读笔记

news2026/2/14 20:54:31

目录

- - 引言
  - 整体结构介绍
  - 论文问答
  - - 代码仓库中，模型哪部分转换为了ONNX格式？以及如何转的？
    - Mask decoder部分 Transformer decoder block?
    - 如何整合image_embedding，image_pe, sparse_prompt_embedding和dense_prompt_embedding的？
    - points, boxes, text和masks四种类型prompt如何嵌入到网络中？
    - 什么样的任务具有zero-shot泛化能力？

引言

论文：Segment Anything是Meta出的图像语义分割的算法。这个算法因其强大的zero-shot泛化能力让人惊艳，这不抽空拿来学习了一下。
该算法的代码写得很清楚、简洁和规范，读来让人赏心悦目。推荐去看源码，很有意思。
本篇文章，将以问答形式来解读阅读过程中遇到的困惑，想来这种方式效率更高一些。
PDF | Code

整体结构介绍

在这里插入图片描述

整体分为三大部分：image encoder、prompt encoder和mask decoder。下图看的更加清楚一些，也是来自论文。

论文问答

代码仓库中，模型哪部分转换为了ONNX格式？以及如何转的？

mask_decoder部分做了转onnx格式
直接采用torch.onnx.export函数接口转的。因为没有采用transformer函数库，因为转换较为简单。
- 先基于torch构建整个部分模型，构建模型输入。
- 调用torch.onnx.export函数来转换

Mask decoder部分 Transformer decoder block?

该部分采用的动态mask预测头。
在两个方向上（prompt-to-image embedding 和相反的）使用了prompt self-attention和cross-attention来达到更新所有embedding的目的。

如何整合image_embedding，image_pe, sparse_prompt_embedding和dense_prompt_embedding的？

通过mask decoder这一部分来做的。采用的是修改过的Transformer decoder block.

points, boxes, text和masks四种类型prompt如何嵌入到网络中？

points, boxes, text在论文中称为sparse prompt。masks类型被称为dense prompt
points和boxes 是以positional encodings（位置编码）和每个提示类型的学习嵌入来表示的。
text是来自CLIP的text encoder表示的。从demo中并没有看到text输入的prompt，从issue #93中验证了这点
mask是使用卷积嵌入，并与图像embedding逐元素求和

什么样的任务具有zero-shot泛化能力？

模型以promptable的方式训练得到，因此具备zero-shot的泛化能力

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/719774.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Android Framework基础面试必问习题~

Android Framework基础面试必问习题~

AMS 下面是一些可能会被问到的 Android Framework 中 Activity Manager Service (AMS) 相关的面试题： 1.什么是 AMS？ AMS 是 Android framework 中的一个系统进程，它负责管理应用程序生命周期，处理应用程序间的交互和协调不同组…

阅读更多...

用Electron将Vue项目打包成桌面版软件

用Electron将Vue项目打包成桌面版软件

创建Electron项目这里是直接通过官方教程创建的要检查 Node.js 是否正确安装，请在您的终端输入以下命令： node -vnpm -v这两个命令应输出了 Node.js 和 npm 的版本信息。创建Electron应用程序使用脚手架创建 Electron 应用程序遵循与其他 Node.js…

阅读更多...

【Squid 代理服务器应用】

【Squid 代理服务器应用】

目录一、Squid 代理服务器1、代理的工作机制2、代理服务器的概念及其作用3、Squid 代理的类型二、安装 Squid 服务1．编译安装 Squid2．修改 Squid 的配置文件3．Squid 的运行控制1、检查配置文件语法是否正确2、启动 Squid，第一次…

阅读更多...

在SpringBoot中对es集群的查询操作

在SpringBoot中对es集群的查询操作

在进行查询之前要先给ll索引中插入数据: POST /ll/product/1 {"id":1,"title": "小米手机Mix","category": "手机","brand": "小米","price": 2899.00,"images": "http://ima…

阅读更多...

【数据结构】——常见排序算法（演示图+代码+算法分析）

【数据结构】——常见排序算法（演示图+代码+算法分析）

目录 1. 常见排序算法 1.2 稳定性 2. 常见排序算法的实现 2.1 插入排序 2.1.1基本思想 2.1.2代码 2.1.4算法分析 2.2 希尔排序 2.2.1基本思想 2.2.2代码 2.2.3演示图 2.2.4算法分析 2.3 选择排序 2.3.1基本思想 2.3.2代码 2.3.3演示图 2.3.4算法分析 2.4 堆排…

阅读更多...

[Visual Studio 报错] error 找不到指定的 SDK“Microsoft

[Visual Studio 报错] error 找不到指定的 SDK“Microsoft

[Visual Studio 2022 报错] error : 找不到指定的 SDK“Microsoft.NET.Sdk.Web” 问题描述： 在新电脑上安装了VS2022，打开现有项目的解决方案后的时候报了这个错，所有projet文件都加载失败,如图所示： 报错分析及解决打开项目配…

阅读更多...

黑客是怎样炼成的？

黑客是怎样炼成的？

前言首先我谈下对黑客&网络安全的认知，其实最重要的是兴趣热爱，不同于网络安全工程师，他们大都是培训机构培训出来的，具备的基本都是防御和白帽子技能，他们绝大多数的人看的是工资，他们是为了就业而学…

阅读更多...

MFC扩展库BCGControlBar Pro v33.5新版亮点 - 控件、脚本管理增强

MFC扩展库BCGControlBar Pro v33.5新版亮点 - 控件、脚本管理增强

BCGControlBar库拥有500多个经过全面设计、测试和充分记录的MFC扩展类。我们的组件可以轻松地集成到您的应用程序中，并为您节省数百个开发和调试时间。 BCGControlBar专业版 v33.5已正式发布了，此版本包含了Ribbon（功能区）自定义…

阅读更多...

CSS文本样式

CSS文本样式

CSS文本样式 1、字体友情提醒： 字体有没有版权？ 省略写法语法： [ [ <‘font-style’> || || <‘font-weight’> || <‘font-stretch’> ]? <‘font-size’> [ / <‘line-height’> ]? <‘font-fam…

阅读更多...

IDEA2023.1.3自带插件禁用，减少内存占用

IDEA2023.1.3自带插件禁用，减少内存占用

前言前两个星期安装了idea2023.1.3（之前用的一直是idea2020.3版本），我发现新版界面确实更好看一些，而且启动速度也非常快，打开多个项目也一样很快，都是秒开。但是吧，它的内存占用比idea2020.3…

阅读更多...

【若依】框架搭建，前端向后端如何发送请求，验证码的实现，开启注册功能

【若依】框架搭建，前端向后端如何发送请求，验证码的实现，开启注册功能

若依框架若依框架（Ruoyi）是一款基于Spring Boot和Spring Cloud的开源快速开发平台。它提供了一系列的基础功能和通用组件，能够帮助开发者快速构建企业级应用。若依框架采用了模块化的设计理念，用户可以选择需要的功能模块进行集…

阅读更多...

（03）QEMU模拟ATF启动

（03）QEMU模拟ATF启动

QEMU启动准备一个目录qemu_boot存放所有镜像文件。最终启动需要的镜像如下所示。 Image QEMU_EFI.fd bl1.bin bl2.bin bl31.bin fip.bin flash.bin rootfs.cpio.gz准备镜像 EDK2 下载QEMU_EFI。 wget http://snapshots.linaro.org/components/kernel/leg-virt-tian…

阅读更多...

go-redis

go-redis

安装redis（docker） sudo docker pull redis sudo docker images 在官网下载redis.conf配置文件 redis官网：http://www.redis.cn/download.html 将下载后的压缩包解压得到redis.conf文件，放到自己的目录，我的是/hom…

阅读更多...

数据结构与算法——图

数据结构与算法——图

😊数据结构与算法——图 🚀前言🚀图的基本概念🚢图的定义🚢图的基本操作🚢无向图和有向图🚢完全图🚢顶点的度、入度和出度🚢子图🚢顶点关系常用术语&#x1f…

阅读更多...

我想在我自己的系统中加入微信支付功能，原来这么简单!!!

我想在我自己的系统中加入微信支付功能，原来这么简单!!!

微信支付功能实现一、创建SpringBoot项目我们首先创建一个基本的SpringBoot项目。添加相关的依赖。 <dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-thymeleaf</artifactId>&…

阅读更多...

zip的使用方式

zip的使用方式

zip的使用方式

阅读更多...

php宝塔搭建EMLOG站长工具箱网站自适应PC手机端php源码

php宝塔搭建EMLOG站长工具箱网站自适应PC手机端php源码

大家好啊，我是测评君，欢迎来到web测评。本期给大家带来一套站长工具箱网站自适应PC手机端php源码。感兴趣的朋友可以自行下载学习。技术架构 PHP5.6 nginx mysql5.6 JS CSS HTMLcnetos7以上宝塔面板文字搭建教程下载源码，宝塔添…

阅读更多...

SciencePub学术 | 数据处理类重点SCIEEI征稿中

SciencePub学术 | 数据处理类重点SCIEEI征稿中

SciencePub学术刊源推荐: 数据处理类重点SCI&EI征稿中！信息如下，录满为止： 一、期刊概况： 数据处理类重点SCIE&EI 【期刊简介】IF：3.5-4.0，JCR2区，中科院4区； 【出版社】…

阅读更多...

CSS选择器常见用法

CSS选择器常见用法

目录一.总体分类二.基础选择器 （1）标签选择器 （2）类选择器 （3）id选择器 （4）通配符选择器（特殊） 三.复合选择器 （1）后代选择器 &…

阅读更多...

注意看！！！Linux中Ubuntu22.04之SVN的三种配置方式【详解～】

注意看！！！Linux中Ubuntu22.04之SVN的三种配置方式【详解～】

注意看！！！Linux中Ubuntu22.04之SVN的三种配置方式【详解～】配置目录大全<1>I、安装（易上手👆）II、使用SVN（简单易操作）III、配置SVN（精通&#xff09…

阅读更多...

推荐文章

最新文章