【AIGC】18、MobileSAM | 首个专为移动端设计的更快的 SAM

【AIGC】18、MobileSAM | 首个专为移动端设计的更快的 SAM

news2026/2/13 12:20:51

在这里插入图片描述

文章目录

- 一、背景
- 二、方法
- - 2.1 耦合蒸馏
  - 2.2 从半蒸馏到解耦蒸馏
- 三、效果

论文：FASTER SEGMENT ANYTHING: TOWARDS LIGHTWEIGHT SAM FOR MOBILE APPLICATIONS

代码：https://github.com/ChaoningZhang/MobileSAM

出处：韩国庆熙大学

时间：2023.06.27

一、背景

Meta 提出的 SAM 以其出色的对任何感兴趣目标都可以进行分割的能力引起了广泛的关注，SAM 的结构如图 1 所示，包括两个部分：

ViT-based image encoder
prompt-guided mask decoder

SAM 是一个 label-free 的分割模型，可以和其他模型结合来进行进一步的下游任务，如 text-guided 分割、图像编辑等

在这里插入图片描述

在移动设备非常普及的情况下，很多图像编辑都是在移动端，但 SAM 的 image encoder 很大，所以设计一个对移动端友好的 SAM 是很迫切的。

故本文提出了 MobileSAM，主要就是设计了一个适用于移动端设备的轻量级 SAM

在这里插入图片描述

二、方法

按一般的想法来说，既然 image encoder 太大了，那么就缩小 image encoder

比如，将 ViT-H 使用 ViT-B 来替换，使用不同大小的 image encder 的模型参数量如表 3 所示：

在这里插入图片描述

从头训练一个 SAM（使用 ViT-L 或 ViT-B 做 image encoder）需要使用 128 个 GPU 训练数天，所以，重新训练代价也很大。

作者认为，优化的难度在于 image encoder 和 mask encoder 被耦合在一起了

所以，作者将 image encoder 和 mask encoder 进行了解耦：

首先，将 ViT-H 的知识蒸馏到 tiny ViT
然后，finetune mask encoder 来对齐蒸馏的小 image encoder

基于此，设计轻量级 SAM 的任务就转变为解耦蒸馏了，就很简单高效

MobileSAM 将 encoder 的参数降低了 100 倍，将整体参数降低了 60 倍

MobileSAM 推理速度：

单个图像推理速度大概 10ms（8ms 是 image encoder，2ms 是 mask encoder）

MobileSAM 和 FastSAM 的速度对比：

MobileSAM 比 FastSAM 小 7 倍，快 4 倍

2.1 耦合蒸馏

要实现对移动端友好的 SAM 的一个直观方法是重新训练一个 image encoder 小的 SAM，但训练代价太大了，所以可以考虑蒸馏的的方法，如图 2 左侧所示，是用最终大模型的 mask 来指导小模型的 mask。

在这里插入图片描述

2.2 从半蒸馏到解耦蒸馏

当直接用 mask 来指导蒸馏时，其难点在于 image encoder 和 mask decoder 是联系在一起的，两者是互相依赖的，所以可以：

image encoder：蒸馏
mask encoder：finetuned（因为 SAM 中的 mask encoder 本来就很小，故保持结构不变）

如图 2 右侧所示，这种也叫半解耦蒸馏（semi-coupled），对 image encoder 蒸馏的同时对 mask encoder 参数冻结，冻结能够使得 mask decoder 的效果不变，不会被 image encoder 效果的好坏影响。

但这种方法还会有问题，因为 prompt 是随机的，会导致 mask decoder 多变，难以优化

所以，本文的蒸馏方法：

完全解耦蒸馏
直接对 image embedding 进行蒸馏
完全将 image encoder 和 mask decoder 解耦开来了
这样也可以直接使用 MSE loss，不用再结合 focal 和 dice loss 了

在这里插入图片描述

解耦的蒸馏方法计算资源是耦合蒸馏方法的 1%，但却达到了 0.75 mIoU：

在这里插入图片描述

三、效果

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/693512.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

MP4视频格式和mp4v2的移植

MP4视频格式和mp4v2的移植

目录 1、视频文件 2、MP4 3、MP4学习方法 4、MP4文件格式解析 5、MP4Info工具使用 6、mp4v2移植和播放 6.1、下载mp4v2 6.2、配置并编译 6.3、部署 6.4、编译sample 6.5、准备TF卡 6.6、运行和测试 7、MP4打包源码解析 8.添加网络telnet调试 8.1、为什么添加teln…

阅读更多...

java进程注入

java进程注入

本文重点java Instrumentation java Instrumentation指的是可以用独立于应用程序之外的代理（agent）程序来监测和协助运行在JVM上的应用程序。这种监测和协助包括但不限于获取JVM运行时状态，替换和修改类定义等。简单一句话概括下：…

阅读更多...

11 通信的基本概念

11 通信的基本概念

目录通信分类概览串行通讯与并行通讯全双工、半双工及单工通讯同步通讯与异步通讯通讯速率注意通信分类概览串行通讯与并行通讯串行通讯是指设备之间通过少量数据信号线(一般是 8 根以下)，地线以及控制信号线，按数据位形式一位一位地传输…

阅读更多...

Windows下创建进程的理解

Windows下创建进程的理解

创建windows进程，需要考虑两个点，即session和权限问题。了解这两点，网络上服务创建界面进程，管理员权限进程创建普通权限进程的代码则很好理解。 1、基础知识 (1) session (2) 权限 CreateProcessAsUser需要传入一个token&#x…

阅读更多...

LeetCode 打卡day45--完全背包问题之最小填充次数

LeetCode 打卡day45--完全背包问题之最小填充次数

一个人的朝圣 — LeetCode打卡第45天知识总结Leetcode 70. 爬楼梯题目说明代码说明 Leetcode 322. 零钱兑换题目说明代码说明 Leetcode 279. 完全平方数题目说明代码说明知识总结今天的问题都可以归结一句话, 在完全背包的问题设置下, 问将该背包填满最少需要放几件物品. L…

阅读更多...

java基础(并发编程)-异步模式之生产者/消费者

java基础(并发编程)-异步模式之生产者/消费者

一、定义要点与前面的保护性暂停中的GuardedObject不同，不需要产生结果和消费结果的线程一一对应消费队列可以用来平衡生产和消费的线程资源生产者仅负责产生结果数据，不关心数据该如何处理，而消费者专心处理结果数据消息队列是有容量限制的…

阅读更多...

代码随想录算法训练营第17期第1天 | 704. 二分查找、27. 移除元素

从头开始，重新再来，但是又不完全一样，之前是擅长的python，现在是C，能坚持下来么？ 704. 二分查找 704. 二分查找https://leetcode.cn/problems/binary-search/ 上次写这道题已经是两个月之前，说…

阅读更多...

Openresty原理概念篇(七)OpenResty 中用到的 NGINX 知识

Openresty原理概念篇(七)OpenResty 中用到的 NGINX 知识

一 OpenResty 中用到的 NGINX 知识 Luaj 是一个 Java 的 Lua 解释器,基于 Lua 5.2.x 版本 luaj ① 说明 1) 本文可有可无原因：如果你之前没有接触过nginx或者涉及一点nginx,那么建议阅读2) 由于自己已经对nginx整个脉络体系进行讲解,本文只是机械的摘录,构成…

阅读更多...

Java使用RabbitMQ实战，Springboot使用rabbitMQ实战

Java使用RabbitMQ实战，Springboot使用rabbitMQ实战

文章目录一、Java原生API1、简单实例2、延迟消息3、消费端限流4、消息属性设置5、消息可靠投递二、Spring-API1、简单实例（1）引入rabbitMQ.xml（2）生产者（3）消费者（4）测试类三、Sp…

阅读更多...

使用VSCODE跑orbslam2踩的坑

使用VSCODE跑orbslam2踩的坑

我用的是ubuntu22.04，opencv是4.7，使用其他的库感觉就算版本不一样，也能跑。一、运行build.sh能够产生可执行文件遇到的问题 1.由于opencv版本高带来的问题这些问题怎么定位出现在哪些文件中，你通过命令行，运行下…

阅读更多...

更灵活的CSS3新特性：帮你简化样式管理和优化网站性能

更灵活的CSS3新特性：帮你简化样式管理和优化网站性能

文章目录 I. 前言：介绍CSS3的进化和发展趋势CSS3的历史和版本CSS3的标准化和浏览器支持情况 II. 新的CSS选择器：扩展选择器的功能属性选择器：更多方式选择元素伪类和伪元素：更方便地定义样式 III. 改进的排版和布局：实…

阅读更多...

在 EulerOS 系统中设置 Chrony 时间同步服务

在 EulerOS 系统中设置 Chrony 时间同步服务

以下是在 EulerOS 系统中设置 Chrony 时间同步服务的所有步骤。 1.查看系统版本 [rootservice11 ~]# cat /etc/redhat-release EulerOS release 2.0 (SP5)2.检查是否已安装chrony软件 [rootservice11 ~]# rpm -qa|grep chrony chrony-3.2-2.eulerosv2r7.x86_64如果没有安装…

阅读更多...

Openlayers实战教程学习大纲及引导

Openlayers实战教程学习大纲及引导

本系列教程是Openlayers的实战教程，介绍Openlayes的一些基础知识，并重点讲述哪些地方是openlayers项目中常用的，给出具体示例，起到一个很好的引导学习作用。版本说明 Openlayers的实战教程分为**图文版** 和 **视频版**&#x…

阅读更多...

【经验分享】全志科技官方Ubuntu16.04根文件系统镜像的替换和测试方法

【经验分享】全志科技官方Ubuntu16.04根文件系统镜像的替换和测试方法

本文主要基于全志A40i开发板——TLA40i-EVM，一款基于全志科技A40i处理器设计的4核ARM Cortex-A7高性能低功耗国产评估板，演示Ubuntu根文件系统镜像的替换和测试方法。创龙科技TLA40i-EVM评估板接口资源丰富，引出双路网口、双路CAN、双路USB…

阅读更多...

7.5_1散列查找(上)

7.5_1散列查找(上)

基于一种数据结构： 散列表（Hash Table），又称作哈希表特点：数据元素的关键字与其存储地址直接相关其实这个散列表也是基于数组实现的加入19对13取余加入再次插入1的话，塞不进去数据元素不会直接存放到…

阅读更多...

深入浅出设计模式 - 适配器模式

深入浅出设计模式 - 适配器模式

博主介绍： ✌博主从事应用安全和大数据领域，有8年研发经验，5年面试官经验，Java技术专家✌ Java知识图谱点击链接：体系化学习Java（Java面试专题） 💕💕 感兴趣的同学可以收…

阅读更多...

Presto(Trino)分布式(物理)执行计划的生成和调度

Presto(Trino)分布式(物理)执行计划的生成和调度

文章目录 1.前言2.物理执行生成(Stage)的生成2.1不同的调度分区策略2.1.1 Connector自己提供的分区策略2.1.2 Presto提供的Partition策略(SystemPartitioningHandle)： 2.2 为Stage创建StageScheduler2.2.1 普通的非bucket表的TableScan StageSplit 放置策略解析 2.2…

阅读更多...

UE5.1.1 c++从0开始(14.用C++写UMG类)

UE5.1.1 c++从0开始(14.用C++写UMG类)

先在这里放一个链接防止第一次看的朋友们不知道我在讲什么：https://www.bilibili.com/video/BV1nU4y1X7iQ/ 这一段的教程不难，唯一新建的C类是UMG的一个类。这个类用来写绑定在ai身上的血条。总结一下一共做了什么事情： 给ai写了一个血条…

阅读更多...

LeetCode Java两个单链表相交的一系列问题

LeetCode Java两个单链表相交的一系列问题

题目描述单链表可能有环，也可能无环。给定两个单链表的头节点 head1和head2，这两个链表可能相交，也可能不相交。请实现一个函数，如果两个链表相交，请返回相交的第一个节点；如果不相交，返回n…

阅读更多...

Android 渐变背景色

Android 渐变背景色

目录一、背景二、渐变 2.1 线性渐变背景色 1.新建资源文件 2.编辑样式文件 3.使用 4.编辑样式参数说明 2.2 圆角按钮渐变背景色 2.3 放射渐变 2.4 扫描线渐变一、背景单纯的颜色背景已经不能够满足UI大佬们的发挥，渐变色背景无疑成了一个炫技的方向。现在…

阅读更多...

推荐文章

最新文章