【AIGC】18、MobileSAM | 首个专为移动端设计的更快的 SAM

news2024/12/24 20:30:03

在这里插入图片描述

文章目录

    • 一、背景
    • 二、方法
      • 2.1 耦合蒸馏
      • 2.2 从半蒸馏到解耦蒸馏
    • 三、效果

论文:FASTER SEGMENT ANYTHING: TOWARDS LIGHTWEIGHT SAM FOR MOBILE APPLICATIONS

代码:https://github.com/ChaoningZhang/MobileSAM

出处:韩国庆熙大学

时间:2023.06.27

一、背景

Meta 提出的 SAM 以其出色的对任何感兴趣目标都可以进行分割的能力引起了广泛的关注,SAM 的结构如图 1 所示,包括两个部分:

  • ViT-based image encoder
  • prompt-guided mask decoder

SAM 是一个 label-free 的分割模型,可以和其他模型结合来进行进一步的下游任务,如 text-guided 分割、图像编辑等

在这里插入图片描述

在移动设备非常普及的情况下,很多图像编辑都是在移动端,但 SAM 的 image encoder 很大,所以设计一个对移动端友好的 SAM 是很迫切的。

故本文提出了 MobileSAM,主要就是设计了一个适用于移动端设备的轻量级 SAM

在这里插入图片描述

二、方法

按一般的想法来说,既然 image encoder 太大了,那么就缩小 image encoder

比如,将 ViT-H 使用 ViT-B 来替换,使用不同大小的 image encder 的模型参数量如表 3 所示:

在这里插入图片描述

从头训练一个 SAM(使用 ViT-L 或 ViT-B 做 image encoder)需要使用 128 个 GPU 训练数天,所以,重新训练代价也很大。

作者认为,优化的难度在于 image encoder 和 mask encoder 被耦合在一起了

所以,作者将 image encoder 和 mask encoder 进行了解耦:

  • 首先,将 ViT-H 的知识蒸馏到 tiny ViT
  • 然后,finetune mask encoder 来对齐蒸馏的小 image encoder

基于此,设计轻量级 SAM 的任务就转变为解耦蒸馏了,就很简单高效

MobileSAM 将 encoder 的参数降低了 100 倍,将整体参数降低了 60 倍

MobileSAM 推理速度:

  • 单个图像推理速度大概 10ms(8ms 是 image encoder,2ms 是 mask encoder)

MobileSAM 和 FastSAM 的速度对比:

  • MobileSAM 比 FastSAM 小 7 倍,快 4 倍

2.1 耦合蒸馏

要实现对移动端友好的 SAM 的一个直观方法是重新训练一个 image encoder 小的 SAM,但训练代价太大了,所以可以考虑蒸馏的的方法,如图 2 左侧所示,是用最终大模型的 mask 来指导小模型的 mask。

在这里插入图片描述

2.2 从半蒸馏到解耦蒸馏

当直接用 mask 来指导蒸馏时,其难点在于 image encoder 和 mask decoder 是联系在一起的,两者是互相依赖的,所以可以:

  • image encoder:蒸馏
  • mask encoder:finetuned(因为 SAM 中的 mask encoder 本来就很小,故保持结构不变)

如图 2 右侧所示,这种也叫半解耦蒸馏(semi-coupled),对 image encoder 蒸馏的同时对 mask encoder 参数冻结,冻结能够使得 mask decoder 的效果不变,不会被 image encoder 效果的好坏影响。

但这种方法还会有问题,因为 prompt 是随机的,会导致 mask decoder 多变,难以优化

所以,本文的蒸馏方法:

  • 完全解耦蒸馏
  • 直接对 image embedding 进行蒸馏
  • 完全将 image encoder 和 mask decoder 解耦开来了
  • 这样也可以直接使用 MSE loss,不用再结合 focal 和 dice loss 了

在这里插入图片描述

解耦的蒸馏方法计算资源是耦合蒸馏方法的 1%,但却达到了 0.75 mIoU:

在这里插入图片描述

三、效果

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/693512.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MP4视频格式和mp4v2的移植

目录 1、视频文件 2、MP4 3、MP4学习方法 4、MP4文件格式解析 5、MP4Info工具使用 6、mp4v2移植和播放 6.1、下载mp4v2 6.2、配置并编译 6.3、部署 6.4、编译sample 6.5、准备TF卡 6.6、运行和测试 7、MP4打包源码解析 8.添加网络telnet调试 8.1、为什么添加teln…

java进程注入

本文重点java Instrumentation java Instrumentation指的是可以用独立于应用程序之外的代理(agent)程序来监测和协助运行在JVM上的应用程序。这种监测和协助包括但不限于获取JVM运行时状态,替换和修改类定义等。简单一句话概括下:…

11 通信的基本概念

目录 通信分类概览 串行通讯与并行通讯 全双工、半双工及单工通讯 同步通讯与异步通讯 通讯速率 注意 通信分类概览 串行通讯与并行通讯 串行通讯是指设备之间通过少量数据信号线(一般是 8 根以下),地线以及控制信号线,按数据位形式一位一位地传输…

Windows下创建进程的理解

创建windows进程,需要考虑两个点,即session和权限问题。了解这两点,网络上服务创建界面进程,管理员权限进程创建普通权限进程的代码则很好理解。 1、基础知识 (1) session (2) 权限 CreateProcessAsUser需要传入一个token&#x…

LeetCode 打卡day45--完全背包问题之最小填充次数

一个人的朝圣 — LeetCode打卡第45天 知识总结Leetcode 70. 爬楼梯题目说明代码说明 Leetcode 322. 零钱兑换题目说明代码说明 Leetcode 279. 完全平方数题目说明代码说明 知识总结 今天的问题都可以归结一句话, 在完全背包的问题设置下, 问将该背包填满最少需要放几件物品. L…

java基础(并发编程)-异步模式之生产者/消费者

一、定义要点 与前面的保护性暂停中的GuardedObject不同,不需要产生结果和消费结果的线程一一对应消费队列可以用来平衡生产和消费的线程资源生产者仅负责产生结果数据,不关心数据该如何处理,而消费者专心处理结果数据消息队列是有容量限制的…

代码随想录算法训练营第17期第1天 | 704. 二分查找、27. 移除元素

从头开始,重新再来,但是又不完全一样,之前是擅长的python,现在是C,能坚持下来么? 704. 二分查找 704. 二分查找https://leetcode.cn/problems/binary-search/ 上次写这道题已经是两个月之前,说…

Openresty原理概念篇(七)OpenResty 中用到的 NGINX 知识

一 OpenResty 中用到的 NGINX 知识 Luaj 是一个 Java 的 Lua 解释器,基于 Lua 5.2.x 版本 luaj ① 说明 1) 本文可有可无原因:如果你之前没有接触过nginx或者涉及一点nginx,那么建议阅读2) 由于自己已经对nginx整个脉络体系进行讲解,本文只是机械的摘录,构成…

Java使用RabbitMQ实战,Springboot使用rabbitMQ实战

文章目录 一、Java原生API1、简单实例2、延迟消息3、消费端限流4、消息属性设置5、消息可靠投递 二、Spring-API1、简单实例(1)引入rabbitMQ.xml(2)生产者(3)消费者(4)测试类 三、Sp…

使用VSCODE跑orbslam2踩的坑

我用的是ubuntu22.04,opencv是4.7,使用其他的库感觉就算版本不一样,也能跑。 一、运行build.sh能够产生可执行文件遇到的问题 1.由于opencv版本高带来的问题 这些问题怎么定位出现在哪些文件中,你通过命令行,运行下…

更灵活的CSS3新特性:帮你简化样式管理和优化网站性能

文章目录 I. 前言:介绍CSS3的进化和发展趋势CSS3的历史和版本CSS3的标准化和浏览器支持情况 II. 新的CSS选择器:扩展选择器的功能属性选择器:更多方式选择元素伪类和伪元素:更方便地定义样式 III. 改进的排版和布局:实…

在 EulerOS 系统中设置 Chrony 时间同步服务

以下是在 EulerOS 系统中设置 Chrony 时间同步服务的所有步骤。 1.查看系统版本 [rootservice11 ~]# cat /etc/redhat-release EulerOS release 2.0 (SP5)2.检查是否已安装chrony软件 [rootservice11 ~]# rpm -qa|grep chrony chrony-3.2-2.eulerosv2r7.x86_64如果没有安装…

Openlayers实战教程学习大纲及引导

本系列教程是Openlayers的实战教程,介绍Openlayes的一些基础知识,并重点讲述哪些地方是openlayers项目中常用的,给出具体示例,起到一个很好的引导学习作用。 版本说明 Openlayers的实战教程 分为**图文版** 和 **视频版**&#x…

【经验分享】全志科技官方Ubuntu16.04根文件系统镜像的替换和测试方法

本文主要基于全志A40i开发板——TLA40i-EVM,一款基于全志科技A40i处理器设计的4核ARM Cortex-A7高性能低功耗国产评估板,演示Ubuntu根文件系统镜像的替换和测试方法。 创龙科技TLA40i-EVM评估板接口资源丰富,引出双路网口、双路CAN、双路USB…

7.5_1散列查找(上)

基于一种数据结构: 散列表(Hash Table),又称作哈希表 特点:数据元素的关键字与其存储地址直接相关 其实这个散列表也是基于数组实现的 加入19对13取余 加入再次插入1的话,塞不进去 数据元素不会直接存放到…

深入浅出设计模式 - 适配器模式

博主介绍: ✌博主从事应用安全和大数据领域,有8年研发经验,5年面试官经验,Java技术专家✌ Java知识图谱点击链接:体系化学习Java(Java面试专题) 💕💕 感兴趣的同学可以收…

Presto(Trino)分布式(物理)执行计划的生成和调度

文章目录 1.前言2.物理执行生成(Stage)的生成2.1不同的调度分区策略2.1.1 Connector自己提供的分区策略2.1.2 Presto提供的Partition策略(SystemPartitioningHandle): 2.2 为Stage创建StageScheduler2.2.1 普通的非bucket表的TableScan StageSplit 放置策略解析 2.2…

UE5.1.1 c++从0开始(14.用C++写UMG类)

先在这里放一个链接防止第一次看的朋友们不知道我在讲什么:https://www.bilibili.com/video/BV1nU4y1X7iQ/ 这一段的教程不难,唯一新建的C类是UMG的一个类。这个类用来写绑定在ai身上的血条。 总结一下一共做了什么事情: 给ai写了一个血条…

LeetCode Java两个单链表相交的一系列问题

题目描述 单链表可能有环,也可能无环。给定两个单链表的头节点 head1和head2,这两个链表可能相交,也可能不相交。 请实现一个函数,如果两个链表相交,请返回相交的第一个节点;如果不相交,返回n…

Android 渐变背景色

目录 一、背景 二、渐变 2.1 线性渐变背景色 1.新建资源文件 2.编辑样式文件 3.使用 4.编辑样式参数说明 2.2 圆角按钮渐变背景色 2.3 放射渐变 2.4 扫描线渐变 一、背景 单纯的颜色背景已经不能够满足UI大佬们的发挥,渐变色背景无疑成了一个炫技的方向。现在…