SAM轻量化的终点竟然是RepViT + SAM

SAM轻量化的终点竟然是RepViT + SAM

news2025/4/7 4:45:34

本文首发：AIWalker，欢迎关注~~

殊途同归！SAM轻量化的终点竟然是RepViT + SAM，移动端速度可达38.7fps。

对于 2023 年的计算机视觉领域来说，「分割一切」（Segment Anything Model）是备受关注的一项研究进展。尽管SAM具有各种优势，但速度慢是其不得不提的一个缺点，端侧根本就跑不动。研究者们也提出了一些改进策略：将默认 ViT-H 图像编码器中的知识提炼到一个微小的 ViT 图像编码器中，或者使用基于 CNN 的实时架构降低用于 Segment Anything 任务的计算成本。

就在今日，arXiv上同时公开两篇SAM轻量化的方法EdgeSAM、RepViT-SAM，更巧合的是两者采用了完全相同的Image Encoder模块：RepViT；两者也都在手机端能以超快的速度进行任意分割，值得一提的是：EdgeSAM能在iphone14手机上达到38.7fps的处理速度。

https://arxiv.org/abs/2312.05760
https://github.com/THU-MIG/RepViT
在AIWalker后台回复【RepViT-SAM】即可下载原文与中文译文

该方案延续了MobileSAM的处理方式，即采用原生SAM的ViT Encoder模块对所替换的Encoder模块进行知识蒸馏。

在实现方面，RepViT-SAM引入了移动端新秀RepViT的RepViT-M2.3作为图像编码器提取图像特征；
在老师模型方面，它选用了SAM-ViT-H版本进行蒸馏。
在应用方面，该方案进行了多种任务适配，如Mask预测、边缘检测等。

https://arxiv.org/abs/2312.06660
https://github.com/chongzhou96/EdgeSAM
在AIWalker后台回复【EdgeSAM】即可下载原文与中文译文

相比而言，EdgeSAM方法上会显得更优异：它并非仅仅参考MobileSAM进行了Image Encoder的蒸馏，还仔细分析了不同蒸馏策略并证实：任务不可知的编码器蒸馏难以学习到SAM所具备的全部知识。

有鉴于此，作者提出：循环使用bbox与point提示词，同时对提示词编码器与Mak解码器进行蒸馏，以便于蒸馏模型能够准确的学习到提示词与Mask之间的复杂关系。

在2080Ti上，相比原生SAM，EdgeSAM推理速度快40倍；
在iPhone14上，相比MobileSAM，EdgeSAM推理速度快14倍，达到了38.7fps。

在AIWalker后台回复：【EdgeSAM】，即可下载原文与中文译本；
在AIWalker后台回复【RepViT-SAM】即可下载原文与中文译本。

推荐阅读

RepViT: 从ViT角度重新审视轻量级CNN移动端架构
EfficientSAM | 借助MIM机制，MetaAI让SAM更高效！
FastSAM：基于CNN的SAM任务解决方案，速度提升50倍！
MobileSAM | 让SAM再快一点！处理一张图像仅需10ms
NanoSAM：让您在Jetson Orin上享受实时分割的卓越体验
实践教程｜硬核详解SAM TensorRT模型转换

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1469299.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Django学习记录04——靓号管理整合

Django学习记录04——靓号管理整合

1.靓号表 1.1 表结构 1.2 靓号表的构造 class PrettyNum(models.Model): 靓号表 mobile models.CharField(verbose_name"手机号", max_length11)# default 默认值# null true，blank true 允许为空price models.IntegerField(verbose_name"价…

阅读更多...

Django模型基础(ORM、字段类型、字段参数、增删改查和分页)

Django模型基础(ORM、字段类型、字段参数、增删改查和分页)

模型基础： 字段类型： django根据属性的类型确定以下信息当前选择的数据库⽀持字段的类型渲染管理表单时使⽤的默认html控件在管理站点最低限度的验证django会为表增加⾃动增⻓的主键列，每个模型只能有⼀个主键列，如果使⽤选项…

阅读更多...

学习 LangChain 的 LCEL

学习 LangChain 的 LCEL

学习 LangChain 的 LCEL 0. 引言1. 基本示例：提示模型输出解析器1-1. Prompt1-2. Model1-3. Output parser1-4. Entire Pipeline 0. 引言 LCEL(LangChain Expression Language) 可以轻松地从基本组件构建复杂的链，并支持开箱即用的功能，…

阅读更多...

掌握BeautifulSoup4：爬虫解析器的基础与实战【第91篇—BeautifulSoup4】

掌握BeautifulSoup4：爬虫解析器的基础与实战【第91篇—BeautifulSoup4】

掌握BeautifulSoup4：爬虫解析器的基础与实战网络上的信息浩如烟海，而爬虫技术正是帮助我们从中获取有用信息的重要工具。在爬虫过程中，解析HTML页面是一个关键步骤，而BeautifulSoup4正是一款功能强大的解析器，能够轻…

阅读更多...

mongoose httpserver浅析

mongoose httpserver浅析

文章目录前言一、结构体及其功能二、函数MG_LOGmg_http_listenmg_mgr_poll question参考链接前言 mongoose是一款基于C/C的网络库，可以实现TCP, UDP, HTTP, WebSocket, MQTT通讯。mongoose是的嵌入式网络程序更快、健壮，易于实现。 mongoose只有mong…

阅读更多...

云尚办公-0.0.1

云尚办公-0.0.1

1. 核心技术基础框架：SpringBoot数据缓存：Redis数据库：MySQL权限控制：SpringSecurity工作流引擎：Activiti前端技术：vue-admin-template Node.js Npm Vue ElementUI Axios微信公众号：公众…

阅读更多...

适合新手博主站长使用的免费响应式WordPress博客主题JianYue

这款JianYue主题之所以命名为 JianYue，意思就是简单而不简约的。是根据Blogs主题优化而成，剔除了一些不必要的功能及排版，仅保留一种博客布局，让新手站长能够快速手上WordPress。可以说这款主题比较适合新手博主站长使用&#xff…

阅读更多...

B树的介绍

B树的介绍

R-B Tree 简介特性B树特性m阶B树的性质（这些性质是B树规定的） B树的搜索B树的添加B树的删除——非叶子结点简介 R-B Tree又称为Red-Black Tree，红黑树。是一种特殊的二叉查找树，红黑树的每个节点上都有存储为表示结点的颜色&…

阅读更多...

源代码管理——码云Gitee

源代码管理——码云Gitee

目录 Git安装 Gitee配置SSH 源代码管理常规操作 1.idea配置git 2.常规操作 Git安装安装Git是进行源代码管理的基本步骤之一。以下是在本地安装Git的通用步骤，适用于Windows系统： 下载Git安装程序: 访问Git官网的下载页面：Git官网下载地…

阅读更多...

2024 CKS 题库 | 12、Sysdig falco

2024 CKS 题库 | 12、Sysdig falco

不等更新题库 CKS 题库 12、Sysdig & falco Task： 使用运行时检测工具来检测 Pod tomcat123 单个容器中频发生成和执行的异常进程。有两种工具可供使用： sysdigfalco 注： 这些工具只预装在 cluster 的工作节点 node02 上，…

阅读更多...

信号处理 | 短时傅里叶变换实战

信号处理 | 短时傅里叶变换实战

短时傅里叶变换(STFT)原理短时傅里叶变换（Short-Time Fourier Transform, STFT）是一种分析时变信号频率特性的方法。它通过将长时间的信号分割成较短的时间片段，然后对每个时间片段进行傅里叶变换，从而克服了传统傅里叶变换无法…

阅读更多...

【Java程序设计】【C00300】基于Springboot的足球社区管理系统（有论文）

【Java程序设计】【C00300】基于Springboot的足球社区管理系统（有论文）

基于Springboot的足球社区管理系统（有论文） 项目简介项目获取开发环境项目技术运行截图项目简介这是一个基于Springboot的足球社区管理系统，本系统有管理员以及教练角色权限； 管理员设置的功能有：添加并管理各种类型…

阅读更多...

代码随想录day33-动态规划的应用1

代码随想录day33-动态规划的应用1

LeetCode62.不同路径题目描述： 一个机器人位于一个 m x n 网格的左上角 （起始点在下图中标记为 “Start” ）。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角（在下图中标记为 “Finish” ）。 …

阅读更多...

可视化 RAG 数据 — 用于检索增强生成的 EDA

可视化 RAG 数据 — 用于检索增强生成的 EDA

原文地址：Visualize your RAG Data — EDA for Retrieval-Augmented Generation 2024 年 2 月 8 日 Github：https://github.com/Renumics/rag-demo/blob/main/notebooks/visualize_rag_tutorial.ipynb 为探索Spotlight中的数据，我们使用Pa…

阅读更多...

linux 文本编辑命令【重点】

linux 文本编辑命令【重点】

目录 vi&vim介绍 vim安装 vim使用查找命令 find grep 文本编辑的命令，主要包含两个: vi 和 vim vi&vim介绍作用: vi命令是Linux系统提供的一个文本编辑工具，可以对文件内容进行编辑，类似于Windows中的记事本语法: vi file…

阅读更多...

NXP实战笔记（十）：S32K3xx基于RTD-SDK在S32DS上配置CAN通信

NXP实战笔记（十）：S32K3xx基于RTD-SDK在S32DS上配置CAN通信

目录 1、概述 2、SDK配置 2.1、配置目标 2.2、CAN配置 3、代码实现 4、测试结果 1、概述 S32K3xx的FlexCan与之前的S32K1xx很相似，Can的中断掩码寄存器（IMASK3）与中断标志位寄存器（IFLAG3）依赖于邮箱数。 FlexCan配置实例如下 FlexCan的整体图示如下 Protocol Engine…

阅读更多...

MiKTeX安装后，Latex编译后PDF无法预览，是灰色的

MiKTeX安装后，Latex编译后PDF无法预览，是灰色的

解决方式删掉编译器就可以， 即删掉MiKTeX MiKTeX安装后会将编译器默认修改为MiKTeX，这个时候会显示报错，简单粗暴的方式是删掉MiKTeX软件

阅读更多...

程序员可以做什么副业呢？

程序员可以做什么副业呢？

如果你经常玩知乎、看公众号（软件、工具、互联网这几类的）你就会发现，好多资源连接都变成了夸克网盘、迅雷网盘的资源链接。例如：天涯神贴，基本上全是夸克、UC、迅雷网盘的资源链接。有资源的前提下，迅雷…

阅读更多...

纽约纳斯达克大屏投放受众群体有哪些-大舍传媒

纽约纳斯达克大屏投放受众群体有哪些-大舍传媒

纽约纳斯达克大屏投放受众群体有哪些-大舍传媒 1. 纳斯达克大屏的概述纳斯达克大屏是全球金融市场中最出名的电子交易平台之一。作为一个重要的金融信息传递渠道，纳斯达克大屏吸引了来自全球的投资者的目光。在这个巨大的投放平台上，大舍传媒希望为客…

阅读更多...

【机器学习基础】一元线性回归（适合初学者的保姆级文章）

【机器学习基础】一元线性回归（适合初学者的保姆级文章）

🚀个人主页：为梦而生~ 关注我一起学习吧！ 💡专栏：机器学习欢迎订阅！后面的内容会越来越有意思~ 💡往期推荐： 【机器学习基础】机器学习入门（1） 【机器学习基…

阅读更多...

推荐文章

最新文章