SAM轻量化的终点竟然是RepViT + SAM

news2024/11/20 9:13:59

本文首发:AIWalker,欢迎关注~~

殊途同归!SAM轻量化的终点竟然是RepViT + SAM,移动端速度可达38.7fps。

对于 2023 年的计算机视觉领域来说,「分割一切」(Segment Anything Model)是备受关注的一项研究进展。尽管SAM具有各种优势,但速度慢是其不得不提的一个缺点,端侧根本就跑不动。研究者们也提出了一些改进策略:将默认 ViT-H 图像编码器中的知识提炼到一个微小的 ViT 图像编码器中,或者使用基于 CNN 的实时架构降低用于 Segment Anything 任务的计算成本

就在今日,arXiv上同时公开两篇SAM轻量化的方法EdgeSAMRepViT-SAM,更巧合的是两者采用了完全相同的Image Encoder模块:RepViT;两者也都在手机端能以超快的速度进行任意分割,值得一提的是:EdgeSAM能在iphone14手机上达到38.7fps的处理速度

https://arxiv.org/abs/2312.05760
https://github.com/THU-MIG/RepViT
在AIWalker后台回复【RepViT-SAM】即可下载原文与中文译文

该方案延续了MobileSAM的处理方式,即采用原生SAM的ViT Encoder模块对所替换的Encoder模块进行知识蒸馏。

  • 在实现方面,RepViT-SAM引入了移动端新秀RepViT的RepViT-M2.3作为图像编码器提取图像特征;
  • 在老师模型方面,它选用了SAM-ViT-H版本进行蒸馏。
  • 在应用方面,该方案进行了多种任务适配,如Mask预测、边缘检测等。

https://arxiv.org/abs/2312.06660
https://github.com/chongzhou96/EdgeSAM
在AIWalker后台回复【EdgeSAM】即可下载原文与中文译文


相比而言,EdgeSAM方法上会显得更优异:它并非仅仅参考MobileSAM进行了Image Encoder的蒸馏,还仔细分析了不同蒸馏策略并证实:任务不可知的编码器蒸馏难以学习到SAM所具备的全部知识

有鉴于此,作者提出:循环使用bbox与point提示词,同时对提示词编码器与Mak解码器进行蒸馏,以便于蒸馏模型能够准确的学习到提示词与Mask之间的复杂关系

  • 在2080Ti上,相比原生SAM,EdgeSAM推理速度快40倍;
  • 在iPhone14上,相比MobileSAM,EdgeSAM推理速度快14倍,达到了38.7fps。

在AIWalker后台回复:【EdgeSAM】,即可下载原文与中文译本;
在AIWalker后台回复【RepViT-SAM】即可下载原文与中文译本。

推荐阅读

  • RepViT: 从ViT角度重新审视轻量级CNN移动端架构
  • EfficientSAM | 借助MIM机制,MetaAI让SAM更高效!
  • FastSAM:基于CNN的SAM任务解决方案,速度提升50倍!
  • MobileSAM | 让SAM再快一点!处理一张图像仅需10ms
  • NanoSAM:让您在Jetson Orin上享受实时分割的卓越体验
  • 实践教程|硬核详解SAM TensorRT模型转换

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1469299.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Django学习记录04——靓号管理整合

1.靓号表 1.1 表结构 1.2 靓号表的构造 class PrettyNum(models.Model): 靓号表 mobile models.CharField(verbose_name"手机号", max_length11)# default 默认值# null true,blank true 允许为空price models.IntegerField(verbose_name"价…

Django模型基础(ORM、字段类型、字段参数、增删改查和分页)

模型基础: 字段类型: django根据属性的类型确定以下信息 当前选择的数据库⽀持字段的类型渲染管理表单时使⽤的默认html控件在管理站点最低限度的验证django会为表增加⾃动增⻓的主键列,每个模型只能有⼀个主键列,如果使⽤选项…

学习 LangChain 的 LCEL

学习 LangChain 的 LCEL 0. 引言1. 基本示例:提示模型输出解析器​1-1. Prompt​1-2. Model1-3. Output parser1-4. Entire Pipeline 0. 引言 LCEL(LangChain Expression Language) 可以轻松地从基本组件构建复杂的链,并支持开箱即用的功能,…

掌握BeautifulSoup4:爬虫解析器的基础与实战【第91篇—BeautifulSoup4】

掌握BeautifulSoup4:爬虫解析器的基础与实战 网络上的信息浩如烟海,而爬虫技术正是帮助我们从中获取有用信息的重要工具。在爬虫过程中,解析HTML页面是一个关键步骤,而BeautifulSoup4正是一款功能强大的解析器,能够轻…

mongoose httpserver浅析

文章目录 前言一、结构体及其功能二、函数MG_LOGmg_http_listenmg_mgr_poll question参考链接 前言 mongoose是一款基于C/C的网络库,可以实现TCP, UDP, HTTP, WebSocket, MQTT通讯。mongoose是的嵌入式网络程序更快、健壮,易于实现。 mongoose只有mong…

云尚办公-0.0.1

1. 核心技术 基础框架:SpringBoot数据缓存:Redis数据库:MySQL权限控制:SpringSecurity工作流引擎:Activiti前端技术:vue-admin-template Node.js Npm Vue ElementUI Axios微信公众号:公众…

适合新手博主站长使用的免费响应式WordPress博客主题JianYue

这款JianYue主题之所以命名为 JianYue,意思就是简单而不简约的。是根据Blogs主题优化而成,剔除了一些不必要的功能及排版,仅保留一种博客布局,让新手站长能够快速手上WordPress。可以说这款主题比较适合新手博主站长使用&#xff…

B树的介绍

R-B Tree 简介特性B树特性m阶B树的性质(这些性质是B树规定的) B树的搜索B树的添加B树的删除——非叶子结点 简介 R-B Tree又称为Red-Black Tree,红黑树。是一种特殊的二叉查找树,红黑树的每个节点上都有存储为表示结点的颜色&…

源代码管理——码云Gitee

目录 Git安装 Gitee配置SSH 源代码管理常规操作 1.idea配置git 2.常规操作 Git安装 安装Git是进行源代码管理的基本步骤之一。以下是在本地安装Git的通用步骤,适用于Windows系统: 下载Git安装程序: 访问Git官网的下载页面:Git官网下载地…

2024 CKS 题库 | 12、Sysdig falco

不等更新题库 CKS 题库 12、Sysdig & falco Task: 使用运行时检测工具来检测 Pod tomcat123 单个容器中频发生成和执行的异常进程。 有两种工具可供使用: sysdigfalco 注: 这些工具只预装在 cluster 的工作节点 node02 上,…

信号处理 | 短时傅里叶变换实战

短时傅里叶变换(STFT)原理 短时傅里叶变换(Short-Time Fourier Transform, STFT)是一种分析时变信号频率特性的方法。它通过将长时间的信号分割成较短的时间片段,然后对每个时间片段进行傅里叶变换,从而克服了传统傅里叶变换无法…

【Java程序设计】【C00300】基于Springboot的足球社区管理系统(有论文)

基于Springboot的足球社区管理系统(有论文) 项目简介项目获取开发环境项目技术运行截图 项目简介 这是一个基于Springboot的足球社区管理系统,本系统有管理员以及教练角色权限; 管理员设置的功能有:添加并管理各种类型…

代码随想录day33-动态规划的应用1

LeetCode62.不同路径 题目描述: 一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish” )。 …

可视化 RAG 数据 — 用于检索增强生成的 EDA

原文地址:Visualize your RAG Data — EDA for Retrieval-Augmented Generation 2024 年 2 月 8 日 Github:https://github.com/Renumics/rag-demo/blob/main/notebooks/visualize_rag_tutorial.ipynb 为探索Spotlight中的数据,我们使用Pa…

linux 文本编辑命令【重点】

目录 vi&vim介绍 vim安装 vim使用 查找命令 find grep 文本编辑的命令,主要包含两个: vi 和 vim vi&vim介绍 作用: vi命令是Linux系统提供的一个文本编辑工具,可以对文件内容进行编辑,类似于Windows中的记事本 语法: vi file…

NXP实战笔记(十):S32K3xx基于RTD-SDK在S32DS上配置CAN通信

目录 1、概述 2、SDK配置 2.1、配置目标 2.2、CAN配置 3、代码实现 4、测试结果 1、概述 S32K3xx的FlexCan与之前的S32K1xx很相似,Can的中断掩码寄存器(IMASK3)与中断标志位寄存器(IFLAG3)依赖于邮箱数。 FlexCan配置实例如下 FlexCan的整体图示如下 Protocol Engine…

MiKTeX安装后,Latex编译后PDF无法预览,是灰色的

解决方式删掉编译器就可以, 即删掉MiKTeX MiKTeX安装后会将编译器默认修改为MiKTeX,这个时候会显示报错,简单粗暴的方式是删掉MiKTeX软件

程序员可以做什么副业呢?

如果你经常玩知乎、看公众号(软件、工具、互联网这几类的)你就会发现,好多资源连接都变成了夸克网盘、迅雷网盘的资源链接。 例如:天涯神贴,基本上全是夸克、UC、迅雷网盘的资源链接。 有资源的前提下,迅雷…

纽约纳斯达克大屏投放受众群体有哪些-大舍传媒

纽约纳斯达克大屏投放受众群体有哪些-大舍传媒 1. 纳斯达克大屏的概述 纳斯达克大屏是全球金融市场中最出名的电子交易平台之一。作为一个重要的金融信息传递渠道,纳斯达克大屏吸引了来自全球的投资者的目光。在这个巨大的投放平台上,大舍传媒希望为客…

【机器学习基础】一元线性回归(适合初学者的保姆级文章)

🚀个人主页:为梦而生~ 关注我一起学习吧! 💡专栏:机器学习 欢迎订阅!后面的内容会越来越有意思~ 💡往期推荐: 【机器学习基础】机器学习入门(1) 【机器学习基…