Segment Anything Model (SAM)——卷起来了,那个号称分割一切的CV大模型他来了

news2024/11/26 4:48:44

最近每天打开微信看到10个公众号里面差不多有11个都在各种玩赚chatGPT,每个都在说是各种大好风口,哎,看得眼睛都是累的。

今天下午无意间看到Meta发布了一款号称能分割一切的CV大模型,CV圈也开始卷起来,今年各种大模型要爆发了感觉。

吃瓜群众满怀好奇,点开了解一下。

官方论文在这里,感兴趣可以自行阅读。

 官方同时也开源了项目,地址在这里,如下所示:

 可以看到:才开源了一天的时间就已经有6k的star量了,后续增长感觉会更猛的!

官方也给出来了数据集地址,在这里,如下所示:

 有需要的话可以自行下载使用即可。

当然了这么精彩的技术自然不会少的了技术博客的介绍,官方的技术博客在这里。

为了能让大家第一时间上手体验,这里官方也是开放出来了Demo地址,在这里,如下所示:

 上传一张我本地的图片,用的就是上一篇博客摔倒检测的数据集,如下:

 我添加了一个box,瞬间就给我分割出来了,如下:

 随着光标的移动,模型给出来的响应也是很快的:

 甚至还可以一键cutout所有的子对象如下:

 很强大了已经。

官方这里也提供了很多实例图片,简单看下:

 选择小狗试试吧:

添加box对指定区域直接分割:

 再来一张:

 效果如下:

 指定区域分割:

 最后再来试一下:

 效果如下:

 感兴趣的话都可以自己玩玩体验一下。

当然了如果想要自己安装使用也是可以的,官方同样给了安装说明如下:

先安装一些基础依赖
pip install opencv-python pycocotools matplotlib onnxruntime onnx


安装SAM
方法一:
pip install git+https://github.com/facebookresearch/segment-anything.git

方法二:
git clone git@github.com:facebookresearch/segment-anything.git
cd segment-anything; pip install -e .

 模型库在这里,需要的自行下载即可。

使用方法也很简单如下:

#from a given prompt:
from segment_anything import build_sam, SamPredictor 
predictor = SamPredictor(build_sam(checkpoint="</path/to/model.pth>"))
predictor.set_image(<your_image>)
masks, _, _ = predictor.predict(<input_prompts>)

或者也可以如下使用:

#generate masks for an entire image:
from segment_anything import build_sam, SamAutomaticMaskGenerator
mask_generator = SamAutomaticMaskGenerator(build_sam(checkpoint="</path/to/model.pth>"))
masks = mask_generator_generate(<your_image>)

当然了,mask也可以通过命令行生成,如下:

python scripts/amg.py --checkpoint <path/to/sam/checkpoint> --input <image_or_folder> --output <output_directory>

关于两种不同的调用计算方式,官方也都给出来了详细的demo样例如下:

predictor_example

automatic_mask_generator_example

想要导出onnx格式的话也是可以的,如下:

python scripts/export_onnx_model.py --checkpoint <path/to/checkpoint> --output <path/to/output>

这里一共提供了H、L、B三种不同size的模型,如下:

ViT-H SAM model
ViT-L SAM model
ViT-B SAM model

 三种不同模型体积如下:

 可以根据自己的兴趣自由使用即可。

今天就简单到这里了,后面找时间在仔细看看吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/621576.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

chatgpt赋能python:Python在图片处理方面的应用

Python在图片处理方面的应用 在当今数字化的时代&#xff0c;图像处理已成为不可避免的技术。越来越多的业务需要对图片进行处理、识别和分析。Python是一种易于使用且适合处理图像的编程语言。Python中有许多图像处理库&#xff0c;例如Pillow、Scikit-Image和OpenCV等&#…

基于BP神经网络的PID智能控制

基于BP神经网络的PID智能控制 基于BP神经网络的PID整定原理经典的增量式数字PID控制算法为&#xff1a;BP神经网络结构&#xff1a;学习算法仿真模型Matlab代码仿真效果图结论python仿真参考文献 基于BP神经网络的PID整定原理 PID控制要获得较好的控制效果&#xff0c;就必须通…

山东大学单片机原理与应用实验 3.4 矩阵键盘扫描实验

目录 一、实验题目 二、实验要求 三、实验过程及结果记录 1. 在Proteus 环境下建立图1所示原理图&#xff0c;并将其保存为keyscan_self.DSN 文件。 2. 编写控制源程序&#xff0c;将其保存为keyscan_self.asm 或keyscan_self.c。 3. 将源程序添加到U1 中&#xff0c;并构…

chatgpt赋能python:Python如何将空格变成换行

Python如何将空格变成换行 Python是一种流行的编程语言&#xff0c;有着许多实用的功能和库。在这篇文章中&#xff0c;我们将介绍如何使用Python将空格变成换行的方法。这是一种有用的技巧&#xff0c;可以帮助你在处理文本时更加方便。 为什么需要将空格变成换行 将空格变…

eNSP数据抓包时弹不出Wireshark.exe

文章目录 原因&#xff1a;wireshark的版本问题解决方法&#xff1a;操作例图 原因&#xff1a;wireshark的版本问题 上述2.6.6版本安装后&#xff0c;ensp工具路径正确&#xff0c;数据抓包也始终打不开wireshark&#xff0c;但是直接打开是可以打开的。安装3.6.3版本后&#…

零基础使用ChatGPT写一个小游戏---文末附源码

ChatGPT&#xff1a;赋能自然语言处理的多种应用领域 ChatGPT是当今最先进的人工智能对话系统之一&#xff0c;已经被证明可以支持许多不同的自然语言处理应用程序。以下是ChatGPT可以运行的几个领域&#xff1a; 聊天机器人 ChatGPT作为一个建立在自然语言处理技术上的人工…

chatgpt赋能python:Python数据拟合

Python 数据拟合 在数据分析和机器学习领域&#xff0c;数据拟合是非常重要的一步。Python作为一种流行的编程语言&#xff0c;在数据拟合方面拥有强大的工具和库&#xff0c;因此被广泛使用。本文将介绍Python中常用的一些数据拟合方法&#xff0c;并演示如何使用它们。 线性…

200道网络安全常见面试题合集(附答案解析+配套资料)

有不少小伙伴面临跳槽或者找工作&#xff0c;本文总结了常见的安全岗位面试题&#xff0c;方便各位复习。祝各位事业顺利&#xff0c;财运亨通。在网络安全的道路上越走越远&#xff01; 所有的资料都整理成了PDF&#xff0c;面试题和答案将会持续更新&#xff0c;因为无论如何…

宝塔-如何部署自己的nodejs项目并跑起来【已解决】

我自己做了一个项目&#xff0c;前端后端都是自己做&#xff0c;后端就用的nodejs写的接口&#xff0c;但是本地每次访问都要启动一次&#xff0c;所以我准备放到服务器上&#xff0c;这样接口就能一直跑了 先看效果 这里可以看到我现在是本地的ip在访问接口&#xff0c;以为我…

什么是端到端解决方案

通过“端到端”流程打通&#xff0c;将各相关部门的业务环节衔接起来&#xff0c;消灭“断头路”&#xff0c;不断提高内部的效率并满足客户的需求&#xff0c;最终实现企业效益最大化。 不同语境下的端到端 端到端在不同领域有多重含义&#xff0c;是一个非常复杂且抽象的名…

机器学习算法:UMAP 深入理解

导读 降维是机器学习从业者可视化和理解大型高维数据集的常用方法。最广泛使用的可视化技术之一是 t-SNE&#xff0c;但它的性能受到数据集规模的影响&#xff0c;并且正确使用它可能需要一定学习成本。 UMAP 是 McInnes 等人开发的新算法。与t-SNE相比&#xff0c;它具有许多…

4090 深度学习性能实测

测试结果 测试平台&#xff1a; 显卡&#xff1a;影驰金属大师4090 cpu&#xff1a;i7 12700k 测试方法 李沐老师micro-benchmarkings B站视频 测试 1.矩阵计算速度 transformer的核心操作是矩阵乘法&#xff0c;通过测试矩阵计算的tflops可以得到硬件的计算上限。 ma…

操作系统实验一到实验九合集(哈工大李治军)

操作系统实验 作者寄语 操作系统实验的学习是一个循序渐进的过程&#xff0c;初次看linux-0.11中的代码&#xff0c;看着满屏的汇编语言&#xff0c;确实头疼。但通过学习赵炯博士的Linux内核0.11完全注释&#xff0c;结合着王爽老师的汇编语言一书&#xff0c;我逐渐理解每段…

jmeter压测数据库

1.查询数据库对应的URL可点击jmeter操作指南书的图表&#xff0c;找到对应的数据库url即可 2.为避免在连接数据库时会报编码/时区上的错误&#xff0c;可以在URL后面添加两个参数 ?useUnicode true //反正乱码 &characterEncodingUTF-8 //国际编码 &serverTimezoneUT…

非常全面的数字人解决方案(含源码)

github TheRamU/Fay: 语音互动&#xff0c;直播自动带货 虚拟数字人 (github.com) gitee fay: 这是一个数字人项目&#xff0c;包含python内核及ue数字人模型&#xff0c;可以用于做数字助理及自动直播&#xff0c;又或者作为你的应用入口也很帅 (gitee.com) 2022.10.27 补…

I/O框架知识

I/0框架 什么是流&#xff1f; 概念&#xff1a;内存与存储设备之间传输数据的通道 流的分类 按方向&#xff08;重点&#xff09; 输入流: 将<存储设备>的内容读入到<内存>中&#xff0c; 输出流&#xff1a;将<内存>中的内容写入到<存储设备>中 …

socket编程之connect()

5 connect() connect&#xff08;&#xff09; 系统调用将文件描述符 sockfd 引用的套接字连接到 addr 指定的地址。 2.1 包含头文件 #include <sys/types.h> #include <sys/socket.h>2.2 函数主体 int connect(int sockfd, const struct sockaddr *ad…

chatgpt赋能python:Python平铺图片的SEO优化

Python平铺图片的SEO优化 在网站设计中&#xff0c;图片是一个重要的元素。但是&#xff0c;使用大量的图片会导致网站加载速度变慢&#xff0c;从而影响用户的体验。为了解决这个问题&#xff0c;我们可以使用平铺图片&#xff0c;这样可以减小图片的大小&#xff0c;提高网站…

腾讯云国际版注册流程详解

作为国内三大云厂商之一的腾讯云&#xff0c;相信很多人都不会陌生&#xff0c;我们使用的微信、QQ等都是依托于腾讯云的服务器&#xff0c;实力自然是不容小觑&#xff0c;而腾讯云近年来也是在海外市场不断布局&#xff0c;影响力显著增长&#xff0c;不管是个人建站还是企业…

【Java】Java核心要点总结:58

文章目录 1. java中 怎么确保一个集合不能被修改2. 队列和栈是什么 有什么区别3. Java8开始的ConcurrentHashMap为什么舍弃了分段锁4. ConcurrentHashMap 和 Hashtable有什么区别5. ReadWriteLock和StampeLock 1. java中 怎么确保一个集合不能被修改 Java 中可以使用 Collectio…