图像分割-Segment Anything实践

news2024/12/23 14:33:19

一、模型介绍

        Segment Anything 模型是一种新的图像分割模型,它可以在不需要大量标注数据的情况下,对图像中的任何物体进行分割。这种方法可以帮助计算机视觉领域的研究人员和开发人员更轻松地训练模型,从而提高计算机视觉应用程序的性能。该模型使用“自监督学习”的方法,在不需要大量标注数据的情况下训练模型。该模型使用了一个名为“Contrastive Predictive Coding (CPC)”的算法,可以从未标记的图像中学习到有用的特征,并将这些特征用于图像分割任务。

Segment Anything模型可以用于许多应用场景如:

  • 自动驾驶汽车:自动驾驶汽车需要能够识别道路、车辆和行人等物体,并对它们进行分割。使用Segment Anything模型可以更准确地进行物体分割,从而提高自动驾驶汽车的性能。

  • 医学图像分析:医学图像通常包含许多不同类型的组织和器官。使用Segment Anything模型可以更准确地对这些组织和器官进行分割,从而帮助医生更好地诊断疾病。

  • 视频监控:视频监控系统需要能够识别和跟踪不同的对象,并对它们进行分割。使用Segment Anything模型可以更准确地进行对象分割,从而提高视频监控系统的性能。

与传统图像分割方法相比,Segment Anything模型的优势和不同之处主要有以下几点:

  • 不需要大量标注数据就可以训练模型:传统的图像分割方法需要大量标注数据才能训练模型;

  • 可以对任何物体进行分割:传统的图像分割方法通常只能对特定类型的物体进行分割;

  • 更准确:与传统的图像分割方法相比,Segment Anything模型可以更准确地对图像中的物体进行分割;

  • 更快速:由于Segment Anything模型不需要大量标注数据,因此可以更快地训练模型。

二、使用方法

        Segment Anything可以一键分割和屏蔽任何照片或视频中的任何对象,包括训练期间没有看到的对象和图像类型。同时还发布了配套的数据集,比现有的数据集大400倍。它从输入提示中产生高质量的物体遮罩,用来为图像中的所有物体产生遮罩。它已经在一个由1100万张图像和11亿个遮罩组成的数据集上进行了训练,并在各种分割任务中具有强大的性能。

        使用Segment Anything模型进行图像分割,可用Facebook的Segment Anything库。该库是一个PyTorch库,提供了许多预训练模型,包括Segment Anything模型。使用这些预训练模型来进行图像分割,并将其集成到应用程序中。

Facebook官方示例

segment-anything在线demo体验

SAM数据集地址

SAM-paper

三、代码实践

       Segment Anything Model (SAM) 预测对象mask,给出所需识别出对象的提示输入。模型首先将图像转换为图像嵌入,然后解码器根据用户输入的提示生成高质量的掩模。

SamPredictor类为模型调用提供了一个简单的接口,用于提示模型的输入。它先让用户使用“set_image”方法设置图像,该方法会将图像输入转换到特征空间嵌入。然后,可以通过“predict”方法输入提示信息,以根据这些提示有效地预测掩码。predict函数支持将点和框提示以及上一次预测迭代中的mask作为输入。

#加载SAM模型
import sys
sys.path.append("..")
from segment_anything import sam_model_registry, SamPredictor

# 模型在官方示例链接中下载,有三个模型,任意使用一个
sam_checkpoint = "sam_vit_b_01ec64.pth"

model_type = "vit_b"

device = "cuda"

sam = sam_model_registry[model_type](checkpoint=sam_checkpoint)
sam.to(device=device)

predictor = SamPredictor(sam)

#处理图像以生成图像嵌入特征向量,将其用于后续掩码预测
predictor.set_image(image)

 1.单点输入预测mask

单点以(x, y)格式输入到模型中,并带有标签1(前景点)或0(背景点)。可以输入多个点。所选的点将在图像上显示为星形。SAM输出3个掩码,其中“scores”给出了模型对这些掩码质量的估计。该模型返回掩码(masks)、掩码的分数(scores)以及可传递到下一次预测迭代的低分辨率掩码(logits),选择在“分数”中返回的分数最高的一个来选择最佳的mask.

input_point = np.array([[250, 187]])
input_label = np.array([1])

masks, scores, logits = predictor.predict(
    point_coords=input_point,
    point_labels=input_label,
    multimask_output=True,
)

print(masks.shape)  # (number_of_masks) x H x W  | output (3, 600, 900)

for i, (mask, score) in enumerate(zip(masks, scores)):
    plt.figure(figsize=(10,10))
    plt.imshow(image)
    show_mask(mask, plt.gca())
    show_points(input_point, input_label, plt.gca())
    plt.title(f"Mask {i+1}, Score: {score:.3f}", fontsize=18)
    plt.axis('off')
    plt.show()   

模型输出:

 

2.多点输入预测mask

        多点以(x, y)形式输入,并带有标签1(前景点)或0(背景点)。所选的点将在图像上显示为星形。使用多个提示指定单个对象时,可以通过设置“multimask_output=False”来请求获取单个mask。

#(2)多点输入生成mask
input_point = np.array([[250, 284], [362, 422]])
input_label = np.array([1, 1])

mask_input = logits[np.argmax(scores), :, :]  # Choose the model's best mask

masks, _, _ = predictor.predict(
    point_coords=input_point,
    point_labels=input_label,
    mask_input=mask_input[None, :, :],
    multimask_output=False,
)
print(masks.shape) #output: (1, 600, 900)

plt.figure(figsize=(10,10))
plt.imshow(image)
show_mask(masks, plt.gca())
show_points(input_point, input_label, plt.gca())
plt.axis('off')
plt.show() 

模型输出:

 3.输入box预测mask

        segment anything支持将xyxy格式的box作为输入,将框内的主体目标识别出来(类似于实例分割)

input_box = np.array([70, 140, 500, 610])
masks, _, _ = predictor.predict(
    point_coords=None,
    point_labels=None,
    box=input_box[None, :],
    multimask_output=False,
)
plt.figure(figsize=(10, 10))
plt.imshow(image)
show_mask(masks[0], plt.gca())
show_box(input_box, plt.gca())
plt.axis('off')
plt.show()

模型输出:

 

4.自动预测生成mask

import numpy as np
import torch
import matplotlib.pyplot as plt
import cv2
import sys
sys.path.append("..")
from segment_anything import sam_model_registry, SamAutomaticMaskGenerator, SamPredictor

def show_anns(anns):
    if len(anns) == 0:
        return
    sorted_anns = sorted(anns, key=(lambda x: x['area']), reverse=True)
    ax = plt.gca()
    ax.set_autoscale_on(False)

    img = np.ones((sorted_anns[0]['segmentation'].shape[0], sorted_anns[0]['segmentation'].shape[1], 4))
    img[:,:,3] = 0
    for ann in sorted_anns:
        m = ann['segmentation']
        color_mask = np.concatenate([np.random.random(3), [0.35]])
        img[m] = color_mask
    ax.imshow(img)

image = cv2.imread('dog11.jpg')
image = cv2.resize(image,None,fx=0.5,fy=0.5)
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

sam_checkpoint = "sam_vit_b_01ec64.pth"
model_type = "vit_b"

device = "cuda"

sam = sam_model_registry[model_type](checkpoint=sam_checkpoint)
sam.to(device=device)
#自动生成采样点对图像进行分割
mask_generator = SamAutomaticMaskGenerator(sam)

masks = mask_generator.generate(image)

print(len(masks))
print(masks[0].keys())
print(masks[0])

plt.figure(figsize=(16,16))
plt.imshow(image)
show_anns(masks)
plt.axis('off')
plt.show() 

模型输出:

 OK,最近工作中涉及到一些图像分割方面的应用,对于视觉大模型来说,Meta的Segment Anything肯定要实践一下的,Segment Anything可以用于多种场景下的图像分割,也可以涉及多种方式,可以针对自己的应用场景加以限制,欢迎大家一起交流~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1073946.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

超前预告 | 云原生?大模型?这届乌镇双态IT大会亮点有点多

石道旁的水面,轻轻泛着微光,几片墨绿缓缓飘下,荡起柔和的波纹,向对岸游去。这儿不似北方秋阳如火的躁动,这儿的秋色是安静的,里便是江南水乡乌镇…… 2023年,第六届双态IT乌镇用户大会将于10月…

不再为文件名大小写烦恼:批量转换,一招搞定

在电脑使用过程中,我们经常需要处理各种文件,有时需要对文件名进行大小写转换以符合特定要求或便于管理。手动修改不仅费时还容易出错,那么有没有一种方法可以批量转换文件名大小写呢?答案是肯定的,下面就为大家介绍如…

DC电源模块在电容滤波器上的设计

BOSHIDA DC电源模块在电容滤波器上的设计 DC电源模块在电容滤波器上的设计是电源管理系统中非常重要的一部分,其目的是为了确保电源输出电压的稳定性和纹波尽可能小。在设计中,需要考虑到电源负载的变化和变压器等电源配件的电磁干扰等因素。下面我们详细…

基于Java的民宿管理系统设计与实现(源码+lw+部署文档+讲解等)(民宿预约、民宿预订、民宿管理、酒店预约通用)

文章目录 前言具体实现截图论文参考详细视频演示代码参考源码获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技…

【数据结构】二叉树--堆排序

目录 一 降序(建小堆) 二 升序 (建大堆) ​三 优化(以升序为例) 四 TOP-K问题 一 降序(建小堆) void Swap(int* x, int* y) {int tmp *x;*x *y;*y tmp; }//降序 建小堆 void AdjustUp(int* a, int child) {int parent (child - 1) / 2;while (child > 0){if (a[chil…

(三)Apache log4net™ 手册 -演示

0、引言 在开始本文之前,推荐您首先阅读 Apache log4net™ 手册中有关 介绍 与 配置 的相关内容。本文将通过实践分别为您演示如何使用 Visual Studio 2022 在 .NET Framework 项目和 .NET 项目下配置并使用 Log4Net。 1、为 .NET Framework 项目配置 Log4Net 1.1…

day26--AJAX(axios使用,http协议(部分),接口文档,form-serialize使用)

目录 AJAX介绍: 什么是AJAX 怎么用AJAX? axios的使用: axios的核心配置: url统一资源定位符: 组成: http协议: 域名: 资源路径: 查询参数: 常用的…

Text embedding 模型总结

文章目录 MTEB榜单8个嵌入任务三种数据集类别 C_METB榜单文本向量表示模型 目前,随着 Langchain LLM模型 的火热,除了层出不穷的大模型外,因为检索的能力会很大程度影响最终的问答效果,文本的嵌入模型也是大家比较关注的。本文主…

Redis之主从复制,哨兵模式,集群

Redis之主从复制,哨兵模式,集群 1、主从复制1.1主从复制概述1.2Redis主从复制作用1.3Redis主从复制流程1.4部署Redis 主从复制 2、哨兵模式2.1哨兵模式原理2.2哨兵模式的作用2.3哨兵模式的结构2.4故障转移机制2.5搭建Redis 哨兵模式 3、Redis集群模式3.1…

在开发APP过程中外包我们经常会遇到哪些问题?我们该如何避免?

虽然选择一个外包公司有很多坑,但是我们有的时候不得不选择一个外包公司,所以选择外包的时候我们要注意一些细节可以有效的区分开外包app产品的可靠性还是至关重要!希望我整理的这些对各位有需要的同学有所帮助! 首先我们先从公司…

看好你家电视盒的后门!数千个Android电视盒感染了与欺诈相关的危险恶意软件

如果你从Android电视盒获得流媒体修复程序,则你的设备可能会被恶意软件所感染,这些恶意软件能够进行广告欺诈、创建假帐户,并通过悄悄地将你的数据转移到中国的服务器来销售对家庭网络的访问。 根据本周的一份新报告,网络安全公司…

深入理解强化学习——强化学习的目标和数据

分类目录:《深入理解强化学习》总目录 强化学习的目标 在动态环境下,智能体和环境每次进行交互时,环境会产生相应的奖励信号,其往往由实数标量来表示。这个奖励信号一般是诠释当前状态或动作的好坏的及时反馈信号,好比…

射频识别技术课程实验--模拟串口间的通信--基础实验

射频识别技术课程实验–模拟串口间的通信 前期准备 串口调试小助手&#xff1a; 模拟串口工具&#xff1a; Visual Studio 2022&#xff1a; 测试代码&#xff08;c&#xff09;&#xff1a; #include<iostream> #include<Windows.h>using namespace std;int ma…

Redis未授权访问漏洞实验

1 Redis简介 Redis是一个开源的内存数据库管理系统&#xff0c;它被广泛用于缓存、消息队列和实时数据分析等应用场景。Redis支持多种数据结构&#xff0c;包括字符串、列表、集合、有序集合和哈希表&#xff0c;可以通过简单的键值对方式存储和检索数据。由于其高性能和低延迟…

C++day03(动态内存、类中特殊成员函数)

今日任务 1> 思维导图 2> 设计一个Per类&#xff0c;类中包含私有成员:姓名、年龄、指针成员身高、体重&#xff0c;再设计一个Stu类&#xff0c;类中包含私有成员:成绩、Per类对象p1&#xff0c;设计这两个类的构造函数、析构函数和拷贝构造函数。 代码&#xff1a; …

【刷题】只出现一次的数字(三种解法)

【刷题】只出现一次的数字 文章目录 【刷题】只出现一次的数字解法异或运算解法一 : 异或运算解法二:集合类Set集合Map集合 链接: https://www.nowcoder.com/share/jump/2008263481696810321082 https://leetcode.cn/problems/single-number/description/ 题目描述 给定一个整…

线段树基本原理和操作

线段树的一些基本操作和原理&#xff1a; 由二分的思想而来&#xff0c;一段区间划分&#xff0c;实现大量数据的查询删除O(log(n)) 线段树&#xff08;英语&#xff1a;Segment tree&#xff09;是一种二叉树形数据结构&#xff0c;1977年由Jon Louis Bentley发明&#xff0…

文件操作【详解】

目录 一、什么是文件 二、文件的打开和关闭 1.文件指针 2.文件的打开和关闭 3.文件的打开方式 三、文件的顺序读写 1.关于输入输出&#xff0c;读和写 2.关于流的介绍 3.操作文件的函数 字符输入函数 fgetc的使用 字符输入函数 fputc的使用 文本行输出函数 fputs() …

awvs 中低危漏洞

低危 X-Frame-Options Header未配置 查看请求头中是否存在X-Frame-Options Header字段 会话Cookie中缺少secure属性(未设置安全标志的Cookie) 当cookie设置为Secure标志时&#xff0c;它指示浏览器只能通过安全SSL/TLS通道访问cookie。 未设置HttpOnly标志的Cookie 当cookie设置…

github小记(一):清除github在add或者commit之后缓存区

github清除在add或者commit之后缓存区 前言1. 第一步之后想要撤销2. 第二步之后想要撤销a. 改变一下rrr.txt的内容b. 想提交本地文件的test文件夹c. 我后悔了突然不想提交了 前言 github自用 一般github上代码提交顺序&#xff1a; 第一步&#xff1a; git add . or git ad…