【实例分割】(二)Mask2Former

news2024/12/25 0:59:41

        mask2former提出了一个统一的分割架构,能够在语义分割、实例分割、全景分割上取得sota的结果,在coco数据集上,全景分割57.8PQ、实例分割50.1AP、语义分割在ADE20K达57.7miou。

目录

1.🍓🍓 网络总体结构  

2.🏆🏆Mask2Former主要创新点

2.1🌷Mask Attention模块

2.2🌷High-resolution features模块

2.3🌷Optimization improvements优化策略

3.🍉🍉实验结果

4.🍎🍎代码

整理不易,欢迎一键三连!!!

送你们一条美丽的--分割线--


论文下载:paper

代码下载:code

1.🍓🍓 网络总体结构  

        Mask2former是一种基于Transformer的神经网络模型,可用于语言建模、机器翻译、文本生成等NLP任务。其原理是将输入序列中的一部分词汇(称为“掩码”)替换成特殊的掩码标记,然后利用Transformer来预测这些掩码标记所代表的词汇。这个过程可以看作是一种填空题,模型需要根据上下文来推断并填写正确的词汇。在模型训练过程中,通过对不同数量和位置的掩码进行预测和评估,可以有效地提高模型的表现能力。整个模型的训练过程分为两个阶段,第一阶段是利用掩码预测生成目标序列,第二阶段则是利用已生成的序列来预测掩码,从而让生成的序列更加符合原始文本的内容和语法结构。

        Mask2Former网络结构如上图所示,和mask-rcnn一样,mask2former采用mask classification的方式来进行分割。mask-rcnn和mask2former在如何生产二值mask上的做法不同。mask-rcnn是通过bounding boxes的方式来表示,使得mask-rcnn无法进行semantic segmentaion任务。而Mask2Former参考了Detr的做法,将这些二值mask用一组C维的特征向量来表示(object query),这样就可以用transformer decoder,通过一组固定的query来进行训练。

2.🏆🏆Mask2Former主要创新点

Mask2Former是一种新型的图像分割模型,其创新点主要包括以下几个方面:

  1. 使用Transformer结构进行图像分割:Mask2Former采用了Transformer结构来捕获图像中的全局关系,避免了传统卷积神经网络(CNN)在处理大量像素时出现的信息丢失问题。

  2. 联合学习实例分割和语义分割:Mask2Former采用了一种联合学习的方法,同时进行实例分割和语义分割。这种方法能够提高模型的准确度,同时降低了模型训练和推理的时间成本。

  3. 引入并行机制:Mask2Former使用了并行机制,提高了模型的训练效率和推理速度,同时降低了显存的占用。

  4. 支持多种尺度和分辨率:Mask2Former支持对多个尺度和分辨率图像的分割,使得模型能够胜任更多的应用场景。

2.1🌷Mask Attention模块

        在Mask2Former网络中,Mask Attention模块的作用是通过注意力机制来学习当前位置与其他位置之间的依赖关系,同时考虑输入序列中的掩码信息。这个模块可以帮助模型在处理序列中存在缺失值的情况下更好地理解和处理输入,同时减小了模型的计算复杂度。因此,Mask Attention模块可以帮助改进模型的鲁棒性和泛化能力,提高模型性能。

2.2🌷High-resolution features模块

        High-resolution features模块是Mask2Former网络中的一个模块,其作用是从低分辨率的特征图中提取高分辨率的特征。由于低分辨率的特征图在语义信息方面表现优秀,但分辨率较低,在目标区域细节方面表现较差,因此需要通过High-resolution features模块将它们转换成高分辨率的特征图,以便更好地捕捉目标区域的细节信息。该模块使用卷积和反卷积操作,通过增加特征图的宽和高,来增加特征图的分辨率。通过这种方式,Mask2Former网络可以更准确地检测和分割目标,并提高模型的精度。

2.3🌷Optimization improvements优化策略

        Mask2Former网络中的Optimization improvements主要作用是优化网络训练的过程,提高模型的训练速度和准确性。

        具体来说,Mask2Former网络中的Optimization improvements包括两个方面的改进。一方面是使用了新的学习率调整策略,即基于梯度动量的学习率调整策略,可以更好地控制学习率的大小和梯度的变化,从而提高训练的稳定性和收敛速度;另一方面是引入了基于Adam优化算法的LAMB优化器,可以更好地解决梯度消失或爆炸的问题,提高网络的训练效果。

        通过这些改进,Mask2Former网络在语义分割和目标检测等任务中取得了较好的结果,证明了优化算法对于深度学习模型训练的重要性。

3.🍉🍉实验结果

4.🍎🍎代码

        Mask2Former网络是一种用于图像分割的神经网络,它可以将输入的图像中的每个像素分配到其相应的类别中。下面是用Python语言编写Mask2Former网络的一般步骤:

  • 导入必要的库和模块。
import torch
import torch.nn as nn
import torch.nn.functional as F

  • 定义网络的主体结构。
class Mask2Former(nn.Module):
    def __init__(self, in_channels, out_channels, hidden_channels):
        super(Mask2Former, self).__init__()
        self.conv1 = nn.Conv2d(in_channels, hidden_channels, kernel_size=3, padding=1)
        self.bn1 = nn.BatchNorm2d(hidden_channels)
        self.conv2 = nn.Conv2d(hidden_channels, hidden_channels, kernel_size=3, padding=1)
        self.bn2 = nn.BatchNorm2d(hidden_channels)
        self.conv3 = nn.Conv2d(hidden_channels, out_channels, kernel_size=1)

  • 实现前向传播函数。
    def forward(self, x):
        x = F.relu(self.bn1(self.conv1(x)))
        x = F.relu(self.bn2(self.conv2(x)))
        x = self.conv3(x)
        return x

  • 创建损失函数。
loss_fn = nn.CrossEntropyLoss()

  • 创建优化器。
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

  • 循环训练和测试网络。
for epoch in range(num_epochs):
    for i, (images, labels) in enumerate(train_loader):
        optimizer.zero_grad()
        outputs = model(images)
        loss = loss_fn(outputs, labels)
        loss.backward()
        optimizer.step()
    # 在测试集上测试网络
    with torch.no_grad():
        correct = 0
        total = 0
        for images, labels in test_loader:
            outputs = model(images)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
        accuracy = 100 * correct / total
    print("Epoch [{}/{}], Loss: {:.4f}, Accuracy: {:.2f}%".format(epoch+1, num_epochs, loss.item(), accuracy))

        这里的train_loader和test_loader是数据集的迭代器,用于训练和测试网络。可以使用PyTorch内置的数据集加载器(例如torchvision.datasets.ImageFolder)或自己编写数据集加载器。

         这些步骤是实现Mask R-CNN算法的基本流程,在实际应用中还需要根据实际情况进行调整和优化。

整理不易,欢迎一键三连!!!


送你们一条美丽的--分割线--

🌷🌷🍀🍀🌾🌾🍓🍓🍂🍂🙋🙋🐸🐸🙋🙋💖💖🍌🍌🔔🔔🍉🍉🍭🍭🍋🍋🍇🍇🏆🏆📸📸⛵⛵⭐⭐🍎🍎👍👍🌷🌷
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/920463.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android GreenDao数据库升级(附Demo)

前言 大家好久不见,一转眼马上八月份下旬了,最近由于工作比较忙,没时间给大家更新博文。百忙之中抽出时间,给大家来更新一篇关于GreenDao3数据库的升级。 关于GreenDao的详细介绍以及一些逻辑性的增、删、改、查等,可以…

Maven的超级POM

对于我们创建的一个maven工程,即便我们自己的pom.xm文件中没有明确指定一个父工程(父POM),其实也默认继承了超级POM,就好比JAVA类继承Object类一样。 maven官网关于超级POM的介绍: https://maven.apache.o…

Tomcat10安装及配置教程win11

Tomcat10安装及配置教程win11 Tomcat下载链接 Tomcat官网 Tomcat官网地址 https://tomcat.apache.org/ Tomcat的版本列表 点击上图中左侧红框内**Which version?**即可得下图 下载Tomcat 点击上图中左侧红框内红框内tomcat版本即可得下图,下载zip包 解压zip包…

dnsmasq-dhcp DHCPDISCOVER “no address available“ 问题解决方法

问题现象 在Centos7.5系统中已安装dnsmasq组件并开启DHCP服务功能,然而客户端无法通过DHCP的方式获取IP,通过查看系统日志/var/log/messages发现日志中存在以下两个关键信息: dnsmasq-dhcp DHCPDISCOVER “no address available”DHCPNAK 1…

docker 内apt-get安装软件都不好使

报各种错误 apt-get install --no-install-recommends libboost-all-dev Reading package lists... Done Building dependency tree Reading state information... Done The following additional packages will be installed:autoconf automake autotools-dev cpp-8 gc…

CRC循环冗余码计算

计算步骤 计算冗余位的位数,即生成多项式的最高阶数 在信息位后补冗余位个数的0 将第二步的结果与生成多项式相除,这里采用的除法叫做模2除法,就是只要部分余数的高位为1,便可商1 之后上下做的减法是异或。 经过第三步不断地计…

【分布式共识】Raft算法 成员变更

对于一个分布式系统,一般都是有多个节点组成集群,比如原理有3个节点,需要增加一个,那么raft这个时候如何保证ledaer的唯一性。 当增加两个节点的时候,就可能造成出现两个分区。从而打破原有的领导者的唯一性。影响集群…

STC12红外接收与NEC解码

文章目录 一、红外通信简介二、红外遥控组成三、NEC协议简介四、红外接收与NEC解码例程五、参考资料 一、红外通信简介 红外通信是一种无线通信技术,利用红外光传输信息。红外光波长介于可见光和微波之间,通常在780纳米至1毫米的范围内。红外通信在许多…

python爬虫10:selenium库

python爬虫10:selenium库 前言 ​ python实现网络爬虫非常简单,只需要掌握一定的基础知识和一定的库使用技巧即可。本系列目标旨在梳理相关知识点,方便以后复习。 申明 ​ 本系列所涉及的代码仅用于个人研究与讨论,并不会对网站产…

一文详解:安防监控视频AI智能分析平台区域入侵/周界报警

区域入侵/周界报警入侵检测技术是TSINGSEE青犀智能分析平台推出的一种视频监控系统,可检测划定区域内是否有可疑人员并且在检测出这样的事件时生成警报。 视频监控/安防监控/视频存储TSINGSEE青犀视频智能分析平台可以在监控范围内划定特定区域,有人员入…

业务系统架构实践总结

我从2015年起至今2022年,在业务平台(结算、订购、资金)、集团财务平台(应收应付、账务核算、财资、财务分析、预算)、本地生活财务平台(发票、结算、预算、核算、稽核)所经历的业务系统研发实践…

记录解决IOS滚动跳转不生效问题

目录 背景 : 解决过程 : 解决方案 : 最终代码 : 背景 : 项目类似于问卷星里面的问卷调查,当你点击提交按钮时, 页面会有弹窗提醒你有哪些题型没回答,点击确认之后, 页…

C++学习-特殊的6个函数

设计一个Per类,类中包含私有成员:姓名,年龄,指针成员身高,体重,在设计一个stu类,类中包含私有成员:成绩,Per类对象p1,设计这两类的构造函数,析构函数和拷贝函…

2000-2020年全国各地级市资本存量测算数据(以2000年为基期)(含原始数据和测算过程)

2000-2020年全国各地级市资本存量测算数据(以2000年为基期)(含原始数据和测算过程) 1、时间:2000-2020年 2、来源:整理自城市统计年鉴、省份统计年鉴以及各市的公报 3、指标:固定资产投资总额…

DevOps团队如何提高Kubernetes性能

今天,Kubernetes仍然是开发人员最需要的容器。Kubernets最初由 Google 工程师开发,作为跨本地、公共云、私有云或混合云托管的首选解决方案享誉全球。 来自Statista的报告显示,公共云中的Kubernetes市场份额在过去一年中上升了近30%。并且在…

Pandas数据清洗和常用函数

数据清洗 数据清洗是对一些没用的数据进行处理的过程。 当数据出现确实、数据格式错误、错误数据或重复数据的情况,如果我们想要分析的更加准确,就要对没用的数据进行处理。 此时我们学习采用菜鸟教程的数据作为案例,如下图所示。 在途中包…

IDEA常用插件之依赖关系查看Maven Helper

文章目录 安装使用 安装 使用 安装完成后点击pom.xml文件,可以查看Maven依赖关系

Linux下jenkins全量迁移到新服务器

文章目录 1、目的2、迁移1)查看jenkins的主目录2)登录要迁出的服务器打包3)找到对应的war包4)登录对应迁入服务,上传war包和打包的jenkins数据等5)在新的服务器解压迁入的数据等,并查看端口是否…

新生录取信息收集

随着高等教育的普及,每年都有大量的学生被大学录取。对于学校来说,新生录取确认和信息收集是一项重要的工作,但也是一项繁琐而耗时的任务。然而,通过合理的规划和利用现代科技手段,我们可以轻松搞定这一工作&#xff0…

代码随想录第28天|93. 复原 IP 地址,78.子集, 90.子集II

93. 复原 IP 地址 回溯三部曲 1.递归参数:startIndex一定是需要的,因为不能重复分割,记录下一层递归分割的起始位置 2.递归终止条件 终止条件和131.分割回文串 (opens new window)情况就不同了,本题明确要求只会分成4段&#x…