08- 算法解读 Mask R-CNN (目标检测)

news2025/1/11 17:51:31

要点:

  • Mask R-CNN 解读

参考资料:vision/references/detection at main · pytorch/vision · GitHub


四 Mask R-CNN 基本信息

4.1 环境配置

  • Python3.6/3.7/3.8
  • Pytorch1.10或以上
  • pycocotools(Linux:pip install pycocotools; Windows:pip install pycocotools-windows(不需要额外安装vs))
  • 最好使用GPU训练
  • 详细环境配置见requirements.txt

4.2 文件结构

  ├── backbone: 特征提取网络
  ├── network_files: Mask R-CNN网络
  ├── train_utils: 训练验证相关模块(包括coco验证相关)
  ├── my_dataset_coco.py: 自定义dataset用于读取COCO2017数据集
  ├── my_dataset_voc.py: 自定义dataset用于读取Pascal VOC数据集
  ├── train.py: 单GPU/CPU训练脚本
  ├── train_multi_GPU.py: 针对使用多GPU的用户使用
  ├── predict.py: 简易的预测脚本,使用训练好的权重进行预测
  ├── validation.py: 利用训练好的权重验证/测试数据的COCO指标,并生成record_mAP.txt文件
  └── transforms.py: 数据预处理(随机水平翻转图像以及bboxes、将PIL图像转为Tensor)

4.3 预训练权重下载地址

(下载后放入当前文件夹中)

  • Resnet50 预训练权重 https://download.pytorch.org/models/resnet50-0676ba61.pth (注意,下载预训练权重后要重命名, 比如在train.py中读取的是resnet50.pth文件,不是resnet50-0676ba61.pth)

  • Mask R-CNN(Resnet50+FPN) 预训练权重 https://download.pytorch.org/models/maskrcnn_resnet50_fpn_coco-bf2d0c1e.pth (注意, 载预训练权重后要重命名,比如在train.py中读取的是maskrcnn_resnet50_fpn_coco.pth文件,不是maskrcnn_resnet50_fpn_coco-bf2d0c1e.pth)

4.4 数据集

本例程使用的有COCO2017数据集和Pascal VOC2012数据集。

COCO2017数据集

  • COCO官网地址:COCO - Common Objects in Context

  • 对数据集不了解的可以看我们课程之前讲的COCO数据集介绍

  • 这里以下载coco2017数据集为例,主要下载三个文件:

    • 2017 Train images [118K/18GB]:训练过程中使用到的所有图像文件

    • 2017 Val images [5K/1GB]:验证过程中使用到的所有图像文件

    • 2017 Train/Val annotations [241MB]:对应训练集和验证集的标注json文件

  • 都解压到coco2017文件夹下,可得到如下文件夹结构:

├── coco2017: 数据集根目录
     ├── train2017: 所有训练图像文件夹(118287张)
     ├── val2017: 所有验证图像文件夹(5000张)
     └── annotations: 对应标注文件夹
              ├── instances_train2017.json: 对应目标检测、分割任务的训练集标注文件
              ├── instances_val2017.json: 对应目标检测、分割任务的验证集标注文件
              ├── captions_train2017.json: 对应图像描述的训练集标注文件
              ├── captions_val2017.json: 对应图像描述的验证集标注文件
              ├── person_keypoints_train2017.json: 对应人体关键点检测的训练集标注文件
              └── person_keypoints_val2017.json: 对应人体关键点检测的验证集标注文件夹

Pascal VOC2012数据集

  • 数据集下载地址: The PASCAL Visual Object Classes Challenge 2012 (VOC2012)

  • 对数据集不了解的可以看我们课程之前讲的Pascal VOC2012数据集介绍.

  • 解压后得到的文件夹结构如下:

VOCdevkit
    └── VOC2012
         ├── Annotations               所有的图像标注信息(XML文件)
         ├── ImageSets
         │   ├── Action                人的行为动作图像信息
         │   ├── Layout                人的各个部位图像信息
         │   │
         │   ├── Main                  目标检测分类图像信息
         │   │     ├── train.txt       训练集(5717)
         │   │     ├── val.txt         验证集(5823)
         │   │     └── trainval.txt    训练集+验证集(11540)
         │   │
         │   └── Segmentation          目标分割图像信息
         │         ├── train.txt       训练集(1464)
         │         ├── val.txt         验证集(1449)
         │         └── trainval.txt    训练集+验证集(2913)
         │
         ├── JPEGImages                所有图像文件
         ├── SegmentationClass         语义分割png图(基于类别)
         └── SegmentationObject        实例分割png图(基于目标)

4.5 训练方法

  • 确保提前准备好数据集
  • 确保提前下载好对应预训练模型权重
  • 确保设置好 --num-classes--data-path
  • 若要使用单GPU训练直接使用 train.py 训练脚本
  • 若要使用多GPU训练,使用torchrun --nproc_per_node=8 train_multi_GPU.py指令,  nproc_per_node参数为使用GPU数量
  • 如果想指定使用哪些GPU设备可在指令前加上CUDA_VISIBLE_DEVICES=0,3(例如我只要使用设备中的第1块和第4块GPU设备)
  • CUDA_VISIBLE_DEVICES=0,3 torchrun --nproc_per_node=2 train_multi_GPU.py

4.6 注意事项

  1. 在使用训练脚本时,注意要将 --data-path 设置为自己存放数据集根目录

# 假设要使用COCO数据集,启用自定义数据集读取CocoDetection并将数据集解压到成/data/coco2017目录下
python train.py --data-path /data/coco2017
​
# 假设要使用Pascal VOC数据集,启用自定义数据集读取VOCInstances并数据集解压到成/data/VOCdevkit目录下
python train.py --data-path /data/VOCdevkit
  1. 如果倍增 batch_size,建议 学习率也跟着倍增。假设将batch_size从4设置成8,那么学习率lr从0.004设置成0.008

  2. 如果使用 Batch Normalization 模块时,batch_size不能小于4,否则效果会变差。如果显存不够,batch_size必须小于4时,建议在创建resnet50_fpn_backbone时, 将norm_layer设置成FrozenBatchNorm2d或将trainable_layers设置成0(即冻结整个backbone)

  3. 训练过程中保存的 det_results.txt (目标检测任务)以及seg_results.txt(实例分割任务)是每个epoch在验证集上的COCO指标,前12个值是COCO指标,后面两个值是训练平均损失以及学习率

  4. 在使用预测脚本时,要将 weights_path 设置为你自己生成的权重路径。

  5. 使用 validation 文件时,注意确保你的验证集或者测试集中必须包含每个类别的目标,并且使用时需要修改--num-classes--data-path--weights-path以及 --label-json-path(该参数是根据训练的数据集设置的)。其他代码尽量不要改动

4.7 Mask R-CNN 图解

4.8 MASK 分支

4.9 Mask R-CNN 损失

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/538264.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Zigbee物联网应用与开发复习汇总(附某高校期末真题试卷)

文章目录 一、知识梳理二、编程实战三、高校真题A卷B卷 一、知识梳理 1. Zigbee、蓝牙、IEEE802.11b(WiFi)标准都是工作在2.4G频段的无线通信标准;Zigbee主要用在短距离无线控制系统,传输少量的控制信息; 2. 短距离无…

【Linux系统】Linux进程信号详解

Linux进程信号 0 引言1 认识信号1.1 什么是信号1.2 发送信号的本质1.3 信号的处理 2 信号的产生2.1 键盘产生2.2 调用系统函数向进程发送信号2.3 由软件条件产生信号2.4 硬件异常产生信号 3 信号的保存4 信号的处理5 总结 0 引言 本篇文章会从Linux信号的产生到信号的保存&…

rtl仿真器-epicsim安装和测试

前言 epicsim 是芯华章的仿真器,基于iverilog 据说速度快两倍。 源码 github https://github.com/x-epic/EpicSim gittee https://gitee.com/x-epic/ 公司网站 https://www.x-epic.com/index.html#/en/developer 维护中了 安装 依赖 有些 apt-get install 就可…

【2023秋招】2023华为od4.28三道题

2023大厂笔试模拟练习网站(含题解) www.codefun2000.com 最近我们一直在将收集到的各种大厂笔试的解题思路还原成题目并制作数据,挂载到我们的OJ上,供大家学习交流,体会笔试难度。现已录入200道互联网大厂模拟练习题&…

测试开发工程师到底是做什么的?你真的知道吗

目录 一二三线互联网公司对测试开发工程师的要求: 测试开发工程师的具体职责: 不要迷失方向 总结: 测试开发工程师必看视频教程: 一二三线互联网公司对测试开发工程师的要求: 现在很多测试的同事对测试开发工程师…

实现第一个服务器版本的表白墙程序

文章目录 表白墙前言1. 环境部署1.1 创建maven项目1.2 引入依赖1.3 创建目录结构1.4 部署程序 2. 前端页面3. 后端实现3.1 后端逻辑3.2 后端代码 表白墙 前言 基于MySQL数据库和servlet实现的前后端交互的服务器版本表白墙。在页面输入表白内容,在本地通过数据库存…

大数据Doris(二十三):Rollup物化索引作用和注意点

文章目录 Rollup物化索引作用和注意点 一、Rollup物化索引作用 1、改变索引 2、聚合数据

操作系统王道考研学习(二)操作系统的特征

目录 操作系统的特征:并发、共享、虚拟、异步 操作系统中并发为什么那么重要? 讲一讲多道程序技术 介绍一下空分复用技术 异步下程序是走走停停的 操作系统的特征:并发、共享、虚拟、异步 并发和共享 虚拟和异步 (为什么要并…

物联网的体系架构

物联网中常见的计算模式:云计算、边缘计算、雾计算等 云计算:一种利用互联网实现随时随地、按需、便捷地使用共享计算设施、存储设备、应用程序等资源的计算模式。边缘计算:在靠近物或数据源头的网络边缘侧,融合网络、计算、存储…

本周前半周总结

刷题刷了六道 青训营视频补看 软件杯项目素材收集,首页制作ing 前面这六道题的题解: 题目1: 这是个交互题,目前遇到的交互题都是用二分解决的。 本题使用二分精准定位拥有重量为2的石头的堆。 为避免时间超限,应该再…

k8s1.20版本部署RabbitMQ集群(持久化)——2023.05

文章目录 一、集群概况二、RabbitMQ集群部署2.1 安装NFS2.2 创建storageclass存储类2.3 部署RabbitMQ集群2.4 测试 一、集群概况 主机规划 节点IPk8s-master1192.168.2.245k8s-master2192.168.2.246k8s-master3192.168.2.247k8s-node1192.168.2.248NFS、Rancher192.168.2.251…

阿里巴巴 菜鸟Java面经

目录 1.ArrayList和LinkedList的区别2.两个各自装啥数据合适3.final和finally的区别4.catch里面有个return,finally执行不执行5.线程的创建方式6.ThreadLocal7.序列化8.抽象类和接口的区别9.数据库的四大特性10.事务的一致性是啥11.事务的隔离级别12.可重复读是个啥…

inspect.exe安装使用

官网下载 https://developer.microsoft.com/zh-cn/windows/downloads/windows-sdk/ 官网教程 https://learn.microsoft.com/zh-cn/windows/win32/winauto/inspect-objects 要求 系统要求 Windows SDK 具有以下最低系统要求: 支持的操作系统 Windows 10版本 150…

chatgpt赋能Python-pycharm如何跳过教程

PyCharm如何跳过教程:快速掌握Python编程 如果你是一个有10年python编程经验的工程师,那么你肯定不需要再从头开始学习python,更不需要花费大量时间来学习PyCharm的教程。你需要的是一个快速而高效地使用PyCharm的方法,以便能够更…

chatgpt赋能Python-pandas预处理

介绍 Pandas是一个强大的Python库,专门用于数据操作和分析。在数据处理和分析的过程中,Pandas是一个不可或缺的工具。它提供了简单而灵活的数据结构,如Series和DataFrame,这些数据结构可以帮助我们快速预处理数据。 本文将介绍P…

虚拟机 01 jdk环境的安装与配置

01.第一步:进入到工作目录中,然后将目录中所有的资源都删掉 ,此处的工作目录/usr/local/src 使用的命令是rm -rf * 02.第二步:将windows系统的jdk8的安装文件上传到Linux中 直接在window界面中选中压缩文件拖到Linux命令行中 完…

区间预测 | MATLAB实现QGPR高斯过程分位数回归时间序列区间预测

区间预测 | MATLAB实现QGPR高斯过程分位数回归时间序列区间预测 目录 区间预测 | MATLAB实现QGPR高斯过程分位数回归时间序列区间预测效果一览基本介绍模型描述程序设计参考资料 效果一览 基本介绍 MATLAB实现QGPR高斯过程分位数回归时间序列区间预测 1.基于高斯过程回归&#…

chatgpt赋能Python-pycharm怎么粘贴代码

PyCharm:如何在编辑器中粘贴代码 作为一个有多年 Python 编程经验的工程师,我可以说 PyCharm 是 Python 编辑器中的佼佼者,它凭借其智能化、强大的功能和用户友好的界面而受到广泛赞誉。在该编程软件中,如果你需要粘贴代码&#…

【我的C++入门之旅】(上)

前言 C的发展史 1979年,贝尔实验室的Bjarne等人试图分析unix内核的时候,试图将内核模块化,但是发现C语言有很多的不足之处,于是在C语言的基础上进行扩展,增加了类的机制,完成了一个可以运行的预处理程序&…

chatgpt赋能Python-pycharm备份

PyCharm备份——数据安全之道 在软件开发过程中,数据备份是一项至关重要的任务。特别是对于PyCharm这样的IDE来说,开发者在其中执行大量的代码编写、调试、测试、运行等操作,需要在相对固定的时间点 backup 数据,以防止数据丢失带…