人工智能学习07--pytorch18--目标检测：Faster RCNN源码解析(pytorch)

news2025/4/16 2:08:25

参考博客：
https://blog.csdn.net/weixin_46676835/article/details/130175898

VOC2012

在这里插入图片描述

1、代码的使用

查看pytorch中的faster-rcnn源码：
在pytorch中导入：

import torchvision.models.detection.faster_rcnn

在这里插入图片描述
即可找到faster rcnn所实现的源码，但这只是代码的一部分，和训练相关的代码并不在此。
官方提示在pytorch的github上：

找到在训练过程中使用的一些文件。

2. 视频里的代码注意事项：

https://github.com/pytorch/vision/tree/master/torchvision/models/detection
在这里插入图片描述

pip install pycocotools
pip install pycocotools-windows

在这里插入图片描述

backbone：特征提取网络，可以根据自己的要求选择。 在这里按照官方的样例使用了2个backbone：MobileNetv2、ResNet50+FPN。
network_files: Faster R-CNN网络（包括Fast R-CNN以及RPN等模块）。 构建Faster R-CNN网络的一些模块。主要针对这里的文件进行讲解。
train_utils: 训练验证相关模块（包括cocotools）。 涉及训练网络的模块，pytorch官方给的。
my_dataset.py: 自定义dataset用于读取VOC数据集。 用于实现一个自定义的dataset。了解自定义数据集的原理后就可以去按照自己的需求创建自己的数据集，再编写相应脚本读取即可。
train_mobilenet.py: 以MobileNetV2做为backbone进行训练。 这里讲源码的时候主要以这套来讲，因为是单层的，即预测特征层只有一种。和Faster R-CNN基本上保持一致。但是准确率要低很多。
train_resnet50_fpn.py: 以resnet50+FPN做为backbone进行训练。 训练效果很好，实际中尽可能用。官方提供了resnet50+fpn的完整模型权重，利用这个进行迁移学习即可很快地得到一个自己的模型。
train_multi_GPU.py: 针对使用多GPU的用户使用。 需要在命令行窗口输入指令，不像前面train_mobilenet.py、train_resnet50_fpn.py这种直接在ide运行脚本即可。
predict.py: 简易的预测脚本，使用训练好的权重进行预测测试。
validation.py: 利用训练好的权重验证/测试数据的COCO指标，并生成record_mAP.txt文件。
pascal_voc_classes.json: pascal_voc标签文件。 pascal_voc类别信息：80个类别，对应整数标签（不从0开始，一般从1开始：目标检测中，0一般留给背景）

这里学习的代码自动去backbone文件夹下寻找所需权重。
MobileNetV2 weights(下载后重命名为mobilenet_v2.pth，然后放到bakcbone文件夹下): https://download.pytorch.org/models/mobilenet_v2-b0353104.pth 只有backbone的权重，没有后面rpn、fastrcnn 的权重。

完整的模型权重：
Resnet50 weights(下载后重命名为resnet50.pth，然后放到bakcbone文件夹下): https://download.pytorch.org/models/resnet50-0676ba61.pth
ResNet50+FPN weights: https://download.pytorch.org/models/fasterrcnn_resnet50_fpn_coco-258fb6c6.pth
注意，下载的预训练权重记得要重命名，比如在train_resnet50_fpn.py中读取的是fasterrcnn_resnet50_fpn_coco.pth文件，不是fasterrcnn_resnet50_fpn_coco-258fb6c6.pth，然后放到当前项目根目录下即可。

**Pascal VOC2012 train/val数据集下载地址（没有测试集test）：**http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar
（弹幕：其实按道理来说train训练，val进行调优选择最好的，然后再用test进行测试）

使用ResNet50+FPN以及迁移学习在VOC2012数据集上得到的权重: 链接:https://pan.baidu.com/s/1ifilndFRtAV5RDZINSHj5w 提取码:dsz8

在这里插入图片描述

train_mobilenet.py 训练脚本

如何调用模型进行训练：
在这里插入图片描述

train_res50_fpn.py 训练脚本

同train_mobilenet.py差不多，但是在main前加了一些参数，显得正式一点。
在这里插入图片描述
用RestNet50作为骨干网络时下载的预训练权重包含了FPN和backbone结构，而采用mobilenet作为骨干网络时下载的预训练权重只是backbone的权重。

2、自定义DataSet

split_data.py
先略，等我听懂之后再写

参考pytorch样例

3、FasterRCNN框架

在这里插入图片描述

faster_rcnn_framework.py

class FasterRCNNBase：

roi_heads包括：

original_image_sizes.append((val[0], val[1])) 记录最原始图像的size，最后得到输出后再映射回原图像，这样得到的目标的边界框才是正确的数值。
class FasterRCNN
主要是在初始函数中定义一系列参数，用到在FasterRCNNBase中提到过的backbone、rpn、roi_heads模块。

在这里插入图片描述
在RPN中，通过预测信息和anchor生成器生成一系列anchor，则可得到所有预测的proposal（可能有成千上万个），在输出前要对proposal进行过滤，过滤筛选之后才有NMS处理。

这两个一个在nms处理前，一个在nms处理后
在这里插入图片描述

如果传入的不是它，就会报错

4、GeneralizedRCNNTransform

在这里插入图片描述
对传入的图像进行标准化处理，同时对传入的图像以及它的bounding box信息进行resize处理，并且打包成一个一个的batch输入网络进行正向传播

transform.py

class GeneralizedRCNNTransform
def normalize
def resize
将图像与它所对应的boundingbox进行缩放处理。将图像的大小放在之前所设定的最大最小值范围内。
参考：https://blog.csdn.net/weixin_46676835/article/details/130175898
def forward GeneralizedRCNNTransform类的正向传播过程
def postprocess

将预测的bounding box信息映射回原始的图像尺寸当中。