【深度学习】计算机视觉（CV）-目标检测-Faster R-CNN —

【深度学习】计算机视觉（CV）-目标检测-Faster R-CNN —— 高精度目标检测算法

news2026/2/15 3:46:47

1.什么是 Faster R-CNN？

Faster R-CNN（Region-based Convolutional Neural Network） 是 目标检测（Object Detection） 领域的一种 双阶段（Two-Stage） 深度学习方法，由 Ross Girshick 等人于 2015 年提出。

相比于 YOLO（单阶段检测），Faster R-CNN 采用 区域提议网络（RPN, Region Proposal Network） 生成候选框，并使用 CNN 进行分类和回归，在精度上明显优于 YOLO 和 SSD，但速度较慢，适用于离线检测任务。

2.Faster R-CNN 的核心特点

1) 双阶段检测：

第一阶段：RPN 生成区域候选框（Region Proposal）。
第二阶段：对候选框进行 分类（Classification） 和 回归（Regression）。

2) 高精度：相比 YOLO、SSD，Faster R-CNN 由于采用 RPN 进行目标提议，在小目标检测上表现更佳。
3) 端到端训练：整个检测流程可以端到端优化，提高检测效果。
4) 适用于高精度应用：如医学影像分析、遥感图像目标检测等。

3.Faster R-CNN 的工作流程

Faster R-CNN 由 四个主要部分 组成：

1) 卷积特征提取器（Backbone CNN）

使用 ResNet、VGG 等深度 CNN 提取特征图（Feature Map）。

2) 区域提议网络（RPN）

RPN 生成候选区域（Proposals），预测 Anchor Boxes 的可能性。

3) ROI 池化（ROI Pooling）

通过 ROI 池化将不同大小的候选框转换为固定大小。

4) 目标分类 + 边界框回归

最终进行分类（如“猫”“狗”）并调整边界框。

Faster R-CNN 结构示意图

输入图片 -> CNN 提取特征 -> RPN 生成候选区域 -> ROI 池化 -> 分类 + 回归 -> 目标检测结果

4.Faster R-CNN 的损失函数

Faster R-CNN 的优化目标由两部分组成：

RPN 损失（Region Proposal Loss）：生成候选框，计算前景（目标）和背景的误差。
Fast R-CNN 损失：对候选框进行分类，并调整边界框位置。

具体公式

分类损失（L_cls）：计算目标类别误差（交叉熵）。
回归损失（L_reg）：计算边界框误差（Smooth L1 Loss）。

5.Faster R-CNN 代码示例

使用 PyTorch 进行 Faster R-CNN 目标检测

import torch
import torchvision
from torchvision import transforms
from PIL import Image
from torchvision.models.detection import fasterrcnn_resnet50_fpn
from torchvision.models.detection.faster_rcnn import FasterRCNN_ResNet50_FPN_Weights

# 加载 Faster R-CNN 预训练模型
model = fasterrcnn_resnet50_fpn(weights=FasterRCNN_ResNet50_FPN_Weights.COCO_V1)
model.eval()

image_path = r"D:\Pictures\test.jpeg"

# 读取输入图片
image = Image.open(image_path)
transform = transforms.Compose([transforms.ToTensor()])
image_tensor = transform(image).unsqueeze(0)

# 进行目标检测
with torch.no_grad():
    predictions = model(image_tensor)

# 打印检测结果
for i, box in enumerate(predictions[0]["boxes"]):
    score = predictions[0]["scores"][i].item()
    label = predictions[0]["labels"][i].item()
    if score > 0.5:  # 置信度阈值
        print(f"检测到类别 {label}，置信度 {score}，边界框 {box.tolist()}")

运行结果

检测到类别 18，置信度 0.9918648600578308，边界框 [2549.675537109375, 878.9571533203125, 3891.927734375, 3215.228759765625]
检测到类别 18，置信度 0.9872689247131348，边界框 [1371.8099365234375, 992.265869140625, 2670.22998046875, 3226.689208984375]
检测到类别 23，置信度 0.6808497905731201，边界框 [1386.135986328125, 997.5132446289062, 2689.717041015625, 3138.02685546875]

代码解析

加载 Faster R-CNN 预训练模型（fasterrcnn_resnet50_fpn）。
读取图片并进行预处理（转换为 Tensor）。
使用 Faster R-CNN 进行目标检测 并输出检测框和类别。

6.Faster R-CNN 版本对比

版本	发布时间	特点	速度（FPS）	mAP（精度）
R-CNN	2014	选择性搜索提取区域	⏳ 0.5	66.0%
Fast R-CNN	2015	用 ROI 池化代替 CNN 多次计算	⏳ 2	70.0%
Faster R-CNN	2015	加入 RPN 进行目标提议	⏳ 5-10	76.4%
Mask R-CNN	2017	增加目标分割（Segmentation）	⏳ 5	78.1%

7.Faster R-CNN vs 其他目标检测算法

算法	类型	速度（FPS）	精度（mAP）	适用场景
Faster R-CNN	双阶段	⏳ 5-10	🎯 76.4%	高精度检测
YOLO	单阶段	⚡ 60+	🎯 92%	实时检测
SSD	单阶段	⚡ 45+	🎯 74%	轻量级目标检测
DETR	Transformer	⏳ 15	🎯 94%	端到端目标检测