深度学习（22）——YOLO系列

文章目录

深度学习（22）——YOLO系列
- 1. 物体检测方法的两种类型
- 2. YOLO-v1
- - 2.1 网络结构
  - 2.2 loss 函数
  - 2.3 NMS(非极大值抑制)
  - 2. 4 优缺点
- 3. YOLO v2
- - 3. 1 相较于v1改进点
  - 3. 2 网络结构
  - 3.3 感受野
  - 3.4 特征融合的方法
  - 3.5 夸夸v2
- 4. YOLO v3
- - 4. 1 在v2的基础上的改进
  - 4.2 网络结构
  - 4.3 anchor设计
  - 4.4 softmax 改进

最近在看物体检测方面的东西，第一个一定是YOLO系列，所以最近的两到三个博客会展开记录自己的学习过程。

1. 物体检测方法的两种类型

two-stage
- RCNN
- FastRCNN
one-stage
- YOLO

2. YOLO-v1

为什么YOLO的使用面广？快！没别的！
YOLOv1是第一个版本的YOLO算法，它将目标检测问题转化为一个回归问题。具体来说，YOLOv1使用了一个单一的CNN网络，在输入图像上进行多尺度的滑动窗口操作，然后通过回归预测每个窗口内是否存在目标以及其边界框的位置和大小。但是，YOLOv1存在两个主要问题：定位不准确和对小目标不敏感。

2.1 网络结构

虽然卷积对输入没有要求，但是因为有全连接层，所有要确定全连接层前面特征图的大小，所以YOLO的输入图片大小固定
卷积得到特征图——>全连接——>7730 （5【4个偏移+1个置信度】+5+20类别）

举例

如果有两个候选框，20个类别
在这里插入图片描述

2.2 loss 函数

位置误差——MSE
置信度误差（背景多，加权重削弱背景重要性）——BCE
- 含object（前景）
- 不含object（背景，有权重）
分类误差——BCE

2.3 NMS(非极大值抑制)

按照置信度进行排序，IOU满足一定值时，取出极大值即可

2. 4 优缺点

优点
- 网络结构简单
- 快速简单
缺点
- 一个点只有一个类别，重合的物体很难检测到
- 小物体检测不到
- 多标签难做

3. YOLO v2

3. 1 相较于v1改进点

采用Darknet-19作为特征提取网络，增加网络的深度和感受野
舍弃dropout，卷积以后全部加入BN(batch normalization)
网络每一层的输入都归一化，收敛相对容易（现在非常主流的一种方法）
V2分辨率更大，训练使用224224，测试使用448448，V2训练时额外进行了10次448*448做微调
聚类提取先验框
- V1只有两种先验框
- faster-rcnn中的先验比例比较常规，但是不一定完全适合数据集（不同scale，每个scale有几个不同大小的框）
- 在CoCo中有很多label的框，对这些框做K-means聚类（聚类过程中发现cluster越多越精准，但是没必要，5个的时候效果已经存在）
- 感受野更大