1.什么是目标检测？

在这里插入图片描述

目标检测 vs 图像分类

在这里插入图片描述

目标检测的应用

（1）人脸识别
（2）智慧城市
（3）自动驾驶
（4）下游视觉任务：场景文字识别、人体姿态估计

目标检测技术的演进

在这里插入图片描述

2.基础知识

框，边界框（Bounding Box）

框泛指图像上的矩形框，边界横平竖直。
边界框通常指紧密包围感兴趣物体的框，检测任务要求为图中出现的每个物体预测一个边界框

交并比（Intersection Over Union）

定义：两矩形框交集面积与并集面积之比，是矩形框重合程度的衡量指标。
在这里插入图片描述

感受野

定义：神经网络中，一个神经元能看到的原图的区域
在这里插入图片描述

感受野的中心和步长

感受野的中心：

一般结论比较复杂；
对于尺寸3x3，pad=1的卷积（或池化）堆叠起来的模型，感受野中心=神经元在特征图上的坐标x感受野步长

感受野的步长（=降采样率=特征图尺寸的缩减倍数）：

神经网络某一层上，相邻两个神经元的感受野的距离
步长=这一层之前所有stride的乘积

有效感受野（Effective RF）

感受野一般很大，但不同像素对激活值的贡献是不同的，也就是说激活值对感受野内的像素求导数，大小不同。影响比较大的像素通常聚集在中间区域，可以认为对应神经元提取了有效感受野范围内的特征。也就是说，感受野边缘的贡献不大，而中心比较重要。
在这里插入图片描述

基于锚框 vs 无锚框

在这里插入图片描述

非极大抑制 Non-Maximum Suppression

滑窗类算法通常会在物体周围给出多个相近的检测框，这些框实际指向同一物体，只需保留其中置信度最高的
在这里插入图片描述
非极大抑制的算法实现：

置信度 Confidence Score

置信度：模型认可自身预测结果的程度，通常需要为每个框预测一个置信度，我们倾向认可置信度高的预测结果，例如有两个重复的预测结果了，丢弃置信度低的。

部分算法直接取模型预测物体属于特定类别的概率；
部分算法让模型单独预测一个置信度（训练时有GT，可以得相关信息作为监督）；

正负样本不均衡问题

在这里插入图片描述

3.目标检测的基本思路

检测问题的难点

（1）需要同时解决是什么和在哪里
（2）图中物体位置、数量、尺度变化多样

滑窗（Sliding Window）

（1）设定一个固定大小的窗口
（2）遍历图像的所有位置，所到之处用分类模型（假设已经训练好）识别窗口中的内容
（3）为了检测不同大小、不同形状的物体，可以使用不同大小、长宽比的窗口扫描图片
缺点：效率问题，计算成本很高。
改进思路1：用启发式算法替换暴力遍历，用相对低计算量的方式粗筛出可能包含物体的位置，再使用卷积网络预测。早期二阶段方法使用，依赖外部算法，系统实现复杂。
改进思路2：减少冗余计算，使用卷积网络实现密集预测，这是目前普遍采用的方式。