目标检测经典论文精读-R-CNN
- R-CNN基本原理
- 产生候选框-Selective Search
论文链接: https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf
论文技术报告链接: https://arxiv.org/pdf/1311.2524.pdf
出处: CVPR 2014
参考视频: https://www.bilibili.com/video/BV1d64y1W74E/?spm_id_from=333.999.0.0&vd_source=e321967bf2cdc2338238788250d12de8
R-CNN基本原理
总结起来就是:输入原图,然后用selective search算法生成2000个候选框,再将每个候选框缩放为
227
×
227
227\times227
227×227的固定大小,再逐一喂到同一个卷积神经网络提取4096维的特征,用该4096维的特征同时进行分类(线性SVM)和回归,最终得到目标检测结果。
可以看到R-CNN严重依赖上下游的多个步骤协作完成目标检测任务:①提取候选框;②缩放;③用CNN提取特征;④分类和回归。只要有一个步骤出现问题,整个检测系统就会出现问题。每个步骤都需要单独去优化,因此并不是一个端到端的系统。
R-CNN是一个非常耗时、非常低效、非常臃肿、一点不端到端的算法:
因此,可以对R-CNN进行改进: