目录
1. 常用目标检测算法
2. R-CNN 模型
3. Fast R-CNN 模型
4. Faster R-CNN 模型
5. SSD 模型
1. 常用目标检测算法
在深度学习框架下,目标检测方法通常涉及图像定位和分类两个关键方面。有两种主要的解决方法:一种是一阶(one-stage)回归型目标检测算法,其中以YOLO系列算法为代表,它主要通过对输入图像进行定位回归和目标检测,最终输出目标的类别信息。另一种是二阶(two-stage)目标检测算法,以Faster R-CNN系列为代表,该方法分为两个步骤:目标候选框提取和目标识别,最终生成目标检测结果。
2. R-CNN 模型
传统的目标检测方法采用滑动窗口的方式逐一扫描图像中的各个区域进行检测,然而这种方法导致了检测速度的显著下降,并可能出现因多次扫描同一目标区域而降低检测准确性,甚至导致检测失败。因此,实现有效、快速和准确的目标检测是改进目标检测算法的首要任务。
J.R.R.Uijlings 在2012年提出的selective search方法实际上是建立在基于图像分割原理的图像分割算法基础上的。该方法首先将原始输入图像分割成多个区域,经过一系列结果筛选和分类的步骤,确定目标对象在原始图像中的位置,并收缩候选的目标区域。同时,神经网络会对这些缩小后的2000个候选区域进行逐一评估,选择匹配度最高的两个区域并将它们合并为同一集合。这个过程不断迭代,直到筛选完所有区域,最终得到图像的分割结果,用以确定目标对象的位置。这种方法大大降低了计算复杂度,为早期的深度学习目标检测算法的发展铺平了道路,尤其是R-CNN算法的应用,将初始框和卷积神经网络结合在一起,标志着目标检测领域取得了重大突破。 R-CNN 算法的流程图如图1所示。
图 1 R-CNN 流程图
CNN算法的流程首先将输入图像分割成多个不同的区域,将每个区域视为独立的子图像。随后,根据目标特征将具有相关特征的子图像进行匹配和合并,这一过程不断迭代,直到组合成更大的候选框。这种方法解决了传统目标检测算法使用滑动窗口进行重复扫描的问题,极大地提高了检测速度和准确性。实验证明,R-CNN在不同场景下表现出出色的适应性和鲁棒性。此外,该算法中的线性回归模型用于校准目标的候选框,从而减少了其他无关因素对检测结果的影响,进一步提高了目标检测的准确性。
3. Fast R-CNN 模型
Fast R-CNN算法在处理候选区域的特征提取方面采用卷积网络,与R-CNN不同的是,Fast R-CNN利用SPP算法的原理,只需一次特征提取,从而解决了繁琐的计算步骤和冗余计算问题。Fast R-CNN模型如下图2所示:
图 2 Fast R-CNN 模型
Fast R-CNN使用卷积神经网络模型来提取图像特征,并在筛选和合并后生成各类别的多个候选框。然后,所有这些目标候选框被传递到池化层,以进行特征筛选,最终经过全连接层输出分类结果。与R-CNN不同,Fast R-CNN的RoI(感兴趣区域)池化层是一个简化的SPP(空间金字塔池化)层。卷积后得到的特征图上的每个像素点实际上与原始图像的相应区域一一对应。对于图像中的不同候选区域,我们可以通过确定其左上角和右下角的坐标位置,将其映射到特征图上,以获取与该候选区域相关的特征。
Fast R-CNN相较于R-CNN有效缩短了训练时间,实现了更加统一和规范化的网络训练,提高了训练速度和准确性,整体性能优于R-CNN。实验结果分析表明,Fast R-CNN在不同光照条件下表现出良好的识别准确性和鲁棒性。然而,Fast R-CNN仍然使用Selective Search方法来提取候选区域的特征,这会导致较长的计算时间。例如,生成整个框架需要大约两秒的时间,这对于需要实时性目标检测的应用,如道路检测或空中飞行物检测,可能不是最佳选择。
4. Faster R-CNN 模型
尽管Fast R-CNN模型在目标检测性能方面取得显著进展,但其存在选择性搜索问题,这导致目标检测效率较低,需要花费时间在许多目标特征不明显的区域上,可能出现遗漏和误检。此外,Fast R-CNN需要在训练过程中不断调整参数以提高性能,这些限制了其实际应用。因此,Faster R-CNN方法由任少卿等人提出来解决这些问题。
Faster R-CNN算法在Fast R-CNN算法的基础上创新性地引入了区域生成网络(RPN),以替代传统的选择性搜索方法,从而提高了神经网络的特征训练效率。Faster R-CNN采用了端到端的两阶段方法,充分利用了卷积神经网络的共享计算,从而在一定程度上提高了目标特征的训练效率,大大提升了整个算法模型的检测效率。该算法的结构如图3所示:
图 3 Faster R-CNN 算法结构
由于特征图经过池化层后的尺寸大幅减小,RPN网络在特征图上的计算量和移动次数都大幅降低。此外,RPN网络与RoI Pooling模块共享了基础网络,这简化了计算过程中的各种参数,减少了不必要的计算,因此网络的计算速度有了显著提升。由于RPN网络能够在高维空间中生成候选框,因此网络能够获得更高维度的特征信息,使生成的候选区域更接近真实值,从而提高了Faster R-CNN算法的检测效率。RPN的结构如下图4所示:
图 4 RPN 结构
5. SSD 模型
2016年,Wei Liu等研究人员提出了一种名为SSD的目标检测算法,通常用于检测目标物体。SSD算法对VGG16进行了改进,将网络的FC6和FC7层替换成两个卷积层,并在其后添加了三个逐渐减小尺寸的卷积层和一个平均池化层。最终,该算法将特征提取的结果传递到损失层。SSD算法利用多个卷积层的特征图进行偏移和置信度的预测,从而增加了检测过程中的语义信息。这使得它在不同尺度的物体检测方面表现出良好的效果。下图显示了该算法的网络结构(如图5所示)。
图 5 SSD 网络结构
SSD算法的网络结构对VGG进行了改进,它引入了辅助网络层,用于融合多尺度卷积网络的预测结果。采用了与默认边界框(Anchor)类似的方法,对不同尺寸的目标对象进行处理,以提高训练和预测的准确性。SSD算法提供了一个完整的端到端训练网络,相比Faster R-CNN模型,更便于数据传输和网络计算。此外,对于尺寸较小的输入图像,SSD算法在目标检测方面表现更出色。然而,它在小目标和相邻目标的检测上存在一些不足,甚至在复杂背景下的目标检测结果可能不如人意。