基础CNN架构可通过多种方式进行组合和扩展,从而解决更多、更复杂的任务。
1. 分类和定位
在分类和定位任务中,你不仅需要说出在图像中找到的物体的类别,而且还需指出物体显现在图像中的边界框坐标。这类任务假设在图像中只有一个物体实例。
这个任务可通过在典型的分类网络上附加分类头(classification head)和回归头(regression head)来实现。回想一下,在分类网络中,卷积和池化操作的最终输出称为特征图,它被馈送到一个全连接的网络中,该网络产生一个类别概率向量。这个全连接的网络称为分类头,并用类别损失函数(Lc)(例如分类交叉熵)对其进行调整。
类似地,回归头是另一个全连接的网络,该网络接收特征图,并输出向量(x,y,w,h),表征边界框左上角的x和y坐标以及宽度和高度。它用连续损失函数(Lr)进行调整,比如均方误差。这样,整个网络将用两个损失函数的线性组合来进行调整,即
式中,α是一个超参数,取值