CornerNet: Detecting Objects as Paired Keypoints
ECCV 2018
Paper:https://arxiv.org/pdf/1808.01244v2.pdf
Code:GitHub - princeton-vl/CornerNet
摘要:
提出了一种single-stage的目标检测算法CornerNet,它把每个目标检测为一对点,即左上角和右下角,即用这两个关键点来代替检测出来的bbox,左上角和右下角足够表示一个bbox,但是主流的检测算法都是以anchor去检测bbox的4个offset,因此CornerNet这种检测的范式还是比较新颖独特的。通过这样的做法,实现了anchor-free。此外,为了更好地定位corners,作者还提出了一种新的池化层——corner pooling
一、提出背景:
作为anchor-free目标检测算法的论文,CornerNet提出的动机跟其他anchor-free的算法一样,首先是anchor-based需要大量的anchor,那么正负样本数量比就会严重失衡,训练效率低;其次anchor-based算法需要大量超参数,比如anchor的数量,长宽比ratio,以及scale。
二、论文简介:
这篇论文提出了 CornerNet,这是一种新的目标检测方法,可以将边界框检测变成检测成对的角点。论文主要的思想就是摒弃用anchor,也不用中心点,而是预测一个物体的左上角和右下角。不用中心点的原因是一个center point需要四条边的信息,相当于需要知道四个角点才能算出一个中心点,而左上角只需要知道一个物体最左边和最上边两个信息。
具体来说,论文使用单个卷积神经网络来预测同一物体类别的所有实例(object)的左上角和右下角的热力图,以及每个检测到的角点的嵌入向量(embedding vector)。嵌入向量用于对属于同一目标的一对角点进行分组。也就是说所有的左上角为一个heatmap 所有的右下角为一个heatmap,然后再通过各个角点各自的embedding vector进行匹配成同一个目标。
这篇文章用的backbone是Hourglass(沙漏)网络,因为做了实验发现Restnet-FPN和其他的backbone没有用沙漏网络精度高(就这个算法而言)。
沙漏网络之后是两个预测模块,一个模块用于预测左上角,一个模块用于预测右下角。每个模块都有自己的 Corner Pooling 模块,在预测热力图、嵌入和偏移之前,池化来自沙漏网络的特征。和其它的目标检测器不同,论文不使用不同尺度的feature map来检测不同大小的目标,只将两个模块用于沙漏网络的输出。
其中:
嵌入向量(Embeddings)是为了将角点分类,因为一整张图中可能有多个目标,会检出多个左上角和右下角,需要确定每一对左上角和右下角对应的是哪一个目标。网络预测每个检测到的角点的嵌入向量,使得如果左上角和右下角属于同一个边界框,则它们的嵌入之间的距离应该小。
热力图(Heatmaps)的作用:判断某个位置是是角点,输出预测角点的信息。热力图可以理解成一个C*W*H的特征图,其中C设定为目标的类别。作者预测了两组heatmaps(一个用于左上角点,一个用于右下角点)。首先执行 nms选择top m个左上角和右下角,然后对得到的两组热力图(注意热力图就是某个特定位置属于某个类别角点的概率)应用3x3大小并且stride=1,pad=1的maxpooling,不改变特征图大小,保留值保持不变,值改变了的则全部置为 0。然后选择 top N,这个操作是在所有分类下(分类不独立)进行,选择 top N 的时候同时保持这些角点的对应分类。
偏移(offsets)用来对 预测框做微调
三、Corner Pooling
作者在这篇文中提出的另外一个创新点是Corner Pooling,即一种新型的角点池化层,也是为了适配该算法,可以帮助卷积神经网络更好的定位边界框的角点。
动机是因为很难用局部信息去推测这个物体的边界框角点位置,所以提出这个池化层。
简单来说,比如要去获得左上角的位置,那么就分别提取特征图对应位置处水平和垂直方向的最大值,然后求和得到这个左上角