CornerNet: Detecting Objects as Paired Keypoints

ECCV 2018

Paper：https://arxiv.org/pdf/1808.01244v2.pdf

Code：GitHub - princeton-vl/CornerNet

摘要：

提出了一种single-stage的目标检测算法CornerNet，它把每个目标检测为一对点，即左上角和右下角，即用这两个关键点来代替检测出来的bbox，左上角和右下角足够表示一个bbox，但是主流的检测算法都是以anchor去检测bbox的4个offset，因此CornerNet这种检测的范式还是比较新颖独特的。通过这样的做法，实现了anchor-free。此外，为了更好地定位corners，作者还提出了一种新的池化层——corner pooling

一、提出背景：

作为anchor-free目标检测算法的论文，CornerNet提出的动机跟其他anchor-free的算法一样，首先是anchor-based需要大量的anchor，那么正负样本数量比就会严重失衡，训练效率低；其次anchor-based算法需要大量超参数，比如anchor的数量，长宽比ratio，以及scale。

二、论文简介：

这篇论文提出了 CornerNet，这是一种新的目标检测方法，可以将边界框检测变成检测成对的角点。论文主要的思想就是摒弃用anchor，也不用中心点，而是预测一个物体的左上角和右下角。不用中心点的原因是一个center point需要四条边的信息，相当于需要知道四个角点才能算出一个中心点，而左上角只需要知道一个物体最左边和最上边两个信息。

具体来说，论文使用单个卷积神经网络来预测同一物体类别的所有实例(object)的左上角和右下角的热力图，以及每个检测到的角点的嵌入向量(embedding vector)。嵌入向量用于对属于同一目标的一对角点进行分组。也就是说所有的左上角为一个heatmap 所有的右下角为一个heatmap，然后再通过各个角点各自的embedding vector进行匹配成同一个目标。

这篇文章用的backbone是Hourglass（沙漏）网络，因为做了实验发现Restnet-FPN和其他的backbone没有用沙漏网络精度高（就这个算法而言）。

沙漏网络之后是两个预测模块，一个模块用于预测左上角，一个模块用于预测右下角。每个模块都有自己的 Corner Pooling 模块，在预测热力图、嵌入和偏移之前，池化来自沙漏网络的特征。和其它的目标检测器不同，论文不使用不同尺度的feature map来检测不同大小的目标，只将两个模块用于沙漏网络的输出。

其中：

嵌入向量（Embeddings）是为了将角点分类，因为一整张图中可能有多个目标，会检出多个左上角和右下角，需要确定每一对左上角和右下角对应的是哪一个目标。网络预测每个检测到的角点的嵌入向量，使得如果左上角和右下角属于同一个边界框，则它们的嵌入之间的距离应该小。

热力图（Heatmaps）的作用：判断某个位置是是角点，输出预测角点的信息。热力图可以理解成一个C*W*H的特征图，其中C设定为目标的类别。作者预测了两组heatmaps（一个用于左上角点，一个用于右下角点）。首先执行 nms选择top m个左上角和右下角，然后对得到的两组热力图（注意热力图就是某个特定位置属于某个类别角点的概率）应用3x3大小并且stride=1,pad=1的maxpooling，不改变特征图大小，保留值保持不变，值改变了的则全部置为 0。然后选择 top N，这个操作是在所有分类下（分类不独立）进行，选择 top N 的时候同时保持这些角点的对应分类。

偏移（offsets）用来对预测框做微调