[神经网络]Anchor_Free网络(YoloX,CenterNet)

news2025/7/15 12:13:11

Anchor_Free网络不同于传统的目标检测网络需要先生成很多先验框再从中筛选+回归生成预测框。其可以直接从目标的中心点向周围发散一个预测框。这样做有两个好处：①省略了生成大量先验框的过程，可以一定程度增加预测速度；②预测框没有预设长宽比，对于长宽比异常的目标识别精度更有精度。

从上面的图可以很清楚的看出Anchor_Free(左)和Anchor_Base(右)在处理预测框上的区别。

一、CenterNet

CenterNet是一种经典的Anchor_Free网络，其网络结构如下图所示：可以分为骨干网络、高分辨率特征图生成网络，分类头。

1.骨干网络

骨干网络一般为ResNet50或Hourglass Net。这里以ResNet50为例，512x512的图像经过特征提取会得到一个16x16x2048的特征图。并不像Yolo一样需要抽取多个不同尺寸的特征。

2.高分辨率特征图生成网络

即网络结构图中的三个ConvTranspose（反卷积）模块,对于特征图(16x16x2048)而言，三次反卷积会最终生成一个128x128x64的特征图（每次反卷积特征的高宽会放大2倍），使用这个特征图网络即可通过Center Head预测出最终结果。

3.Center Head

Center Head将128x128x64的特征图划分为128个区域，每个区域中存在一个特征点。当物体的中心落入某个区域时，该区域的特征点（通常是区域左上角的点）会作为基点来确定物体。

Center Head会利用特征图进行三个卷积，分别进行热力图预测、中心点预测、宽高预测。

①热力图预测：用来判断每一个热力点(特征点)是否存在物体，以及物体的种类，其通道数为num_classes（种类数），输出结果为（128x128x num_classes）

num_classes通道为每个种类的概率，经过激活函数即可判断最有可能的类型

②中心点预测：用来判断中心点到热力点的偏移情况，通道数为2，输出结果为（128x128x2）

2维通道代表中心点相对于特征点右下角的偏移情况

③宽高预测：用来预测每个物体的宽高情况，通道数为2，输出结果为（128x128x2）

2维通道代表物体预测框的宽和高

CenterNet同样需要非极大抑制操作来确保同一类型的预测框不会过多叠加，但是不同的是其需要在生成预测框之前，在热力图预测结果上进行非极大抑制。

二、YoloX

Yolo系列向来都是经典的Anchor_Base网络，而YoloX通过对预测头(Yolo Head)的修改是的其能在不适用先验框的情况下生成预测框。

YoloX的大体结构和传统的Yolo差别不大，也使用Darknet作为骨干网络，最大的修改来自与Yolo Head，网络结构图下图，依旧能分为骨干网络、FPN加强特征提取网络、Yolo Head预测头

1.骨干网络

为改进的CSPDarknet，这个网络会输出三个不同尺寸的特征图，称为有效特征层。由上面的网络图可以看出，CSPDarknet主要由两种模块构成：Conv2D_BN_SiLU和CSPLayer，同时在输入的时候使用了Focus结构，最后一层使用了SPP提高网络的感受野。

Conv2D_BN_SiLU实际上就是一个残差网络模块，知识其激活函数从ReLu换成了SiLU，SiLU具备无上界有下界、平滑、非单调的特性。SiLU在深层模型上的效果优于 ReLU。可以看做是平滑的ReLU激活函数，其公式可以写作： $f(x)=x\cdot sigmoid(x)$ 。