论文名称:CFNet: Cascade Fusion Network for Dense Prediction
论文下载:https://arxiv.org/pdf/2302.06052.pdf
论文代码:GitHub - zhanggang001/CFNet: CFNet: Cascade Fusion Network for Dense Prediction
摘要:
在密集预测任务中多尺度的特征融合至关重要,当前的主流的密集预测的范式是先通过BackBone提取通用特征,然后通过特征融合模块来融合BackBone中的多尺度特征,最后使用head来输出密集预测结果(检测,分割等)。作者发现BackBone的网络参数量远远大于特征融合模块,基于此发现作者提出了级联融合网络结构(CFNet)来平衡BackBone和融合模块网络的参数占比。最终提出的网络结构在Imagenet,COCO,ADE20K等数据集上取得了领先的结果。
整体网络结构:
算法的整体网络结构如上图所示。该网络结构主要由三部分组成:Stem,Block和一系列的CFNet Stage网络结构。Stem网络结构比较简单主要是由两个步长为2的卷积层组成,每个卷积层后面跟了LN层和GELU激活函数层。Block网络结构是由N个ResNet残差结构块或者swin transformer结构块组成,主要的作用是提取深层的语义信息,增加感受野,并不会对特征图进行下采样操作。论文中会有M个CFNet Stage网络结构块,每个CFNet Stage网络结构都是一样的,CFNet Stage主要是由两个Block网络结构块,焦点模块和聚合模块组成,CFNet Stage之间只会传输P3特征图进行处理,只有最后的CFNet Stage块才会输出P3,P4,P5三个尺度的特征图给到head网络结构来输出想要的结果(语义分割,目标检测等)。
聚合模块(Transition Block):
上图为论文中提出的三种聚合模块的网络结构。(a)图为特征相加的融合方法,先将C5和C4上采样到C3大小,随后将C5,C4和C3的特征图像加在一起。(b)图为通道相加的融合方法,先将C5和C4上采样到C3大小,随后将C5,C4和C3的特征图通道加在一起,最后通过一个3*3的卷积层进行降维操作。(c)图则是先将C5和C4进行特征相加操作,得到的结果再与C3进行特征相加操作,输出最终的结果。
上表是三种聚合方法在Imagenet数据集上的精度对比,(c)方法取得最高的精度,但是参数量也会相应地增加。
焦点模块(Focal Block):
论文中提出了两种焦点模块,分别是Next block和Swin block,它们分别是ConvNext和Swim Transformer两个基础block块地变体,主要是增加了黄色区域7*7的卷积层,增加大内核卷积的主要作用就是增加网络的感受野,提取丰富的语义信息。同时网络为了减少参数量,将每一个黄色区域7*7的卷积使用深度可分离卷积。
上表展示了使用焦点模块和不使用焦点模块在Imagenet上精度的对比,可以看出使用焦点模块虽然参数增加,但是模型的精度也有了较高的提升。
实验结果:
基于论文中提出的网络结构块,作者在Swim Transformer和ConvNext基础上提出了三个网络结构。T表示的是Tiny,S表示的是Small。上表是论文中提出的三个网络的网络结构。
下表为三个网络结构在Imagenet上的精度表现,可以看出在参数量相当的情况下论文中提出的网络结构的精度要比其他算法高一些。
上表为论文提出的网络结构在COCO数据集目标检测方面的精度对比。
上表为论文提出的网络结构在ADE20K语义分割上的精度对比。该网络取得了当前语义分割方向先进的分割水平。
总结:
在本文中作者提出了一种新的结构(CFNet)用于密集预测任务。与现在的FPN及其变体不同,本文提出的CFNet在骨干网中插入特征集成操作,可以利用整个BackBone来有效地融合多尺度特征。