现有的语义分割网络基本都是编码解码结构,新的语义分割网络主要都是在解码阶段添加新的不同模块,提高解码阶段特征处理能力,从而实现语义分割。而这篇文章主要是去除了解码阶段,把工作重心放在了编码阶段。它采用并行架构来利用原型表示作为特定的可学习的局部描述,以替换解码器并保留高分辨率特征上丰富的图像语义。尽管去掉解码器压缩了大部分计算,但并行结构的准确性仍然受到低计算资源的限制。因此,作者采用异构运算符(CNN和Vision Transformer)进行像素嵌入和原型表示,以进一步节省计算成本。
从上图可以看出作者采用了双路的形式来补充特征信息。整个网络过程具有很好的参考性。最近我个人也在尝试去掉解码阶段实现语义分割,整个上面来说效果还行。