DeepPyramid: Enabling Pyramid View and Deformable Pyramid Reception for Semantic Segmentation in Cataract Surgery Videos

摘要

本文提出了一种称为DeepPyramid的语义分割网络，该网络可以使用三个新颖性来应对这些挑战：
（1）金字塔视图融合模块，该模块提供以输入卷积特征图中的每个像素位置为中心的周围区域的多种角度全局视图；
（2）可变形金字塔接收模块，其使得能够适应感兴趣对象中的几何变换的宽的可变形感受野成为可能；
（3）自适应地监督多尺度语义特征图的专用金字塔损失

这些模块可以有效地提高语义分割性能，特别是在对象具有透明性、可变形性、可扩展性和钝边的情况下
代码地址
在这里插入图片描述

本文方法

在这里插入图片描述
基本的特征金字塔结构

模块细节

在这里插入图片描述
Pyramid View Fusion (PVF)
首先，通过使用核大小为1的卷积层来抑制计算复杂性，从而形成bottleneck。然后，卷积特征图被馈送到四个并行分支：一个全局平均池化层，然后是上采样，以及三个平均池化层次，它们具有逐渐变大的滤波器大小和1的公共步长。请注意，如PSPNet所示，使用一个像素步长对于获得逐像素的集中金字塔视图至关重要，而不是逐区域的金字塔注意力。然后将输出的特征图连接起来，并将其馈送到具有四个组的卷积层中。该层负责在降维过程中提取通道间依赖关系。然后，在被馈送到层归一化函数之前，应用规则卷积层来提取联合的信道内和信道间相关性。
Deformable Pyramid Reception (DPR)
首先连接来自编码器的细粒度特征图和来自前一层的粗粒度语义特征图。然后，这些特征被馈送到三个平行的分支中
DPR模块中使用的可变形块由应用于输入特征图的规则卷积层组成，以计算可变形卷积的偏移场。偏移字段为卷积滤波器中的每个元素提供两个值（水平偏移和垂直偏移）。因此，对于大小为3×3的内核，偏移场的输出通道的数量等于18。受dU-Net的启发，偏移场的卷积层后面跟着一个激活函数，我们将其设置为硬正切双曲函数，因为它在计算上是高效的，并将偏移值剪裁到[-1，1]的范围内。可变形块使用学习的偏移值以及具有预定膨胀率的卷积特征图来提取对象自适应特征。