Pytorch常用的函数(七)空洞卷积详解

1 初识空洞卷积

1.1 空洞卷积与语义分割任务

语义分割面临的困境：

与检测模型类似，语义分割模型也是建立是分类模型基础上的，即利用CNN网络来提取特征进行分类。在CNN分类模型中，一般情况下会通过stride>1的卷积层或者池化层进行降采样，此时特征图维度降低，但是特征更高级，语义更丰富。
- 这对于简单的分类没有问题，因为最终只预测一个全局概率。
- 对于图像分割模型就无法接受，因为我们需要给出图像不同位置的分类概率，特征图过小时会损失很多信息。对于前面的特征图，其保持了较多的空间位置信息，虽然语义会差一些，但是这些空间信息对于精确分割也是至关重要的。
- 其实对于目标检测模型同样存在这个问题，但是由于检测比分割更粗糙，所以图像分割对于这个问题更严重。
但是下采样层又是不可缺少的。
- 首先stride>1的下采样层对于提升感受野非常重要，这样高层特征语义更丰富，而且对于分割来说较大的感受野也至关重要；
- 另外的一个现实问题，没有下采样层，特征图一直保持原始大小，计算量是非常大的。
总之，这是语义分割所面临的一个困境或者矛盾，也是大部分研究要一直解决的。

语义分割任务的两种解决方案：

语义分割任务主要存在两种不同的解决方案：

一种是EncoderDecoder结构，其中Encoder就是下采样模块，负责特征提取，而Decoder是上采样模块（通过插值，转置卷积等方式），负责恢复特征图大小，经典的网络如U-Net(网络结构如下图)、U2-Net等。而要直接将高层特征图恢复到原始大小是相对困难的，所以Decoder是一个渐进的过程，而且要引入横向连接（lateral connection），即引入低级特征增加空间信息特征分割准确度。

在这里插入图片描述

另外一种结构是DilatedFCN，主要是通过空洞卷积（Atrous Convolution）来减少下采样率，但是又可以保证感受野。例如利用空洞卷积，那么我们就可以让原图的下采样倍数仅为8，那么最终的特征图语义不仅语义丰富而且相对精细，可以直接通过插值恢复原始分辨率。DeepLab系列网络(如下图)就是属于典型的DilatedFCN。

在这里插入图片描述

1.2 空洞卷积的相关

1.2.1 空洞卷积的理解

空洞卷积(Atrous Convolution)，又称膨胀卷积或扩张卷积。
空洞卷积可以在增加感受野的同时保持特征图的尺寸不变,从而代替下采样和上采样操作。
与正常的卷积不同的是，空洞卷积引入了一个称为扩张率(dilation rate)的超参数，该参数定义了卷积核处理数据时各值的间距。扩张率，也称空洞数(Hole Size)。

下图是我们熟悉的标准卷积（k=3，p=1，s=2，r=1）

在这里插入图片描述

下图是扩张率为2空洞卷积（k=3，p=0，s=2，r=2）
在这里插入图片描述

1.2.2 空洞卷积感受野的计算

扩张率(dilation rate)定义了卷积核处理数据时各值的间距
$设空洞卷积的卷积核大小为k,空洞数为d，等效卷积核大小为k' \\ k' = k + (k-1)×(d-1) \\ 设当前层感受野为RF_{i+1}，上一层感受野为RF_{i} \\ RF_{i+1} = RF_{i} + (k'-1)× S_i \\ S_i表示之前所有层步长的乘积(不包括当前层)，因此当前层步长不影响当前层的感受野。另外，感受野和padding无关。$
例子1：从左到右分别为a、b、c子图，三幅图是相互独立进行卷积的，大框表示输入图像(感受野默认为1)，深绿色表示 $3 \times 3$ 的卷积核，绿色区域表示卷积后的感受野。

a是普通的卷积过程(dilation rate = 1)，卷积后的感受野为3；
b是dilation rate = 2的空洞卷积，卷积后的感受野为5；
c是dilation rate = 3的空洞卷积，卷积后的感受野为7；
普通卷积是空洞卷积的一种特殊情况。
我们可以明显的看到，在卷积核不变的情况下，增加扩张率可以增加感受野。

在这里插入图片描述

例子2：请注意下图和上面的图有区别，上图的三幅图是独立的，而下图是从左到右连续进行卷积。

第一层卷积，为普通卷积，经过第1层卷积，感受野为3；
第二层卷积，先算等效卷积核为 $k^{'} = k + (k - 1) \times (d - 1) = 3 + (3 - 1) \times (2 - 1) = 5$ ，然后计算感受野 $RF_{i+1} = RF_{i} + (k'-1)× S_i=3+(5-1)×1=7$ ，因此经过第3层卷积，感受野为7；
第三层卷积，先算等效卷积核为 $k^{'} = k + (k - 1) \times (d - 1) = 3 + (3 - 1) \times (4 - 1) = 9$ ，然后计算感受野 $RF_{i+1} = RF_{i} + (k'-1)× S_i=7+(9-1)×1=15$ ，经过第3层卷积，感受野为15。

在这里插入图片描述

经过上述例子，我们已经知道空洞卷积可以增大感受野，那么如何理解可以不改变图像输出特征图的尺寸呢？

我们来看下标准卷积计算特征图尺寸的公式：
$\\ OH=\frac{H+2P-K}{S} + 1 \\ OW=\frac{W+2P-K}{S} + 1 \\$

从上述影响特征图尺寸的参数中可以看到没有扩张率，而标准卷积和空洞卷积之间的区别就是扩张率不同，所以使用空洞卷积可以不改变图像输出特征图的尺寸。不过，天下没有免费的午餐，保持分辨率意味着较大的运算量。
需要注意的是，在空洞卷积里面，上面式子中的K为等效的卷积核，想要输入和输出不变，需要填充。
一般每一层的卷积核都是用3 x 3 大小的，而每一层只要设置不同dilation rate时，感受野就会不一样，也即获取了多尺度信息。当然这样操作并不影响特征图的尺寸，这样一来，又避免下采样那样造成信息损失，同时也利用到多尺度信息。

1.2.3 pytorch中API

Dilation_conv2d = nn.Conv2d(
    in_channels = in_channels,
    out_channels = out_channels,
    kernel_size = kernel_size , 
    stride = stride,
    padding=padding,
    dilation=dilation  # 设置扩张率
)

默认dilation=1，所以我们在使用二维卷积的时候，如果不去设置dilation，默认都是使用标准卷积。

import torch
import torch.nn as nn


input_data = torch.randn(1, 3, 64, 64)
dilated_conv1 = nn.Conv2d(in_channels=3,
                          out_channels=64,
                          kernel_size=3,
                          dilation=2,
                          padding=2,  # 设置dilation=2后，等效卷积核kernel_size=5，因此设置padding=2
                          stride=1)

output = dilated_conv1(input_data)

print("Input  shape:", input_data.shape)
print("Output shape:", output.shape)

Input  shape: torch.Size([1, 3, 64, 64])
Output shape: torch.Size([1, 64, 64, 64])

2 空洞卷积的问题与优化

2.1 空洞卷积存在的问题

2.1.1 栅格效应 Gridding Effect

假设我们仅仅多次叠加dilation rate为均为2的3 x 3 kernel 的话，则会出现这个问题。
- 左侧从下往上看，相当于一个卷积网络，每次卷积采用膨胀率为 2的空洞卷积；
- 右侧是卷积后的统计分析，整个图代表原始输入，每个格子代表一个像素，格子里的值代表3次卷积后，该像素被计算的次数；
- 可以看到有些像素是没有参与计算的，造成了大量的信息丢失，影响最终效果。
由于空洞卷积的计算方式类似于棋盘格式，某一层得到的卷积结果，来自上一层的独立的集合，没有相互依赖，因此该层的卷积结果之间没有相关性，即局部信息丢失。这对 pixel-level dense prediction 的任务来说是致命的。

在这里插入图片描述

2.1.2 Long-ranged information might be not relevant

我们从dilated convolution 的设计背景来看就能推测出这样的设计是用来获取 long-ranged information。然而，只采用大 dilation rate 的信息或许只对一些大物体分割有效果，而对小物体来说可能则有弊无利了。如何同时处理不同大小的物体的关系，则是设计好 dilated convolution 网络的关键。
由于空洞卷积稀疏的采样输入信号，使得远距离卷积得到的信息之间没有相关性，影响分类结果。

2.2 HDC方案解决空洞卷积存在的问题

论文地址：https://arxiv.org/abs/1702.08502

规则1 第二层的两个非零元素之间的最大距离小于等于该层卷积核的大小， $即M_2<K$
$M_i = max[M_{i+1}-2r_i, M_{i+1}-2(M_{i+1}-r_i),r_i ] \\ M_i：第i层两个非零元素之间的最大距离 \\ r_i:第i层的扩张率 \\ 最后一层M_n = r_n$
公式比较难理解，举例如下：
$参数K=3，r=[1,2,5],此时M_3=r_3=5 \\ M_2 = max[M_{3}-2r_2, M_{3}-2(M_{3}-r_2),r_2 ] \\ =max[5-4，5-2(5-2)，2]=2 \\ 此时M_2 < 3，满足规则，因此这样设置扩张率不会出现栅格效应问题。\\ 假如此时r=[1, 2, 9]，那么此时M_3=r_3=9 \\ M_2 = max[M_{3}-2r_2, M_{3}-2(M_{3}-r_2),r_2 ] \\ =max[9-4，9-2(9-2)，2]=5\\ 此时M_2 > 3，不满足规则，因此这样设置扩张率会出现栅格效应问题。\\$
规则2：扩张系数从1开始设置