深度学习基础—卷积运算

news2026/2/13 18:05:58

1.1.卷积运算法则

在计算机视觉领域，卷积运算撑起了半边天，因此在学习计算机视觉前，首先来了解一下卷积运算是如何运算的。

假设正在进行边缘检测，垂直边缘检测会把图片中接近垂直的边缘提取出来，即人的侧边、栏杆等。而水平边缘检测会把图片中接近水平的边缘提取出来，即横杆、自行车轮的上侧等。现在以垂直边缘检测为例，解释一下卷积运算是如何进行的？

卷积运算用*符号表示，一张图片表示的矩阵*一个过滤器（或被称为核，在图像处理领域又被称为滤波器）=新的图片表示的矩阵。

进行上图所示的卷积运算，得到是4*4的矩阵表示的图片，其中新矩阵的(0,0)元素是将过滤器放置6*6矩阵的左上角，如下所示：

然后把矩阵所盖住的区域和过滤器各个位置对应的元素相乘，得到新的3*3矩阵，如下所示：

最后把矩阵的各元素累加，得到(0,0)位置的元素：

当计算(0,1)位置的元素时，把过滤器右移一个单位，然后再次进行上述的运算，即如下：

直到本行计算结束，得到如下结果：

当计算(1,0)位置的元素时，把(0,0)下标时过滤器所在的位置下移一个步长，依次按照上述计算方式计算各个位置的元素，最终得到：

相信对于学习过图像处理的朋友们，这里并不陌生，而对于没有学过图像处理的同学，一定会好奇这样操作为什么就会检测出垂直边缘，下面再通过一个例子了解一下其中的原理：

把正数定义为白色块，0定义为灰色块，负数定义为黑色块，则进行垂直边缘检测得到的4*4矩阵如上图，可以发现中间两列是白色条带，边缘两列是灰色条带。这是由于当图像中出现边缘时，边缘两侧的颜色通常差别较大，因此若过滤器完全覆盖边缘的一侧（这一侧颜色一般接近，因此矩阵的数值也接近），则计算后结果接近0，也就是定义的灰色。若过滤器覆盖在边缘上，则计算后结果要么是很大的正数，要么是很大的负数，也就是白色或黑色，这和非边缘的数值差别很大，所以就凸显了垂直边缘。如果想要垂直边缘检测后的图像边缘较细，就需要用到维度更小的过滤器，从而精细处理。

上图需要检测的图片的边缘是由亮变暗，那么如果图片是由暗变亮，是否还能使用相同的垂直过滤器检测出来？

如上图所示，检测结果将边缘变成了黑边，原来的30变成了-30，表明图片是由暗向亮过渡。如果不在意两者的区别，只是为了检测出区别，对卷积后的矩阵取绝对值即可。

上述的例子都是垂直过滤器，很容易猜到，水平过滤器是中间一行为0，上下行为正负数的样子。如下所示：

即水平过滤器检测到了水平边缘，右图左侧两列是正边（边界为整数），所以原图对应由亮变暗；右侧两列是负边（边界为负数），所以原图由暗变亮。细心的可以发现，在边界处出现了(30)->(10)和(-10)->(-30)的过滤带，这是由于过滤器太大而图片太小的原因，如果选择较大的图片和较小的过滤器，就不会出现过滤带了。

1.2.其他卷积核（过滤器）

（1）Sobel过滤器

增加了中间一行元素的权重，使结果的鲁棒性更好。旋转90度变成对应的水平过滤器。

（2）Scharr过滤器

Sobel过滤器的缺点是，当结构较小时，精确度不高，而Scharr算子具有更高的精度。旋转90度变成对应的水平过滤器。

（3）可学习的过滤器

把过滤器的每个元素都作为参数，参与神经网络的学习，利用反向传播算法进行学习，从而学习到的过滤器可以检测任意角度的边缘，捕捉到任意数据特征。

1.3.Padding

在了解Padding前，首先来看看没有进行Padding操作的卷积结果，6*6的图片经过3*3的过滤器，结果是4*4的新图片，那么经过多次卷积操作后，图片最终变为1*1，此时图片已经损失了大量的特征，因此神经网络的识别效果就很差。这其中的维度变化规律如下：假设原图片是n*n的大小，过滤器是f*f的大小，则卷积后的结果是(n-f+1)*(n-f+1)。

第二个缺点是，对于图片边缘的像素点，过滤器只覆盖了一次，而对于图片中间的像素点，过滤器覆盖了多次，因此边缘的像素点蕴含的特征信息也损失了很多。

那如果可以进行填充，比如在原图像周围填充一定的像素，那么过滤器就可以对原边界进行多次覆盖，从而减少边缘损失的信息。并且图片变大，卷积后结果不会变小太多，从而保证图片不会一直变小。