引言

上一节介绍了卷积的基本思想以及图像卷积操作，本节将介绍卷积神经网络，并从反向传播角度认识卷积神经网络。

回顾：图像卷积操作

基于图像卷积的一次卷积过程可描述为：
基于某像素点周围像素点的影响，构建相应大小的卷积核 $(\text{Convolution Kernel})$ ；卷积核与被卷积核覆盖的像素点做卷积并最终生成一个像素点。

以某像素点周围一圈的像素点为例，也就是 $\times 3$ 大小卷积核，这个生成过程可表示为：
基于3x3卷积核的一次卷积过程
从图中明显看出，新像素值 $(\text{New Pixel Value})$ 可看作是由源像素点 $(\text{Souce Pixel})$ 与其周围像素点的一次卷积产生的更新结果。

补充：卷积核不是卷积函数

下图描述某图像局域像素点的表示。其中 $(x, y)$ 表示横纵坐标，用来描述像素点在某图像中唯一确定的位置；而 $f (x, y)$ 表示该位置像素点的颜色信息，它有可能是一个基于 $3$ 通道的向量(描述彩色的颜色信息)，也可能是一个单通道的向量(描述黑白的颜色信息)，但这并不是重点。

同理， $f(x-1,y+1),f(x,y+1),\cdots$ 描述像素点 $(x, y)$ 周围像素点的颜色信息。而红色箭头表示像素点 $(x, y)$ 被卷积操作后的加权过程。
某局域像素表示
既然是执行卷积操作，那么就必然有卷积函数。根据卷积的定义：
这里是指‘包含两个离散型随机变量’的卷积过程。
$\begin{aligned} h(x,y) & = \sum f(x,y) \cdot g(m - x,n-y) \\ & = f(x,y) * g(m,n) \end{aligned}$
在各维度在不同位置 $(m, n)$ 下，对应位置的卷积函数 $g (m, n)$ 可表示为：
以像素点 $f (x - 1, y + 1)$ 为例。它的位置可表示为 $(x - 1, y + 1)$ ,该位置与中心点 $f (x, y)$ 之间的相对位置表示为 $\Rightarrow(-1,1) \Rightarrow g(-1,1)$ ，以此类推。
对应位置卷积函数
但在执行卷积的过程中，各像素点是如何执行的 $?$ 依然以 $f (x - 1, y + 1)$ 为例。由于需要将 $f (x - 1, y + 1)$ 加权到核心像素点 $f (x, y)$ 上，因此该点对应的权重 $g$ 应该是：
注意方向。当前状态是 $f (x - 1, y + 1)$ ,目标状态是 $f (x, y)$ 。
$g [x - (x - 1), y - (y + 1)] = g (1, - 1)$
可以发现，这个 $g (1, - 1)$ 的位置与f(x-1,y+1)关于中心点对称。而图像卷积操作是对应位置相乘再相加。因此，真正的卷积核应该是如下格式：
卷积核表示
可以发现，卷积核并不是卷积函数，而是将卷积函数按照中心点旋转 $180$ 度的对应结果。
但是我们平常都是直接使用’卷积核‘执行计算，实际上中间还有一步卷积函数，只不过省略掉了。

总结：图像卷积运算本质是周围像素点对中心像素点产生影响(有顺序)，而 $g$ 函数针对如何影响中心像素点做出了规定。

卷积神经网络

卷积如何实现特征描述/提取

在上一节，以平滑操作为例，描述了卷积核的一种表达。旨在对目标图像进行模糊处理(均值滤波)：
后续卷积操作这里仅描述卷积核核对应效果，函数不修改。

import numpy as np
import cv2

def FilterOperation(Kernel):
    Img = cv2.imread(r'C:\Users\Administrator\Desktop/PicSample.jpg',cv2.IMREAD_GRAYSCALE)
    FilterOut = cv2.filter2D(Img, -1, kernel=Kernel)

    htich = np.hstack((Img, FilterOut))
    cv2.imshow("merged_img", htich)
    cv2.waitKey(0)

if __name__ == '__main__':
    Kernel = np.array([
        [1/9, 1/9, 1/9],
        [1/9, 1/9, 1/9],
        [1/9, 1/9, 1/9]],
        dtype=np.float32)
    FilterOperation(Kernel)

对比效果图如下：
左侧为正常图像，右侧为卷积后效果，下同。
模糊处理——对应效果图
再例如锐化操作，使图片看起来更加有立体感。

Kernel = np.array([
        [0, -1, 0],
        [-1, 5, -1],
        [0, -1, 0]],
        dtype=np.float32)

对比效果图如下：
锐化处理——对应效果图
不可否认的是，我们确实能够通过调整卷积核的格式得到我们想要的效果。它们本质上依然是：周围像素点对中心像素点产生的影响。

但卷积神经网络是通过滤波器卷积的方式对图片的特征进行描述，那么卷积是如何描述/提取特征的呢 $?$
介绍一个滤波器汇总的文章。文章见下方链接，侵删。

例如：垂直边界过滤器 $(\text{Vertical Filter})$ ：

Kernel = np.array([
        [1, 0, -1],
        [1, 0, -1],
        [1, 0, -1]],
        dtype=np.float32)

对比效果如下：
垂直边界过滤器——对比效果
很明显，我们能够很容易地通过卷积后的图片中观测到物品的垂直方向的边界特征。而其他的特征信息被过滤掉。因而这种卷积核也被称作过滤器 $(\text{Filter})$ 。
虽然也是在做卷积操作，但这种核能够将图片中的信息’挑‘出来。

同理，还有横向边界过滤器 $(\text{Horizontal Filter})$ ：

Kernel = np.array([
        [1, 1, 1],
        [0, 0, 0],
        [-1, -1, -1]],
        dtype=np.float32)

对比效果如下：
横向边界滤波器——对比效果
通过上面的描述，可以观察到卷积的一种功能：如果挑选的卷积核合适，那么对图片的卷积过程中就可以对图片进行过滤。而这个过滤的目的是将图片中的某些特征保留下来，而其他的特征就被过滤掉了。

由于卷积就是通过周围像素点对中心像素点的一种加权描述，因而如果从权重的角度观察：

对于一张图片，如果想要对某些特征进行更多的关注，那么调整的手段就是增大卷积核内某元素的对应位置；
相反，如果需要避开某些不必要的特征，同样可以通过减小卷积核内某元素的位置进行实现。

而如何去对关注进行分配——如何对分配关注度，从而基于关注度对卷积核元素进行调整，自然是神经网络对卷积核中元素的参数更新的结果。

卷积神经网络中的卷积核的反向传播过程

那么卷积神经网络是如何实现反向传播过程呢 $?$ 在反向传播算法一节中介绍过常规的全连接神经网络它的反向传播过程。它的特点是：网络中的每一个神经元，其神经元内的每个输入均包含一个权重信息与其映射：
神经元模型架构
但卷积神经网络的特点在于：卷积层在执行卷积的过程中，对于输入的任意一个像素点，在卷积核的视角中都是一视同仁的。也就是说，在某次迭代过程中，某卷积层内的前馈计算，所有像素点(层输入特征)均公用同一个卷积核。

那么通过卷积层得到的输出结果，每一个分量都能够更新梯度，但是卷积核就那么大，它是如何获取输出结果所有分量的梯度的 $?$

场景构建与前馈计算

这里我们仅选择通道数 $\mathcal C = 1$ 的灰度图像作为示例。已知一个 $\times 3$ 大小的灰度图像，它的矩阵格式表示如下：
$\mathcal X = \begin{pmatrix} x_{11},x_{12},x_{13} \\ x_{21},x_{22},x_{23} \\ x_{31},x_{32},x_{33} \end{pmatrix}$
构建一个 $\times 2$ 大小的卷积核，其矩阵格式表示如下：
$\mathcal F = \begin{pmatrix} f_{11},f_{12} \\ f_{21},f_{22} \end{pmatrix}$
使用卷积核 $\mathcal F$ 对 $\mathcal X$ 执行卷积操作。设其卷积结果为 $\mathcal O$ 。假设卷积过程中，其步长 $(\text{Stride}) = 1$ ，并且不添加 $0$ 填充 $(\text{Padding=0})$ 。那么其卷积结果 $\mathcal O$ 应该是一个 $\times 2$ 的矩阵格式：
$\mathcal O = \begin{pmatrix} o_{11},o_{12} \\ o_{21},o_{22} \end{pmatrix}$
对应的输出结果 $o$ 可表示为：
$\begin{cases} o_{11} = x_{11} \cdot f_{11} + x_{12} \cdot f_{12} + x_{21} \cdot f_{21} + x_{22} \cdot f_{22} \\ o_{12} = x_{12} \cdot f_{11} + x_{13} \cdot f_{12} + x_{22} \cdot f_{21} + x_{23} \cdot f_{22} \\ o_{21} = x_{21} \cdot f_{11} + x_{22} \cdot f_{12} + x_{31} \cdot f_{21} + x_{32} \cdot f_{22} \\ o_{22} = x_{22} \cdot f_{11} + x_{23} \cdot f_{12} + x_{32} \cdot f_{21} + x_{33} \cdot f_{22} \end{cases}$
这里暂时不考虑池化以及其他全连接层，仅考虑该卷积层一项的反向传播操作。

卷积层关于卷积核的反向传播过程

假设该任务的损失函数为 $\mathcal L$ ，并且已知 $\mathcal L$ 关于输出矩阵 $\mathcal O$ 的梯度信息 $\begin{aligned}\frac{\partial \mathcal L}{\partial \mathcal O}\end{aligned}$ ：
$\begin{aligned}\frac{\partial \mathcal L}{\partial \mathcal O} = \begin{pmatrix} \begin{aligned} \frac{\partial \mathcal L}{\partial o_{11}},\frac{\partial \mathcal L}{\partial o_{12}} \\ \frac{\partial \mathcal L}{\partial o_{21}},\frac{\partial \mathcal L}{\partial o_{22}} \end{aligned} \end{pmatrix}\end{aligned}$
假设使用的方法是梯度下降法 $(\text{Gradient Descent,GD})$ ，那么卷积核 $\mathcal F$ 内参数的更新过程可表示为：
$\mathcal F_{\text{update}} \Leftarrow \mathcal F - \eta \cdot \frac{\partial \mathcal L}{\partial \mathcal F}$
依然使用链式求导法则对 $\begin{aligned}\frac{\partial \mathcal L}{\partial \mathcal F}\end{aligned}$ 进行求解：
$\begin{aligned} \frac{\partial \mathcal L}{\partial \mathcal F} = \frac{\partial \mathcal L}{\partial \mathcal O} \cdot \frac{\partial \mathcal O}{\partial \mathcal F} \end{aligned}$
这里以 $\begin{aligned}\frac{\partial \mathcal L}{\partial f_{11}}\end{aligned}$ 为例。观察：哪些输出结果中用到了 $f_{11}$ ——都用到了。因此， $\begin{aligned}\frac{\partial \mathcal L}{\partial f_{11}}\end{aligned}$ 可表示为：
这里所说的’都用到了‘是必然的，无论多大的输入数据，只要使用这种方式执行卷积，所有被卷积的像素点都会被 $\mathcal F$ 计算。
$\begin{aligned} \frac{\partial \mathcal L}{\partial f_{11}} = \frac{\partial \mathcal L}{\partial o_{11}} \cdot \frac{\partial o_{11}}{\partial f_{11}} + \frac{\partial \mathcal L}{\partial o_{12}} \cdot \frac{\partial o_{12}}{\partial f_{11}} + \frac{\partial \mathcal L}{\partial o_{21}} \cdot \frac{\partial o_{21}}{\partial f_{11}} + \frac{\partial \mathcal L}{\partial o_{22}} \cdot \frac{\partial o_{22}}{\partial f_{11}} \end{aligned}$
其中 $\begin{aligned}\frac{\partial \mathcal L}{\partial o'}(o'=o_{11},o_{12},o_{21},o_{22})\end{aligned}$ 都是已知项，以 $\begin{aligned}\frac{\partial o_{11}}{\partial f_{11}}\end{aligned}$ 为例，它的解可表示为：
其他项同理，这里就不展开了。
$\frac{\partial o_{11}}{\partial f_{11}} = x_{11}$
至此， $\begin{aligned}\frac{\partial \mathcal L}{\partial f_{11}}\end{aligned}$ 表示为：
$\frac{\partial \mathcal L}{\partial f_{11}} = \frac{\partial \mathcal L}{\partial o_{11}} \cdot x_{11} + \frac{\partial \mathcal L}{\partial o_{12}} \cdot x_{12} + \frac{\partial \mathcal L}{\partial o_{21}} \cdot x_{21} + \frac{\partial \mathcal L}{\partial o_{22}} \cdot x_{22}$

同理，其他三个参数： $f_{12},f_{21},f_{22}$ 的偏导表示为如下形式：
$\begin{cases} \begin{aligned} \frac{\partial \mathcal L}{\partial f_{12}} = \frac{\partial \mathcal L}{\partial o_{11}} \cdot \frac{\partial o_{11}}{\partial f_{12}} + \frac{\partial \mathcal L}{\partial o_{12}} \cdot \frac{\partial o_{12}}{\partial f_{12}} + \frac{\partial \mathcal L}{\partial o_{21}} \cdot \frac{\partial o_{21}}{\partial f_{12}} + \frac{\partial \mathcal L}{\partial o_{22}} \cdot \frac{\partial o_{22}}{\partial f_{12}} \\ \frac{\partial \mathcal L}{\partial f_{21}} = \frac{\partial \mathcal L}{\partial o_{11}} \cdot \frac{\partial o_{11}}{\partial f_{21}} + \frac{\partial \mathcal L}{\partial o_{12}} \cdot \frac{\partial o_{12}}{\partial f_{21}} + \frac{\partial \mathcal L}{\partial o_{21}} \cdot \frac{\partial o_{21}}{\partial f_{21}} + \frac{\partial \mathcal L}{\partial o_{22}} \cdot \frac{\partial o_{22}}{\partial f_{21}} \\ \frac{\partial \mathcal L}{\partial f_{22}} = \frac{\partial \mathcal L}{\partial o_{11}} \cdot \frac{\partial o_{11}}{\partial f_{22}} + \frac{\partial \mathcal L}{\partial o_{12}} \cdot \frac{\partial o_{12}}{\partial f_{22}} + \frac{\partial \mathcal L}{\partial o_{21}} \cdot \frac{\partial o_{21}}{\partial f_{22}} + \frac{\partial \mathcal L}{\partial o_{22}} \cdot \frac{\partial o_{22}}{\partial f_{22}} \\ \end{aligned} \end{cases}$
对应的结果可表示为：
$\begin{cases} \begin{aligned} \frac{\partial \mathcal L}{\partial f_{12}} = \frac{\partial \mathcal L}{\partial o_{11}} \cdot x_{12} + \frac{\partial \mathcal L}{\partial o_{12}} \cdot x_{13} + \frac{\partial \mathcal L}{\partial o_{21}} \cdot x_{22} + \frac{\partial \mathcal L}{\partial o_{22}} \cdot x_{23} \\ \frac{\partial \mathcal L}{\partial f_{21}} = \frac{\partial \mathcal L}{\partial o_{11}} \cdot x_{21} + \frac{\partial \mathcal L}{\partial o_{12}} \cdot x_{22} + \frac{\partial \mathcal L}{\partial o_{21}} \cdot x_{31} + \frac{\partial \mathcal L}{\partial o_{22}} \cdot x_{32} \\ \frac{\partial \mathcal L}{\partial f_{22}} = \frac{\partial \mathcal L}{\partial o_{11}} \cdot x_{22} + \frac{\partial \mathcal L}{\partial o_{12}} \cdot x_{23} + \frac{\partial \mathcal L}{\partial o_{21}} \cdot x_{32} + \frac{\partial \mathcal L}{\partial o_{22}} \cdot x_{33} \\ \end{aligned} \end{cases}$

根据上述结果，我们可以发现，损失函数 $\mathcal L$ 关于卷积核 $\mathcal F$ 的导数 $\begin{aligned}\frac{\partial \mathcal L}{\partial \mathcal F}\end{aligned}$ 就是：数据矩阵 $\mathcal X$ 和导数矩阵 $\begin{aligned}\frac{\partial \mathcal L}{\partial \mathcal O}\end{aligned}$ 的卷积结果。其中卷积核就是导数矩阵：
$\frac{\partial \mathcal L}{\partial \mathcal F} = \text{Convolution} \left[\begin{pmatrix} x_{11},x_{12},x_{13} \\ x_{21},x_{22},x_{23} \\ x_{31},x_{32},x_{33} \end{pmatrix},\begin{pmatrix} \begin{aligned} \frac{\partial \mathcal L}{\partial o_{11}},\frac{\partial \mathcal L}{\partial o_{12}} \\ \frac{\partial \mathcal L}{\partial o_{21}},\frac{\partial \mathcal L}{\partial o_{22}} \\ \end{aligned} \end{pmatrix}\right]$

卷积层关于输入的反向传播过程

依然基于上述的场景构建，区别在于此时的 $\mathcal X$ 不是输入层，而是某一个隐藏层的输出，以为特征 $x_{11}$ 例，计算它的反向传播过程。

基于梯度下降法条件下， $x_{11}$ 的参数更新过程可表示为：
$x_{11} \Leftarrow x_{11} - \eta \cdot \frac{\partial \mathcal L}{\partial x_{11}}$
其中 $\begin{aligned}\frac{\partial \mathcal L}{\partial x_{11}}\end{aligned}$ 通过链式求导法则可表示为如下形式：
回归上式，其中 $x_{11}$ 仅在 $o_{11}$ 中出现过一次，并且 $\begin{aligned}\frac{\partial o_{11}}{\partial x_{11}} =f_{11}\end{aligned}$ ，后续同理。
$\begin{aligned} \frac{\partial \mathcal L}{\partial x_{11}} & = \frac{\partial \mathcal L}{\partial \mathcal O} \cdot \frac{\partial \mathcal O}{\partial x_{11}} \\ & = \frac{\partial \mathcal L}{\partial o_{11}} \cdot f_{11} \end{aligned}$
其他项 $x_{12},x_{13},\cdots$ 同理。(这里仅示例 $x_{12},x_{22}$ 这两个出现次数不同的项，其余略)
有意思的是，越趋近于边缘上的项，与其相关的导数项就越少。其中 $x_{22}$ 位于矩阵的最中间，在输出中出现了 $4$ 次;相反，在角落处的 $x_{11}$ 仅出现了一次。
$\begin{cases} \begin{aligned} & \frac{\partial \mathcal L}{\partial x_{12}} = \frac{\partial \mathcal L}{\partial o_{11}} \cdot f_{12} + \frac{\partial \mathcal L}{\partial o_{12}} \cdot f_{11} \\ & \frac{\partial \mathcal L}{\partial x_{22}} = \frac{\partial \mathcal L}{\partial o_{11}} \cdot f_{22} + \frac{\partial \mathcal L}{\partial o_{12}} \cdot f_{21} +\frac{\partial \mathcal L}{\partial o_{21}} \cdot f_{12} + \frac{\partial \mathcal L}{\partial o_{22}} f_{11} \end{aligned} \end{cases}$
可以发现：此时输入部分 $9$ 项的梯度，均可以使用 $\begin{aligned}\frac{\partial L}{\partial \mathcal O}\end{aligned}$ 与旋转 $180$ 度卷积核的完全卷积进行表达：
- 其中翻转后的卷积核 $\mathcal F^T$ 表示为：
  $\mathcal F^T = \begin{pmatrix}f_{22},f_{21} \\ f_{12},f_{11}\end{pmatrix}$
- 所谓完全卷积就是指两矩阵任意重合的方式，其重合部分的内积是 $\begin{aligned}\frac{\partial \mathcal L}{\partial \mathcal X}\end{aligned}$ 内的一个解：
  感兴趣的小伙伴可以将所有的 $9$ 项列出来试一试。
  $\frac{\partial \mathcal L}{\partial \mathcal X} = \text{Convolution} \left[\text{Related}(\mathcal F),\frac{\partial \mathcal L}{\partial \mathcal O}\right]$