卷积神经网络 - 参数学习

news2025/4/21 15:22:36

本文我们通过两个简化的例子，展示如何从前向传播、损失计算，到反向传播推导梯度，再到参数更新，完整地描述卷积层的参数学习过程。

一、例子一

我们构造一个非常简单的卷积神经网络，其结构仅包含一个卷积层和一个输出（不使用激活函数，为了便于数学推导），损失函数采用均方误差（MSE）。

1. 设定问题

输入数据
假设输入为一幅小的灰度图像 X：

例如，令

卷积核
使用一个 2×2 的卷积核 W：

并设有偏置 b。

卷积操作
采用“valid”卷积（不填充），在这种情况下，由于输入和核大小都为2×2，卷积操作仅得到一个输出标量 O：

O=(w1⋅x11+w2⋅x12+w3⋅x21+w4⋅x22)+b.

我们为了简化，不使用激活函数（即线性激活），这样前向计算就很直观。

目标输出
设定目标值为 y（比如标签值），假设 y=10。

损失函数
我们使用均方误差（MSE）：

2. 前向传播计算

代入示例数据：

初始假设卷积核权重和偏置（假设初始值为）：

计算输出 O：

损失：

3. 梯度推导（反向传播）

我们需要计算损失 L 关于每个参数的梯度，即

步骤1：计算损失对输出 O 的梯度

由

有

代入数据：O−y=4.5−10=−5.5.

步骤2：计算输出 O 关于各参数的梯度

步骤3：链式法则计算损失对各参数的梯度

根据链式法则：

代入数值：

4. 参数更新（梯度下降）

设定学习率 η，例如 η=0.01，则更新规则为：

更新后的参数：

更新后，新的卷积核参数为：

5. 训练过程总结

整个训练过程如下：

前向传播：对输入图像进行卷积计算，得到输出 O。
计算损失：利用损失函数（MSE）计算模型输出与目标值之间的误差 L。
反向传播：根据链式法则计算损失对各参数（卷积核权重和偏置）的梯度。
参数更新：使用梯度下降（或其他优化算法）更新参数，向降低损失的方向调整。
迭代训练：重复上述步骤，遍历整个训练数据集，直到损失收敛或达到设定的迭代次数。

这个例子虽然非常简单（只有一个卷积层，一个输出单元），但它清楚展示了如何从前向传播计算输出、如何利用损失函数计算误差、如何通过反向传播推导每个参数的梯度，并最终利用梯度下降更新参数。实际的卷积神经网络通常包含多个卷积层、池化层和全连接层，但每个部分的参数学习原理都是类似的——都是通过不断地计算梯度并更新参数，使得模型能够更好地拟合数据，从而实现准确的图像分类、检测等任务。