【机器学习】CNN的数学基础

news2025/4/27 19:20:21

🌈个人主页: 鑫宝Code
🔥热门专栏: 闲话杂谈｜炫酷HTML | JavaScript基础
💫个人格言: "如无必要，勿增实体"

文章目录

CNN的数学基础
- 1. 引言
- 2. 卷积运算
- - 2.1 连续卷积
  - 2.2 离散卷积
  - 2.3 互相关
- 3. 激活函数
- - 3.1 ReLU (Rectified Linear Unit)
  - 3.2 Sigmoid
  - 3.3 Tanh
- 4. 池化操作
- - 4.1 最大池化
  - 4.2 平均池化
- 5. 损失函数
- - 5.1 均方误差（MSE）
  - 5.2 交叉熵
- 6. 反向传播算法
- - 6.1 链式法则
  - 6.2 卷积层的反向传播
  - 6.3 池化层的反向传播
- 7. 优化算法
- - 7.1 随机梯度下降（SGD）
  - 7.2 动量法
  - 7.3 Adam
- 8. 正则化技术
- - 8.1 L2正则化
  - 8.2 Dropout
- 9. 初始化方法
- - 9.1 Xavier初始化
  - 9.2 He初始化
- 10. 结论

CNN的数学基础

1. 引言

卷积神经网络（Convolutional Neural Network，CNN）作为深度学习中的重要模型，其强大性能背后蕴含着丰富的数学原理。本文将深入探讨CNN的数学基础，包括卷积运算、激活函数、池化操作、反向传播算法以及优化方法等核心概念。通过对这些数学基础的理解，我们可以更好地把握CNN的本质，为进一步优化和创新CNN模型奠定基础。
在这里插入图片描述

2. 卷积运算

2.1 连续卷积

在数学中，连续函数的卷积定义如下：

$\int_{-\infty}^{\infty} f(\tau)g(t-\tau)d\tau$

其中， $f$ 和 $g$ 是两个可积函数， $*$ 表示卷积操作。

2.2 离散卷积

在CNN中，我们主要关注离散卷积。对于二维离散卷积，其定义为：

$\sum_{m}\sum_{n} I(m,n)K(i-m,j-n)$

其中， $I$ 是输入（如图像）， $K$ 是卷积核（或称滤波器）。

2.3 互相关

实际上，CNN中使用的"卷积"操作更准确地说是互相关（cross-correlation）：

$\star K)(i,j) = \sum_{m}\sum_{n} I(i+m,j+n)K(m,n)$

这里 $\star$ 表示互相关操作。与真正的卷积相比，互相关不需要将卷积核翻转。

在这里插入图片描述

3. 激活函数

激活函数为神经网络引入非线性，增强模型的表达能力。

3.1 ReLU (Rectified Linear Unit)

ReLU是目前最常用的激活函数之一：

$\max(0, x)$

其导数为：

$\begin{cases} 1, & \text{if } x > 0 \\ 0, & \text{if } x \leq 0 \end{cases}$

3.2 Sigmoid

Sigmoid函数将输入映射到(0, 1)区间：

$\sigma(x) = \frac{1}{1 + e^{-x}}$

其导数为：

$\sigma'(x) = \sigma(x)(1 - \sigma(x))$

3.3 Tanh

Tanh函数将输入映射到(-1, 1)区间：

$\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$

其导数为：

$tanh'(x) = 1 - \tanh^2(x)$

4. 池化操作

池化操作用于降低特征图的空间分辨率，减少参数数量和计算量。

4.1 最大池化

最大池化选择池化窗口内的最大值：

$y_{ij} = \max_{(m,n) \in R_{ij}} x_{mn}$

其中， $R_{ij}$ 是以 $(i, j)$ 为中心的池化窗口。

4.2 平均池化

平均池化计算池化窗口内的平均值：

$y_{ij} = \frac{1}{|R_{ij}|} \sum_{(m,n) \in R_{ij}} x_{mn}$
在这里插入图片描述

5. 损失函数

损失函数衡量模型预测与真实标签之间的差距。

5.1 均方误差（MSE）

对于回归问题，常用均方误差：

$L_{MSE} = \frac{1}{N} \sum_{i=1}^N (y_i - \hat{y}_i)^2$

其中， $y_i$ 是真实值， $\hat{y}_i$ 是预测值， $N$ 是样本数量。

5.2 交叉熵

对于分类问题，常用交叉熵损失：

$L_{CE} = -\sum_{i=1}^C y_i \log(\hat{y}_i)$

其中， $C$ 是类别数， $y_i$ 是真实标签（one-hot编码）， $\hat{y}_i$ 是预测概率。

6. 反向传播算法

反向传播是训练神经网络的核心算法，用于计算损失函数对各层参数的梯度。

6.1 链式法则

反向传播基于链式法则：

$\frac{\partial L}{\partial w} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial x} \cdot \frac{\partial x}{\partial w}$

其中， $L$ 是损失函数， $w$ 是待优化的参数。

6.2 卷积层的反向传播

对于卷积层，我们需要计算损失函数对卷积核权重的梯度：

$\frac{\partial L}{\partial K} = \sum_{i,j} \frac{\partial L}{\partial Y_{ij}} \cdot X_{ij}$

其中， $K$ 是卷积核， $Y$ 是输出特征图， $X$ 是输入特征图。

6.3 池化层的反向传播

对于最大池化，梯度只传递给池化窗口中的最大值元素：

$\frac{\partial L}{\partial x_{mn}} = \begin{cases} \frac{\partial L}{\partial y_{ij}}, & \text{if } x_{mn} = \max_{(m,n) \in R_{ij}} x_{mn} \\ 0, & \text{otherwise} \end{cases}$

对于平均池化，梯度平均分配给池化窗口内的所有元素：

$\frac{\partial L}{\partial x_{mn}} = \frac{1}{|R_{ij}|} \frac{\partial L}{\partial y_{ij}}$

7. 优化算法

优化算法用于更新网络参数，最小化损失函数。

7.1 随机梯度下降（SGD）

最基本的优化算法是随机梯度下降：

$w_{t+1} = w_t - \eta \nabla L(w_t)$

其中， $\eta$ 是学习率， $\nabla L(w_t)$ 是损失函数关于参数 $w_t$ 的梯度。

7.2 动量法

动量法引入了历史梯度信息，加速收敛：

$\begin{aligned} v_{t+1} &= \gamma v_t + \eta \nabla L(w_t) \\ w_{t+1} &= w_t - v_{t+1} \end{aligned}$

其中， $\gamma$ 是动量系数。

7.3 Adam

Adam结合了动量法和自适应学习率：

$\begin{aligned} m_t &= \beta_1 m_{t-1} + (1-\beta_1) \nabla L(w_t) \\ v_t &= \beta_2 v_{t-1} + (1-\beta_2) (\nabla L(w_t))^2 \\ \hat{m}_t &= \frac{m_t}{1-\beta_1^t} \\ \hat{v}_t &= \frac{v_t}{1-\beta_2^t} \\ w_{t+1} &= w_t - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_t \end{aligned}$