【机器学习】CNN的基本架构模块

news2026/2/11 23:07:12

🌈个人主页: 鑫宝Code
🔥热门专栏: 闲话杂谈｜炫酷HTML | JavaScript基础
💫个人格言: "如无必要，勿增实体"

文章目录

CNN的基本架构模块
- 1. 引言
- 2. 卷积层
- - 2.1 基本原理
  - 2.2 卷积层的特性
  - 2.3 卷积层的超参数
  - 2.4 输出大小计算
- 3. 池化层
- - 3.1 目的和作用
  - 3.2 常见的池化方法
  - 3.3 池化层的超参数
- 4. 激活函数
- - 4.1 作用
  - 4.2 常用的激活函数
  - 4.3 激活函数的选择
- 5. 全连接层
- - 5.1 作用
  - 5.2 数学表示
  - 5.3 特点
- 6. Dropout层
- - 6.1 原理
  - 6.2 数学表示
- 7. 批归一化层（Batch Normalization）
- - 7.1 目的
  - 7.2 数学表示
- 8. 残差连接（Residual Connection）
- - 8.1 动机
  - 8.2 数学表示
- 9. 注意力机制（Attention Mechanism）
- - 9.1 原理
  - 9.2 自注意力（Self-Attention）
- 10. 高级CNN架构
- - 10.1 Inception模块
  - 10.2 DenseNet
  - 10.3 SENet（Squeeze-and-Excitation Network）
- 11. 结论

CNN的基本架构模块

1. 引言

卷积神经网络（Convolutional Neural Network，CNN）是深度学习中一种强大的神经网络架构，特别适用于处理具有网格状拓扑结构的数据，如图像和时间序列。CNN的成功源于其独特的架构设计，包含了多个精心设计的基本模块。本文将详细介绍CNN的基本架构模块，包括卷积层、池化层、激活函数、全连接层等，以及一些高级组件和优化技术。
在这里插入图片描述

2. 卷积层

在这里插入图片描述

2.1 基本原理

卷积层是CNN的核心组件，负责提取输入数据的局部特征。卷积操作可以表示为：

$\int_{-\infty}^{\infty} f(\tau)g(t-\tau)d\tau$

在离散情况下，二维卷积可以表示为：

$\sum_{m}\sum_{n} I(m,n)K(i-m,j-n)$

其中， $I$ 是输入， $K$ 是卷积核（或称为滤波器）。

2.2 卷积层的特性

局部连接：每个神经元只与输入数据的一个局部区域相连。
权值共享：同一个特征图内的神经元共享相同的权重。
平移不变性：卷积操作对输入的平移具有不变性。

2.3 卷积层的超参数

卷积核大小：常见的有3x3，5x5等。
步长（Stride）：控制卷积核移动的步长。
填充（Padding）：在输入周围添加额外的像素。

2.4 输出大小计算

对于输入大小为 $\times H$ ，卷积核大小为 $\times F$ ，步长为 $S$ ，填充为 $P$ 的卷积层，输出大小为：

$O_W = \frac{W - F + 2P}{S} + 1, \quad O_H = \frac{H - F + 2P}{S} + 1$

3. 池化层

在这里插入图片描述

3.1 目的和作用

池化层用于降低特征图的空间分辨率，减少参数数量和计算量，同时提高模型对小的位移和失真的鲁棒性。

3.2 常见的池化方法

最大池化（Max Pooling）：
$y_{ij} = \max_{(a,b)\in R_{ij}} x_{ab}$
平均池化（Average Pooling）：
$y_{ij} = \frac{1}{|R_{ij}|} \sum_{(a,b)\in R_{ij}} x_{ab}$

其中， $R_{ij}$ 表示池化窗口， $R_{ij}|$ 是窗口中元素的数量。

3.3 池化层的超参数

池化窗口大小：常见的有2x2，3x3等。
步长：通常与窗口大小相同，以避免重叠。

4. 激活函数

4.1 作用

激活函数引入非线性，增强网络的表达能力。

4.2 常用的激活函数

ReLU (Rectified Linear Unit)：
$\max(0, x)$
Sigmoid：
$\frac{1}{1 + e^{-x}}$
Tanh：
$\frac{e^x - e^{-x}}{e^x + e^{-x}}$
Leaky ReLU：
$\begin{cases} x, & \text{if } x > 0 \\ \alpha x, & \text{otherwise} \end{cases}$
其中 $\alpha$ 是一个小的正常数。