一文入门图像分类

news2025/7/4 1:34:58

文章目录

一、卷积网络
- 1.1 卷积的参数量
- 1.2 卷积的计算量
- 1.3 降低模型参数量和计算量的方法
- - 1.3.1 GoogLeNet 使用不同大小的卷积核
  - 1.3.2 ResNet 使用1×1卷积压缩通道数
  - 1.3.3 可分离卷积
二、Transformer
- 2.1 注意力机制 Attention Mechanism
- 2.2 多头注意力 Multi-head (Self-)Attention
- 2.3 Vision Transformer
- 2.4 Swin Transformer
三、模型学习的范式
- 3.1 监督学习
- 3.2 自监督学习
四、tips
- 4.1 权重初始化
- 4.2 学习率
- - 4.2.1 学习率对训练的影响
  - 4.2.2 学习率退火 Annealing
  - 4.2.3 学习率升温 Warmup
  - 4.2.4 Linear Scaling Rule
- 4.3 梯度更新算法
- - 4.3.1 自适应梯度算法
  - 4.3.2 正则化与权重衰减 Weight Decay
- 4.4 早停 Early Stopping
- 4.5 模型权重平均 EMA
五、标签平滑 Label Smoothing

图像分类模型发展

一、卷积网络

1.1 卷积的参数量

在这里插入图片描述

1.2 卷积的计算量

在这里插入图片描述

1.3 降低模型参数量和计算量的方法

•降低通道数 C′ 和 C（平方级别）
•减小卷积核的尺寸 K（平方级别）

1.3.1 GoogLeNet 使用不同大小的卷积核

在这里插入图片描述

1.3.2 ResNet 使用1×1卷积压缩通道数

在这里插入图片描述

1.3.3 可分离卷积

在这里插入图片描述

二、Transformer

2.1 注意力机制 Attention Mechanism

在这里插入图片描述

query：查询特征，即我关心的特征有哪些。以自动驾驶举例，比如我关心车、行人、车道等三类特征；
key：图像中有什么，比如图像中有车和车道这两种特征。

2.2 多头注意力 Multi-head (Self-)Attention

仿造卷积使用多组通道的特征就多头注意力机制
在这里插入图片描述

2.3 Vision Transformer

2.4 Swin Transformer

Vision Transformer 的特征图是是直接下采样 16 倍得到的，后面的特征图也是维持这个下采样率不变，缺少了传统卷积神经网络里不同尺寸特征图的层次化结构。所以，Swin Transformer 提出了分层结构（金字塔结构）Hierarchical Transformer。
同时，相对于 Vision Transformer 中直接对整个特征图进行 Multi-Head Self-Attention，Swin Transformer 将特征图划分成了多个不相交的区域（Window），将 Multi-Head Self-Attention 计算限制在窗口内，这样能够减少计算量的，尤其是在浅层特征图很大的时候。

三、模型学习的范式

3.1 监督学习

在这里插入图片描述

3.2 自监督学习

在这里插入图片描述

四、tips

4.1 权重初始化

在这里插入图片描述

4.2 学习率

4.2.1 学习率对训练的影响

在这里插入图片描述

4.2.2 学习率退火 Annealing

在这里插入图片描述

4.2.3 学习率升温 Warmup

在这里插入图片描述

4.2.4 Linear Scaling Rule

在这里插入图片描述

4.3 梯度更新算法

4.3.1 自适应梯度算法

在这里插入图片描述

4.3.2 正则化与权重衰减 Weight Decay

在这里插入图片描述

4.4 早停 Early Stopping

在这里插入图片描述

4.5 模型权重平均 EMA

在这里插入图片描述

模型权重平均 Stochastic Weight Averaging ## 4.6 丢弃层 Dropout ![在这里插入图片描述](https://img-blog.csdnimg.cn/f92eadb1b35843bf82d98c6f9aa1b46e.png) ## 4.6 随机深度 Stochastic Depth

在这里插入图片描述