- 相关资源: github
第二课 图像分类与基础视觉模型
图像分类
图像分类任务:给定一张图片,识别图像中的物体是什么 X ∈ R H ∗ W ∗ 3 → { 1 , 2.. , K } X\in R^{H*W*3} \rightarrow \{1,2..,K\} X∈RH∗W∗3→{1,2..,K};
从图片中学习:
- 解决图像分类任务主要是两个部分:模型的设计、模型的学习
卷积神经网络
- AlexNet(2012)
- Deeper:
VGG
- VGG(2014):
Inception
- GoogLeNet(Inception v1, 2014)
ResNet (CVPR 2016 BestPaper, CV领域引用数十万)
- 模型层数增加到一定程度后,分类正确率不增反降
- ResNet(2015)
- ResNet 中的两种残差模块
- ResNet 是深浅模型的集成:
- 残差链接让损失曲面更平滑:
- ResNet 后续改进:
更强的图像分类模型
神经结构搜索 Neural Architecture Search (2016+)
Vision Transformers (2020+)
- ConvNeXt (2022):
轻量化卷积神经网络
降低模型参数量和计算量的方法
- GoogLeNet 使用不同大小的卷积核:
1x1 卷积
- ResNet 使用1×1卷积压缩通道数:
可分离卷积
MobileNet V1/V2/V3 (2017~2019)
ResNeXt 中的分组卷积
Vision Transformers
注意力机制 Attention Mechanism
多头注意力 Multi-head (Self-)Attention
1D 数据上的 Attention
Vision Transformer (2020)
Swin Transformer (ICCV 2021 best paper)
模型学习
这里略去基础知识,只保留与CV相关的部分。
学习率与优化器策略
-
权重初始化:
-
学习率退火 Annealing:
-
学习率升温 Warmup:
-
Linear Scaling Rule:
-
自适应梯度算法:
-
正则化与权重衰减 Weight Decay:
-
早停 Early Stopping:
-
模型权重平均 EMA:
-
模型权重平均 Stochastic Weight Averaging:
数据增强
- 组合数据增强 AutoAugment & RandAugment
- 组合图像 Mixup & CutMix
- 标签平滑 Label Smoothing:
模型相关策略
丢弃层 Dropout
随机深度 Stochastic Depth
自监督学习
Relative Location (ICCV 2015)
SimCLR (ICML 2020)
Masked autoencoders (MAE, CVPR 2022)
MMClassification 介绍
后面笔记的具体内容放到 day3 的代码实现部分更好一点,因此笔记到这里就结束啦。