目录
一、图像分类
二、卷积神经网络
三、超越ResNet的图像分类模型
1、神经结构搜索
2、Transformer
3、ConvNext
四、轻量化神经网络
五、Vision Transformer
六、模型学习
七、学习率与优化器调整策略
八、数据增强
一、图像分类
图像分类:识别图像中的物体是什么
传统处理方法:采用人工设计的特征提取算法提取特征,再采用机器学习算法进行训练
从人工设计特征到学习特征的阶段:
如今,通常可以采用基于CNN或Transformer的网络进行特征提取
二、卷积神经网络
2012年,AlexNet的提出,开创了卷积神经网络时代
后续又逐步出现了VGG、GoggleNet等经典卷积神经网络,将卷积神经网络的相关研究推向了热潮。但随着卷积神经网络层数的加深,神经网络的预测效果并不理想,网络难以训练的问题开始出现。
残差学习的思想解决了模型退化问题。
基于残差学习的思想,提出了ResNet。
ResNet性能优越的原因:
三、超越ResNet的图像分类模型
1、神经结构搜索
2、Transformer
3、ConvNext
四、轻量化神经网络
卷积参数量计算方式:
卷积计算量的计算方式
缩减模型参数量的方法:
随后,分组卷积和可分离卷积的出现,为模型轻量化进一步提供了可能性。
可分离卷积实现:单通道卷积+1*1卷积信息整合
基于可分离卷积,提出了MobileNet网络。
分组卷积:
五、Vision Transformer
Vision Tranformer的基本模块是Self-Attention:
Attention的计算方式:
Vision Transformer的实现:
六、模型学习
监督学习:
然而数据标注的代价十分昂贵,由此近年来产生了自监督学习:
七、学习率与优化器调整策略
八、数据增强