卷积神经网络（二）-AlexNet

前言：

AlexNet是2012年ImageNet竞赛冠军（以领先第二名10%的准确率夺得冠军）获得者Hinton和他的学生Alex Krizhevsky设计的,在ILSVRC-2010测试集上取得了top-1错误率37.5%,top-5错误率17.0%（优于第二名的16.4%）,明显优于之前的方法，证明了深度卷积神经网络在图像识别任务上的强大能力，后续各种优秀的更深的神经网络被提出。

论文：

https://proceedings.neurips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

论文翻译文档：

https://download.csdn.net/download/p731heminyang/89551903

跟Lenet距离约10年，在CNN的基础上面碰到了一些问题，比如说CNN的过拟合（就是训练的数据精度特高，真实数据精度差）、激活函数的效率问题以往的tanh和sigmoid、GPU内存太小无法训练、以前池化都采用平均池化造成特征采集模糊化、数据量太小等。

AlexNet解析

今天我们来看看AlexNet，首先就是网络图

我们来分析下网络图，整个网络图共分为8层，这里的架构用了双GPU架构，所以采用了两层架构，主要是受限于当前的硬件限制，当个GPU的显存有限（当时使用的GTX 580 GPU只有3GB的内存），在训练的时候没有显示不够用，所以用双GPU的方式替代，所以相应的结构也需要调整，调整为上下两层，现在GPU能力足够不需要通过这种上下层的方式了。

这里采用的是RGB三色

第一层（卷积层）C1：

输入大小：3x224x224 ，相比与LeNet这里采用的彩色图RGB，所以是3，为啥是224了，论文里面也介绍了，它采用数据增强，是从256x256图片里面随机选取或者反转224x224的图片去做训练，这样数据量大，但是也会容易过拟合，这里采用了其他的方式防止。

卷积核：96个11x11x3的卷积核，卷积核的步长是4；这是个三维卷积核对应的图片的RGB，96个卷积核分为两部分对应两个GPU，每一组GPU对应一个48个11x11x3的卷积核。

输出大小：96x55x55,通过公式得出W=（224-11）/4 +1 得出目标的长宽54.5 ，一般为了尽可能保留特征选择向上取整，输出为55，由于卷积核为96个，所以输出的图形也有96个，只不过由于双GPU原因分为了两组分别为48个55x55的图。

参数大小：34,944个，学习参数，需要存储的，共96组wx+b ,其中w为3x11x11 ，b就是常数，所以为1,96x(3x11x11+1)=34944

激活函数：ReLU

通过卷积核把整张图3x224x224分别过滤到两个GPU上面，每个GPU包含48张55x55的图，为后面的双GPU进行执行，当然现在已经没有这么采用了，基本GPU的显存也比较大，而且GPU的算力也比之前大多了。

第二层（池化层）P1：

这里是最大池化层，就是在区域内选取最大值

输入大小：96x55x55 ，这里是前面一层的输入，当然这里也分为了两层，两个GPU分别选择前面对应卷积的48x55x55进行池化

滤波器：3×3 ,步长为2 最大池化

输出大小：96x27x27 ，按照计算得出（55-3）/2 +1 =27

参数大小：0，池化层一般没有学习参数，有些特殊的池化层也可以系数可以学习，但是标准的没有。

这里选取的池化是最大池化，因为平均池化容易让特征混淆，所以后续的网络里面池化大多都是选取的最大池化层。而且论文提出了一个观点就是重叠池，就是步长需要小于滤波器核，这样可以多选取一些重叠的特征进行特征增强会是模型减少过拟合。

第三层（卷积层）C2：

输入参数：96x27x27,上一层输入，相同的GPU池化之后进入卷积，每个GPU都得到48个27x27的图进行计算。

卷积核：256个5x5，步长为1，填充为2，分为两组128个5x5的卷积核当为2个GPU进行运算

输出参数：256x27x27，宽高度计算，通过公式：（27-5+2x2）/1 + 1 =27，通道等于卷积核个数256个。

参数大小：6,656，计算公式256个wx+b,w为5x5 b为1 ，所以256x(5x5+1)=6656

激活函数：ReLU

第四层（池化层）P2：

输入参数：256x27x27,上一层输出，交叉计算到了两个GPU，每组128x27x27。

滤波器：3x3,步长为2。最大池化层

输出参数：256x13x13，宽高度计算，（27-3）/2 + 1= 13

参数大小：0，没有带权重

第五层（卷积层）C3：

输入参数:256x13x13,上一层输出

卷积核：384个3×3x256,步长1，填充1 ，这里做了GPU的交叉计算，这里计算的时候卷积核会把一张图256x13x13进行覆盖，所以卷积核通道是256

输出参数：384x13x13，宽高计算，（13-3+1x2）/1+1= 13,宽高没有变化

参数大小：885,120，公式：384x（3x3x256+1）=885120

激活函数：ReLU

第六层（卷积层）C4：

输入参数:384x13x13,上一层输出

卷积核：384个3×3×192,步长1，填充1 ，这里没有对整张图进行交叉计算了，分开两个GPU得出的数据192x13x13来进行计算了

输出参数：384x13x13，宽高计算，（13-3+1x2）/1+1= 13,宽高没有变化

参数大小：663,936，公式：384x（3x3x192+1）=663936

激活函数：ReLU

第七层（卷积层）C5：

输入参数:384x13x13,上一层输出

卷积核：256个3×3×192,步长1，填充1

输出参数：256x13x13，宽高计算，（13-3+1x2）/1+1= 13,宽高没有变化

参数大小：442,624，公式：256x（3x3x192+1）=442624

激活函数：ReLU

第八层（池化层）P3：

输入参数：256x13x13,上一层输出

滤波器：3x3,步长为2。最大池化层

输出参数：256x6x6，宽高度计算，（13-3）/2 + 1= 6

参数大小：0，没有带权重

第九层（全连接层）F1：

输入参数：256x6x6

输出参数：4096 ，正常的全连接是不可能得到4096的，而是得到256x6x6=9216的，这里全连接层自己做了特殊处理，某些参数进行合并了才得到4096，非标准全连接。

参数大小：37,605,376, 计算，4096个wx+b,w为256x6x6,4096x(255x6x6+1)=37605376

注意后面跟着Dropout，在轮文中提到了在两个全连接层中包含Dropout，但是图上没有写，这里就

第十层（Dropout）D1:

输入参数：4096

丢弃率：0.5 随机失活50%的节点，就是把输出置为0

输出参数：4096

参数个数：0

Dropout在训练中体现，推理中不起作用，这里图也没有显示，主要用于随机失活一些数据，就是把一些输出数据赋值为0，这样的话可以起到防止过拟合，提高泛化率。

第十一层（全连接层）F2：

多几层全连接层进行特征整合，方便后续的分类。

输入参数：4096

输出参数：4096

参数大小：16,781,312, 参数为4096个wx+b ，w为4096,那么为4096x(4096+1) =16781312

第十二层（Dropout）D2:

输入参数：4096

丢弃率：0.5 随机失活50%的节点，就是把输出置为0

输出参数：4096

参数个数：0

第十三层（全连接层）F3：

最后一层，进行分类处理，这里显示类型的概率

输入参数：4096

输出参数：1000

参数大小：4,097,000，1000个wx+b,w为4096，那么为1000x(4096+1)=4097000

激活参数：Softmax 此激活函数是为了分类使用，进行归一化，把所有数据化为0~1之间的小数，所有数的累加和为1,这样排序下选择得分最高的就是哪个对象了，把1000进行类别分类，这个在训练的时候标记数据需要准备。

比如1 动物牛 2是动物羊 ... 1000 动物老虎，如果下标2 为0.99 分数最高，那么就能够得出这张图片对象为动物羊了。

总结：

AlexNet 针对之前的CNN做出来改进，把网络模型增加了（之前训练的5层到8层），并且带权重的网络增加到了8层，识别种类可以达到1000种，在当时是非常不错了，参数60,516,968个（大约6000w个权重参数，和论文里面的60million对上了）。里面包含的可训练的网络层只有8层（C1、C2、C3、C4、C5、F1、F2、F3）相当于现在的网络层级来说层数太浅了无法支持更复杂的特征。

AlexNet提出的改进点有：

重叠池：提出步长小于滤波器的边数，这样获取值的时候能够对有效特征进行重复提取，可以提高识别精度。例子：比如滤波器为5x5，那么步长为1~4，就会形成重叠池了，就是重复采集；而且这里使用了最大池化作为有效特征，避免之前的平均池化带来的模糊化特征的情况，后续神经网络基本也是采取的最大池化。
ReLU：函数（𝑓(𝑥)=max⁡(0,𝑥)）把relu激活函数发扬光大了，之前一直使用的是tanh和sigmoid，比起他们速率提高了（只取0和最大值）、提高稀疏性（只取大于0的数据，去除其他部分减少依赖）、避免了梯度消失问题（在正数区域，梯度恒为1）
Dropout:引入Dropout随机失活一部分神经网络的值，避免整个神经网络过拟合，这里后面的全连接用到了此技术，就是计算之后随机把结果赋值为0。
GPU加速：引用了GPU加速网络升级的训练和推理，这里由于当时的GPU显存低，还用到了双GPU架构，后续GPU提升显存，后面的框架基本没有采用此种架构了。
数据增强：受限于之前的数据量大小，这里提出了数据增强的功能，比如从256x256 选取224x224的区域，这里是从四个角和中间选取224x224，并且水平翻转增加数据量，从而减少过拟合的风险。