在2014年的ImageNet图像识别挑战赛中,一个名叫GoogLeNet 的网络架构大放异彩。以前流行的网络使用小到1×1,大到7×7的卷积核。本文的一个观点是,有时使用不同大小的卷积核组合是有利的。
回到他那个图里面你会发现,这里的一个通过我们最大的池化输出的特征图,有四条线.这个是1×1的卷积,这里还是1×1的卷积,之后呢做3×3的卷积,然后这里1×1的卷积再做5×5的卷积,然后这里还有一个3*3×3的最大池化我们1×1在每个路径当中啊都用到了.四个路径输出之后做个comcat的操作即----按通道的方向进行融合
通道在维度上连接什么意思呢???前面所讲通过填充和不符来使输入和输出的通道数高和宽一致,累加操作可以合成224*224*100的图片
网络结构
1×1的卷积
输入28×28乘192特征图.假如我们卷积核只有一个的话,不停的一个一个再做卷积运算,输出一百九十二个,再把这个192个卷积运算的结果进行一个相加,输出是一张特征图 如果啊如果你这里有32个卷积核,输出的特征图肯定是32嘛,输出的是一张卷积一张特征图,这里的一张特征图其实是包含在前面192个特征图的所有的信息,成了什么跨通道的交互和信息整合了.每32个这个特征图里面,每张都包含了前面192个通道里面的所有的信息嘛
全局平均池化层GAP
需要8分钟的解释
网络参数
通道合并:
路径1的到输出为: 28×28×64
路径2的到输出为: 28×28×128
路径3的到输出为: 28×28×32
路径4的到输出为: 28×28x32
最终通道合并为64+128+32+32=256, 最终的输出为:28×28×256.
通道合并:
路径1的到输出为:28×28×128 路径2的到输出为:28×28×192 路径3的到输出为:28×28×96 路径4的到输出为:28×28×64
最终通道合并为128+192+96+64=480,最终的输出为28×28×480。
最大池化模块:
输入为28×28×480。池化核的尺寸大小为3×3;步幅为2(stride = 2),填充为1(padding=1);池化后得到shape 为14×14×480的特征图输出。
最后全局平均池化模块:输入为7×7×1024。池化后得到shape为1×1×1024的特征图输出。
Flatten层:输入为1×1×1024,输出为1×1024
线性全连接层:输入为1×1024。线性全连接层神经元个数分别为1000。最后一层全连接层用softmax输出1000个分类。共计1.38亿的参数
代码部分本人全部放在代码中了,等我blog部署好