【学习打卡】ZFNet深度学习图像分类算法

文章目录

- - 引言
  - - 可以学到什么
    - 为什么叫ZFNet
    - ZFNet的网络结构简介
  - 方法：可视化反卷积
  - - 反池化
    - 反激活
    - 反卷积
  - 训练细节
  - - 大小裁剪
  - 层可视化
  - - 特征可视化
    - - 第 1 层
      - 第 2 层
      - 两边的对应关系
      - 更深的层
      - 第 3 层
        第 4 层
        第 5 层
    - 特征演化
    - 特征不变性
    - - 实验简介
      - 图的分析
    - 模型改进：AlexNet
    - 局部遮挡测试
    - - 敏感性分析
      - 相关性分析
  - 实验
  - - 多种版本
    - 特征泛化性
    - - 去除某些层
      - 迁移学习
      - Caltech-101数据集：
        Caltech-256数据集：
        PASCAL数据集（二分类）
    - 有效性
  - 总结

引言

纽约大学ZFNet，2013年ImageNet图像分类竞赛冠军模型。对AlexNet进行改进的基础上，提出了一系列可视化卷积神经网络中间层特征的方法，并巧妙设置了对照消融实验，从各个角度分析卷积神经网络各层提取的特征及对变换的敏感性
论文：Visualizing and Understanding Convolutional Networks（可视化并理解卷基神经网络）
该课程由B站同济子豪兄主讲
课程主页：https://www.bilibili.com/video/BV17b4y1m7x8?p=1&vd_source=2c3e1c3086544e2bbc96712d9fb90632

可以学到什么

在这篇论文中，它提出了一种非常巧妙的可视化卷积神经网络中间层特征的方法和技巧，使用该技巧，可以打破卷积神经网络黑箱子

知道中间每一个神经元到底是在提取什么样的特征
利用这些可视化的技巧和利用这些特征，可以改进之前的网络

在这里插入图片描述

为什么叫ZFNet

两个作者的首字母分别为Z和F

下图为Zeiler 在YouTube上有一个讲解ZFNet的视频
在这里插入图片描述

ZFNet的网络结构简介

在AlexNet的基础上进行了一些修改：

卷积核：11×11 -> 7x7
步长：4 -> 2
后边的卷积层增加了卷积核的个数

在这里插入图片描述

方法：可视化反卷积

下图（右部分是正向的卷积）是可视化卷积神经网间层特征的一个反卷积的技巧

想可视化中间这一个卷积层的特征，是把该卷积层逆向重构回原始输入的像素空间

原来正向的话，需要经过卷积、激活、池化等等操作，我们把这三个操作反回去
反池化、反激活、反卷积，给他重构回原始输入的像素空间，变成我们人类能够看懂的特征

在这里插入图片描述

反池化

正向池化，以最大池化为例，是把每一个池化窗口里面最大的这个值挑出来

那如何把这个过程反过来重构回去呢？

就是在正向池化的过程中，记录每一个最大值所在的位置。

反池化的时候，就把每一个池化窗口按照对应的位置派遣回去

举例子

正向池化，是从每个村挑出最聪明的一个人。在挑出来的时候，就要记录每个人他所在的村，反过来的时候，我们要把每一个聪明人派回他原来所在的村里去

在这里插入图片描述

反激活

仍然使用ReLU激活函数

反卷积

使用的是原来正向卷积核的转置（也就是行列互换）

转置卷积没有需要学习的参数，是一个完全无监督的过程。

训练细节

大小裁剪

如果不进行大小裁剪，卷积核中会有一些卷积核特别的大。
所以需要对过大的卷积核进行裁剪，把它限定在一个大小范围内。

层可视化

特征可视化

第 1 层

通过该技巧能把卷积神经网络中间层的某一个feature map的特征，重构回原始输入的像素空间，效果如下图：

上面是第 1 层卷积核
下面是使得上面这9个卷积核激活最大的数据集中已经存在的原图patch
- 左上角这9个图，是使第 1 层第一个卷积核最大激活的的前9个原始的小图小patch
- 第1个卷积核是提取的是从左上角往右下角的对角线特征/边缘特征
- 第8个卷积核提取的是绿色的特征
总结：第 1 层，提取的特征非常的底层：就是边缘颜色这样的特征

在这里插入图片描述

第 2 层

开始使用我们提到的反卷积的技巧。

首先从第 2 层中选出16个卷积核（左边），找到原图中能够使得这16个卷积核最大激活的图片（每一个卷积核9张图）

能够使得它最大激活的图片是从原始数据中挑出来的，比如说右图第二个数值条纹的图片能够使得左图第二个激活最大
然后呢，我们把这 9 张图片传到第 2 层的feature map，使用反卷积的技巧重构回原始输入的像素空间。就变成了这个灰色的左图

举例说明：
- 第2个卷积核其实就在提取数字条纹特征
- 第5个卷积核在提取晚霞色的特征
- 第8个卷积核在提取1/4圆的这个右下角的圆环+同心圆的特征
- 第14个卷积核在提取金黄色的特征
- 第16个卷积核是在提取这样的直角的特征

总结：第 2 层比第 1 层的特征要高级一些，但是仍然是比较底层的特征。

两边的对应关系

真正右边的这些彩色图，是数据中真实存在的小图
灰色的这个图呢，是把这九张喂图未到网络里面，把第 2 层对应的feature map用反卷积技巧重构回原始输入像素空间得到的图。

每一张图其实是对应的，它们其实是很像的，左图上的光亮和色彩体现了它捕获到的模式和特征。例如，第二个卷积核提取到的是数值条纹特征。

在这里插入图片描述

更深的层

到了第 3 层和第 4 层，第 5 层，这些提取的特征就越来越高级

第 3 层

步骤：

从第 3 层网络中挑出 12 个卷积核，分别找到使这 12 个卷积核激活最大的原始输入像素，即原始数据集中的图片。
- 每一个卷积核，我们找到 9 张能够使得它输入最大的图片
把这 9 张图片喂到网络里
把第 3 层的这个卷积核生成的feature map用反卷积的技巧重构回原始输入像素空间，得到了左边的灰图

举例：

第 1 个提取的是网格信息
第 6 个提取的是车轱辘的信息
第 8 个提取的是文字和条形码的信息。
第 10 个提取的是橘黄色圆形物体的信息
第 11 个提取的是人脸人身和人脸的信息

根据卷积核和feature map -> 反映模式和特征 -> 得到黑匣子中间是什么样的原理

第 4 层

10个卷积核

第 1 个：狗脸（狗的眼睛和鼻子的信息）
第 4 个：圆圈，螺旋型的信息特征
第 8 个：鸟腿

第 5 层

特征非常的高级和复杂

例子：花瓣、狗、眼睛

重要特点：

浅层的一组9个图片非常想像
第 5 层如第二个，特征变得高级，特化和复杂，具备一定的Invariance 不变性（9 张图片他们都是能够使得第 5 层这个feature map激活最大的原始数据中的九张图片，但是这九张图片长的是不太一样的）
第 5 层随着网络变身，他越来越提取这个sematic的语义特征，而不是在提取长宽方向上的special的信息。

第 5 层第二个卷积核：提取草地的背景特征，而不是人、马和狗这样的前景特征。 -> 说明网络越到高级、层数越深，提取的特征就越特化，高级和不变，越来越倾向于提取语义特征。

在这里插入图片描述

特征演化

训练过程中不同层的卷积核的特征演化的过程

图（之前的灰色图）的解释
第 1 层、第 2 层、第 3 层、第 4 层和第 5 层的五层的六个卷积核

每一行表示一个卷积核
每一列表示训练过程中不同的轮次：第 1 轮、第 2 轮、第5轮、第10轮、第20轮、第30轮、第40轮和第64轮
收敛
- 那底层的卷积核，很快就收敛了
- 高层的卷积核，它要多轮之后才能收敛
突变：能够使卷积核最大激活的图片变了
第三组第三个：提取眼睛信息；第四个：提取脸的信息

在这里插入图片描述

特征不变性

研究对原图进行平移、缩放和旋转，会对网络的不同层的feature vector即不同层提取的信息）以及对最后的输出结果有什么样的影响。

实验简介

实验对象：

割草机、西施犬、非洲鳄鱼、非洲鹦鹉和娱乐中心

不同程度的变换

不同像素的数值平移
不同尺度的缩放
不同角度的旋转

feature vector：feature map拉平成的向量

计算变换之后的feature vector和原图的feature vector他们的欧式距离。

图的分析

第一列 -> 第 1 层卷积核

1-1图：稍微平移一点点像素 -> 欧式距急剧的增大
2-1图：稍微扩大一点点的缩放倍数 -> 第 1 层的feature vector的欧式距急剧的增大
3-1图：稍微旋转一点点的角度，那么提取的feature vector的欧式距离也会迅速的增大
表明对于网络的底层来说，稍微进行一点点的变换会对网络的这个中间提取的结果底层的结果造成很大的影响。

第二列 -> 第 7 层卷积核