深度学习入门——深度学习

news2025/4/11 15:37:04

加深网络

前情回顾

构成神经网络的各种层
学习时的有效技巧
对图像特别有效的CNN
参数的最优化方法

向更深的网络出发

网络特点

基于3×3 的小型滤波器的卷积层。
激活函数是ReLU。
全连接层的后面使用Dropout层。
基于Adam的最优化。
使用He初始值作为权重初始值。

进一步提高识别精度

对于手写数字识别这样一个比较简单的任务，没有必要将网络的表现力提高到那么高的程度

大规模的一般物体识别的情况，因为问题复杂，所以加深层对提高识别精度大有裨益。

方法

集成学习
学习率衰减
Data Augmentation 数据增广
- 旋转、平移
- 裁剪图像的crop处理
- 将图像左右翻转的flip处理
- 亮度等外观上的变化
- 放大缩小

加深层的动机

层越深，识别性能也越高

one

可以减少网络的参数数量，说得详细一点，就是与没有加深层的网络相比，加深了层的网络可以用更少的参数达到同等水平（或者更强）的表现力

每个输出节点都是从输入数据的某个5 × 5 的区域算出来的

图8-6 的输出数据是“观察”了输入数据的某个5 × 5 的区域后计算出来的

一次5 × 5 的卷积运算的区域可以由两次3 × 3 的卷积运算抵充。并且，相对于前者的参数数量25（5 × 5），后者一共是18（2 × 3 × 3），通过叠加卷积层，参数数量减少了。而且，这个参数数量之差会随着层的加深而变大。

two

使学习更加高效

在前面的卷积层中，神经元会对边缘等简单的形状有响应，随着层的加深，开始对纹理、物体部件等更加复杂的东西有响应

通过加深网络，就可以分层次地分解需要学习的问题

通过加深层，可以分层次地传递信息，这一点也很重要。通过加深层，可以将各层要学习的问题分解成容易解决的简单问题，从而可以进行高效的学习。

深度学习的小历史

ImageNet

ImageNet是拥有超过100 万张图像的数据集

VGG

VGG是由卷积层和池化层构成的基础的CNN

它的特点在于将有权重的层（卷积层或者全连接层）叠加至16 层（或者19 层），具备了深度（根据层的深度，有时也称为“VGG16”或“VGG19”）

VGG中需要注意的地方是，基于3×3 的小型滤波器的卷积层的运算是连续进行的

GoogLeNet

GoogLeNet的特征是，网络不仅在纵向上有深度，在横向上也有深度（广度）。

GoogLeNet在横向上有“宽度”，这称为“Inception 结构”

Inception 结构使用了多个大小不同的滤波器（和池化），最后再合并它们的结果。GoogLeNet 的特征就是将这个Inception 结构用作一个构件（构成元素）。此外，在GoogLeNet 中，很多地方都使用了大小为1 × 1 的滤波器的卷积层。这个1 × 1 的卷积运算通过在通道方向上减小大小，有助于减少参数和实现高速化处理