大家好啊,我是董董灿。
在我刚开始学习AI算法时,有一次参加一个线下的讨论,有个西南大学的本科生,在做汇报时说到了残差网络具有很好的推理效果。
那时的我还未入门,像是听天书,听了半天没搞懂说的啥意思,但是却记住了残差这个词。
那么残差到底是什么呢?在神经网络中他又为什么那么重要呢?
1、残差网络和Resnet
经常读我文章的小伙伴可能指导,我之前写了很多拆解 resnet50 这个网络中算法原理的文章万字长文解析Resnet50的算法原理。
而残差网络在这一网络中就有很显著的作用。在很多学科中,残差指的是:预测值与实际值之间的误差。
而在残差网络中,大致也可以这么理解。只不过在神经网络结构中,残差有更加具体的表示,一般表示为残差块,如下图。
对于正常的神经网络,输入X,那么输出可以表示为F(x),其中F就是神经网络逼近的一个函数。
而残差块的输出除了F(x)之外,还会加上原始输入,也就是说,残差块作为一个神经网络模块,它的输出为:F(x) + x。
在原始论文中,残差块的结构被叫作 short-cut结构,翻译成中文被叫做高速公路。
比如上图中,左侧是正常的神经网络层,一层层往下传,在右侧增加一条直连的线,如此一来,整个网络结构形成了一个残差结构。
原始输入可以顺着右侧的线,如跑高速一般,直接到达残差网络的终点,这就是残差结构。
2、为什么要增加残差结构
深度学习算法之所以区分传统的机器学习,一个关键点在与“深度”二字。
随着神经网络层数的不断增加,神经网络的深度就越深,网络学到的特征就会更加丰富。
但是,能无限制地加深么?肯定是不行的,原因在于不好训练。
神经网络训练的过程是不断与目标值进行拟合的过程,直到拟合的误差降低到人们的预期,那么久代表着神经网络训练完毕,一个AI就诞生了。
但是在训练过程中,数据的传递除了从前往后传之外,还需要将最后一层与目标值的误差往前传,从而在进行下一轮训练时,可以获得更小的误差,这一过程便是神经网络的反向传播。
在往回传的过程中,由于误差本身就很小,如果神经网络层数过多,在经过激活函数时,很容易发生误差传着传着就消失了,称为梯度消失。
梯度消失的原因有很多种,不好的激活函数、过深的网络层数等都有可能导致误差消失。
上一轮训练结果的误差传不回来,下一轮如何在上一轮的基础上进行进一步优化训练?结果就会导致怎么训练神经网络最终的结果都无法收敛。
AI根本训练不出来,这个时候残差就可以发挥作用。
想象一下,这个高速公路的存在,可以使得输入数据无损地通过。
如果左侧卷积层学习到的数据不够好,那么叠加上无损通过的原始数据,依然保留了原始数据,不至于丢掉原始数据。
而如果左侧卷积层学习到的效果很好,那么依然会保留着学习到的数据,下面的卷积层依然可以在这些数据基础上进一步学习优化。
反向传递也是一样,高速公路的存在,可以确保即使很小的误差也能传递过来,从而避免了梯度消失的发生。
有了残差结构,我们就可以把神经网络设计的更深一些,从而使得神经网络可以识别出更加丰富的特征。
自从有了残差结构,很多网络开始借鉴这种网络设计方法,甚至有些网络会直接把res block,也就是残差块当做一个网络单元来用,这样网络可以设计的更深,提取特征的效果也就更好。