在使用这个非线性激活函数的时候,其实我们重点还是学习的是他们的正向怎么传播,以及反向怎么传递的。
如下图所示:
第一:relu函数的正向传播函数是:当输入值(隐藏层)值大于了,就输出自己本身的值。
反向梯度传播:当输出值大于0,那么反向梯度值就等于输出值乘以1
如果小于0 ,那反向梯度值就等于0.
通俗的来说就是,如果输入值是0或小于0,那么输出值的反向增强就没有。
如果输入值大于0,那么输出值的方向增强就有。正向增强。
第二:sigmoid激活函数正向传播是:1/(1+e的-输入次方),反向梯度为:输出*(1-输出)。
意义是:如果输入的因素有100个,输出的值有3个。当输入的第1个因素对输出的3个值都起作用时,第1个因素就会被消除。这样做的原因是,要找到可以鉴别输出的3个值的非别的因素的自己的因素。不知道你们是否理解,有点拗口。
第三:tanh没有特别的,就是可以中心化的一种。也可能是我理解的不够透彻。目前理解到这里。
第四:softmax函数,
意义是:如果输入的因素有100个,输出的值有3个。当输入的第1个因素对输出的3个值都起作用时,第1个因素不会被消除,它只是在找更多的信息来支撑输出。让该有的正确的结果更加真确。