学习率
- 学习率
- 不同的学习率
在梯度下降算法中,学习率的选择很重要,不恰当的选择,甚至可能导致损失发散,而非收敛,下面就看一下学习率的影响。
学习率
学习率是下图中的红框圈出来的部分,
学习率是模型的超参数,输入模型用来更新权重,那么它的大小意味着什么呢?
不同的学习率
小的学习率,意味着公式中学习率和偏导数的乘积值变得很小,那梯度下降就会很慢,收敛的时间就会很长。
大的学习率,导致公式中学习率和偏导数的乘积值变化很大,虽然某一步可能损失变化很大,但很可能会错过局部极小值,导致一直在极值附近打转,损失不仅不会收敛反而会导致发散的结果,就像下图中下面那个图片显示的一样。
虽然学习率固定,但是当合适的学习率,导数项会有变化,就以上图中导数刚开始的变化很大,到局部最小值的时候,导数为0