梯度下降
y
=
x
2
∗
s
i
n
(
x
)
y
′
=
2
x
s
i
n
x
+
x
2
c
o
s
x
x
1
=
x
−
Δ
y
′
(
x
)
其中
Δ
表示学习率,
y
′
(
x
)
代表
y
在
x
点处关于
x
的梯度。
y = x^2 * sin(x) \\ y' = 2xsinx+x^2cosx \\ x_1 = x - \Delta y'(x) \\ 其中 \Delta 表示学习率, y'(x)代表y在x点处关于x的梯度。
y=x2∗sin(x)y′=2xsinx+x2cosxx1=x−Δy′(x)其中Δ表示学习率,y′(x)代表y在x点处关于x的梯度。
注意:
在单变量中,梯度就等于导数。
在多变量中,梯度方向表示函数值增加最快的方向。
1、学习率过大会使算法难以收敛,且波动很大
2、学习率过低可能导致算法收敛过慢