一、Optimization Fails because ……
1. 问题
在optimization时,training的loss不会再下降,但是我们对loss并不满意。不管我们怎么更新参数,loss都不会掉下来。
2. 原因:critical point(gradient为0)
a) 局部最小点(local minima)
b) 鞍点(saddle point)
二、Tayler Series Approximation(到底时local minima 还是saddle point)
1. 给定一组参数θ′,在θ′附近的L(θ)
2. 公式解释:第1项 L(θ′),也就是说当θ跟θ′很近的时候,L(θ)应该跟L(θ′)很靠近的。
第2项是〖(θ-θ’)〗^Tg,其中g是一个矢量,也就是我们的gradient,它可以来弥补θ’跟θ之间的差距。
第3项跟Hessian矩阵有关。第3项是(θ-θ’ )^T H(θ-θ’),它会再弥补θ跟θ′的差距。H里面放的是参数对L的二次微分。
- 如果我们走到了一个critical point,也意味着gradient为0,所以绿色这一项就可以取消掉了,只剩下红色这一项。
- 通过第3项来判断在θ′附近的error surface,到底长什么样,也就可以判断θ′是属于局部最小值点还是鞍点。
如下图所示,我们把(θ-θ’)用v这个向量来表示。对所有的v而言,v^THv都大于0,那这种矩阵叫做正定矩阵(positive definite),它所有的特征值(eigen value)都是正的。所以我们计算出一个Hessian,我们只需要去看Hessian的eigen value,就可以得出结论。
a)如果矩阵的所有特征值(eigen value)都是正的,那就是局部最小值点(local minima)。
b)如果矩阵的所有特征值(eigen value)都是负的,那就是局部最大值点(local maxima)。
c)如果矩阵的所有特征值(eigen value)有正有负,那就是鞍点(saddle point)。
- 如何判断是哪个和gradient 和Hessian有关系
- 如果是saddle point的话,H可以告诉我们优化方向
总结
其实局部最小点(local minima)并没有那么常见,大多数情况下,卡在一个鞍点(saddle point)。