是一种高效计算梯度下降的方法。
Chain Rule(链式法则)
定义了一个loss function是所有training data的loss之和。
- 考虑某一个neuron的情况
- Forward Pass
z对w的偏微分就是输入x。
- Backward Pass
- Case1- Output Layer
假设两个红色的neuron已经是output layer
- Case2- Not Output Layer
假设现在红色的neuron并不是整个network的output,我们就需要和之前的步骤一样继续迭代,直至输出层。
实际上,Backward pass就是从输出层开始,反向计算。
Summary