正常来说,plain网络(简单的堆叠层数)会随着网络的加深错误率变低的,但事实上训练和测试错误率都升高了,这就是网络的退化问题。 此外,网络加深会出现梯度消失或梯度爆炸,妨碍收敛,但这个问题也可以通过正则初始化和BN来解决。 Shortcut connection: residual block: 为什么resnet可以解决梯度消失? resnet网络架构: resnet34: