全连接批量归一化 目的是:通过归一化,让所有的 x i x_i xi具有一样的分布,学习率是一个值,每个参数 w i w_i wi梯度的值大致相当实现是:实际上是在全连接中增加了两个节点 γ \gamma γ, β \beta β