深度学习笔记——数值稳定性、模型初始化与激活函数

news2025/4/7 0:47:40

机器学习笔记——数值稳定性、模型初始化与激活函数

引言

本节将对数值稳定性、模型初始化以及激活函数进行系统介绍。

数值稳定性——梯度爆炸

关于梯度消失的部分,这里不再赘述。详见笔记:机器学习笔记之正则化(六)批标准化(BatchNormalization)

这里提到数值稳定性中的数值是指神经网络反向传播过程中梯度的变化量。在神经网络比较的情况下,梯度数值非常容易不稳定

考虑已知一个 d d d层的神经网络,其中第 t t t隐藏 ( t < d ) (t < d) (t<d)的输出 h t h_t ht t − 1 t-1 t1隐藏层输出 h t − 1 h_{t-1} ht1之间的关系表示为:
h t = f t ( h t − 1 ) h_t = f_t(h_{t-1}) ht=ft(ht1)
关于该神经网络的前馈计算过程表示如下:
需要注意的是,这里的 y y y并不是预测结果(因为包含损失函数 L \mathcal L L),它仅仅描述一个前馈计算过程。
y = L ∘ f d ∘ f d − 1 ∘ ⋯ ∘ f 1 ( x ) y = \mathcal L \circ f_d \circ f_{d-1} \circ \cdots\circ f_1(x) y=Lfdfd1f1(x)
基于上述运算,损失函数 L \mathcal L L关于第 t t t层神经网络 h t h_t ht权重参数 W t \mathcal W_t Wt梯度可表示为:
∂ L ∂ W t = ∂ L ∂ h d ⋅ ∂ h d ∂ h d − 1 ⋯ ∂ h t + 1 ∂ h t ⏟ d − t 次矩阵乘法 ⋅ ∂ h t ∂ W t \frac{\partial \mathcal L}{\partial \mathcal W_t} = \frac{\partial \mathcal L}{\partial h_d} \cdot \underbrace{\frac{\partial h_d}{\partial h_{d-1}} \cdots\frac{\partial h_{t+1}}{\partial h_t}}_{d - t次矩阵乘法} \cdot \frac{\partial h_t}{\partial \mathcal W_t} WtL=hdLdt次矩阵乘法 hd1hdhtht+1Wtht
假设第 t t t隐藏层函数 f t ( h t − 1 ) = σ ( W t ⋅ h t − 1 ) f_t(h_{t-1}) = \sigma(\mathcal W_t \cdot h_{t-1}) ft(ht1)=σ(Wtht1),其中 σ \sigma σ表示激活函数这里为简化起见,忽略了偏置项 b b b;那么关于 t t t隐藏层输出 h t h_t ht h t − 1 h_{t-1} ht1梯度表示为:
∂ h t ∂ h t − 1 = Diag [ σ ′ ( W t ⋅ h t − 1 ) ] ⏟ ∂ h t / ∂ Z t ⋅ W t T ⏟ ∂ Z t / ∂ h t Z t = W t ⋅ h t − 1 \frac{\partial h_t}{\partial h_{t-1}} = \underbrace{\text{Diag} \left[\sigma' \left(\mathcal W_t \cdot h_{t-1}\right)\right]}_{\partial h_t /\partial \mathcal Z_t} \cdot \underbrace{\mathcal W_t^T}_{\partial \mathcal Z_t/\partial h_t} \quad \mathcal Z_t = \mathcal W_t \cdot h_{t-1} ht1ht=ht/Zt Diag[σ(Wtht1)]Zt/ht WtTZt=Wtht1
其中 Diag \text{Diag} Diag表示对角矩阵——由于 h t h_t ht Z t \mathcal Z_t Zt是两个形状相同的向量(激活函数不影响向量形状),向量关于向量的导数是一个多维矩阵(张量 ( Tensor ) (\text{Tensor}) (Tensor))。这个对角阵的元素的每一行元素均对应向量 W t \mathcal W_t Wt内的某一具体分量
推荐一篇‘向量求导’的文章,见下方链接。侵删。

至此,关于上述 d − t d-t dt矩阵乘法可表示为如下形式:
∂ h d ∂ h t = ∏ i = t d − 1 ∂ h i + 1 ∂ h i = ∏ i = t d − 1 Diag [ σ ′ ( W i h i − 1 ) ] ⋅ W i T \begin{aligned} \frac{\partial h_d}{\partial h_t} & = \prod_{i=t}^{d-1} \frac{\partial h_{i+1}}{\partial h_i} \\ & = \prod_{i=t}^{d-1} \text{Diag}\left[\sigma'(\mathcal W_i h_{i-1})\right] \cdot \mathcal W_i^T \end{aligned} hthd=i=td1hihi+1=i=td1Diag[σ(Wihi1)]WiT

假设构建如下场景:

  • 使用 ReLU \text{ReLU} ReLU函数作为激活函数,其函数以及导数结果表示为如下形式:
    σ ( x ) = max ⁡ ( 0 , x ) σ ′ ( x ) = { 1 if  x > 0 0 Otherwise \sigma(x) = \max(0,x) \quad \sigma'(x) = \begin{cases} 1 \quad \text{if } x > 0 \\ 0 \quad \text{Otherwise} \end{cases} σ(x)=max(0,x)σ(x)={1if x>00Otherwise
  • 针对某任务目标(例如极大似然估计),使用梯度上升法作为参数的迭代算法:
    W ( t + 1 ) ⇐ W ( t ) + η ⋅ ∂ L ( t ) ∂ W \mathcal W^{(t+1)} \Leftarrow \mathcal W^{(t)} + \eta \cdot \frac{\partial \mathcal L^{(t)}}{\partial \mathcal W} W(t+1)W(t)+ηWL(t)
  • 由于样本特征/权重初始化的问题,导致权重结果各分量 > 1 >1 >1

至此。观察梯度 ∂ h d ∂ h t \begin{aligned} \frac{\partial h_d}{\partial h_t}\end{aligned} hthd
根据 ReLU \text{ReLU} ReLU函数的导数表达,那么矩阵 Diag [ σ ′ ( W i ⋅ h i − 1 ) ] \text{Diag} [\sigma'(\mathcal W_i \cdot h_{i-1})] Diag[σ(Wihi1)]必然是一个由 0 , 1 0,1 0,1元素构成的多维矩阵。并且这些 0 0 0分量对应的权重分量 W i ( k ) T ∈ W i T \mathcal W_{i(k)}^T \in \mathcal W_i^T Wi(k)TWiT的梯度结果为 0 0 0
∂ h d ∂ h t = ∏ i = t d − 1 [ σ ′ ( W i ⋅ h i − 1 ) ] ⏟ 0 , 1 元素构成 ⋅ ∏ i = t d − 1 W i T \frac{\partial h_d}{\partial h_t} = \prod_{i=t}^{d-1} \underbrace{[\sigma'(\mathcal W_i \cdot h_{i-1})]}_{0,1元素构成} \cdot \prod_{i=t}^{d-1} \mathcal W_i^T hthd=i=td10,1元素构成 [σ(Wihi1)]i=td1WiT

而最终的梯度结果表示为没有被置 0 0 0权重分量的乘积结果。由于这些权重分量均大于 1 1 1,并且 ReLU \text{ReLU} ReLU在大于 0 0 0部分的导数为 1 1 1。也就是说,这些大于 0 0 0的权重分量在 ReLU \text{ReLU} ReLU激活函数条件下,其梯度不会造成削减。最终导致 ∏ i = t d − 1 W i T \prod_{i=t}^{d-1} \mathcal W_i^T i=td1WiT连乘过程中越来越大。

从而导致 ∂ L ∂ W \begin{aligned}\frac{\partial \mathcal L}{\partial \mathcal W}\end{aligned} WL越来越大,最终导致 W ( t + 1 ) \mathcal W^{(t+1)} W(t+1)累加过程中越来越大,导致梯度爆炸现象。

小插曲:关于对角阵 Diag [ σ ′ ( W t ⋅ h t − 1 ) ] \text{Diag}[\sigma'(\mathcal W_t \cdot h_{t-1})] Diag[σ(Wtht1)]的解释

实际上,这部分在其他描述反向传播时也都描述过,只不过这次更详细一些,针对‘向量对向量求偏导’进行具体描述。

为了书写方便,我们将第 t t t隐藏层的输入和输出由原来的 h t − 1 , h t h_{t-1},h_{t} ht1,ht改为 h ( t − 1 ) , h ( t ) h^{(t-1)},h^{(t)} h(t1),h(t)
已知某神经网络 t t t隐藏层的前馈计算图表示如下:
某层神经网络前馈计算图
由图中可知,向量 h ( t − 1 ) = ( h 1 ( t − 1 ) , h 2 ( t − 1 ) , ⋯   , h m ( t − 1 ) ) m × 1 T h^{(t-1)} = \left(h_1^{(t-1)},h_2^{(t-1)},\cdots,h_m^{(t-1)}\right)^T_{m \times 1} h(t1)=(h1(t1),h2(t1),,hm(t1))m×1T是该层的输入 Z ( t ) = ( Z 1 ( t ) , Z 2 ( t ) , ⋯   , Z n ( t ) ) n × 1 T \mathcal Z^{(t)} = \left(\mathcal Z_{1}^{(t)},\mathcal Z_2^{(t)},\cdots,\mathcal Z_{n}^{(t)}\right)_{n \times 1}^T Z(t)=(Z1(t),Z2(t),,Zn(t))n×1T表示线性计算的输出 h ( t ) = ( h 1 ( t ) , h 2 ( t ) , ⋯   , h n ( t ) ) n × 1 T h^{(t)} = \left(h_1^{(t)},h_2^{(t)},\cdots,h_n^{(t)}\right)_{n \times 1}^T h(t)=(h1(t),h2(t),,hn(t))n×1T表示该隐藏层的输出。其前馈计算过程表示如下:
h ( t ) = ReLU ( [ W ( t ) ] T h ( t − 1 ) ⏟ Z ( t ) ) h^{(t)} = \text{ReLU} \left(\underbrace{[\mathcal W^{(t)}]^T h^{(t-1)}}_{\mathcal Z^{(t)}}\right) h(t)=ReLU Z(t) [W(t)]Th(t1)
其中权重矩阵 W ( t ) \mathcal W^{(t)} W(t)是一个 m × n m \times n m×n格式的矩阵:
W ( t ) = [ W 1 ⇔ 1 ( t ) , W 1 ⇔ 2 ( t ) , ⋯   , W 1 ⇔ n ( t ) W 2 ⇔ 1 ( t ) , W 2 ⇔ 2 ( t ) , ⋯   , W 2 ⇔ n ( t ) ⋮ W m ⇔ 1 ( t ) , W m ⇔ 2 ( t ) , ⋯   , W m ⇔ n ( t ) ] m × n \mathcal W^{(t)} = \begin{bmatrix} \mathcal W_{1 \Leftrightarrow 1}^{(t)},\mathcal W_{1 \Leftrightarrow 2}^{(t)},\cdots,\mathcal W_{1 \Leftrightarrow n}^{(t)} \\ \mathcal W_{2 \Leftrightarrow 1}^{(t)},\mathcal W_{2 \Leftrightarrow 2}^{(t)},\cdots,\mathcal W_{2 \Leftrightarrow n}^{(t)} \\ \vdots \\ \mathcal W_{m \Leftrightarrow 1}^{(t)},\mathcal W_{m \Leftrightarrow 2}^{(t)},\cdots,\mathcal W_{m \Leftrightarrow n}^{(t)} \\ \end{bmatrix}_{m \times n} W(t)= W11(t),W12(t),,W1n(t)W21(t),W22(t),,W2n(t)Wm1(t),Wm2(t),,Wmn(t) m×n
那么线性计算输出 Z ( t ) \mathcal Z^{(t)} Z(t)可表示为:
Z ( t ) = [ Z 1 ( t ) Z 2 ( t ) ⋮ Z n ( t ) ] n × 1 = [ ∑ j = 1 m W j ⇔ 1 ⋅ h j ( t − 1 ) ∑ j = 1 m W j ⇔ 2 ⋅ h j ( t − 1 ) ⋮ ∑ j = 1 m W j ⇔ n ⋅ h j ( t − 1 ) ] n × 1 \mathcal Z^{(t)} = \begin{bmatrix} \mathcal Z_1^{(t)} \\ \mathcal Z_2^{(t)} \\ \vdots \\ \mathcal Z_n^{(t)} \end{bmatrix}_{n \times 1} = \begin{bmatrix} \begin{aligned} \sum_{j=1}^m \mathcal W_{j \Leftrightarrow 1} & \cdot h_j^{(t-1)} \\ \sum_{j=1}^m \mathcal W_{j \Leftrightarrow 2} & \cdot h_j^{(t-1)} \\ & \vdots \\ \sum_{j=1}^m \mathcal W_{j \Leftrightarrow n} & \cdot h_j^{(t-1)} \\ \end{aligned} \end{bmatrix}_{n \times 1} Z(t)= Z1(t)Z2(t)Zn(t) n×1= j=1mWj1j=1mWj2j=1mWjnhj(t1)hj(t1)hj(t1) n×1
最终该层输出 h ( t ) h^{(t)} h(t)可表示为:
h ( t ) = [ h 1 ( t ) h 2 ( t ) ⋮ h n ( t ) ] n × 1 = [ ReLU ( Z 1 ( t ) ) ReLU ( Z 2 ( t ) ) ⋮ ReLU ( Z n ( t ) ) ] n × 1 h^{(t)} = \begin{bmatrix} h_1^{(t)} \\ h_2^{(t)} \\ \vdots \\ h_n^{(t)} \\ \end{bmatrix}_{n \times 1} = \begin{bmatrix} \text{ReLU}(\mathcal Z_1^{(t)}) \\ \text{ReLU}(\mathcal Z_2^{(t)}) \\ \vdots \\ \text{ReLU}(\mathcal Z_n^{(t)}) \\ \end{bmatrix}_{n \times 1} h(t)= h1(t)h2(t)hn(t) n×1= ReLU(Z1(t))ReLU(Z2(t))ReLU(Zn(t)) n×1
至此,观察该部分函数的反向传播 h ( t ) h^{(t)} h(t)关于 Z ( t ) \mathcal Z^{(t)} Z(t)梯度 ∂ h ( t ) ∂ Z ( t ) \begin{aligned}\frac{\partial h^{(t)}}{\partial \mathcal Z^{(t)}}\end{aligned} Z(t)h(t)
很明显,这是一个 n × n × 1 n \times n \times 1 n×n×1 3 3 3维张量。
∂ h ( t ) ∂ Z ( t ) = ∂ [ ReLU ( Z 1 ( t ) ) ReLU ( Z 2 ( t ) ) ⋮ ReLU ( Z n ( t ) ) ] n × 1 ∂ [ Z 1 ( t ) Z 2 ( t ) ⋮ Z n ( t ) ] n × 1 = [ [ ∂ ReLU ( Z 1 ( t ) ) ∂ Z 1 ( t ) ⋮ ∂ ReLU ( Z 1 ( t ) ) ∂ Z n ( t ) ] n × 1 ⋮ [ ∂ ReLU ( Z n ( t ) ) ∂ Z 1 ( t ) ⋮ ∂ ReLU ( Z n ( t ) ) ∂ Z n ( t ) ] n × 1 ] n × n × 1 \frac{\partial h^{(t)}}{\partial \mathcal Z^{(t)}} = \frac{\partial \begin{bmatrix} \text{ReLU}(\mathcal Z_1^{(t)}) \\ \text{ReLU}(\mathcal Z_2^{(t)}) \\ \vdots \\ \text{ReLU}(\mathcal Z_n^{(t)}) \\ \end{bmatrix}_{n \times 1}}{\partial \begin{bmatrix} \mathcal Z_1^{(t)} \\ \mathcal Z_2^{(t)} \\ \vdots \\ \mathcal Z_n^{(t)} \\ \end{bmatrix}_{n \times 1}} = \begin{bmatrix} \begin{bmatrix} \begin{aligned} \frac{\partial \text{ReLU}(\mathcal Z_1^{(t)})}{\partial \mathcal Z_1^{(t)}} \end{aligned} \\ \vdots \\ \begin{aligned} \frac{\partial \text{ReLU}(\mathcal Z_1^{(t)})}{\partial \mathcal Z_n^{(t)}} \end{aligned} \end{bmatrix}_{n \times 1} \\ \vdots \\ \begin{bmatrix} \begin{aligned} \frac{\partial \text{ReLU}(\mathcal Z_n^{(t)})}{\partial \mathcal Z_1^{(t)}} \end{aligned} \\ \vdots \\ \begin{aligned} \frac{\partial \text{ReLU}(\mathcal Z_n^{(t)})}{\partial \mathcal Z_n^{(t)}} \end{aligned} \\ \end{bmatrix}_{n \times 1} \\ \end{bmatrix}_{ n \times n \times 1} Z(t)h(t)= Z1(t)Z2(t)Zn(t) n×1 ReLU(Z1(t))ReLU(Z2(t))ReLU(Zn(t)) n×1= Z1(t)ReLU(Z1(t))Zn(t)ReLU(Z1(t)) n×1 Z1(t)ReLU(Zn(t))Zn(t)ReLU(Zn(t)) n×1 n×n×1
如果去掉最后一个多余维度,那么得到的结果将是一个方阵
∂ h ( t ) ∂ Z ( t ) ⟹ Squeeze [ ∂ ReLU ( Z 1 ( t ) ) ∂ Z 1 ( t ) , ∂ ReLU ( Z 1 ( t ) ) ∂ Z 2 ( t ) , ⋯   , ∂ ReLU ( Z 1 ( t ) ) ∂ Z n ( t ) ∂ ReLU ( Z 2 ( t ) ) ∂ Z 1 ( t ) , ∂ ReLU ( Z 2 ( t ) ) ∂ Z 2 ( t ) , ⋯   , ∂ ReLU ( Z 2 ( t ) ) ∂ Z n ( t ) ⋮ ∂ ReLU ( Z n ( t ) ) ∂ Z 1 ( t ) , ∂ ReLU ( Z n ( t ) ) ∂ Z 2 ( t ) , ⋯   , ∂ ReLU ( Z n ( t ) ) ∂ Z n ( t ) ] n × n \frac{\partial h^{(t)}}{\partial \mathcal Z^{(t)}} \overset{\text{Squeeze}}{\Longrightarrow} \begin{bmatrix} \begin{aligned} \frac{\partial \text{ReLU}(\mathcal Z_1^{(t)})}{\partial \mathcal Z_1^{(t)}},\frac{\partial \text{ReLU}(\mathcal Z_1^{(t)})}{\partial \mathcal Z_2^{(t)}},\cdots,\frac{\partial \text{ReLU}(\mathcal Z_1^{(t)})}{\partial \mathcal Z_{n}^{(t)}} \end{aligned} \\ \begin{aligned} \frac{\partial \text{ReLU}(\mathcal Z_2^{(t)})}{\partial \mathcal Z_1^{(t)}},\frac{\partial \text{ReLU}(\mathcal Z_2^{(t)})}{\partial \mathcal Z_2^{(t)}},\cdots,\frac{\partial \text{ReLU}(\mathcal Z_2^{(t)})}{\partial \mathcal Z_{n}^{(t)}} \end{aligned} \\ \vdots \\ \begin{aligned} \frac{\partial \text{ReLU}(\mathcal Z_n^{(t)})}{\partial \mathcal Z_1^{(t)}},\frac{\partial \text{ReLU}(\mathcal Z_n^{(t)})}{\partial \mathcal Z_2^{(t)}},\cdots,\frac{\partial \text{ReLU}(\mathcal Z_n^{(t)})}{\partial \mathcal Z_{n}^{(t)}} \end{aligned} \\ \end{bmatrix}_{n \times n} Z(t)h(t)Squeeze Z1(t)ReLU(Z1(t)),Z2(t)ReLU(Z1(t)),,Zn(t)ReLU(Z1(t))Z1(t)ReLU(Z2(t)),Z2(t)ReLU(Z2(t)),,Zn(t)ReLU(Z2(t))Z1(t)ReLU(Zn(t)),Z2(t)ReLU(Zn(t)),,Zn(t)ReLU(Zn(t)) n×n
但由于除了对角线上的项,其余项的偏导数结果均是 0 0 0,因为 ReLU ( ⋅ ) \text{ReLU}(\cdot) ReLU()函数中的变量与被求偏导的变量不匹配。最终由如下结果:
不匹配就相当于对某常数求偏导。
∂ h ( t ) ∂ Z ( t ) = [ ∂ ReLU ( Z 1 ( t ) ) ∂ Z 1 ( t ) , 0 , ⋯   , 0 0 , ∂ ReLU ( Z 2 ( t ) ) ∂ Z 2 ( t ) , ⋯   , 0 ⋮ 0 , 0 , ⋯   , ∂ ReLU ( Z n ( t ) ) ∂ Z n ( t ) ] n × n ⇒ Diag [ σ ′ ( W t ⋅ h t − 1 ) ] \frac{\partial h^{(t)}}{\partial \mathcal Z^{(t)}} = \begin{bmatrix} \begin{aligned} \frac{\partial \text{ReLU}(\mathcal Z_1^{(t)})}{\partial \mathcal Z_1^{(t)}} ,\quad 0,\cdots, \quad 0 \\ 0\quad, \frac{\partial \text{ReLU}(\mathcal Z_2^{(t)})}{\partial \mathcal Z_2^{(t)}}, \cdots,\quad 0 \\ \end{aligned} \\ \vdots \\ \begin{aligned} 0 \quad ,0 \quad ,\cdots,\frac{\partial \text{ReLU}(\mathcal Z_n^{(t)})}{\partial \mathcal Z_n^{(t)}} \end{aligned} \end{bmatrix}_{n \times n} \Rightarrow \text{Diag} [\sigma'(\mathcal W_t \cdot h_{t-1})] Z(t)h(t)= Z1(t)ReLU(Z1(t)),0,,00,Z2(t)ReLU(Z2(t)),,00,0,,Zn(t)ReLU(Zn(t)) n×nDiag[σ(Wtht1)]
根据 ReLU \text{ReLU} ReLU自身性质,其导数结果只有 { 0 , 1 } \{0,1\} {0,1}两种选项:
∂ ReLU ( Z j ( t ) ) ∂ Z j ( t ) ∈ { 0 , 1 } j = 1 , 2 , ⋯   , n \frac{\partial \text{ReLU}(\mathcal Z_j^{(t)})}{\partial \mathcal Z_j^{(t)}} \in \{0,1\} \quad j=1,2,\cdots,n Zj(t)ReLU(Zj(t)){0,1}j=1,2,,n
如果前馈计算过程 h ( t ) h^{(t)} h(t)的某分量 h j ( t ) = 0 h_j^{(t)} =0 hj(t)=0,其反向传播中梯度结果 ∂ ReLU ( Z j ( t ) ) ∂ Z j ( t ) = 0 \begin{aligned}\frac{\partial \text{ReLU}(\mathcal Z_j^{(t)})}{\partial \mathcal Z_j^{(t)}} =0\end{aligned} Zj(t)ReLU(Zj(t))=0,导致对角矩阵 ∂ h ( t ) ∂ Z ( t ) \begin{aligned}\frac{\partial h^{(t)}}{\partial \mathcal Z^{(t)}}\end{aligned} Z(t)h(t) j j j行全部为 0 0 0,最终导致与该行执行线性计算的 W \mathcal W W不会得到任何梯度,也就是该神经元失活
批标准化( Batch Normalization \text{Batch Normalization} Batch Normalization)中的错误描述已修改。无论是 Dropout \text{Dropout} Dropout还是 ReLU \text{ReLU} ReLU激活函数,它们目的都是将某个神经元‘失活’。

梯度爆炸的问题

  • 参数结果超过其值域

    在使用 GPU \text{GPU} GPU加速过程中,通常将其设置为 16 16 16位浮点数类型。但其值域范围较小,如果参数超过了该区间,该参数就变成了无穷大 ( infinity ) (\text{infinity}) (infinity)。基于该参数的预测过程也会存在诸多问题。

  • 对学习率敏感/对学习率要求极高

    如果权重没有达到无穷大,即便它可以执行梯度迭代,由于该梯度数值依然很大,这导致对学习率 ( Learning Rate ) (\text{Learning Rate}) (Learning Rate)的调整十分麻烦

    • 如果学习率数值较大,意味着迭代过程中有较大的梯度结果累加在权重参数中,随着迭代的增加,最终也可能出现参数结果变成无穷大的情况:
      ∏ i = t d − 1 W i T ⇑ ↔ W ( t + 1 ) ⇑ = W t + η ⇑ ⋅ ∂ L ∂ W \prod_{i=t}^{d-1} \mathcal W_i^T \Uparrow \leftrightarrow \mathcal W^{(t+1)} \Uparrow = \mathcal W^{t} + \eta \Uparrow \cdot \frac{\partial \mathcal L}{\partial \mathcal W} i=td1WiT⇑↔W(t+1)⇑=Wt+ηWL
    • 如果学习率较小,虽然能够短时间使权重增长不剧烈,但更有可能出现损失函数不收敛的情况。从而使数据训练过程没有进展;
    • 基于上述两种情况的描述,我们需要在训练过程中不断调整学习率。

如何让参数更新更加稳定

根据上面关于梯度的描述,我们更希望:梯度结果在合理的范围内

方式一:乘法变加法

典型例子就是残差网络 ( ResNet ) (\text{ResNet}) (ResNet)。我们比对了残差网络常规网络的反向传播过程:

  • 常规网络某层输出 x ′ x' x与输入 x x x之间的关系以及梯度结果表示为:
    这里以‘全连接神经网络’为例。
    { x ′ = F [ G ( x ) ] = σ [ W T G ( x ) + b ] ∂ x ′ ∂ x = { σ ′ [ W T G ( x ) + b ] ⋅ W } ⋅ ∂ G ( x ) ∂ x \begin{cases} x' = \mathcal F[\mathcal G (x)] = \sigma[\mathcal W^T\mathcal G(x) + b] \\ \begin{aligned}\frac{\partial x'}{\partial x} = \{\sigma'[\mathcal W^T\mathcal G(x) + b] \cdot \mathcal W\} \cdot \frac{\partial \mathcal G(x)}{\partial x}\end{aligned} \end{cases} x=F[G(x)]=σ[WTG(x)+b]xx={σ[WTG(x)+b]W}xG(x)
  • 残差网络某层输出 x ′ x' x与输入 x x x之间的关系以及梯度结果表示为:
    { x ′ = F [ G ( x ) ] + G ( x ) ∂ x ′ ∂ x = { 1 + σ ′ [ W T G ( x ) + b ] ⋅ W } ⋅ ∂ G ( x ) ∂ x = ∂ G ( x ) ∂ x + { σ ′ [ W T G ( x ) + b ] ⋅ W } ⋅ ∂ G ( x ) ∂ x \begin{cases} x' = \mathcal F[\mathcal G(x)] + \mathcal G(x) \\ \begin{aligned} \frac{\partial x'}{\partial x} & = \{1 + \sigma'[\mathcal W^T\mathcal G(x) + b] \cdot \mathcal W\} \cdot \frac{\partial \mathcal G(x)}{\partial x} \\ & = \frac{\partial \mathcal G(x)}{\partial x} + \{\sigma'[\mathcal W^T\mathcal G(x) + b] \cdot \mathcal W\} \cdot \frac{\partial \mathcal G(x)}{\partial x} \end{aligned} \end{cases} x=F[G(x)]+G(x)xx={1+σ[WTG(x)+b]W}xG(x)=xG(x)+{σ[WTG(x)+b]W}xG(x)

梯度消失的角度观察,这种操作相比于常规网络总会有梯度向更深的隐藏层中传播。也就是说:当处于较深的隐藏层中时,此时的残差部分 { σ ′ [ W T G ( x ) + b ] ⋅ W } ⋅ ∂ G ( x ) ∂ x \begin{aligned}\{\sigma'[\mathcal W^T\mathcal G(x) + b] \cdot \mathcal W\} \cdot \frac{\partial \mathcal G(x)}{\partial x}\end{aligned} {σ[WTG(x)+b]W}xG(x)确实存在梯度消失现象(训练残差的 W \mathcal W W几乎没有梯度更新),但数据特征自身梯度 ∂ G ( x ) ∂ x \begin{aligned}\frac{\partial \mathcal G(x)}{\partial x}\end{aligned} xG(x)会对该层的梯度信息进行补充。隐藏层越深, ∂ G ( x ) ∂ x \begin{aligned}\frac{\partial \mathcal G(x)}{\partial x}\end{aligned} xG(x)占据的比重越大。

关于梯度爆炸,需要声明的点:常规网络中的 W \mathcal W W和残差网络中的 W \mathcal W W针对的不是同一个特征
个人理解。

  • 残差网络中的 W \mathcal W W是针对当前层输出与上一层输出之间差别的残差特征
  • 常规网络中的 W \mathcal W W是仅针对当前层输出的抽象特征
    可以理解为:常规网络中的 W \mathcal W W权力更大,整个层的输出特征都需要它优化;而残差残差网络中 W \mathcal W W仅描述差异性,其权力更小。

因此,如果基于梯度上升的算法处理任务,残差网络中的 W \mathcal W W提升更缓。其次,它的梯度描述过程可以通过分配律描述成连加的形式:
∏ i = t d − 1 { 1 + σ ′ [ W T G ( x ) + b ] ⋅ W } ⋅ ∂ G ( x ) ∂ x \prod_{i=t}^{d-1} \{1 + \sigma'[\mathcal W^T\mathcal G(x) + b] \cdot \mathcal W\} \cdot \frac{\partial \mathcal G(x)}{\partial x} i=td1{1+σ[WTG(x)+b]W}xG(x)

关于梯度爆炸部分,欢迎小伙伴批评指正。

另一种基于乘法加法模型就是以 LSTM \text{LSTM} LSTM为代表的针对序列特征建模的网络。这里挖一个坑,在后续部分进行介绍。

方式二:标准化

最典型的操作就是批标准化 ( Batch Normalization,BN ) (\text{Batch Normalization,BN}) (Batch Normalization,BN)。其核心将梯度空间均值为 0 0 0,方差为 1 1 1的分布中,在梯度优化过程中,各位置的优化代价均相同

方式三:合理的权重初始化合激活函数

在训练模型之前,要在权重空间中随机初始化参数。但这个初始化是有学问的。假设参数的初始化不优秀,可能会导致随机初始化的参数点在初始的反向传播过程中,梯度过大/过小,这样都会使梯度不稳定

换一个角度思考:如果随机参数点初始化在损失函数的等高线中远离损失函数最优解区域的情况下,该位置的损失函数结果可能很复杂

因此,我们希望寻找一个关于参数初始化的合理值区间,并在该区间内随机初始参数。关于一些结构简单的网络,可以使用高斯分布(例如: N ( 0 , 0.01 ) \mathcal N(0,0.01) N(0,0.01))作为这个合理值区间,但不能保证深层网络中也存在好的效果。
深层网络意味着权重参数更多,权重空间更加复杂。简单分布中随机可能并不会 Hold \text{Hold} Hold住这个权重空间,相当于随机了。

下意识可以想到:批标准化。而批标准化的思想在于:如果将每层的输出以及梯度均看做随机变量无论在前馈计算还是反向传播过程中,我们均希望他们的均值方差保持一致

  • 特征空间的假设:记 t t t个隐藏层第 i i i个神经元的输出结果为 h i ( t ) h_i^{(t)} hi(t),那么它的前馈计算的均值和方差表示为:
    个人理解:并不是描述 h i ( t ) h_i^{(t)} hi(t)这个值的均值和方差————如果某个值 h i ( t ) h_i^{(t)} hi(t)的均值是 0 0 0,那么这个值 h i ( t ) = 0 h_i^{(t)} = 0 hi(t)=0;而是说值 h i ( t ) h_i^{(t)} hi(t)是从 E [ h i ( t ) ] = 0 , Var [ h i ( t ) ] = a \mathbb E[h_i^{(t)}] = 0,\text{Var}[h_i^{(t)}] = a E[hi(t)]=0,Var[hi(t)]=a这个分布中采集出的结果。
    E [ h i ( t ) ] = 0 Var [ h i ( t ) ] = a \mathbb E[h_i^{(t)}] = 0 \quad \text{Var}[h_i^{(t)}] = a E[hi(t)]=0Var[hi(t)]=a
    同理,它的反向传播梯度希望能够表示为:
    其中 L \mathcal L L表示任务的损失函数。
    E [ ∂ L ∂ h i ( t ) ] = 0 Var [ ∂ L ∂ h i ( t ) ] = b \begin{aligned} \mathbb E \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}}\right] = 0 \quad \text{Var} \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}}\right] = b \end{aligned} E[hi(t)L]=0Var[hi(t)L]=b

  • 继续对权重空间进行假设:如果 t t t个隐藏层中各神经元内的权重 W i ⇔ j ( t ) \mathcal W_{i \Leftrightarrow j}^{(t)} Wij(t)独立同分布 ( Independent Identically Distribution,IID ) (\text{Independent Identically Distribution,IID}) (Independent Identically Distribution,IID),并且权重的均值方差表示为:
    E [ W i ⇔ j ( t ) ] = 0 Var [ W i ⇔ j ( t ) ] = γ t \mathbb E[\mathcal W_{i \Leftrightarrow j}^{(t)}] = 0 \quad \text{Var}[\mathcal W_{i \Leftrightarrow j}^{(t)}] = \gamma_t E[Wij(t)]=0Var[Wij(t)]=γt
    由于该层输入 h i ( t − 1 ) h_i^{(t-1)} hi(t1) W i ⇔ j ( t ) \mathcal W_{i \Leftrightarrow j}^{(t)} Wij(t)不属于同一类型分布(一个是特征空间的样本,一个是权重空间样本),假设这两类空间没有关联,从而有:
    h i ( t − 1 ) ⊥ W i ⇔ j ( t ) h_i^{(t-1)} \perp \mathcal W_{i \Leftrightarrow j}^{(t)} hi(t1)Wij(t)

  • 假设该层没有激活函数,只有线性计算部分:
    h ( t ) = [ W ( t ) ] T ⋅ h ( t − 1 ) h^{(t)} = [\mathcal W^{(t)}]^T \cdot h^{(t-1)} h(t)=[W(t)]Th(t1)
    其中权重 W ( t ) \mathcal W^{(t)} W(t)是一个 n ( t ) × n ( t − 1 ) n^{(t)} \times n^{(t-1)} n(t)×n(t1)的矩阵: W ( t ) ∈ R n ( t ) × n ( t − 1 ) \mathcal W^{(t)} \in \mathbb R^{n^{(t)} \times n^{(t-1)}} W(t)Rn(t)×n(t1)其中 n ( t ) , n ( t − 1 ) n^{(t)},n^{(t-1)} n(t),n(t1)分别表示 t , t − 1 t,t-1 t,t1层内神经元数量
    至此,第 t t t i i i个神经元输出 h i ( t ) h_i^{(t)} hi(t)均值可表示为:
    这里使用到了期望的加法性质。并且在乘积的期望 E [ W i ⇔ j ( t ) ⋅ h j ( t − 1 ) ] \mathbb E \left[\mathcal W_{i \Leftrightarrow j}^{(t)} \cdot h_j^{(t-1)}\right] E[Wij(t)hj(t1)]中,由于 W i ⇔ j ( t ) , h j ( t − 1 ) \mathcal W_{i \Leftrightarrow j}^{(t)},h_j^{(t-1)} Wij(t),hj(t1)分别服从于不同分布,并且分布之间相互独立,那么该期望可分解成 E [ W i ⇔ j ( t ) ] ⋅ E [ h j ( t − 1 ) ] \mathbb E \left[\mathcal W_{i \Leftrightarrow j}^{(t)}\right] \cdot \mathbb E \left[h_j^{(t-1)}\right] E[Wij(t)]E[hj(t1)]的形式。
    E [ h i ( t ) ] = E [ ∑ j W i ⇔ j ( t ) ⋅ h j ( t − 1 ) ] = ∑ j E [ W i ⇔ j ( t ) ] ⋅ E [ h j ( t − 1 ) ] = 0 \begin{aligned} \mathbb E[h_i^{(t)}] & = \mathbb E \left[\sum_{j} \mathcal W_{i \Leftrightarrow j}^{(t)} \cdot h_j^{(t-1)}\right] = \sum_{j} \mathbb E[\mathcal W_{i \Leftrightarrow j}^{(t)}] \cdot \mathbb E[h_j^{(t-1)}] = 0 \\ \end{aligned} E[hi(t)]=E[jWij(t)hj(t1)]=jE[Wij(t)]E[hj(t1)]=0
    关于第 t t t i i i个神经元输出 h j ( t ) h_j^{(t)} hj(t)方差可表示为:
    Var [ h i ( t ) ] = E [ ( h i ( t ) ) 2 ] − { E [ h i ( t ) ] ⏟ 0 } 2 = E [ ( ∑ j W i ⇔ j ( t ) ⋅ h j ( t − 1 ) ) 2 ] \begin{aligned} \text{Var}[h_i^{(t)}] & = \mathbb E [(h_i^{(t)})^2] - \{\underbrace{\mathbb E[h_i^{(t)}]}_{0}\}^2 \\ & = \mathbb E \left[ \left(\sum_{j} \mathcal W_{i \Leftrightarrow j}^{(t)} \cdot h_j^{(t-1)}\right)^2\right] \end{aligned} Var[hi(t)]=E[(hi(t))2]{0 E[hi(t)]}2=E (jWij(t)hj(t1))2

    • Var [ h i ( t ) ] \text{Var}[h_i^{(t)}] Var[hi(t)]展开,有:
      Var [ h i ( t ) ] = E [ ∑ j ( W i ⇔ j ( t ) ) 2 ⋅ ( h j ( t − 1 ) ) 2 + ∑ j ≠ k W i ⇔ j ( t ) ⋅ W i ⇔ k ( t ) ⋅ h j ( t − 1 ) ⋅ h k ( t − 1 ) ] \begin{aligned} \text{Var}[h_i^{(t)}] & = \mathbb E \left[\sum_j \left(\mathcal W_{i \Leftrightarrow j}^{(t)}\right)^2 \cdot \left(h_j^{(t-1)}\right)^2 + \sum_{j \neq k} \mathcal W_{i \Leftrightarrow j}^{(t)} \cdot \mathcal W_{i \Leftrightarrow k}^{(t)} \cdot h_j^{(t-1)} \cdot h_k^{(t-1)}\right] \end{aligned} Var[hi(t)]=E j(Wij(t))2(hj(t1))2+j=kWij(t)Wik(t)hj(t1)hk(t1)
    • 关于期望内第二项,可以表示成:
      这里依然用到数学期望的加法性质。其中 W i ⇔ j ( t ) , W i ⇔ k ( t ) \mathcal W_{i \Leftrightarrow j}^{(t)},\mathcal W_{i \Leftrightarrow k}^{(t)} Wij(t),Wik(t)必然是不同神经元中的权重,而不同神经元权重均服从它们各自对应的权重空间分布。同理, h j ( t − 1 ) , h k ( t − 1 ) h_j^{(t-1)},h_k^{(t-1)} hj(t1),hk(t1)也均服从它们各自对应的特征分布。由于‘特征分布’与‘权重分布’相互独立,因此下面 4 4 4类随机变量各自相互独立。
      E [ ∑ j ≠ k W i ⇔ j ( t ) ⋅ W i ⇔ k ( t ) ⋅ h j ( t − 1 ) ⋅ h k ( t − 1 ) ] = ∑ j ≠ k E [ W i ⇔ j ( t ) ⋅ W i ⇔ k ( t ) ⋅ h j ( t − 1 ) ⋅ h k ( t − 1 ) ] = ∑ j ≠ k E [ W i ⇔ j ( t ) ] ⋅ E [ W i ⇔ k ( t ) ] ⋅ E [ h j ( t − 1 ) ] ⋅ E [ h k ( t − 1 ) ] = ∑ j ≠ k 0 = 0 \begin{aligned} \mathbb E \left[\sum_{j \neq k} \mathcal W_{i \Leftrightarrow j}^{(t)} \cdot \mathcal W_{i \Leftrightarrow k}^{(t)} \cdot h_j^{(t-1)} \cdot h_k^{(t-1)}\right] & = \sum_{j \neq k} \mathbb E \left[\mathcal W_{i \Leftrightarrow j}^{(t)} \cdot \mathcal W_{i \Leftrightarrow k}^{(t)} \cdot h_j^{(t-1)} \cdot h_k^{(t-1)}\right] \\ & = \sum_{j \neq k} \mathbb E \left[\mathcal W_{i \Leftrightarrow j}^{(t)}\right] \cdot \mathbb E \left[\mathcal W_{i \Leftrightarrow k}^{(t)}\right] \cdot \mathbb E \left[h_j^{(t-1)}\right] \cdot \mathbb E \left[h_k^{(t-1)}\right] \\ & = \sum_{j \neq k} 0 = 0 \end{aligned} E j=kWij(t)Wik(t)hj(t1)hk(t1) =j=kE[Wij(t)Wik(t)hj(t1)hk(t1)]=j=kE[Wij(t)]E[Wik(t)]E[hj(t1)]E[hk(t1)]=j=k0=0
    • 至此, Var [ h i ( t ) ] \text{Var} [h_i^{(t)}] Var[hi(t)]只剩下了一项
      Var [ h i ( t ) ] = E [ ∑ j ( W i ⇔ j ( t ) ) 2 ⋅ ( h j ( t − 1 ) ) 2 ] = ∑ j E [ ( W i ⇔ j ( t ) ) 2 ] ⋅ E [ ( h j ( t − 1 ) ) 2 ] = ∑ j { Var [ W i ⇔ j ( t ) ] − [ E ( W i ⇔ j ( t ) ) ] 2 ⏟ 0 } ⋅ { Var [ h j ( t − 1 ) ] − [ E ( h j ( t − 1 ) ) ] 2 ⏟ 0 } = ∑ j Var [ W i ⇔ j ( t ) ] ⋅ Var [ h j ( t − 1 ) ] \begin{aligned} \text{Var}[h_i^{(t)}] & = \mathbb E \left[\sum_j \left(\mathcal W_{i \Leftrightarrow j}^{(t)}\right)^2 \cdot \left(h_j^{(t-1)}\right)^2\right] \\ & = \sum_j \mathbb E \left[(\mathcal W_{i \Leftrightarrow j}^{(t)})^2\right] \cdot \mathbb E \left[(h_j^{(t-1)})^2\right] \\ & = \sum_{j} \left\{\text{Var}[\mathcal W_{i \Leftrightarrow j}^{(t)}] - \underbrace{\left[\mathbb E(\mathcal W_{i \Leftrightarrow j}^{(t)})\right]^2}_{0}\right\} \cdot \left\{\text{Var} \left[h_j^{(t-1)}\right] - \underbrace{\left[\mathbb E(h_j^{(t-1)})\right]^2}_{0}\right\} \\ & = \sum_{j} \text{Var}[\mathcal W_{i \Leftrightarrow j}^{(t)}] \cdot \text{Var} [h_j^{(t-1)}] \end{aligned} Var[hi(t)]=E[j(Wij(t))2(hj(t1))2]=jE[(Wij(t))2]E[(hj(t1))2]=j Var[Wij(t)]0 [E(Wij(t))]2 Var[hj(t1)]0 [E(hj(t1))]2 =jVar[Wij(t)]Var[hj(t1)]
    • Var [ W i ⇔ j ( t ) ] = γ t \text{Var}[\mathcal W_{i \Leftrightarrow j}^{(t)}] = \gamma_t Var[Wij(t)]=γt代入:
      其中 ∑ j \sum_j j中一共包含 n t − 1 n_{t-1} nt1项。
      Var [ h i ( t ) ] = ∑ j γ t ⋅ Var [ h j ( t − 1 ) ] = γ t ⋅ ∑ j Var [ h j ( t − 1 ) ] = n t − 1 ⋅ γ t ⋅ Var [ h j ( t − 1 ) ] \begin{aligned} \text{Var}[h_i^{(t)}] & = \sum_j \gamma_t \cdot \text{Var}[h_j^{(t-1)}] \\ & = \gamma_t \cdot \sum_j \text{Var}[h_j^{(t-1)}] \\ & = n_{t-1} \cdot \gamma_t \cdot \text{Var}[h_j^{(t-1)}] \end{aligned} Var[hi(t)]=jγtVar[hj(t1)]=γtjVar[hj(t1)]=nt1γtVar[hj(t1)]
      至此,可以观察到 t t t层输出中 i i i神经元方差 Var [ h i ( t ) ] \text{Var}[h_i^{(t)}] Var[hi(t)]该层输入之间的关联和偏差。如果需要 Var [ h i ( t ) ] \text{Var}[h_i^{(t)}] Var[hi(t)] Var [ h j ( t − 1 ) ] \text{Var}[h_j^{(t-1)}] Var[hj(t1)]相同,我们需要: n t − 1 ⋅ γ t = 1 n_{t-1} \cdot \gamma_t = 1 nt1γt=1
      • 个人分析:最后的推导结果不是很充分。它将 Var [ W i ⇔ j ( t ) ] = γ t \text{Var}[\mathcal W_{i \Leftrightarrow j}^{(t)}]=\gamma_t Var[Wij(t)]=γt描述成了一个‘确定的值’,并且它也将 Var [ h j ( t − 1 ) ] \text{Var}[h_j^{(t-1)}] Var[hj(t1)]描述成了一个‘确定的值’。也就是说,无论 j j j指向哪一个 h j ( t − 1 ) h_j^{(t-1)} hj(t1),它们的方差均相同。否则也不会写出 n t − 1 ⋅ γ t ⋅ Var [ h j ( t − 1 ) ] n_{t-1} \cdot \gamma_t \cdot \text{Var}[h_j^{(t-1)}] nt1γtVar[hj(t1)]的格式。但在推导过程中,我们要保证各神经元服从的特征分布以及神经元内各权重的分布均相互独立。
      • 我们只能去相信————它们确实服从不同分布,只不过权重空间中的各分布均值、方差均相同;特征空间中的各分布均值、方差均相同。如果退一步: Var [ h i ( t ) ] \text{Var}[h_i^{(t)}] Var[hi(t)] Var [ h j ( t − 1 ) ] \text{Var}[h_j^{(t-1)}] Var[hj(t1)]之间至少满足某种线性关系:
        Var [ h i ( t ) ] = ( Var [ W i ⇔ 1 ( t ) ] , Var [ W i ⇔ 2 ( t ) ] , ⋯   , Var [ W i ⇔ j ( t ) ] , ⋯   ) ( Var [ h 1 ( t − 1 ) ] Var [ h 2 ( t − 1 ) ] ⋮ Var [ h j ( t − 1 ) ] ⋮ ) \text{Var}[h_i^{(t)}] = \left(\text{Var}[\mathcal W_{i \Leftrightarrow 1}^{(t)}],\text{Var}[\mathcal W_{i \Leftrightarrow 2}^{(t)}],\cdots,\text{Var}[\mathcal W_{i \Leftrightarrow j}^{(t)}] ,\cdots\right) \begin{pmatrix} \text{Var}[h_1^{(t-1)}] \\ \text{Var}[h_2^{(t-1)}] \\ \vdots \\ \text{Var}[h_j^{(t-1)}] \\ \vdots \end{pmatrix} Var[hi(t)]=(Var[Wi1(t)],Var[Wi2(t)],,Var[Wij(t)],) Var[h1(t1)]Var[h2(t1)]Var[hj(t1)]
  • 此时已经找到了没有激活函数条件下,前馈计算过程中输入与输出之间方差的关联关系。那么反向传播 ? ? ?

    前馈计算过程类似。我们要找的是 ∂ L ∂ h i ( t ) \begin{aligned}\frac{\partial \mathcal L}{\partial h_i^{(t)}}\end{aligned} hi(t)L ∂ L ∂ h j ( t − 1 ) \begin{aligned}\frac{\partial \mathcal L}{\partial h_j^{(t-1)}}\end{aligned} hj(t1)L之间的联系。

    • 依然首先观察均值:根据链式求导法则,关于期望 E [ ∂ L ∂ h j ( t − 1 ) ] \begin{aligned}\mathbb E \left[\frac{\partial \mathcal L}{\partial h_j^{(t-1)}}\right]\end{aligned} E[hj(t1)L]表示如下:
      这里仅以 ∂ L ∂ h i ( t ) \begin{aligned}\frac{\partial \mathcal L}{\partial h_i^{(t)}}\end{aligned} hi(t)L ∂ L ∂ h j ( t − 1 ) \begin{aligned}\frac{\partial \mathcal L}{\partial h_j^{(t-1)}}\end{aligned} hj(t1)L之间的关系为例。
      其中 ∂ L ∂ h i ( t ) \begin{aligned}\frac{\partial \mathcal L}{\partial h_i^{(t)}}\end{aligned} hi(t)L内必然仅包含 W ( t + 1 ) , W ( t + 2 ) , ⋯ \mathcal W^{(t+1)},\mathcal W^{(t+2)},\cdots W(t+1),W(t+2),的权重信息,和本层的 W ( t ) \mathcal W^{(t)} W(t)无关。因而 ∂ L ∂ h i ( t ) \begin{aligned}\frac{\partial \mathcal L}{\partial h_i^{(t)}}\end{aligned} hi(t)L ∂ h i ( t ) ∂ h j ( t − 1 ) \begin{aligned}\frac{\partial h_i^{(t)}}{\partial h_j^{(t-1)}}\end{aligned} hj(t1)hi(t)之间的分布必然相互独立。
      E [ ∂ L ∂ h j ( t − 1 ) ] = E [ ∂ L ∂ h i ( t ) ⋅ ∂ h i ( t ) ∂ h j ( t − 1 ) ] = E [ ∂ L ∂ h i ( t ) ] ⋅ E [ ∂ h i ( t ) ∂ h j ( t − 1 ) ] = E [ ∂ L ∂ h i ( t ) ] ⋅ E [ W i ⇔ j ( t ) ] ⏟ 0 = 0 \begin{aligned} \mathbb E \left[\frac{\partial \mathcal L}{\partial h_j^{(t-1)}}\right] & = \mathbb E \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}} \cdot \frac{\partial h_i^{(t)}}{\partial h_j^{(t-1)}}\right] \\ & = \mathbb E \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}}\right] \cdot \mathbb E \left[\frac{\partial h_i^{(t)}}{\partial h_j^{(t-1)}}\right] \\ & = \mathbb E \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}}\right] \cdot \underbrace{\mathbb E[\mathcal W_{i \Leftrightarrow j}^{(t)}]}_{0} \\ & = 0 \end{aligned} E[hj(t1)L]=E[hi(t)Lhj(t1)hi(t)]=E[hi(t)L]E[hj(t1)hi(t)]=E[hi(t)L]0 E[Wij(t)]=0
    • 观察方差
      Var [ ∂ L ∂ h j ( t − 1 ) ] = ∑ i Var [ W i ⇔ j ( t ) ] ⋅ Var [ ∂ L ∂ h i ( t ) ] = n t ⋅ γ t ⋅ Var [ ∂ L ∂ h i ( t ) ] \begin{aligned} \text{Var} \left[\frac{\partial \mathcal L}{\partial h_j^{(t-1)}}\right] & = \sum_{i} \text{Var} [\mathcal W_{i \Leftrightarrow j}^{(t)}] \cdot \text{Var} \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}}\right] \\ & = n_t \cdot \gamma_t \cdot \text{Var} \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}}\right] \end{aligned} Var[hj(t1)L]=iVar[Wij(t)]Var[hi(t)L]=ntγtVar[hi(t)L]
      同理,我们希望他们的反向传播前后的梯度方差相同,需要实现:
      n t ⋅ γ t = 1 n_t \cdot \gamma_t = 1 ntγt=1

(这一节马上超20000字了,下一节将介绍激活函数在整个过程中的作用)

相关参考:
向量对向量求导
14 数值稳定性 + 模型初始化和激活函数【动手学深度学习v2】12:26

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/518558.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

移动机器人运动规划---基于图搜索的基础知识---配置空间

配置空间 机器人规划的配置空间概念&#xff1a;一个空间包含所有机器人自由度的机器人配置&#xff0c;描述为C-space 机器人配置&#xff1a;表示对机器人上面所以点的位置的描述机器人自由度&#xff1a;规划的时候用最少的坐标数量去表示机器人配置&#xff0c;例如无人机…

NFTScan: 蓝筹 NFT 跌幅严重,如何保持竞争力?

最近的市场大跌影响了 NFT 二级市场&#xff0c;市场情绪冷淡下跌严重&#xff0c;交易量和买家骤然下降&#xff0c;而蓝筹作为市场里的中流砥柱也表现不佳。以 BoerdApeYachtClub 为首的等主流 NFT 价格下跌超过 20%。此外&#xff0c;随着 PFP 的热潮已经过去&#xff0c;市…

【文章学习系列之模型】DLinear

本章内容 文章概况模型流程实验定量结果定性结果其他对比 总结 文章概况 《Are Transformers Effective for Time Series Forecasting?》是2023年发表于AAAI上的一篇文章。该文章以“Transformer在时序预测中是否有效”为论点展开讨论&#xff0c;并提出一种非Transformer系列…

SwiftUI 4.0 中 List 显示层级数据的子视图在展开和收起操作时无动画的解决

问题现象 在 SwiftUI 4.0(iOS 16+)中,一个超简单 List 视图层级子视图的收放操作竟然没有动画,这着实有点让人不爽: 从上图可以看到:我们在点击 List 子项时不仅毫无收放动画可言,而且在展开时还有卡顿,显得非常生硬。 以上代码在目前最新的 iOS 16.4.1(a) 系统中测试…

自动化测试如何做?接口自动化测试框架必备的9个功能,测试老鸟总结...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 当你准备使用一个…

PyQt5桌面应用开发(13):QGraphicsView框架

本文目录 PyQt5桌面应用系列PyQt5 与艺术codeQGraphicsView Framework几何QGraphicsView应用QGraphicsItem应用keyPressEvent QObject cross QThread/thread总计 PyQt5桌面应用系列 PyQt5桌面应用开发&#xff08;1&#xff09;&#xff1a;需求分析 PyQt5桌面应用开发&#xf…

【Linux】进程控制(文件操作符收尾+重定向)

上一回进程与文件系统我们主要看了很多文件描述符的知识 1.如何理解一切皆文件&#xff1f; 每个设备被打开时&#xff0c;OS给每个文件创建一个自己的struct file 里面填充自己的属性以及自己的缓冲区&#xff0c;其中还有函数指针&#xff0c;里面保存函数地址&#xff0c;通…

京东CEO徐雷突然退休,CFO许冉接任成为首位女CEO

我是卢松松&#xff0c;点点上面的头像&#xff0c;欢迎关注我哦&#xff01; 京东集团重大人事变动&#xff0c;京东集团CEO徐雷将退休&#xff0c;才49岁&#xff0c;CFO许冉将成为京东集团新任CEO。京东将迎来首位女CEO。 徐雷在48岁被任命为京东CEO&#xff0c;49岁退休。…

IS220PRTDH1A固态过载继电器不会产生热量以方便跳闸

IS220PRTDH1A固态过载继电器不会产生热量以方便跳闸 一旦触发动作发生&#xff0c;双金属片冷却并自行重塑&#xff0c;自动重新启动电路。电机在过载未消除的情况下重新启动&#xff0c;并会一次又一次地点火和重新启动。&#xff08;假设自动重启 这种类型的继电器也可以配备…

Python的画图模块turtle使用详解

简介&#xff1a;Turtle是Python语言中一个很流行的简单的绘图工具。你可以把它理解为一个小海龟&#xff0c;只听得懂有限的指令。它在一个横轴为x、纵轴为y的坐标系原点&#xff0c;(0,0)位置开始&#xff0c;它根据一组函数指令的控制&#xff0c;在这个平面坐标系中移动&am…

【中级软件设计师】—(下午题)试题三精讲总结(四十二)

【中级软件设计师】—&#xff08;下午题&#xff09;试题三精讲总结&#xff08;四十二&#xff09; 一、关系 二、UML中的图 A包含B&#xff0c;那么A执行操作前必须要先执行B 试题一&#xff08;2021年下半年&#xff09; 试题2&#xff08;2021年上半年&#xff09; 官方…

【C++初阶】类和对象下篇

⭐博客主页&#xff1a;️CS semi主页 ⭐欢迎关注&#xff1a;点赞收藏留言 ⭐系列专栏&#xff1a;C初阶 ⭐代码仓库&#xff1a;C初阶 家人们更新不易&#xff0c;你们的点赞和关注对我而言十分重要&#xff0c;友友们麻烦多多点赞&#xff0b;关注&#xff0c;你们的支持是我…

板材激光切割机切割穿孔时注意的几个问题

激光切割设备广泛应用于钣金、五金制品、钢结构、汽车配件、广告、工艺品等行业&#xff0c;成为加工行业不可缺少的环节。在厚板加工中穿孔时间占很大比重&#xff0c;随着加工板材越来越厚&#xff0c;板材激光切割机切割穿孔也会相应地增加难度。 激光切割机两种常见的穿孔方…

druid 远程命令执行 (CVE-2021-25646)

漏洞原理 该漏洞主要就是根据Jackson解析特性(解析name为""时)会将value值绑定到对象(JavaScriptDimFilter&#xff0c;type为javascript时指定的)的对应参数(config)上&#xff0c;造成JavaScriptDimFilter中function属性中的javascript代码被执行。攻击者可以构造…

Redis高级数据结构HyperLogLog

HyperLogLog(Hyper[ˈhaɪpə(r)])并不是一种新的数据结构(实际类型为字符串类型)&#xff0c;而是一种基数算法,通过HyperLogLog可以利用极小的内存空间完成独立总数的统计&#xff0c;数据集可以是IP、Email、ID等。 如果你负责开发维护一个大型的网站&#xff0c;有一天产品…

pytorch移植华为mindspore记录

因为某个需求&#xff0c;需要把原来pytorch的神经网络移植到华为的mindspore上 这边记录下遇到的坑 附上mindspore的官方教程&#xff1a; https://mindspore.cn/tutorials/zh-CN/r2.0/advanced/compute_graph.html 这边附上需要移植的网络&#xff0c;以tensorflow和pytorch…

LeetCode 链表OJ分享

目录 删除排序链表中的重复元素回文链表剑指Offer 06.从尾到头打印链表复制带随机指针的链表 删除排序链表中的重复元素 链接: link 题目描述&#xff1a; 题目思路&#xff1a; 本题思路使用双指针&#xff0c;以示例二为例如下图&#xff1a; 如果head->val等于next-&…

ihateniggers:针对Python开发者的Windows远控木马分析

背景 墨菲安全实验室在持续监测开源软件仓库中的投毒行为&#xff0c;5 月 9 日起发现 4 个包含 “ihateniggers” 远程控制木马的 Python 包被 nagogygmail.com 邮箱关联的账号发布到 PyPI 仓库&#xff0c;试图针对Windows系统下 Python 开发者进行攻击。木马利用了discord、…

各种顺序表和链表的实现代码

目录 一、什么是线性表 二、顺序表 2.1什么是顺序表 2.2静态顺序表的代码实现 2.3动态顺序表的代码实现 三、链表 3.1什么是链表 3.2不带头单向不循环链表的代码实现 3.3带头双向循环链表的代码实现 四、顺序表和链表的区别 一、什么是线性表 线性表是n个具有相同特性…

(十五)数据编辑——图形编辑①

数据编辑——图形编辑① 数据编辑包括几何数据和属性数据的编辑。几何数据的编辑主要是针对图形的操作&#xff0c;即图形编辑&#xff0c;包括平行线复制、缓冲区生成、镜面反射、图层合并、结点操作、拓扑编辑等。属性编辑主要包括图层要素属性的添加、删除、修改、复制、粘…