机器学习笔记——数值稳定性、模型初始化与激活函数
- 引言
- 数值稳定性——梯度爆炸
- 如何让参数更新更加稳定
- 方式一:乘法变加法
- 方式二:标准化
- 方式三:合理的权重初始化合激活函数
引言
本节将对数值稳定性、模型初始化以及激活函数进行系统介绍。
数值稳定性——梯度爆炸
关于梯度消失的部分,这里不再赘述。详见笔记:机器学习笔记之正则化(六)批标准化(BatchNormalization)
这里提到数值稳定性中的数值是指神经网络反向传播过程中梯度的变化量。在神经网络比较深的情况下,梯度数值非常容易不稳定。
考虑已知一个
d
d
d层的神经网络,其中第
t
t
t隐藏层
(
t
<
d
)
(t < d)
(t<d)的输出
h
t
h_t
ht与
t
−
1
t-1
t−1隐藏层输出
h
t
−
1
h_{t-1}
ht−1之间的关系表示为:
h
t
=
f
t
(
h
t
−
1
)
h_t = f_t(h_{t-1})
ht=ft(ht−1)
关于该神经网络的前馈计算过程表示如下:
需要注意的是,这里的
y
y
y并不是预测结果(因为包含损失函数
L
\mathcal L
L),它仅仅描述一个前馈计算过程。
y
=
L
∘
f
d
∘
f
d
−
1
∘
⋯
∘
f
1
(
x
)
y = \mathcal L \circ f_d \circ f_{d-1} \circ \cdots\circ f_1(x)
y=L∘fd∘fd−1∘⋯∘f1(x)
基于上述运算,损失函数
L
\mathcal L
L关于第
t
t
t层神经网络
h
t
h_t
ht的权重参数
W
t
\mathcal W_t
Wt的梯度可表示为:
∂
L
∂
W
t
=
∂
L
∂
h
d
⋅
∂
h
d
∂
h
d
−
1
⋯
∂
h
t
+
1
∂
h
t
⏟
d
−
t
次矩阵乘法
⋅
∂
h
t
∂
W
t
\frac{\partial \mathcal L}{\partial \mathcal W_t} = \frac{\partial \mathcal L}{\partial h_d} \cdot \underbrace{\frac{\partial h_d}{\partial h_{d-1}} \cdots\frac{\partial h_{t+1}}{\partial h_t}}_{d - t次矩阵乘法} \cdot \frac{\partial h_t}{\partial \mathcal W_t}
∂Wt∂L=∂hd∂L⋅d−t次矩阵乘法
∂hd−1∂hd⋯∂ht∂ht+1⋅∂Wt∂ht
假设第
t
t
t隐藏层函数
f
t
(
h
t
−
1
)
=
σ
(
W
t
⋅
h
t
−
1
)
f_t(h_{t-1}) = \sigma(\mathcal W_t \cdot h_{t-1})
ft(ht−1)=σ(Wt⋅ht−1),其中
σ
\sigma
σ表示激活函数;这里为简化起见,忽略了偏置项
b
b
b;那么关于
t
t
t隐藏层输出
h
t
h_t
ht对
h
t
−
1
h_{t-1}
ht−1的梯度表示为:
∂
h
t
∂
h
t
−
1
=
Diag
[
σ
′
(
W
t
⋅
h
t
−
1
)
]
⏟
∂
h
t
/
∂
Z
t
⋅
W
t
T
⏟
∂
Z
t
/
∂
h
t
Z
t
=
W
t
⋅
h
t
−
1
\frac{\partial h_t}{\partial h_{t-1}} = \underbrace{\text{Diag} \left[\sigma' \left(\mathcal W_t \cdot h_{t-1}\right)\right]}_{\partial h_t /\partial \mathcal Z_t} \cdot \underbrace{\mathcal W_t^T}_{\partial \mathcal Z_t/\partial h_t} \quad \mathcal Z_t = \mathcal W_t \cdot h_{t-1}
∂ht−1∂ht=∂ht/∂Zt
Diag[σ′(Wt⋅ht−1)]⋅∂Zt/∂ht
WtTZt=Wt⋅ht−1
其中
Diag
\text{Diag}
Diag表示对角矩阵——由于
h
t
h_t
ht和
Z
t
\mathcal Z_t
Zt是两个形状相同的向量(激活函数不影响向量形状),向量关于向量的导数是一个多维矩阵(张量
(
Tensor
)
(\text{Tensor})
(Tensor))。这个对角阵的元素的每一行元素均对应向量
W
t
\mathcal W_t
Wt内的某一具体分量。
推荐一篇‘向量求导’的文章,见下方链接。侵删。
至此,关于上述
d
−
t
d-t
d−t次矩阵乘法可表示为如下形式:
∂
h
d
∂
h
t
=
∏
i
=
t
d
−
1
∂
h
i
+
1
∂
h
i
=
∏
i
=
t
d
−
1
Diag
[
σ
′
(
W
i
h
i
−
1
)
]
⋅
W
i
T
\begin{aligned} \frac{\partial h_d}{\partial h_t} & = \prod_{i=t}^{d-1} \frac{\partial h_{i+1}}{\partial h_i} \\ & = \prod_{i=t}^{d-1} \text{Diag}\left[\sigma'(\mathcal W_i h_{i-1})\right] \cdot \mathcal W_i^T \end{aligned}
∂ht∂hd=i=t∏d−1∂hi∂hi+1=i=t∏d−1Diag[σ′(Wihi−1)]⋅WiT
假设构建如下场景:
- 使用
ReLU
\text{ReLU}
ReLU函数作为激活函数,其函数以及导数结果表示为如下形式:
σ ( x ) = max ( 0 , x ) σ ′ ( x ) = { 1 if x > 0 0 Otherwise \sigma(x) = \max(0,x) \quad \sigma'(x) = \begin{cases} 1 \quad \text{if } x > 0 \\ 0 \quad \text{Otherwise} \end{cases} σ(x)=max(0,x)σ′(x)={1if x>00Otherwise - 针对某任务目标(例如极大似然估计),使用梯度上升法作为参数的迭代算法:
W ( t + 1 ) ⇐ W ( t ) + η ⋅ ∂ L ( t ) ∂ W \mathcal W^{(t+1)} \Leftarrow \mathcal W^{(t)} + \eta \cdot \frac{\partial \mathcal L^{(t)}}{\partial \mathcal W} W(t+1)⇐W(t)+η⋅∂W∂L(t) - 由于样本特征/权重初始化的问题,导致权重结果各分量 > 1 >1 >1。
至此。观察梯度
∂
h
d
∂
h
t
\begin{aligned} \frac{\partial h_d}{\partial h_t}\end{aligned}
∂ht∂hd:
根据
ReLU
\text{ReLU}
ReLU函数的导数表达,那么矩阵
Diag
[
σ
′
(
W
i
⋅
h
i
−
1
)
]
\text{Diag} [\sigma'(\mathcal W_i \cdot h_{i-1})]
Diag[σ′(Wi⋅hi−1)]必然是一个由
0
,
1
0,1
0,1元素构成的多维矩阵。并且这些
0
0
0分量对应的权重分量
W
i
(
k
)
T
∈
W
i
T
\mathcal W_{i(k)}^T \in \mathcal W_i^T
Wi(k)T∈WiT的梯度结果为
0
0
0。
∂
h
d
∂
h
t
=
∏
i
=
t
d
−
1
[
σ
′
(
W
i
⋅
h
i
−
1
)
]
⏟
0
,
1
元素构成
⋅
∏
i
=
t
d
−
1
W
i
T
\frac{\partial h_d}{\partial h_t} = \prod_{i=t}^{d-1} \underbrace{[\sigma'(\mathcal W_i \cdot h_{i-1})]}_{0,1元素构成} \cdot \prod_{i=t}^{d-1} \mathcal W_i^T
∂ht∂hd=i=t∏d−10,1元素构成
[σ′(Wi⋅hi−1)]⋅i=t∏d−1WiT
而最终的梯度结果表示为没有被置 0 0 0的权重分量的乘积结果。由于这些权重分量均大于 1 1 1,并且 ReLU \text{ReLU} ReLU在大于 0 0 0部分的导数为 1 1 1。也就是说,这些大于 0 0 0的权重分量在 ReLU \text{ReLU} ReLU激活函数条件下,其梯度不会造成削减。最终导致 ∏ i = t d − 1 W i T \prod_{i=t}^{d-1} \mathcal W_i^T ∏i=td−1WiT在连乘过程中越来越大。
从而导致 ∂ L ∂ W \begin{aligned}\frac{\partial \mathcal L}{\partial \mathcal W}\end{aligned} ∂W∂L越来越大,最终导致 W ( t + 1 ) \mathcal W^{(t+1)} W(t+1)在累加过程中越来越大,导致梯度爆炸现象。
小插曲:关于对角阵 Diag [ σ ′ ( W t ⋅ h t − 1 ) ] \text{Diag}[\sigma'(\mathcal W_t \cdot h_{t-1})] Diag[σ′(Wt⋅ht−1)]的解释
实际上,这部分在其他描述反向传播时也都描述过,只不过这次更详细一些,针对‘向量对向量求偏导’进行具体描述。
为了书写方便,我们将第
t
t
t隐藏层的输入和输出由原来的
h
t
−
1
,
h
t
h_{t-1},h_{t}
ht−1,ht改为
h
(
t
−
1
)
,
h
(
t
)
h^{(t-1)},h^{(t)}
h(t−1),h(t)。
已知某神经网络第
t
t
t隐藏层的前馈计算图表示如下:
由图中可知,向量
h
(
t
−
1
)
=
(
h
1
(
t
−
1
)
,
h
2
(
t
−
1
)
,
⋯
,
h
m
(
t
−
1
)
)
m
×
1
T
h^{(t-1)} = \left(h_1^{(t-1)},h_2^{(t-1)},\cdots,h_m^{(t-1)}\right)^T_{m \times 1}
h(t−1)=(h1(t−1),h2(t−1),⋯,hm(t−1))m×1T是该层的输入;
Z
(
t
)
=
(
Z
1
(
t
)
,
Z
2
(
t
)
,
⋯
,
Z
n
(
t
)
)
n
×
1
T
\mathcal Z^{(t)} = \left(\mathcal Z_{1}^{(t)},\mathcal Z_2^{(t)},\cdots,\mathcal Z_{n}^{(t)}\right)_{n \times 1}^T
Z(t)=(Z1(t),Z2(t),⋯,Zn(t))n×1T表示线性计算的输出;
h
(
t
)
=
(
h
1
(
t
)
,
h
2
(
t
)
,
⋯
,
h
n
(
t
)
)
n
×
1
T
h^{(t)} = \left(h_1^{(t)},h_2^{(t)},\cdots,h_n^{(t)}\right)_{n \times 1}^T
h(t)=(h1(t),h2(t),⋯,hn(t))n×1T表示该隐藏层的输出。其前馈计算过程表示如下:
h
(
t
)
=
ReLU
(
[
W
(
t
)
]
T
h
(
t
−
1
)
⏟
Z
(
t
)
)
h^{(t)} = \text{ReLU} \left(\underbrace{[\mathcal W^{(t)}]^T h^{(t-1)}}_{\mathcal Z^{(t)}}\right)
h(t)=ReLU
Z(t)
[W(t)]Th(t−1)
其中权重矩阵
W
(
t
)
\mathcal W^{(t)}
W(t)是一个
m
×
n
m \times n
m×n格式的矩阵:
W
(
t
)
=
[
W
1
⇔
1
(
t
)
,
W
1
⇔
2
(
t
)
,
⋯
,
W
1
⇔
n
(
t
)
W
2
⇔
1
(
t
)
,
W
2
⇔
2
(
t
)
,
⋯
,
W
2
⇔
n
(
t
)
⋮
W
m
⇔
1
(
t
)
,
W
m
⇔
2
(
t
)
,
⋯
,
W
m
⇔
n
(
t
)
]
m
×
n
\mathcal W^{(t)} = \begin{bmatrix} \mathcal W_{1 \Leftrightarrow 1}^{(t)},\mathcal W_{1 \Leftrightarrow 2}^{(t)},\cdots,\mathcal W_{1 \Leftrightarrow n}^{(t)} \\ \mathcal W_{2 \Leftrightarrow 1}^{(t)},\mathcal W_{2 \Leftrightarrow 2}^{(t)},\cdots,\mathcal W_{2 \Leftrightarrow n}^{(t)} \\ \vdots \\ \mathcal W_{m \Leftrightarrow 1}^{(t)},\mathcal W_{m \Leftrightarrow 2}^{(t)},\cdots,\mathcal W_{m \Leftrightarrow n}^{(t)} \\ \end{bmatrix}_{m \times n}
W(t)=
W1⇔1(t),W1⇔2(t),⋯,W1⇔n(t)W2⇔1(t),W2⇔2(t),⋯,W2⇔n(t)⋮Wm⇔1(t),Wm⇔2(t),⋯,Wm⇔n(t)
m×n
那么线性计算输出
Z
(
t
)
\mathcal Z^{(t)}
Z(t)可表示为:
Z
(
t
)
=
[
Z
1
(
t
)
Z
2
(
t
)
⋮
Z
n
(
t
)
]
n
×
1
=
[
∑
j
=
1
m
W
j
⇔
1
⋅
h
j
(
t
−
1
)
∑
j
=
1
m
W
j
⇔
2
⋅
h
j
(
t
−
1
)
⋮
∑
j
=
1
m
W
j
⇔
n
⋅
h
j
(
t
−
1
)
]
n
×
1
\mathcal Z^{(t)} = \begin{bmatrix} \mathcal Z_1^{(t)} \\ \mathcal Z_2^{(t)} \\ \vdots \\ \mathcal Z_n^{(t)} \end{bmatrix}_{n \times 1} = \begin{bmatrix} \begin{aligned} \sum_{j=1}^m \mathcal W_{j \Leftrightarrow 1} & \cdot h_j^{(t-1)} \\ \sum_{j=1}^m \mathcal W_{j \Leftrightarrow 2} & \cdot h_j^{(t-1)} \\ & \vdots \\ \sum_{j=1}^m \mathcal W_{j \Leftrightarrow n} & \cdot h_j^{(t-1)} \\ \end{aligned} \end{bmatrix}_{n \times 1}
Z(t)=
Z1(t)Z2(t)⋮Zn(t)
n×1=
j=1∑mWj⇔1j=1∑mWj⇔2j=1∑mWj⇔n⋅hj(t−1)⋅hj(t−1)⋮⋅hj(t−1)
n×1
最终该层输出
h
(
t
)
h^{(t)}
h(t)可表示为:
h
(
t
)
=
[
h
1
(
t
)
h
2
(
t
)
⋮
h
n
(
t
)
]
n
×
1
=
[
ReLU
(
Z
1
(
t
)
)
ReLU
(
Z
2
(
t
)
)
⋮
ReLU
(
Z
n
(
t
)
)
]
n
×
1
h^{(t)} = \begin{bmatrix} h_1^{(t)} \\ h_2^{(t)} \\ \vdots \\ h_n^{(t)} \\ \end{bmatrix}_{n \times 1} = \begin{bmatrix} \text{ReLU}(\mathcal Z_1^{(t)}) \\ \text{ReLU}(\mathcal Z_2^{(t)}) \\ \vdots \\ \text{ReLU}(\mathcal Z_n^{(t)}) \\ \end{bmatrix}_{n \times 1}
h(t)=
h1(t)h2(t)⋮hn(t)
n×1=
ReLU(Z1(t))ReLU(Z2(t))⋮ReLU(Zn(t))
n×1
至此,观察该部分函数的反向传播中
h
(
t
)
h^{(t)}
h(t)关于
Z
(
t
)
\mathcal Z^{(t)}
Z(t)的梯度
∂
h
(
t
)
∂
Z
(
t
)
\begin{aligned}\frac{\partial h^{(t)}}{\partial \mathcal Z^{(t)}}\end{aligned}
∂Z(t)∂h(t):
很明显,这是一个
n
×
n
×
1
n \times n \times 1
n×n×1的
3
3
3维张量。
∂
h
(
t
)
∂
Z
(
t
)
=
∂
[
ReLU
(
Z
1
(
t
)
)
ReLU
(
Z
2
(
t
)
)
⋮
ReLU
(
Z
n
(
t
)
)
]
n
×
1
∂
[
Z
1
(
t
)
Z
2
(
t
)
⋮
Z
n
(
t
)
]
n
×
1
=
[
[
∂
ReLU
(
Z
1
(
t
)
)
∂
Z
1
(
t
)
⋮
∂
ReLU
(
Z
1
(
t
)
)
∂
Z
n
(
t
)
]
n
×
1
⋮
[
∂
ReLU
(
Z
n
(
t
)
)
∂
Z
1
(
t
)
⋮
∂
ReLU
(
Z
n
(
t
)
)
∂
Z
n
(
t
)
]
n
×
1
]
n
×
n
×
1
\frac{\partial h^{(t)}}{\partial \mathcal Z^{(t)}} = \frac{\partial \begin{bmatrix} \text{ReLU}(\mathcal Z_1^{(t)}) \\ \text{ReLU}(\mathcal Z_2^{(t)}) \\ \vdots \\ \text{ReLU}(\mathcal Z_n^{(t)}) \\ \end{bmatrix}_{n \times 1}}{\partial \begin{bmatrix} \mathcal Z_1^{(t)} \\ \mathcal Z_2^{(t)} \\ \vdots \\ \mathcal Z_n^{(t)} \\ \end{bmatrix}_{n \times 1}} = \begin{bmatrix} \begin{bmatrix} \begin{aligned} \frac{\partial \text{ReLU}(\mathcal Z_1^{(t)})}{\partial \mathcal Z_1^{(t)}} \end{aligned} \\ \vdots \\ \begin{aligned} \frac{\partial \text{ReLU}(\mathcal Z_1^{(t)})}{\partial \mathcal Z_n^{(t)}} \end{aligned} \end{bmatrix}_{n \times 1} \\ \vdots \\ \begin{bmatrix} \begin{aligned} \frac{\partial \text{ReLU}(\mathcal Z_n^{(t)})}{\partial \mathcal Z_1^{(t)}} \end{aligned} \\ \vdots \\ \begin{aligned} \frac{\partial \text{ReLU}(\mathcal Z_n^{(t)})}{\partial \mathcal Z_n^{(t)}} \end{aligned} \\ \end{bmatrix}_{n \times 1} \\ \end{bmatrix}_{ n \times n \times 1}
∂Z(t)∂h(t)=∂
Z1(t)Z2(t)⋮Zn(t)
n×1∂
ReLU(Z1(t))ReLU(Z2(t))⋮ReLU(Zn(t))
n×1=
∂Z1(t)∂ReLU(Z1(t))⋮∂Zn(t)∂ReLU(Z1(t))
n×1⋮
∂Z1(t)∂ReLU(Zn(t))⋮∂Zn(t)∂ReLU(Zn(t))
n×1
n×n×1
如果去掉最后一个多余维度,那么得到的结果将是一个方阵:
∂
h
(
t
)
∂
Z
(
t
)
⟹
Squeeze
[
∂
ReLU
(
Z
1
(
t
)
)
∂
Z
1
(
t
)
,
∂
ReLU
(
Z
1
(
t
)
)
∂
Z
2
(
t
)
,
⋯
,
∂
ReLU
(
Z
1
(
t
)
)
∂
Z
n
(
t
)
∂
ReLU
(
Z
2
(
t
)
)
∂
Z
1
(
t
)
,
∂
ReLU
(
Z
2
(
t
)
)
∂
Z
2
(
t
)
,
⋯
,
∂
ReLU
(
Z
2
(
t
)
)
∂
Z
n
(
t
)
⋮
∂
ReLU
(
Z
n
(
t
)
)
∂
Z
1
(
t
)
,
∂
ReLU
(
Z
n
(
t
)
)
∂
Z
2
(
t
)
,
⋯
,
∂
ReLU
(
Z
n
(
t
)
)
∂
Z
n
(
t
)
]
n
×
n
\frac{\partial h^{(t)}}{\partial \mathcal Z^{(t)}} \overset{\text{Squeeze}}{\Longrightarrow} \begin{bmatrix} \begin{aligned} \frac{\partial \text{ReLU}(\mathcal Z_1^{(t)})}{\partial \mathcal Z_1^{(t)}},\frac{\partial \text{ReLU}(\mathcal Z_1^{(t)})}{\partial \mathcal Z_2^{(t)}},\cdots,\frac{\partial \text{ReLU}(\mathcal Z_1^{(t)})}{\partial \mathcal Z_{n}^{(t)}} \end{aligned} \\ \begin{aligned} \frac{\partial \text{ReLU}(\mathcal Z_2^{(t)})}{\partial \mathcal Z_1^{(t)}},\frac{\partial \text{ReLU}(\mathcal Z_2^{(t)})}{\partial \mathcal Z_2^{(t)}},\cdots,\frac{\partial \text{ReLU}(\mathcal Z_2^{(t)})}{\partial \mathcal Z_{n}^{(t)}} \end{aligned} \\ \vdots \\ \begin{aligned} \frac{\partial \text{ReLU}(\mathcal Z_n^{(t)})}{\partial \mathcal Z_1^{(t)}},\frac{\partial \text{ReLU}(\mathcal Z_n^{(t)})}{\partial \mathcal Z_2^{(t)}},\cdots,\frac{\partial \text{ReLU}(\mathcal Z_n^{(t)})}{\partial \mathcal Z_{n}^{(t)}} \end{aligned} \\ \end{bmatrix}_{n \times n}
∂Z(t)∂h(t)⟹Squeeze
∂Z1(t)∂ReLU(Z1(t)),∂Z2(t)∂ReLU(Z1(t)),⋯,∂Zn(t)∂ReLU(Z1(t))∂Z1(t)∂ReLU(Z2(t)),∂Z2(t)∂ReLU(Z2(t)),⋯,∂Zn(t)∂ReLU(Z2(t))⋮∂Z1(t)∂ReLU(Zn(t)),∂Z2(t)∂ReLU(Zn(t)),⋯,∂Zn(t)∂ReLU(Zn(t))
n×n
但由于除了对角线上的项,其余项的偏导数结果均是
0
0
0,因为
ReLU
(
⋅
)
\text{ReLU}(\cdot)
ReLU(⋅)函数中的变量与被求偏导的变量不匹配。最终由如下结果:
不匹配就相当于对某常数求偏导。
∂
h
(
t
)
∂
Z
(
t
)
=
[
∂
ReLU
(
Z
1
(
t
)
)
∂
Z
1
(
t
)
,
0
,
⋯
,
0
0
,
∂
ReLU
(
Z
2
(
t
)
)
∂
Z
2
(
t
)
,
⋯
,
0
⋮
0
,
0
,
⋯
,
∂
ReLU
(
Z
n
(
t
)
)
∂
Z
n
(
t
)
]
n
×
n
⇒
Diag
[
σ
′
(
W
t
⋅
h
t
−
1
)
]
\frac{\partial h^{(t)}}{\partial \mathcal Z^{(t)}} = \begin{bmatrix} \begin{aligned} \frac{\partial \text{ReLU}(\mathcal Z_1^{(t)})}{\partial \mathcal Z_1^{(t)}} ,\quad 0,\cdots, \quad 0 \\ 0\quad, \frac{\partial \text{ReLU}(\mathcal Z_2^{(t)})}{\partial \mathcal Z_2^{(t)}}, \cdots,\quad 0 \\ \end{aligned} \\ \vdots \\ \begin{aligned} 0 \quad ,0 \quad ,\cdots,\frac{\partial \text{ReLU}(\mathcal Z_n^{(t)})}{\partial \mathcal Z_n^{(t)}} \end{aligned} \end{bmatrix}_{n \times n} \Rightarrow \text{Diag} [\sigma'(\mathcal W_t \cdot h_{t-1})]
∂Z(t)∂h(t)=
∂Z1(t)∂ReLU(Z1(t)),0,⋯,00,∂Z2(t)∂ReLU(Z2(t)),⋯,0⋮0,0,⋯,∂Zn(t)∂ReLU(Zn(t))
n×n⇒Diag[σ′(Wt⋅ht−1)]
根据
ReLU
\text{ReLU}
ReLU自身性质,其导数结果只有
{
0
,
1
}
\{0,1\}
{0,1}两种选项:
∂
ReLU
(
Z
j
(
t
)
)
∂
Z
j
(
t
)
∈
{
0
,
1
}
j
=
1
,
2
,
⋯
,
n
\frac{\partial \text{ReLU}(\mathcal Z_j^{(t)})}{\partial \mathcal Z_j^{(t)}} \in \{0,1\} \quad j=1,2,\cdots,n
∂Zj(t)∂ReLU(Zj(t))∈{0,1}j=1,2,⋯,n
如果前馈计算过程中
h
(
t
)
h^{(t)}
h(t)的某分量
h
j
(
t
)
=
0
h_j^{(t)} =0
hj(t)=0,其反向传播中梯度结果
∂
ReLU
(
Z
j
(
t
)
)
∂
Z
j
(
t
)
=
0
\begin{aligned}\frac{\partial \text{ReLU}(\mathcal Z_j^{(t)})}{\partial \mathcal Z_j^{(t)}} =0\end{aligned}
∂Zj(t)∂ReLU(Zj(t))=0,导致对角矩阵
∂
h
(
t
)
∂
Z
(
t
)
\begin{aligned}\frac{\partial h^{(t)}}{\partial \mathcal Z^{(t)}}\end{aligned}
∂Z(t)∂h(t)中第
j
j
j行全部为
0
0
0,最终导致与该行执行线性计算的
W
\mathcal W
W不会得到任何梯度,也就是该神经元失活。
批标准化(
Batch Normalization
\text{Batch Normalization}
Batch Normalization)中的错误描述已修改。无论是
Dropout
\text{Dropout}
Dropout还是
ReLU
\text{ReLU}
ReLU激活函数,它们目的都是将某个神经元‘失活’。
梯度爆炸的问题
-
参数结果超过其值域:
在使用 GPU \text{GPU} GPU加速过程中,通常将其设置为 16 16 16位浮点数类型。但其值域范围较小,如果参数超过了该区间,该参数就变成了无穷大 ( infinity ) (\text{infinity}) (infinity)。基于该参数的预测过程也会存在诸多问题。
-
对学习率敏感/对学习率要求极高:
如果权重没有达到无穷大,即便它可以执行梯度迭代,由于该梯度数值依然很大,这导致对学习率 ( Learning Rate ) (\text{Learning Rate}) (Learning Rate)的调整十分麻烦:
- 如果学习率数值较大,意味着迭代过程中有较大的梯度结果累加在权重参数中,随着迭代的增加,最终也可能出现参数结果变成无穷大的情况:
∏ i = t d − 1 W i T ⇑ ↔ W ( t + 1 ) ⇑ = W t + η ⇑ ⋅ ∂ L ∂ W \prod_{i=t}^{d-1} \mathcal W_i^T \Uparrow \leftrightarrow \mathcal W^{(t+1)} \Uparrow = \mathcal W^{t} + \eta \Uparrow \cdot \frac{\partial \mathcal L}{\partial \mathcal W} i=t∏d−1WiT⇑↔W(t+1)⇑=Wt+η⇑⋅∂W∂L - 如果学习率较小,虽然能够短时间使权重增长不剧烈,但更有可能出现损失函数不收敛的情况。从而使数据训练过程没有进展;
- 基于上述两种情况的描述,我们需要在训练过程中不断调整学习率。
- 如果学习率数值较大,意味着迭代过程中有较大的梯度结果累加在权重参数中,随着迭代的增加,最终也可能出现参数结果变成无穷大的情况:
如何让参数更新更加稳定
根据上面关于梯度的描述,我们更希望:让梯度结果在合理的范围内。
方式一:乘法变加法
典型例子就是残差网络 ( ResNet ) (\text{ResNet}) (ResNet)。我们比对了残差网络和常规网络的反向传播过程:
- 常规网络某层输出
x
′
x'
x′与输入
x
x
x之间的关系以及梯度结果表示为:
这里以‘全连接神经网络’为例。
{ x ′ = F [ G ( x ) ] = σ [ W T G ( x ) + b ] ∂ x ′ ∂ x = { σ ′ [ W T G ( x ) + b ] ⋅ W } ⋅ ∂ G ( x ) ∂ x \begin{cases} x' = \mathcal F[\mathcal G (x)] = \sigma[\mathcal W^T\mathcal G(x) + b] \\ \begin{aligned}\frac{\partial x'}{\partial x} = \{\sigma'[\mathcal W^T\mathcal G(x) + b] \cdot \mathcal W\} \cdot \frac{\partial \mathcal G(x)}{\partial x}\end{aligned} \end{cases} ⎩ ⎨ ⎧x′=F[G(x)]=σ[WTG(x)+b]∂x∂x′={σ′[WTG(x)+b]⋅W}⋅∂x∂G(x) - 残差网络某层输出
x
′
x'
x′与输入
x
x
x之间的关系以及梯度结果表示为:
{ x ′ = F [ G ( x ) ] + G ( x ) ∂ x ′ ∂ x = { 1 + σ ′ [ W T G ( x ) + b ] ⋅ W } ⋅ ∂ G ( x ) ∂ x = ∂ G ( x ) ∂ x + { σ ′ [ W T G ( x ) + b ] ⋅ W } ⋅ ∂ G ( x ) ∂ x \begin{cases} x' = \mathcal F[\mathcal G(x)] + \mathcal G(x) \\ \begin{aligned} \frac{\partial x'}{\partial x} & = \{1 + \sigma'[\mathcal W^T\mathcal G(x) + b] \cdot \mathcal W\} \cdot \frac{\partial \mathcal G(x)}{\partial x} \\ & = \frac{\partial \mathcal G(x)}{\partial x} + \{\sigma'[\mathcal W^T\mathcal G(x) + b] \cdot \mathcal W\} \cdot \frac{\partial \mathcal G(x)}{\partial x} \end{aligned} \end{cases} ⎩ ⎨ ⎧x′=F[G(x)]+G(x)∂x∂x′={1+σ′[WTG(x)+b]⋅W}⋅∂x∂G(x)=∂x∂G(x)+{σ′[WTG(x)+b]⋅W}⋅∂x∂G(x)
从梯度消失的角度观察,这种操作相比于常规网络总会有梯度向更深的隐藏层中传播。也就是说:当处于较深的隐藏层中时,此时的残差部分 { σ ′ [ W T G ( x ) + b ] ⋅ W } ⋅ ∂ G ( x ) ∂ x \begin{aligned}\{\sigma'[\mathcal W^T\mathcal G(x) + b] \cdot \mathcal W\} \cdot \frac{\partial \mathcal G(x)}{\partial x}\end{aligned} {σ′[WTG(x)+b]⋅W}⋅∂x∂G(x)确实存在梯度消失现象(训练残差的 W \mathcal W W几乎没有梯度更新),但数据特征自身梯度 ∂ G ( x ) ∂ x \begin{aligned}\frac{\partial \mathcal G(x)}{\partial x}\end{aligned} ∂x∂G(x)会对该层的梯度信息进行补充。隐藏层越深, ∂ G ( x ) ∂ x \begin{aligned}\frac{\partial \mathcal G(x)}{\partial x}\end{aligned} ∂x∂G(x)占据的比重越大。
关于梯度爆炸,需要声明的点:常规网络中的
W
\mathcal W
W和残差网络中的
W
\mathcal W
W针对的不是同一个特征:
个人理解。
- 残差网络中的 W \mathcal W W是针对当前层输出与上一层输出之间差别的残差特征;
- 常规网络中的
W
\mathcal W
W是仅针对当前层输出的抽象特征。
可以理解为:常规网络中的
W \mathcal W W权力更大,整个层的输出特征都需要它优化;而残差残差网络中
W \mathcal W W仅描述差异性,其权力更小。
因此,如果基于梯度上升的算法处理任务,残差网络中的
W
\mathcal W
W提升更缓。其次,它的梯度描述过程可以通过分配律描述成连加的形式:
∏
i
=
t
d
−
1
{
1
+
σ
′
[
W
T
G
(
x
)
+
b
]
⋅
W
}
⋅
∂
G
(
x
)
∂
x
\prod_{i=t}^{d-1} \{1 + \sigma'[\mathcal W^T\mathcal G(x) + b] \cdot \mathcal W\} \cdot \frac{\partial \mathcal G(x)}{\partial x}
i=t∏d−1{1+σ′[WTG(x)+b]⋅W}⋅∂x∂G(x)
关于梯度爆炸部分,欢迎小伙伴批评指正。
另一种基于乘法变加法的模型就是以 LSTM \text{LSTM} LSTM为代表的针对序列特征建模的网络。这里挖一个坑,在后续部分进行介绍。
方式二:标准化
最典型的操作就是批标准化 ( Batch Normalization,BN ) (\text{Batch Normalization,BN}) (Batch Normalization,BN)。其核心将梯度空间均值为 0 0 0,方差为 1 1 1的分布中,在梯度优化过程中,各位置的优化代价均相同。
方式三:合理的权重初始化合激活函数
在训练模型之前,要在权重空间中随机初始化参数。但这个初始化是有学问的。假设参数的初始化不优秀,可能会导致随机初始化的参数点在初始的反向传播过程中,梯度过大/过小,这样都会使梯度不稳定。
换一个角度思考:如果随机参数点初始化在损失函数的等高线中远离损失函数最优解区域的情况下,该位置的损失函数结果可能很复杂。
因此,我们希望寻找一个关于参数初始化的合理值区间,并在该区间内随机初始参数。关于一些结构简单的网络,可以使用高斯分布(例如:
N
(
0
,
0.01
)
\mathcal N(0,0.01)
N(0,0.01))作为这个合理值区间,但不能保证深层网络中也存在好的效果。
深层网络意味着权重参数更多,权重空间更加复杂。简单分布中随机可能并不会
Hold
\text{Hold}
Hold住这个权重空间,相当于随机了。
下意识可以想到:批标准化。而批标准化的思想在于:如果将每层的输出以及梯度均看做随机变量,无论在前馈计算还是反向传播过程中,我们均希望他们的均值和方差保持一致:
-
对特征空间的假设:记第 t t t个隐藏层第 i i i个神经元的输出结果为 h i ( t ) h_i^{(t)} hi(t),那么它的前馈计算的均值和方差表示为:
个人理解:并不是描述
h i ( t ) h_i^{(t)} hi(t)这个值的均值和方差————如果某个值
h i ( t ) h_i^{(t)} hi(t)的均值是
0 0 0,那么这个值
h i ( t ) = 0 h_i^{(t)} = 0 hi(t)=0;而是说值
h i ( t ) h_i^{(t)} hi(t)是从
E [ h i ( t ) ] = 0 , Var [ h i ( t ) ] = a \mathbb E[h_i^{(t)}] = 0,\text{Var}[h_i^{(t)}] = a E[hi(t)]=0,Var[hi(t)]=a这个分布中采集出的结果。
E [ h i ( t ) ] = 0 Var [ h i ( t ) ] = a \mathbb E[h_i^{(t)}] = 0 \quad \text{Var}[h_i^{(t)}] = a E[hi(t)]=0Var[hi(t)]=a
同理,它的反向传播梯度希望能够表示为:
其中
L \mathcal L L表示任务的损失函数。
E [ ∂ L ∂ h i ( t ) ] = 0 Var [ ∂ L ∂ h i ( t ) ] = b \begin{aligned} \mathbb E \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}}\right] = 0 \quad \text{Var} \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}}\right] = b \end{aligned} E[∂hi(t)∂L]=0Var[∂hi(t)∂L]=b -
继续对权重空间进行假设:如果第 t t t个隐藏层中各神经元内的权重 W i ⇔ j ( t ) \mathcal W_{i \Leftrightarrow j}^{(t)} Wi⇔j(t)均独立同分布 ( Independent Identically Distribution,IID ) (\text{Independent Identically Distribution,IID}) (Independent Identically Distribution,IID),并且权重的均值和方差表示为:
E [ W i ⇔ j ( t ) ] = 0 Var [ W i ⇔ j ( t ) ] = γ t \mathbb E[\mathcal W_{i \Leftrightarrow j}^{(t)}] = 0 \quad \text{Var}[\mathcal W_{i \Leftrightarrow j}^{(t)}] = \gamma_t E[Wi⇔j(t)]=0Var[Wi⇔j(t)]=γt
由于该层输入 h i ( t − 1 ) h_i^{(t-1)} hi(t−1)与 W i ⇔ j ( t ) \mathcal W_{i \Leftrightarrow j}^{(t)} Wi⇔j(t)不属于同一类型分布(一个是特征空间的样本,一个是权重空间样本
),假设这两类空间没有关联,从而有:
h i ( t − 1 ) ⊥ W i ⇔ j ( t ) h_i^{(t-1)} \perp \mathcal W_{i \Leftrightarrow j}^{(t)} hi(t−1)⊥Wi⇔j(t) -
假设该层没有激活函数,只有线性计算部分:
h ( t ) = [ W ( t ) ] T ⋅ h ( t − 1 ) h^{(t)} = [\mathcal W^{(t)}]^T \cdot h^{(t-1)} h(t)=[W(t)]T⋅h(t−1)
其中权重 W ( t ) \mathcal W^{(t)} W(t)是一个 n ( t ) × n ( t − 1 ) n^{(t)} \times n^{(t-1)} n(t)×n(t−1)的矩阵: W ( t ) ∈ R n ( t ) × n ( t − 1 ) \mathcal W^{(t)} \in \mathbb R^{n^{(t)} \times n^{(t-1)}} W(t)∈Rn(t)×n(t−1)。其中 n ( t ) , n ( t − 1 ) n^{(t)},n^{(t-1)} n(t),n(t−1)分别表示 t , t − 1 t,t-1 t,t−1层内神经元数量。
至此,第 t t t层第 i i i个神经元输出 h i ( t ) h_i^{(t)} hi(t)的均值可表示为:
这里使用到了期望的加法性质。并且在乘积的期望
E [ W i ⇔ j ( t ) ⋅ h j ( t − 1 ) ] \mathbb E \left[\mathcal W_{i \Leftrightarrow j}^{(t)} \cdot h_j^{(t-1)}\right] E[Wi⇔j(t)⋅hj(t−1)]中,由于
W i ⇔ j ( t ) , h j ( t − 1 ) \mathcal W_{i \Leftrightarrow j}^{(t)},h_j^{(t-1)} Wi⇔j(t),hj(t−1)分别服从于不同分布,并且分布之间相互独立,那么该期望可分解成
E [ W i ⇔ j ( t ) ] ⋅ E [ h j ( t − 1 ) ] \mathbb E \left[\mathcal W_{i \Leftrightarrow j}^{(t)}\right] \cdot \mathbb E \left[h_j^{(t-1)}\right] E[Wi⇔j(t)]⋅E[hj(t−1)]的形式。
E [ h i ( t ) ] = E [ ∑ j W i ⇔ j ( t ) ⋅ h j ( t − 1 ) ] = ∑ j E [ W i ⇔ j ( t ) ] ⋅ E [ h j ( t − 1 ) ] = 0 \begin{aligned} \mathbb E[h_i^{(t)}] & = \mathbb E \left[\sum_{j} \mathcal W_{i \Leftrightarrow j}^{(t)} \cdot h_j^{(t-1)}\right] = \sum_{j} \mathbb E[\mathcal W_{i \Leftrightarrow j}^{(t)}] \cdot \mathbb E[h_j^{(t-1)}] = 0 \\ \end{aligned} E[hi(t)]=E[j∑Wi⇔j(t)⋅hj(t−1)]=j∑E[Wi⇔j(t)]⋅E[hj(t−1)]=0
关于第 t t t层第 i i i个神经元输出 h j ( t ) h_j^{(t)} hj(t)的方差可表示为:
Var [ h i ( t ) ] = E [ ( h i ( t ) ) 2 ] − { E [ h i ( t ) ] ⏟ 0 } 2 = E [ ( ∑ j W i ⇔ j ( t ) ⋅ h j ( t − 1 ) ) 2 ] \begin{aligned} \text{Var}[h_i^{(t)}] & = \mathbb E [(h_i^{(t)})^2] - \{\underbrace{\mathbb E[h_i^{(t)}]}_{0}\}^2 \\ & = \mathbb E \left[ \left(\sum_{j} \mathcal W_{i \Leftrightarrow j}^{(t)} \cdot h_j^{(t-1)}\right)^2\right] \end{aligned} Var[hi(t)]=E[(hi(t))2]−{0 E[hi(t)]}2=E (j∑Wi⇔j(t)⋅hj(t−1))2 - 将
Var
[
h
i
(
t
)
]
\text{Var}[h_i^{(t)}]
Var[hi(t)]展开,有:
Var [ h i ( t ) ] = E [ ∑ j ( W i ⇔ j ( t ) ) 2 ⋅ ( h j ( t − 1 ) ) 2 + ∑ j ≠ k W i ⇔ j ( t ) ⋅ W i ⇔ k ( t ) ⋅ h j ( t − 1 ) ⋅ h k ( t − 1 ) ] \begin{aligned} \text{Var}[h_i^{(t)}] & = \mathbb E \left[\sum_j \left(\mathcal W_{i \Leftrightarrow j}^{(t)}\right)^2 \cdot \left(h_j^{(t-1)}\right)^2 + \sum_{j \neq k} \mathcal W_{i \Leftrightarrow j}^{(t)} \cdot \mathcal W_{i \Leftrightarrow k}^{(t)} \cdot h_j^{(t-1)} \cdot h_k^{(t-1)}\right] \end{aligned} Var[hi(t)]=E j∑(Wi⇔j(t))2⋅(hj(t−1))2+j=k∑Wi⇔j(t)⋅Wi⇔k(t)⋅hj(t−1)⋅hk(t−1) - 关于期望内第二项,可以表示成:
这里依然用到数学期望的加法性质。其中
W i ⇔ j ( t ) , W i ⇔ k ( t ) \mathcal W_{i \Leftrightarrow j}^{(t)},\mathcal W_{i \Leftrightarrow k}^{(t)} Wi⇔j(t),Wi⇔k(t)必然是不同神经元中的权重,而不同神经元权重均服从它们各自对应的权重空间分布。同理,
h j ( t − 1 ) , h k ( t − 1 ) h_j^{(t-1)},h_k^{(t-1)} hj(t−1),hk(t−1)也均服从它们各自对应的特征分布。由于‘特征分布’与‘权重分布’相互独立,因此下面
4 4 4类随机变量各自相互独立。
E [ ∑ j ≠ k W i ⇔ j ( t ) ⋅ W i ⇔ k ( t ) ⋅ h j ( t − 1 ) ⋅ h k ( t − 1 ) ] = ∑ j ≠ k E [ W i ⇔ j ( t ) ⋅ W i ⇔ k ( t ) ⋅ h j ( t − 1 ) ⋅ h k ( t − 1 ) ] = ∑ j ≠ k E [ W i ⇔ j ( t ) ] ⋅ E [ W i ⇔ k ( t ) ] ⋅ E [ h j ( t − 1 ) ] ⋅ E [ h k ( t − 1 ) ] = ∑ j ≠ k 0 = 0 \begin{aligned} \mathbb E \left[\sum_{j \neq k} \mathcal W_{i \Leftrightarrow j}^{(t)} \cdot \mathcal W_{i \Leftrightarrow k}^{(t)} \cdot h_j^{(t-1)} \cdot h_k^{(t-1)}\right] & = \sum_{j \neq k} \mathbb E \left[\mathcal W_{i \Leftrightarrow j}^{(t)} \cdot \mathcal W_{i \Leftrightarrow k}^{(t)} \cdot h_j^{(t-1)} \cdot h_k^{(t-1)}\right] \\ & = \sum_{j \neq k} \mathbb E \left[\mathcal W_{i \Leftrightarrow j}^{(t)}\right] \cdot \mathbb E \left[\mathcal W_{i \Leftrightarrow k}^{(t)}\right] \cdot \mathbb E \left[h_j^{(t-1)}\right] \cdot \mathbb E \left[h_k^{(t-1)}\right] \\ & = \sum_{j \neq k} 0 = 0 \end{aligned} E j=k∑Wi⇔j(t)⋅Wi⇔k(t)⋅hj(t−1)⋅hk(t−1) =j=k∑E[Wi⇔j(t)⋅Wi⇔k(t)⋅hj(t−1)⋅hk(t−1)]=j=k∑E[Wi⇔j(t)]⋅E[Wi⇔k(t)]⋅E[hj(t−1)]⋅E[hk(t−1)]=j=k∑0=0 - 至此,
Var
[
h
i
(
t
)
]
\text{Var} [h_i^{(t)}]
Var[hi(t)]只剩下了一项:
Var [ h i ( t ) ] = E [ ∑ j ( W i ⇔ j ( t ) ) 2 ⋅ ( h j ( t − 1 ) ) 2 ] = ∑ j E [ ( W i ⇔ j ( t ) ) 2 ] ⋅ E [ ( h j ( t − 1 ) ) 2 ] = ∑ j { Var [ W i ⇔ j ( t ) ] − [ E ( W i ⇔ j ( t ) ) ] 2 ⏟ 0 } ⋅ { Var [ h j ( t − 1 ) ] − [ E ( h j ( t − 1 ) ) ] 2 ⏟ 0 } = ∑ j Var [ W i ⇔ j ( t ) ] ⋅ Var [ h j ( t − 1 ) ] \begin{aligned} \text{Var}[h_i^{(t)}] & = \mathbb E \left[\sum_j \left(\mathcal W_{i \Leftrightarrow j}^{(t)}\right)^2 \cdot \left(h_j^{(t-1)}\right)^2\right] \\ & = \sum_j \mathbb E \left[(\mathcal W_{i \Leftrightarrow j}^{(t)})^2\right] \cdot \mathbb E \left[(h_j^{(t-1)})^2\right] \\ & = \sum_{j} \left\{\text{Var}[\mathcal W_{i \Leftrightarrow j}^{(t)}] - \underbrace{\left[\mathbb E(\mathcal W_{i \Leftrightarrow j}^{(t)})\right]^2}_{0}\right\} \cdot \left\{\text{Var} \left[h_j^{(t-1)}\right] - \underbrace{\left[\mathbb E(h_j^{(t-1)})\right]^2}_{0}\right\} \\ & = \sum_{j} \text{Var}[\mathcal W_{i \Leftrightarrow j}^{(t)}] \cdot \text{Var} [h_j^{(t-1)}] \end{aligned} Var[hi(t)]=E[j∑(Wi⇔j(t))2⋅(hj(t−1))2]=j∑E[(Wi⇔j(t))2]⋅E[(hj(t−1))2]=j∑⎩ ⎨ ⎧Var[Wi⇔j(t)]−0 [E(Wi⇔j(t))]2⎭ ⎬ ⎫⋅⎩ ⎨ ⎧Var[hj(t−1)]−0 [E(hj(t−1))]2⎭ ⎬ ⎫=j∑Var[Wi⇔j(t)]⋅Var[hj(t−1)] - 将
Var
[
W
i
⇔
j
(
t
)
]
=
γ
t
\text{Var}[\mathcal W_{i \Leftrightarrow j}^{(t)}] = \gamma_t
Var[Wi⇔j(t)]=γt代入:
其中
∑ j \sum_j ∑j中一共包含
n t − 1 n_{t-1} nt−1项。
Var [ h i ( t ) ] = ∑ j γ t ⋅ Var [ h j ( t − 1 ) ] = γ t ⋅ ∑ j Var [ h j ( t − 1 ) ] = n t − 1 ⋅ γ t ⋅ Var [ h j ( t − 1 ) ] \begin{aligned} \text{Var}[h_i^{(t)}] & = \sum_j \gamma_t \cdot \text{Var}[h_j^{(t-1)}] \\ & = \gamma_t \cdot \sum_j \text{Var}[h_j^{(t-1)}] \\ & = n_{t-1} \cdot \gamma_t \cdot \text{Var}[h_j^{(t-1)}] \end{aligned} Var[hi(t)]=j∑γt⋅Var[hj(t−1)]=γt⋅j∑Var[hj(t−1)]=nt−1⋅γt⋅Var[hj(t−1)]
至此,可以观察到第 t t t层输出中第 i i i神经元方差 Var [ h i ( t ) ] \text{Var}[h_i^{(t)}] Var[hi(t)]和该层输入之间的关联和偏差。如果需要 Var [ h i ( t ) ] \text{Var}[h_i^{(t)}] Var[hi(t)]与 Var [ h j ( t − 1 ) ] \text{Var}[h_j^{(t-1)}] Var[hj(t−1)]相同,我们需要: n t − 1 ⋅ γ t = 1 n_{t-1} \cdot \gamma_t = 1 nt−1⋅γt=1。个人分析:最后的推导结果不是很充分。它将
Var [ W i ⇔ j ( t ) ] = γ t \text{Var}[\mathcal W_{i \Leftrightarrow j}^{(t)}]=\gamma_t Var[Wi⇔j(t)]=γt描述成了一个‘确定的值’,并且它也将
Var [ h j ( t − 1 ) ] \text{Var}[h_j^{(t-1)}] Var[hj(t−1)]描述成了一个‘确定的值’。也就是说,无论
j j j指向哪一个
h j ( t − 1 ) h_j^{(t-1)} hj(t−1),它们的方差均相同。否则也不会写出
n t − 1 ⋅ γ t ⋅ Var [ h j ( t − 1 ) ] n_{t-1} \cdot \gamma_t \cdot \text{Var}[h_j^{(t-1)}] nt−1⋅γt⋅Var[hj(t−1)]的格式。但在推导过程中,我们要保证各神经元服从的特征分布以及神经元内各权重的分布均相互独立。
我们只能去相信————它们确实服从不同分布,只不过权重空间中的各分布均值、方差均相同;特征空间中的各分布均值、方差均相同。如果退一步:
Var [ h i ( t ) ] \text{Var}[h_i^{(t)}] Var[hi(t)]和
Var [ h j ( t − 1 ) ] \text{Var}[h_j^{(t-1)}] Var[hj(t−1)]之间至少满足某种线性关系:
Var [ h i ( t ) ] = ( Var [ W i ⇔ 1 ( t ) ] , Var [ W i ⇔ 2 ( t ) ] , ⋯ , Var [ W i ⇔ j ( t ) ] , ⋯ ) ( Var [ h 1 ( t − 1 ) ] Var [ h 2 ( t − 1 ) ] ⋮ Var [ h j ( t − 1 ) ] ⋮ ) \text{Var}[h_i^{(t)}] = \left(\text{Var}[\mathcal W_{i \Leftrightarrow 1}^{(t)}],\text{Var}[\mathcal W_{i \Leftrightarrow 2}^{(t)}],\cdots,\text{Var}[\mathcal W_{i \Leftrightarrow j}^{(t)}] ,\cdots\right) \begin{pmatrix} \text{Var}[h_1^{(t-1)}] \\ \text{Var}[h_2^{(t-1)}] \\ \vdots \\ \text{Var}[h_j^{(t-1)}] \\ \vdots \end{pmatrix} Var[hi(t)]=(Var[Wi⇔1(t)],Var[Wi⇔2(t)],⋯,Var[Wi⇔j(t)],⋯) Var[h1(t−1)]Var[h2(t−1)]⋮Var[hj(t−1)]⋮
- 将
Var
[
h
i
(
t
)
]
\text{Var}[h_i^{(t)}]
Var[hi(t)]展开,有:
-
此时已经找到了没有激活函数条件下,前馈计算过程中输入与输出之间方差的关联关系。那么反向传播呢 ? ? ?
和前馈计算过程类似。我们要找的是 ∂ L ∂ h i ( t ) \begin{aligned}\frac{\partial \mathcal L}{\partial h_i^{(t)}}\end{aligned} ∂hi(t)∂L与 ∂ L ∂ h j ( t − 1 ) \begin{aligned}\frac{\partial \mathcal L}{\partial h_j^{(t-1)}}\end{aligned} ∂hj(t−1)∂L之间的联系。
- 依然首先观察均值:根据链式求导法则,关于期望
E
[
∂
L
∂
h
j
(
t
−
1
)
]
\begin{aligned}\mathbb E \left[\frac{\partial \mathcal L}{\partial h_j^{(t-1)}}\right]\end{aligned}
E[∂hj(t−1)∂L]表示如下:
这里仅以
∂ L ∂ h i ( t ) \begin{aligned}\frac{\partial \mathcal L}{\partial h_i^{(t)}}\end{aligned} ∂hi(t)∂L与
∂ L ∂ h j ( t − 1 ) \begin{aligned}\frac{\partial \mathcal L}{\partial h_j^{(t-1)}}\end{aligned} ∂hj(t−1)∂L之间的关系为例。
其中
∂ L ∂ h i ( t ) \begin{aligned}\frac{\partial \mathcal L}{\partial h_i^{(t)}}\end{aligned} ∂hi(t)∂L内必然仅包含
W ( t + 1 ) , W ( t + 2 ) , ⋯ \mathcal W^{(t+1)},\mathcal W^{(t+2)},\cdots W(t+1),W(t+2),⋯的权重信息,和本层的
W ( t ) \mathcal W^{(t)} W(t)无关。因而
∂ L ∂ h i ( t ) \begin{aligned}\frac{\partial \mathcal L}{\partial h_i^{(t)}}\end{aligned} ∂hi(t)∂L和
∂ h i ( t ) ∂ h j ( t − 1 ) \begin{aligned}\frac{\partial h_i^{(t)}}{\partial h_j^{(t-1)}}\end{aligned} ∂hj(t−1)∂hi(t)之间的分布必然相互独立。
E [ ∂ L ∂ h j ( t − 1 ) ] = E [ ∂ L ∂ h i ( t ) ⋅ ∂ h i ( t ) ∂ h j ( t − 1 ) ] = E [ ∂ L ∂ h i ( t ) ] ⋅ E [ ∂ h i ( t ) ∂ h j ( t − 1 ) ] = E [ ∂ L ∂ h i ( t ) ] ⋅ E [ W i ⇔ j ( t ) ] ⏟ 0 = 0 \begin{aligned} \mathbb E \left[\frac{\partial \mathcal L}{\partial h_j^{(t-1)}}\right] & = \mathbb E \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}} \cdot \frac{\partial h_i^{(t)}}{\partial h_j^{(t-1)}}\right] \\ & = \mathbb E \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}}\right] \cdot \mathbb E \left[\frac{\partial h_i^{(t)}}{\partial h_j^{(t-1)}}\right] \\ & = \mathbb E \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}}\right] \cdot \underbrace{\mathbb E[\mathcal W_{i \Leftrightarrow j}^{(t)}]}_{0} \\ & = 0 \end{aligned} E[∂hj(t−1)∂L]=E[∂hi(t)∂L⋅∂hj(t−1)∂hi(t)]=E[∂hi(t)∂L]⋅E[∂hj(t−1)∂hi(t)]=E[∂hi(t)∂L]⋅0 E[Wi⇔j(t)]=0 - 观察方差。
Var [ ∂ L ∂ h j ( t − 1 ) ] = ∑ i Var [ W i ⇔ j ( t ) ] ⋅ Var [ ∂ L ∂ h i ( t ) ] = n t ⋅ γ t ⋅ Var [ ∂ L ∂ h i ( t ) ] \begin{aligned} \text{Var} \left[\frac{\partial \mathcal L}{\partial h_j^{(t-1)}}\right] & = \sum_{i} \text{Var} [\mathcal W_{i \Leftrightarrow j}^{(t)}] \cdot \text{Var} \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}}\right] \\ & = n_t \cdot \gamma_t \cdot \text{Var} \left[\frac{\partial \mathcal L}{\partial h_i^{(t)}}\right] \end{aligned} Var[∂hj(t−1)∂L]=i∑Var[Wi⇔j(t)]⋅Var[∂hi(t)∂L]=nt⋅γt⋅Var[∂hi(t)∂L]
同理,我们希望他们的反向传播前后的梯度方差相同,需要实现:
n t ⋅ γ t = 1 n_t \cdot \gamma_t = 1 nt⋅γt=1
- 依然首先观察均值:根据链式求导法则,关于期望
E
[
∂
L
∂
h
j
(
t
−
1
)
]
\begin{aligned}\mathbb E \left[\frac{\partial \mathcal L}{\partial h_j^{(t-1)}}\right]\end{aligned}
E[∂hj(t−1)∂L]表示如下:
(这一节马上超20000字了,下一节将介绍激活函数在整个过程中的作用)
相关参考:
向量对向量求导
14 数值稳定性 + 模型初始化和激活函数【动手学深度学习v2】12:26