Williams, R. J. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Mach. Learn., 8:229–256, 1992. PDF 下载链接
前面部分:【论文_1992】 REINFORCE » P1
文章目录
- 附录 A
- A.1. REINFORCE 算法的一些结论
- A.2. 回合式 REINFORCE 算法 的结论
- 附录 B
附录 A
本附录分别包含定理 1 和定理 2 关于 REINFORCE 和回合式 REINFORCE 算法的证明。除了文中介绍的符号外,我们还将一些感兴趣的集合符号化,
令 Y i Y_i Yi 表示第 i i i 个单元可能的输出值 y i y_i yi 的集合;
其中 X i X_i Xi 表示该单元的输入向量 x i {\bf x}^i xi 的可能值的集合。
虽然它不是一个关键的假设,我们让 Y i Y_i Yi 和 X i X_i Xi 自始至终都是离散集。
同样,我们让 I I I 表示 W \bf W W 的元素的索引集,使得 ( i , j ) ∈ I (i, j) \in I (i,j)∈I 当且仅当 w i j w_{ij} wij 是系统中的一个参数。
这里应当指出,为了简洁起见,本附录中所证明的所有断言都使用了一种约定,在这种约定中,每个未绑定的变量都被隐式地假定为在一组适当的值上被普遍量化。
例如,无论何时出现 i i i 和 j j j,它们都被认为是任意的(仅受 ( i , j ) ∈ I (i, j) \in I (i,j)∈I 的约束)
A.1. REINFORCE 算法的一些结论
事实 1:
∂ E { r ∣ W , x i } ∂ w i j = ∑ ξ ∈ Y i E { r ∣ W , x i , y i = ξ } ∂ g i ∂ w i j ( ξ , w i , x i ) \frac{\partial E\{r|{\bf W},{\bf x}^i\} }{\partial w_{ij}}=\sum\limits_{\xi\in Y_i}E\{r|{\bf W},{\bf x}^i,y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i) ∂wij∂E{r∣W,xi}=ξ∈Yi∑E{r∣W,xi,yi=ξ}∂wij∂gi(ξ,wi,xi)
证明:
根据可能的输出值
y
i
y_i
yi ,我们可以写
E { r ∣ W , x i } = ∑ ξ ∈ Y i E { r ∣ W , x i , y i = ξ } Pr { y i = ξ ∣ W , x i } = ∑ ξ ∈ Y i E { r ∣ W , x i , y i = ξ } g i ( ξ , w i , x i ) \begin{aligned}E\{r|{\bf W},{\bf x}^i\}&=\sum\limits_{\xi\in Y_i}E\{r|{\bf W},{\bf x}^i,y_i=\xi\}\text{Pr}\{y_i=\xi|{\bf W}, {\bf x}^i\}\\ &=\sum\limits_{\xi\in Y_i}E\{r|{\bf W},{\bf x}^i,y_i=\xi\}\textcolor{blue}{g_i}(\xi,\textcolor{blue}{{\bf w}^i}, {\bf x}^i)\end{aligned} E{r∣W,xi}=ξ∈Yi∑E{r∣W,xi,yi=ξ}Pr{yi=ξ∣W,xi}=ξ∈Yi∑E{r∣W,xi,yi=ξ}gi(ξ,wi,xi)
注意
y
i
y_i
yi 的值的指定使得
w
i
j
w_{ij}
wij 对
r
r
r 的最终值没有影响,即
E
{
r
∣
W
,
x
i
,
y
i
=
ξ
}
E\{r|{\bf W},{\bf x}^i,y_i=\xi\}
E{r∣W,xi,yi=ξ} 不依赖于
w
i
j
w_{ij}
wij。
通过对最后一个方程两边对
w
i
j
w_{ij}
wij 求导得到结果
事实 2:
∑ ξ ∈ Y i ∂ g i ∂ w i j ( ξ , w i , x i ) = 0 \sum\limits_{\xi\in Y_i}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)=0 ξ∈Yi∑∂wij∂gi(ξ,wi,xi)=0
证明:
∑ ξ ∈ Y i g i ( ξ , w i , x i ) = ∑ ξ ∈ Y i Pr ( x = ξ , w i , x i ) = 1 \sum\limits_{\xi\in Y_i} g_i(\xi,{\bf w}^i, {\bf x}^i)=\sum\limits_{\xi\in Y_i} \text{Pr}( \textcolor{red}{x} =\xi,{\bf w}^i, {\bf x}^i)=1 ξ∈Yi∑gi(ξ,wi,xi)=ξ∈Yi∑Pr(x=ξ,wi,xi)=1
- 应该为 y ???
结果是对 w i j w_{ij} wij 求导。
引理 1: 对任意 REINFORCE 算法, 有:
E { Δ w i j ∣ W , x i } = α i j ∂ E { r ∣ W , x i } ∂ w i j E\{\Delta w_{ij}|{\bf W}, {\bf x}^i\}=\alpha_{ij}\frac{\partial E\{r|{\bf W},{\bf x}^i\}}{\partial w_{ij}} E{Δwij∣W,xi}=αij∂wij∂E{r∣W,xi}
证明: 首先注意,特征资格 characteristic eligibility 可以写为:
~
e
i
j
=
∂
ln
g
i
∂
w
i
j
=
1
g
i
∂
g
i
∂
w
i
j
e_{ij}=\frac{\partial \ln g_i}{\partial w_{ij}}=\frac{1}{g_i}\frac{\partial g_i}{\partial w_{ij}}
eij=∂wij∂lngi=gi1∂wij∂gi
~
尽管在
g
i
=
0
g_i=0
gi=0 时无法定义,但只要
Y
i
Y_i
Yi 是离散的,对于任何强化算法,
Δ
w
i
j
\Delta w_{ij}
Δwij 仍然是定义良好的。
这是因为
g
i
(
ξ
,
w
i
,
x
i
)
=
0
g_i(\xi,{\bf w}^i, {\bf x}^i) = 0
gi(ξ,wi,xi)=0 意味着该值作为输出
y
i
y_i
yi 的值出现的概率为零。
E { Δ w i j ∣ W , x i } = ∑ ξ ∈ Y i E { Δ w i j ∣ W , x i , y i = ξ } Pr { y i = ξ ∣ W , x i } = ∑ ξ ∈ Y i E { α i j ( r − b i j ) g i ( ξ , w i , x i ) ∂ g i ∂ w i j ( ξ , w i , x i ) ∣ W , x i , y i = ξ } g i ( ξ , w i , x i ) = ∑ ξ ∈ Y i E { α i j ( r − b i j ) ∂ g i ∂ w i j ( ξ , w i , x i ) ∣ W , x i , y i = ξ } = α i j ∑ ξ ∈ Y i E { r ∣ W , x i , y i = ξ } ∂ g i ∂ w i j ( ξ , w i , x i ) ⏟ α i j ∂ E { r ∣ W , x i } ∂ w i j − α i j ∑ ξ ∈ Y i E { b i j ∣ W , x i , y i = ξ } ∂ g i ∂ w i j ( ξ , w i , x i ) ⏟ = 0 \begin{aligned}E\{\Delta w_{ij}|{\bf W}, {\bf x}^i\}&=\sum\limits_{\xi\in Y_i}E\{\Delta w_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}\text{Pr}\{y_i=\xi|{\bf W}, {\bf x}^i\}\\ &=\sum\limits_{\xi\in Y_i}E\Big\{\frac{\alpha_{ij}(r-b_{ij})}{g_i(\xi, {\bf w}^i, {\bf x}^i)}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)|{\bf W}, {\bf x}^i, y_i=\xi\Big\}g_i(\xi,{\bf w}^i, {\bf x}^i)\\ &=\sum\limits_{\xi\in Y_i}E\{\alpha_{ij}(r-b_{ij})\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)|{\bf W}, {\bf x}^i, y_i=\xi\}\\ &=\underbrace{\alpha_{ij}\sum\limits_{\xi\in Y_i}E\{r|{\bf W}, {\bf x}^i, y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)}_{\alpha_{ij}\frac{\partial E\{r|{\bf W}, {\bf x}^i\}}{\partial w_{ij}}}\\ &~~~~~~-\alpha_{ij}\underbrace{\sum\limits_{\xi\in Y_i}E\{b_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)}_{=~0}\end{aligned} E{Δwij∣W,xi}=ξ∈Yi∑E{Δwij∣W,xi,yi=ξ}Pr{yi=ξ∣W,xi}=ξ∈Yi∑E{gi(ξ,wi,xi)αij(r−bij)∂wij∂gi(ξ,wi,xi)∣W,xi,yi=ξ}gi(ξ,wi,xi)=ξ∈Yi∑E{αij(r−bij)∂wij∂gi(ξ,wi,xi)∣W,xi,yi=ξ}=αij∂wij∂E{r∣W,xi} αijξ∈Yi∑E{r∣W,xi,yi=ξ}∂wij∂gi(ξ,wi,xi) −αij= 0 ξ∈Yi∑E{bij∣W,xi,yi=ξ}∂wij∂gi(ξ,wi,xi)
利用
α
i
j
\alpha_{ij}
αij 不依赖于输出
y
i
y_i
yi 的特定值这一事实;
根据事实 1,最后一个表达式的第一项是
α
i
j
∂
E
{
r
∣
W
,
x
i
}
∂
w
i
j
\alpha_{ij}\frac{\partial E\{r|{\bf W}, {\bf x}^i\}}{\partial w_{ij}}
αij∂wij∂E{r∣W,xi}。
考虑剩下的项。
因为 E { b i j ∣ W , x i , y i = ξ } = E { b i j ∣ W , x i } E\{b_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}=E\{b_{ij}|{\bf W}, {\bf x}^i\} E{bij∣W,xi,yi=ξ}=E{bij∣W,xi},根据假设,我们有
∑ ξ ∈ Y i E { b i j ∣ W , x i , y i = ξ } ∂ g i ∂ w i j ( ξ , w i , x i ) = E { b i j ∣ W , x i } ∑ ξ ∈ Y i ∂ g i ∂ w i j ( ξ , w i , x i ) ⏟ = 0 = 0 \begin{aligned}&\sum\limits_{\xi\in Y_i}E\{b_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)\\ &=E\{b_{ij}|{\bf W}, {\bf x}^i\}\underbrace{\sum\limits_{\xi\in Y_i}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)}_{=~0}\\ &=0\end{aligned} ξ∈Yi∑E{bij∣W,xi,yi=ξ}∂wij∂gi(ξ,wi,xi)=E{bij∣W,xi}= 0 ξ∈Yi∑∂wij∂gi(ξ,wi,xi)=0
由事实 2, 证毕。
事实 3:
∂ E { r ∣ W } ∂ w i j = ∑ x ∈ X i E { r ∣ W , x i = x } ∂ w i j Pr { x i = x ∣ W } \frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}=\sum\limits_{{\bf x}\in {\bf X}_i}\frac{E\{r|{\bf W}, {\bf x}^i={\bf x}\}}{\partial w_{ij}}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\} ∂wij∂E{r∣W}=x∈Xi∑∂wijE{r∣W,xi=x}Pr{xi=x∣W}
证明: 对于可能的输入模式 x i {\bf x}^i xi,我们可以这样写
E { r ∣ W } = ∑ x ∈ X i E { r ∣ W , x i = x } Pr { x i = x ∣ W } E\{r|{\bf W}\}=\sum\limits_{{\bf x}\in {\bf X}_i}E\{r|{\bf W},{\bf x}^i={\bf x}\}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\} E{r∣W}=x∈Xi∑E{r∣W,xi=x}Pr{xi=x∣W}
注意,权重
w
i
j
w_{ij}
wij 位于为确定
x
i
{\bf x}^i
xi 而执行的所有计算的下游。
这意味着
Pr
{
x
i
=
x
∣
W
}
\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}
Pr{xi=x∣W} 不依赖于
w
i
j
w_{ij}
wij ,因此结果是最后一个方程的两边同时除以
w
i
j
w_{ij}
wij 。
引理 2: 对于 任意的 REINFORCE 算法
E { Δ w i j ∣ W } = α i j ∂ E { r ∣ W } ∂ w i j E\{\Delta w_{ij}|{\bf W}\}=\alpha_{ij}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}} E{Δwij∣W}=αij∂wij∂E{r∣W}
证明:
E { Δ w i j ∣ W } = ∑ x ∈ X i E { Δ w i j ∣ W , x i = x } Pr { x i = x ∣ W } = ∑ x ∈ X i α i j ∂ E { r ∣ W , x i = x } ∂ w i j Pr { x i = x ∣ W } = α i j ∑ x ∈ X i ∂ E { r ∣ W , x i = x } ∂ w i j Pr { x i = x ∣ W } α i j 不依赖单元输入 = α i j ∑ x ∈ X i ∂ E { r ∣ W } ∂ w i j 事实 3 从右往左 \begin{aligned}E\{\Delta w_{ij}|{\bf W}\} &=\sum\limits_{{\bf x}\in {\bf X}_i}E\{\Delta w_{ij}|{\bf W},{\bf x}^i={\bf x}\}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}\\ &=\sum\limits_{{\bf x}\in {\bf X}_i}\alpha_{ij}\frac{\partial E\{r|{\bf W},{\bf x}^i={\bf x}\}}{\partial w_{ij}}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}\\ &=\alpha_{ij}\sum\limits_{{\bf x}\in {\bf X}_i}\frac{\partial E\{r|{\bf W},{\bf x}^i={\bf x}\}}{\partial w_{ij}}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}~~~~~~\textcolor{blue}{\alpha_{ij}~不依赖单元输入}\\ &=\alpha_{ij}\sum\limits_{{\bf x}\in {\bf X}_i}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}~~~\textcolor{blue}{事实~ 3 ~~从右往左 }\end{aligned} E{Δwij∣W}=x∈Xi∑E{Δwij∣W,xi=x}Pr{xi=x∣W}=x∈Xi∑αij∂wij∂E{r∣W,xi=x}Pr{xi=x∣W}=αijx∈Xi∑∂wij∂E{r∣W,xi=x}Pr{xi=x∣W} αij 不依赖单元输入=αijx∈Xi∑∂wij∂E{r∣W} 事实 3 从右往左
其中第一个等式是通过对单元的可能输入模式计算条件概率得到的,
第二个等式是根据引理 1 得出的,
第三个等式是根据
α
i
j
\alpha_{ij}
αij 不依赖于单元输入的假设得出的,
最后一个等式是根据事实 3 得出的。
建立最后一个结果是关键的一步,它就像引理 1 一样,除了对单元
i
i
i 的输入的条件概率已经从方程的两边去掉了。
它涉及到两个量,不像引理 1,一般来说计算起来会很麻烦因为
Pr
{
x
i
=
x
∣
W
}
\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}
Pr{xi=x∣W} 会很复杂。
从这个引理可以很容易地得出我们的主要结论。
定理 1: 对于任何 REINFORCE 算法,
E
{
Δ
W
∣
W
}
E\{\Delta {\bf W}|{\bf W}\}
E{ΔW∣W} 和
∇
w
E
{
r
∣
W
}
\nabla _{\bf w}E\{r|{\bf W}\}
∇wE{r∣W} 的内积是非负的。即
E
{
Δ
W
∣
W
}
T
∇
w
E
{
r
∣
W
}
≥
0
E\{\Delta {\bf W}|{\bf W}\}^T\nabla _{\bf w}E\{r|{\bf W}\} ≥ 0
E{ΔW∣W}T∇wE{r∣W}≥0
更进一步,如果对所有
i
i
i 和
j
j
j, 都有
α
i
j
\alpha_{ij}
αij > 0,那么只有当
∇
w
E
{
r
∣
W
}
=
0
\nabla _{\bf w}E\{r|{\bf W}\}=0
∇wE{r∣W}=0 时,这个内积才为 0。
E { Δ W ∣ W } T ∇ w E { r ∣ W } = ∑ ( i , j ) ∈ I E { Δ w i j ∣ W } E { r ∣ W } ∂ w i j = ∑ ( i , j ) ∈ I α i j ( E { r ∣ W } ∂ w i j ) 2 \begin{aligned}&E\{\Delta {\bf W}|{\bf W}\}^T\nabla _{\bf w}E\{r|{\bf W}\}\\ &=\sum\limits_{(i,j)\in I}E\{\Delta w_{ij}|{\bf W}\}\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\\ &=\sum\limits_{(i,j)\in I}\alpha_{ij}\Big(\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\Big)^2\end{aligned} E{ΔW∣W}T∇wE{r∣W}=(i,j)∈I∑E{Δwij∣W}∂wijE{r∣W}=(i,j)∈I∑αij(∂wijE{r∣W})2
根据引理 2,即得结果。
A.2. 回合式 REINFORCE 算法 的结论
对回合式 REINFORCE 算法 的分析是基于 unfolds -in-time 映射,它将原始网络
N
N
N 与其 unfolds -in-time无环网络
N
∗
N^*
N∗ 相关联。
关键的观察是,让
N
N
N 面对它的学习问题相当于让
N
∗
N^*
N∗ 面对一个相应的联想学习问题。
让
W
∗
{\bf W}^*
W∗ 表示
N
∗
N^*
N∗ 的权重矩阵,其单个组件的权量表示为
w
i
j
t
w_{ij}^t
wijt。
N
∗
N^*
N∗ 中的权重
w
i
j
t
w_{ij}^t
wijt 对应于
N
N
N 中 在 第
t
t
t 个时间步的权重
w
i
j
w_{ij}
wij,因此对所有
i
,
j
,
t
i,j,t
i,j,t, 有
w
i
j
t
=
w
i
j
w_{ij}^t=w_{ij}
wijt=wij。
因为这些网络之间的通信,需要注意的是,指定
W
\bf W
W 相当于指定
W
∗
{\bf W}^*
W∗,
同时,学习问题之间的对应关系,我们可以考虑强化
r
r
r 对于这两个问题是一样的。
事实 4:
∂ E { r ∣ W } ∂ w i j = ∑ t = 1 k ∂ E { r ∣ W ∗ } ∂ w i j t \frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t} ∂wij∂E{r∣W}=t=1∑k∂wijt∂E{r∣W∗}
证明: 根据链式法则
∂ E { r ∣ W } ∂ w i j = ∑ t = 1 k ∂ E { r ∣ W } ∂ w i j t ∂ w i j t ∂ w i j = ∑ t = 1 k ∂ E { r ∣ W } ∂ w i j t = ∑ t = 1 k ∂ E { r ∣ W ∗ } ∂ w i j t \begin{aligned}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}&=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}^t}\frac{\partial w_{ij}^t}{\partial w_{ij}}\\ &=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}^t}\\ &=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t}\end{aligned} ∂wij∂E{r∣W}=t=1∑k∂wijt∂E{r∣W}∂wij∂wijt=t=1∑k∂wijt∂E{r∣W}=t=1∑k∂wijt∂E{r∣W∗}
因为 对于所有的 t t t, 都有 w i j t = w i j w_{ij}^t=w_{ij} wijt=wij
引理 3. 对任意 回合式 REINFORCE 算法
E { Δ w i j ∣ W } = α i j ∂ E { r ∣ W } ∂ w i j E\{\Delta w_{ij}|{\bf W}\}=\alpha_{ij}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}} E{Δwij∣W}=αij∂wij∂E{r∣W}
证明:
令
Δ
w
=
α
i
j
(
r
−
b
i
j
)
e
i
j
t
\Delta w= \alpha_{ij}(r-b_{ij})e_{ij}^t
Δw=αij(r−bij)eijt,使
Δ
w
i
j
=
∑
t
=
1
k
Δ
w
i
j
t
\Delta w_{ij}= \sum\limits_{t=1}^k\Delta w_{ij}^t
Δwij=t=1∑kΔwijt 。
注意,这表示的是
N
∗
N^*
N∗ 中的 REINFORCE 算法,因此根据引理 2
E { Δ w i j t ∣ W ∗ } = α i j ∂ E { r ∣ W ∗ } ∂ w i j t E\{\Delta w_{ij}^t|{\bf W}^*\}=\alpha_{ij}\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t} E{Δwijt∣W∗}=αij∂wijt∂E{r∣W∗}
E { Δ w i j ∣ W } = E { ∑ t = 1 k Δ w i j t ∣ W ∗ } = ∑ t = 1 k E { Δ w i j t ∣ W ∗ } = ∑ t = 1 k α i j ∂ E { r ∣ W ∗ } ∂ w i j t = α i j ∂ E { r ∣ W } ∂ w i j \begin{aligned}E\{\Delta w_{ij}|{\bf W}\}&=E\Big\{\sum\limits_{t=1}^k\Delta w_{ij}^t|{\bf W}^*\Big\}\\ &=\sum\limits_{t=1}^kE\{\Delta w_{ij}^t|{\bf W}^*\}\\ &=\sum\limits_{t=1}^k\alpha_{ij}\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t}\\ &=\alpha_{ij}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}\end{aligned} E{Δwij∣W}=E{t=1∑kΔwijt∣W∗}=t=1∑kE{Δwijt∣W∗}=t=1∑kαij∂wijt∂E{r∣W∗}=αij∂wij∂E{r∣W}
最后一个等式来自事实 4。右 ——> 左
定理 2: 和 定理 1 完全一样
对于任何 回合式 REINFORCE 算法,
E
{
Δ
W
∣
W
}
E\{\Delta {\bf W}|{\bf W}\}
E{ΔW∣W} 和
∇
w
E
{
r
∣
W
}
\nabla _{\bf w}E\{r|{\bf W}\}
∇wE{r∣W} 的内积是非负的。
更进一步,如果对所有
i
i
i 和
j
j
j, 都有
α
i
j
\alpha_{ij}
αij > 0,那么只有当
∇
w
E
{
r
∣
W
}
=
0
\nabla _{\bf w}E\{r|{\bf W}\}=0
∇wE{r∣W}=0 时,这个内积才为 0。
证明:
E { Δ W ∣ W } T ∇ w E { r ∣ W } = ∑ ( i , j ) ∈ I E { Δ w i j ∣ W } E { r ∣ W } ∂ w i j = ∑ ( i , j ) ∈ I α i j ( E { r ∣ W } ∂ w i j ) 2 \begin{aligned}E\{\Delta {\bf W}|{\bf W}\}^T\nabla _{\bf w}E\{r|{\bf W}\}&=\sum\limits_{(i,j)\in I}E\{\Delta w_{ij}|{\bf W}\}\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\\ &=\sum\limits_{(i,j)\in I}\alpha_{ij}\Big(\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\Big)^2\end{aligned} E{ΔW∣W}T∇wE{r∣W}=(i,j)∈I∑E{Δwij∣W}∂wijE{r∣W}=(i,j)∈I∑αij(∂wijE{r∣W})2
根据引理 3,即得结果。
注意定理 2 的证明和定理 1 的证明是一样的。
这是因为定理 1 使用引理 2 ,定理 2 使用引理 3,两个引理都有相同的结论。
附录 B
本附录专门用于证明以下结果:
命题 1 假设概率质量或密度函数 g g g 有这样的形式:
g ( y , μ , θ 2 , ⋯ , θ k ) = exp [ Q ( μ , θ 2 , ⋯ , θ k ) ] y + D ( μ , θ 2 , ⋯ , θ k ) + S ( y ) g(y, \mu, \theta_2, \cdots, \theta_k)=\exp[Q(\mu,\theta_2,\cdots,\theta_k)]y+D(\mu,\theta_2,\cdots,\theta_k)+S(y) g(y,μ,θ2,⋯,θk)=exp[Q(μ,θ2,⋯,θk)]y+D(μ,θ2,⋯,θk)+S(y)
Q , D , S Q,D,S Q,D,S 为函数, μ , θ 2 , ⋯ , θ k \mu,\theta_2,\cdots,\theta_k μ,θ2,⋯,θk 为参数。 μ \mu μ 是分布的均值。
∂ ln g ∂ μ = y − μ σ 2 \frac{\partial \ln g}{\partial \mu}=\frac{y-\mu}{\sigma^2} ∂μ∂lng=σ2y−μ
其中 σ 2 \sigma^2 σ2 是分布的方差
————————————
整理的 :
目标: 证明
μ
\mu
μ 的 characteristic eligibility
∂
ln
g
∂
μ
=
y
−
μ
σ
2
\frac{\partial \ln g}{\partial \mu}=\frac{y-\mu}{\sigma^2}
∂μ∂lng=σ2y−μ
其中 g ( y , μ , θ 2 , ⋯ , θ k ) = exp [ Q ( μ , θ 2 , ⋯ , θ k ) ] y + D ( μ , θ 2 , ⋯ , θ k ) + S ( y ) g(y, \mu, \theta_2, \cdots, \theta_k)=\exp[Q(\mu,\theta_2,\cdots,\theta_k)]y+D(\mu,\theta_2,\cdots,\theta_k)+S(y) g(y,μ,θ2,⋯,θk)=exp[Q(μ,θ2,⋯,θk)]y+D(μ,θ2,⋯,θk)+S(y)
输出 y y y 是由密度函数 g g g 确定的
令
α
=
∂
Q
∂
μ
\alpha=\frac{\partial Q}{\partial \mu}
α=∂μ∂Q 和
β
=
∂
D
∂
μ
β= \frac{\partial D}{\partial \mu}
β=∂μ∂D
~
∂
ln
g
∂
μ
=
∂
Q
∂
μ
y
+
∂
D
∂
μ
=
α
y
+
β
\frac{\partial \ln g}{\partial \mu}=\frac{\partial Q}{\partial \mu}y+\frac{\partial D}{\partial \mu}=\alpha y+\beta
∂μ∂lng=∂μ∂Qy+∂μ∂D=αy+β
~
————————————
原文:
证明:这里我们只考虑概率质量函数的情况,但密度函数可以给出相应的参数。
设 Y 是 g 确定的分布。
~
∑
y
∈
Y
g
∂
ln
g
∂
μ
=
∑
y
∈
Y
∂
g
∂
μ
=
∂
∂
μ
∑
y
∈
Y
g
=
0
(
15
)
\sum\limits_{y\in Y}\textcolor{blue}{g}\frac{\partial \ln g}{\partial \mu}=\sum\limits_{y\in Y}\frac{\partial g}{\partial \mu}=\frac{\partial }{\partial \mu}\sum\limits_{y\in Y}g=0~~~~~~~~~~(15)
y∈Y∑g∂μ∂lng=y∈Y∑∂μ∂g=∂μ∂y∈Y∑g=0 (15)
~
由于
∑
y
∈
Y
g
=
1
\sum\limits_{y\in Y}g=1
y∈Y∑g=1, 结合
μ
=
∑
y
∈
Y
y
g
\mu=\sum\limits_{y\in Y}yg
μ=y∈Y∑yg
∑
y
∈
Y
(
y
−
μ
)
g
∂
ln
g
∂
μ
=
∑
y
∈
Y
y
g
∂
ln
g
∂
μ
−
μ
∑
y
∈
Y
g
∂
ln
g
∂
μ
⏟
由式
(
15
)
,
为
0
=
∑
y
∈
Y
y
∂
g
∂
μ
=
∂
∂
μ
∑
y
∈
Y
y
g
⏟
=
μ
=
1
(
16
)
\begin{aligned}\sum\limits_{y\in Y}\textcolor{blue}{(y-\mu)g}\frac{\partial \ln g}{\partial \mu}&=\sum\limits_{y\in Y}yg\frac{\partial \ln g}{\partial \mu}-\mu\underbrace{\sum\limits_{y\in Y} g\frac{\partial \ln g}{\partial \mu}}_{由 式 ~(15), 为~ 0}\\ &=\sum\limits_{y\in Y}y\frac{\partial g}{\partial \mu}\\ &=\frac{\partial }{\partial \mu}\underbrace{\sum\limits_{y\in Y}yg}_{=~\mu}\\ &=1\end{aligned}~~~~~~~~~~(16)
y∈Y∑(y−μ)g∂μ∂lng=y∈Y∑yg∂μ∂lng−μ由式 (15),为 0
y∈Y∑g∂μ∂lng=y∈Y∑y∂μ∂g=∂μ∂= μ
y∈Y∑yg=1 (16)
~
现在引入简写符号
α
=
∂
Q
∂
μ
\alpha=\frac{\partial Q}{\partial \mu}
α=∂μ∂Q 和
β
=
∂
D
∂
μ
β= \frac{\partial D}{\partial \mu}
β=∂μ∂D。从命题的假设, 我们有
~
∂
ln
g
∂
μ
=
∂
Q
∂
μ
y
+
∂
D
∂
μ
=
α
y
+
β
\frac{\partial \ln g}{\partial \mu}=\frac{\partial Q}{\partial \mu}y+\frac{\partial D}{\partial \mu}=\alpha y+\beta
∂μ∂lng=∂μ∂Qy+∂μ∂D=αy+β
~
则
~
∑
y
∈
Y
g
∂
ln
g
∂
μ
=
∑
y
∈
Y
(
α
y
+
β
)
g
=
α
∑
y
∈
Y
y
g
+
β
∑
y
∈
Y
g
=
α
μ
+
β
⏟
根据式
(
15
)
,
=
0
(
17
)
\sum\limits_{y\in Y}\textcolor{blue}{g}\frac{\partial \ln g}{\partial \mu}=\sum\limits_{y\in Y}(\alpha y+\beta)g=\alpha \sum\limits_{y\in Y}yg+\beta\sum\limits_{y\in Y}g=\underbrace{\alpha \mu +\beta}_{根据 式 ~(15) ,=~0}~~~~~~~~~~(17)
y∈Y∑g∂μ∂lng=y∈Y∑(αy+β)g=αy∈Y∑yg+βy∈Y∑g=根据式 (15),= 0
αμ+β (17)
~
且
~
∑
y
∈
Y
(
y
−
μ
)
g
∂
ln
g
∂
μ
=
∑
y
∈
Y
(
y
−
μ
)
(
α
y
+
β
)
g
=
∑
y
∈
Y
(
y
−
μ
)
[
α
(
y
−
μ
)
+
α
μ
+
β
]
g
=
α
∑
y
∈
Y
(
y
−
μ
)
2
g
+
(
α
μ
+
β
)
∑
y
∈
Y
(
y
−
μ
)
g
⏟
=
0
=
α
σ
2
⏟
根据式
(
16
)
,
=
1
(
18
)
\begin{aligned}\sum\limits_{y\in Y}\textcolor{blue}{(y-\mu)g}\frac{\partial \ln g}{\partial \mu}&=\sum\limits_{y\in Y}(y-\mu)(\alpha y+\beta)g\\ &=\sum\limits_{y\in Y}(y-\mu)[\alpha(y-\mu)+\alpha \mu+\beta]g\\ &=\alpha\sum\limits_{y\in Y}(y-\mu)^2g+(\alpha \mu +\beta)\underbrace{\sum\limits_{y\in Y}(y-\mu)g}_{=~0}\\ &=\underbrace{\alpha \sigma^2}_{根据 式 ~(16) ,=~1}\end{aligned}~~~~~~~~~~(18)
y∈Y∑(y−μ)g∂μ∂lng=y∈Y∑(y−μ)(αy+β)g=y∈Y∑(y−μ)[α(y−μ)+αμ+β]g=αy∈Y∑(y−μ)2g+(αμ+β)= 0
y∈Y∑(y−μ)g=根据式 (16),= 1
ασ2 (18)
~
联合 式 (15)-(18),有
~
α
μ
+
β
=
0
\alpha\mu+\beta=0
αμ+β=0
~
α
σ
2
=
1
\alpha\sigma^2=1
ασ2=1
~
则有
α
=
1
σ
2
,
β
=
−
α
μ
=
−
μ
σ
2
\alpha=\frac{1}{\sigma^2}, ~~~\beta=-\alpha\mu=-\frac{\mu}{\sigma^2}
α=σ21, β=−αμ=−σ2μ
~
∂
ln
g
(
y
,
μ
,
θ
2
,
⋯
,
θ
k
)
∂
μ
=
1
σ
2
y
−
μ
σ
2
=
y
−
μ
σ
2
\frac{\partial \ln g(y,\mu,\theta_2,\cdots,\theta_k)}{\partial \mu}=\frac{1}{\sigma^2}y-\frac{\mu}{\sigma^2}=\frac{y-\mu}{\sigma^2}
∂μ∂lng(y,μ,θ2,⋯,θk)=σ21y−σ2μ=σ2y−μ