【论文_1992】 REINFORCE » P2 附录

news2024/12/26 11:28:41

Williams, R. J. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Mach. Learn., 8:229–256, 1992. PDF 下载链接

前面部分:【论文_1992】 REINFORCE » P1

文章目录

  • 附录 A
    • A.1. REINFORCE 算法的一些结论
    • A.2. 回合式 REINFORCE 算法 的结论
  • 附录 B

附录 A

本附录分别包含定理 1 和定理 2 关于 REINFORCE 和回合式 REINFORCE 算法的证明。除了文中介绍的符号外,我们还将一些感兴趣的集合符号化,
Y i Y_i Yi 表示第 i i i 个单元可能的输出值 y i y_i yi 的集合;
其中 X i X_i Xi 表示该单元的输入向量 x i {\bf x}^i xi 的可能值的集合。
虽然它不是一个关键的假设,我们让 Y i Y_i Yi X i X_i Xi 自始至终都是离散集。
同样,我们让 I I I 表示 W \bf W W 的元素的索引集,使得 ( i , j ) ∈ I (i, j) \in I (i,j)I 当且仅当 w i j w_{ij} wij 是系统中的一个参数。

这里应当指出,为了简洁起见,本附录中所证明的所有断言都使用了一种约定,在这种约定中,每个未绑定的变量都被隐式地假定为在一组适当的值上被普遍量化。
例如,无论何时出现 i i i j j j,它们都被认为是任意的(仅受 ( i , j ) ∈ I (i, j) \in I (i,j)I 的约束)

A.1. REINFORCE 算法的一些结论

事实 1:

∂ E { r ∣ W , x i } ∂ w i j = ∑ ξ ∈ Y i E { r ∣ W , x i , y i = ξ } ∂ g i ∂ w i j ( ξ , w i , x i ) \frac{\partial E\{r|{\bf W},{\bf x}^i\} }{\partial w_{ij}}=\sum\limits_{\xi\in Y_i}E\{r|{\bf W},{\bf x}^i,y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i) wijE{rW,xi}=ξYiE{rW,xi,yi=ξ}wijgi(ξ,wi,xi)

证明:
根据可能的输出值 y i y_i yi ,我们可以写

E { r ∣ W , x i } = ∑ ξ ∈ Y i E { r ∣ W , x i , y i = ξ } Pr { y i = ξ ∣ W , x i } = ∑ ξ ∈ Y i E { r ∣ W , x i , y i = ξ } g i ( ξ , w i , x i ) \begin{aligned}E\{r|{\bf W},{\bf x}^i\}&=\sum\limits_{\xi\in Y_i}E\{r|{\bf W},{\bf x}^i,y_i=\xi\}\text{Pr}\{y_i=\xi|{\bf W}, {\bf x}^i\}\\ &=\sum\limits_{\xi\in Y_i}E\{r|{\bf W},{\bf x}^i,y_i=\xi\}\textcolor{blue}{g_i}(\xi,\textcolor{blue}{{\bf w}^i}, {\bf x}^i)\end{aligned} E{rW,xi}=ξYiE{rW,xi,yi=ξ}Pr{yi=ξW,xi}=ξYiE{rW,xi,yi=ξ}gi(ξ,wi,xi)

注意 y i y_i yi 的值的指定使得 w i j w_{ij} wij r r r 的最终值没有影响,即 E { r ∣ W , x i , y i = ξ } E\{r|{\bf W},{\bf x}^i,y_i=\xi\} E{rW,xi,yi=ξ} 不依赖于 w i j w_{ij} wij
通过对最后一个方程两边对 w i j w_{ij} wij 求导得到结果


事实 2:

∑ ξ ∈ Y i ∂ g i ∂ w i j ( ξ , w i , x i ) = 0 \sum\limits_{\xi\in Y_i}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)=0 ξYiwijgi(ξ,wi,xi)=0

证明:

∑ ξ ∈ Y i g i ( ξ , w i , x i ) = ∑ ξ ∈ Y i Pr ( x = ξ , w i , x i ) = 1 \sum\limits_{\xi\in Y_i} g_i(\xi,{\bf w}^i, {\bf x}^i)=\sum\limits_{\xi\in Y_i} \text{Pr}( \textcolor{red}{x} =\xi,{\bf w}^i, {\bf x}^i)=1 ξYigi(ξ,wi,xi)=ξYiPr(x=ξ,wi,xi)=1

  • 应该为 y ???

结果是对 w i j w_{ij} wij 求导。


引理 1: 对任意 REINFORCE 算法, 有:

E { Δ w i j ∣ W , x i } = α i j ∂ E { r ∣ W , x i } ∂ w i j E\{\Delta w_{ij}|{\bf W}, {\bf x}^i\}=\alpha_{ij}\frac{\partial E\{r|{\bf W},{\bf x}^i\}}{\partial w_{ij}} E{ΔwijW,xi}=αijwijE{rW,xi}

证明: 首先注意,特征资格 characteristic eligibility 可以写为:
  ~  
e i j = ∂ ln ⁡ g i ∂ w i j = 1 g i ∂ g i ∂ w i j e_{ij}=\frac{\partial \ln g_i}{\partial w_{ij}}=\frac{1}{g_i}\frac{\partial g_i}{\partial w_{ij}} eij=wijlngi=gi1wijgi
  ~  
尽管在 g i = 0 g_i=0 gi=0 时无法定义,但只要 Y i Y_i Yi 是离散的,对于任何强化算法, Δ w i j \Delta w_{ij} Δwij 仍然是定义良好的。
这是因为 g i ( ξ , w i , x i ) = 0 g_i(\xi,{\bf w}^i, {\bf x}^i) = 0 gi(ξ,wi,xi)=0 意味着该值作为输出 y i y_i yi 的值出现的概率为零。

E { Δ w i j ∣ W , x i } = ∑ ξ ∈ Y i E { Δ w i j ∣ W , x i , y i = ξ } Pr { y i = ξ ∣ W , x i } = ∑ ξ ∈ Y i E { α i j ( r − b i j ) g i ( ξ , w i , x i ) ∂ g i ∂ w i j ( ξ , w i , x i ) ∣ W , x i , y i = ξ } g i ( ξ , w i , x i ) = ∑ ξ ∈ Y i E { α i j ( r − b i j ) ∂ g i ∂ w i j ( ξ , w i , x i ) ∣ W , x i , y i = ξ } = α i j ∑ ξ ∈ Y i E { r ∣ W , x i , y i = ξ } ∂ g i ∂ w i j ( ξ , w i , x i ) ⏟ α i j ∂ E { r ∣ W , x i } ∂ w i j        − α i j ∑ ξ ∈ Y i E { b i j ∣ W , x i , y i = ξ } ∂ g i ∂ w i j ( ξ , w i , x i ) ⏟ =   0 \begin{aligned}E\{\Delta w_{ij}|{\bf W}, {\bf x}^i\}&=\sum\limits_{\xi\in Y_i}E\{\Delta w_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}\text{Pr}\{y_i=\xi|{\bf W}, {\bf x}^i\}\\ &=\sum\limits_{\xi\in Y_i}E\Big\{\frac{\alpha_{ij}(r-b_{ij})}{g_i(\xi, {\bf w}^i, {\bf x}^i)}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)|{\bf W}, {\bf x}^i, y_i=\xi\Big\}g_i(\xi,{\bf w}^i, {\bf x}^i)\\ &=\sum\limits_{\xi\in Y_i}E\{\alpha_{ij}(r-b_{ij})\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)|{\bf W}, {\bf x}^i, y_i=\xi\}\\ &=\underbrace{\alpha_{ij}\sum\limits_{\xi\in Y_i}E\{r|{\bf W}, {\bf x}^i, y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)}_{\alpha_{ij}\frac{\partial E\{r|{\bf W}, {\bf x}^i\}}{\partial w_{ij}}}\\ &~~~~~~-\alpha_{ij}\underbrace{\sum\limits_{\xi\in Y_i}E\{b_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)}_{=~0}\end{aligned} E{ΔwijW,xi}=ξYiE{ΔwijW,xi,yi=ξ}Pr{yi=ξW,xi}=ξYiE{gi(ξ,wi,xi)αij(rbij)wijgi(ξ,wi,xi)W,xi,yi=ξ}gi(ξ,wi,xi)=ξYiE{αij(rbij)wijgi(ξ,wi,xi)W,xi,yi=ξ}=αijwijE{rW,xi} αijξYiE{rW,xi,yi=ξ}wijgi(ξ,wi,xi)      αij= 0 ξYiE{bijW,xi,yi=ξ}wijgi(ξ,wi,xi)

利用 α i j \alpha_{ij} αij 不依赖于输出 y i y_i yi 的特定值这一事实;
根据事实 1,最后一个表达式的第一项是 α i j ∂ E { r ∣ W , x i } ∂ w i j \alpha_{ij}\frac{\partial E\{r|{\bf W}, {\bf x}^i\}}{\partial w_{ij}} αijwijE{rW,xi}
考虑剩下的项。

因为 E { b i j ∣ W , x i , y i = ξ } = E { b i j ∣ W , x i } E\{b_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}=E\{b_{ij}|{\bf W}, {\bf x}^i\} E{bijW,xi,yi=ξ}=E{bijW,xi},根据假设,我们有

∑ ξ ∈ Y i E { b i j ∣ W , x i , y i = ξ } ∂ g i ∂ w i j ( ξ , w i , x i ) = E { b i j ∣ W , x i } ∑ ξ ∈ Y i ∂ g i ∂ w i j ( ξ , w i , x i ) ⏟ =   0 = 0 \begin{aligned}&\sum\limits_{\xi\in Y_i}E\{b_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)\\ &=E\{b_{ij}|{\bf W}, {\bf x}^i\}\underbrace{\sum\limits_{\xi\in Y_i}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)}_{=~0}\\ &=0\end{aligned} ξYiE{bijW,xi,yi=ξ}wijgi(ξ,wi,xi)=E{bijW,xi}= 0 ξYiwijgi(ξ,wi,xi)=0

由事实 2, 证毕。


事实 3:

∂ E { r ∣ W } ∂ w i j = ∑ x ∈ X i E { r ∣ W , x i = x } ∂ w i j Pr { x i = x ∣ W } \frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}=\sum\limits_{{\bf x}\in {\bf X}_i}\frac{E\{r|{\bf W}, {\bf x}^i={\bf x}\}}{\partial w_{ij}}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\} wijE{rW}=xXiwijE{rW,xi=x}Pr{xi=xW}

证明: 对于可能的输入模式 x i {\bf x}^i xi,我们可以这样写

E { r ∣ W } = ∑ x ∈ X i E { r ∣ W , x i = x } Pr { x i = x ∣ W } E\{r|{\bf W}\}=\sum\limits_{{\bf x}\in {\bf X}_i}E\{r|{\bf W},{\bf x}^i={\bf x}\}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\} E{rW}=xXiE{rW,xi=x}Pr{xi=xW}

注意,权重 w i j w_{ij} wij 位于为确定 x i {\bf x}^i xi 而执行的所有计算的下游。
这意味着 Pr { x i = x ∣ W } \text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\} Pr{xi=xW} 不依赖于 w i j w_{ij} wij ,因此结果是最后一个方程的两边同时除以 w i j w_{ij} wij

引理 2: 对于 任意的 REINFORCE 算法

E { Δ w i j ∣ W } = α i j ∂ E { r ∣ W } ∂ w i j E\{\Delta w_{ij}|{\bf W}\}=\alpha_{ij}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}} E{ΔwijW}=αijwijE{rW}

证明:

E { Δ w i j ∣ W } = ∑ x ∈ X i E { Δ w i j ∣ W , x i = x } Pr { x i = x ∣ W } = ∑ x ∈ X i α i j ∂ E { r ∣ W , x i = x } ∂ w i j Pr { x i = x ∣ W } = α i j ∑ x ∈ X i ∂ E { r ∣ W , x i = x } ∂ w i j Pr { x i = x ∣ W }        α i j  不依赖单元输入 = α i j ∑ x ∈ X i ∂ E { r ∣ W } ∂ w i j     事实  3   从右往左 \begin{aligned}E\{\Delta w_{ij}|{\bf W}\} &=\sum\limits_{{\bf x}\in {\bf X}_i}E\{\Delta w_{ij}|{\bf W},{\bf x}^i={\bf x}\}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}\\ &=\sum\limits_{{\bf x}\in {\bf X}_i}\alpha_{ij}\frac{\partial E\{r|{\bf W},{\bf x}^i={\bf x}\}}{\partial w_{ij}}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}\\ &=\alpha_{ij}\sum\limits_{{\bf x}\in {\bf X}_i}\frac{\partial E\{r|{\bf W},{\bf x}^i={\bf x}\}}{\partial w_{ij}}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}~~~~~~\textcolor{blue}{\alpha_{ij}~不依赖单元输入}\\ &=\alpha_{ij}\sum\limits_{{\bf x}\in {\bf X}_i}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}~~~\textcolor{blue}{事实~ 3 ~~从右往左 }\end{aligned} E{ΔwijW}=xXiE{ΔwijW,xi=x}Pr{xi=xW}=xXiαijwijE{rW,xi=x}Pr{xi=xW}=αijxXiwijE{rW,xi=x}Pr{xi=xW}      αij 不依赖单元输入=αijxXiwijE{rW}   事实 3  从右往左

其中第一个等式是通过对单元的可能输入模式计算条件概率得到的,
第二个等式是根据引理 1 得出的,
第三个等式是根据 α i j \alpha_{ij} αij 不依赖于单元输入的假设得出的,
最后一个等式是根据事实 3 得出的。

建立最后一个结果是关键的一步,它就像引理 1 一样,除了对单元 i i i 的输入的条件概率已经从方程的两边去掉了。
它涉及到两个量,不像引理 1,一般来说计算起来会很麻烦因为 Pr { x i = x ∣ W } \text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\} Pr{xi=xW} 会很复杂。
从这个引理可以很容易地得出我们的主要结论。

定理 1: 对于任何 REINFORCE 算法, E { Δ W ∣ W } E\{\Delta {\bf W}|{\bf W}\} E{ΔWW} ∇ w E { r ∣ W } \nabla _{\bf w}E\{r|{\bf W}\} wE{rW} 的内积是非负的。即 E { Δ W ∣ W } T ∇ w E { r ∣ W } ≥ 0 E\{\Delta {\bf W}|{\bf W}\}^T\nabla _{\bf w}E\{r|{\bf W}\} ≥ 0 E{ΔWW}TwE{rW}0
更进一步,如果对所有 i i i j j j, 都有 α i j \alpha_{ij} αij > 0,那么只有当 ∇ w E { r ∣ W } = 0 \nabla _{\bf w}E\{r|{\bf W}\}=0 wE{rW}=0 时,这个内积才为 0。

E { Δ W ∣ W } T ∇ w E { r ∣ W } = ∑ ( i , j ) ∈ I E { Δ w i j ∣ W } E { r ∣ W } ∂ w i j = ∑ ( i , j ) ∈ I α i j ( E { r ∣ W } ∂ w i j ) 2 \begin{aligned}&E\{\Delta {\bf W}|{\bf W}\}^T\nabla _{\bf w}E\{r|{\bf W}\}\\ &=\sum\limits_{(i,j)\in I}E\{\Delta w_{ij}|{\bf W}\}\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\\ &=\sum\limits_{(i,j)\in I}\alpha_{ij}\Big(\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\Big)^2\end{aligned} E{ΔWW}TwE{rW}=(i,j)IE{ΔwijW}wijE{rW}=(i,j)Iαij(wijE{rW})2

根据引理 2,即得结果。

A.2. 回合式 REINFORCE 算法 的结论

对回合式 REINFORCE 算法 的分析是基于 unfolds -in-time 映射,它将原始网络 N N N 与其 unfolds -in-time无环网络 N ∗ N^* N 相关联。
关键的观察是,让 N N N 面对它的学习问题相当于让 N ∗ N^* N 面对一个相应的联想学习问题。
W ∗ {\bf W}^* W 表示 N ∗ N^* N 的权重矩阵,其单个组件的权量表示为 w i j t w_{ij}^t wijt
N ∗ N^* N 中的权重 w i j t w_{ij}^t wijt 对应于 N N N 中 在 第 t t t 个时间步的权重 w i j w_{ij} wij,因此对所有 i , j , t i,j,t i,j,t, 有 w i j t = w i j w_{ij}^t=w_{ij} wijt=wij
因为这些网络之间的通信,需要注意的是,指定 W \bf W W 相当于指定 W ∗ {\bf W}^* W,
同时,学习问题之间的对应关系,我们可以考虑强化 r r r 对于这两个问题是一样的。

事实 4:

∂ E { r ∣ W } ∂ w i j = ∑ t = 1 k ∂ E { r ∣ W ∗ } ∂ w i j t \frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t} wijE{rW}=t=1kwijtE{rW}

证明: 根据链式法则

∂ E { r ∣ W } ∂ w i j = ∑ t = 1 k ∂ E { r ∣ W } ∂ w i j t ∂ w i j t ∂ w i j = ∑ t = 1 k ∂ E { r ∣ W } ∂ w i j t = ∑ t = 1 k ∂ E { r ∣ W ∗ } ∂ w i j t \begin{aligned}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}&=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}^t}\frac{\partial w_{ij}^t}{\partial w_{ij}}\\ &=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}^t}\\ &=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t}\end{aligned} wijE{rW}=t=1kwijtE{rW}wijwijt=t=1kwijtE{rW}=t=1kwijtE{rW}

因为 对于所有的 t t t, 都有 w i j t = w i j w_{ij}^t=w_{ij} wijt=wij


引理 3. 对任意 回合式 REINFORCE 算法

E { Δ w i j ∣ W } = α i j ∂ E { r ∣ W } ∂ w i j E\{\Delta w_{ij}|{\bf W}\}=\alpha_{ij}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}} E{ΔwijW}=αijwijE{rW}

证明:
Δ w = α i j ( r − b i j ) e i j t \Delta w= \alpha_{ij}(r-b_{ij})e_{ij}^t Δw=αij(rbij)eijt,使 Δ w i j = ∑ t = 1 k Δ w i j t \Delta w_{ij}= \sum\limits_{t=1}^k\Delta w_{ij}^t Δwij=t=1kΔwijt
注意,这表示的是 N ∗ N^* N 中的 REINFORCE 算法,因此根据引理 2

E { Δ w i j t ∣ W ∗ } = α i j ∂ E { r ∣ W ∗ } ∂ w i j t E\{\Delta w_{ij}^t|{\bf W}^*\}=\alpha_{ij}\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t} E{ΔwijtW}=αijwijtE{rW}

E { Δ w i j ∣ W } = E { ∑ t = 1 k Δ w i j t ∣ W ∗ } = ∑ t = 1 k E { Δ w i j t ∣ W ∗ } = ∑ t = 1 k α i j ∂ E { r ∣ W ∗ } ∂ w i j t = α i j ∂ E { r ∣ W } ∂ w i j \begin{aligned}E\{\Delta w_{ij}|{\bf W}\}&=E\Big\{\sum\limits_{t=1}^k\Delta w_{ij}^t|{\bf W}^*\Big\}\\ &=\sum\limits_{t=1}^kE\{\Delta w_{ij}^t|{\bf W}^*\}\\ &=\sum\limits_{t=1}^k\alpha_{ij}\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t}\\ &=\alpha_{ij}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}\end{aligned} E{ΔwijW}=E{t=1kΔwijtW}=t=1kE{ΔwijtW}=t=1kαijwijtE{rW}=αijwijE{rW}

最后一个等式来自事实 4。右 ——> 左

定理 2: 和 定理 1 完全一样
对于任何 回合式 REINFORCE 算法, E { Δ W ∣ W } E\{\Delta {\bf W}|{\bf W}\} E{ΔWW} ∇ w E { r ∣ W } \nabla _{\bf w}E\{r|{\bf W}\} wE{rW} 的内积是非负的。
更进一步,如果对所有 i i i j j j, 都有 α i j \alpha_{ij} αij > 0,那么只有当 ∇ w E { r ∣ W } = 0 \nabla _{\bf w}E\{r|{\bf W}\}=0 wE{rW}=0 时,这个内积才为 0。

证明:

E { Δ W ∣ W } T ∇ w E { r ∣ W } = ∑ ( i , j ) ∈ I E { Δ w i j ∣ W } E { r ∣ W } ∂ w i j = ∑ ( i , j ) ∈ I α i j ( E { r ∣ W } ∂ w i j ) 2 \begin{aligned}E\{\Delta {\bf W}|{\bf W}\}^T\nabla _{\bf w}E\{r|{\bf W}\}&=\sum\limits_{(i,j)\in I}E\{\Delta w_{ij}|{\bf W}\}\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\\ &=\sum\limits_{(i,j)\in I}\alpha_{ij}\Big(\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\Big)^2\end{aligned} E{ΔWW}TwE{rW}=(i,j)IE{ΔwijW}wijE{rW}=(i,j)Iαij(wijE{rW})2

根据引理 3,即得结果。

注意定理 2 的证明和定理 1 的证明是一样的。
这是因为定理 1 使用引理 2 ,定理 2 使用引理 3,两个引理都有相同的结论。

附录 B

本附录专门用于证明以下结果:

命题 1 假设概率质量或密度函数 g g g 有这样的形式:
g ( y , μ , θ 2 , ⋯   , θ k ) = exp ⁡ [ Q ( μ , θ 2 , ⋯   , θ k ) ] y + D ( μ , θ 2 , ⋯   , θ k ) + S ( y ) g(y, \mu, \theta_2, \cdots, \theta_k)=\exp[Q(\mu,\theta_2,\cdots,\theta_k)]y+D(\mu,\theta_2,\cdots,\theta_k)+S(y) g(y,μ,θ2,,θk)=exp[Q(μ,θ2,,θk)]y+D(μ,θ2,,θk)+S(y)
Q , D , S Q,D,S Q,D,S 为函数, μ , θ 2 , ⋯   , θ k \mu,\theta_2,\cdots,\theta_k μ,θ2,,θk 为参数。 μ \mu μ 是分布的均值。
∂ ln ⁡ g ∂ μ = y − μ σ 2 \frac{\partial \ln g}{\partial \mu}=\frac{y-\mu}{\sigma^2} μlng=σ2yμ
其中 σ 2 \sigma^2 σ2 是分布的方差

————————————
整理的 :
目标: 证明 μ \mu μ 的 characteristic eligibility ∂ ln ⁡ g ∂ μ = y − μ σ 2 \frac{\partial \ln g}{\partial \mu}=\frac{y-\mu}{\sigma^2} μlng=σ2yμ

其中 g ( y , μ , θ 2 , ⋯   , θ k ) = exp ⁡ [ Q ( μ , θ 2 , ⋯   , θ k ) ] y + D ( μ , θ 2 , ⋯   , θ k ) + S ( y ) g(y, \mu, \theta_2, \cdots, \theta_k)=\exp[Q(\mu,\theta_2,\cdots,\theta_k)]y+D(\mu,\theta_2,\cdots,\theta_k)+S(y) g(y,μ,θ2,,θk)=exp[Q(μ,θ2,,θk)]y+D(μ,θ2,,θk)+S(y)

输出 y y y 是由密度函数 g g g 确定的

α = ∂ Q ∂ μ \alpha=\frac{\partial Q}{\partial \mu} α=μQ β = ∂ D ∂ μ β= \frac{\partial D}{\partial \mu} β=μD
  ~  
∂ ln ⁡ g ∂ μ = ∂ Q ∂ μ y + ∂ D ∂ μ = α y + β \frac{\partial \ln g}{\partial \mu}=\frac{\partial Q}{\partial \mu}y+\frac{\partial D}{\partial \mu}=\alpha y+\beta μlng=μQy+μD=αy+β
  ~  

————————————
原文:
证明:这里我们只考虑概率质量函数的情况,但密度函数可以给出相应的参数。

设 Y 是 g 确定的分布。
  ~  
∑ y ∈ Y g ∂ ln ⁡ g ∂ μ = ∑ y ∈ Y ∂ g ∂ μ = ∂ ∂ μ ∑ y ∈ Y g = 0            ( 15 ) \sum\limits_{y\in Y}\textcolor{blue}{g}\frac{\partial \ln g}{\partial \mu}=\sum\limits_{y\in Y}\frac{\partial g}{\partial \mu}=\frac{\partial }{\partial \mu}\sum\limits_{y\in Y}g=0~~~~~~~~~~(15) yYgμlng=yYμg=μyYg=0          (15)
  ~  
由于 ∑ y ∈ Y g = 1 \sum\limits_{y\in Y}g=1 yYg=1, 结合 μ = ∑ y ∈ Y y g \mu=\sum\limits_{y\in Y}yg μ=yYyg
∑ y ∈ Y ( y − μ ) g ∂ ln ⁡ g ∂ μ = ∑ y ∈ Y y g ∂ ln ⁡ g ∂ μ − μ ∑ y ∈ Y g ∂ ln ⁡ g ∂ μ ⏟ 由式  ( 15 ) , 为  0 = ∑ y ∈ Y y ∂ g ∂ μ = ∂ ∂ μ ∑ y ∈ Y y g ⏟ =   μ = 1            ( 16 ) \begin{aligned}\sum\limits_{y\in Y}\textcolor{blue}{(y-\mu)g}\frac{\partial \ln g}{\partial \mu}&=\sum\limits_{y\in Y}yg\frac{\partial \ln g}{\partial \mu}-\mu\underbrace{\sum\limits_{y\in Y} g\frac{\partial \ln g}{\partial \mu}}_{由 式 ~(15), 为~ 0}\\ &=\sum\limits_{y\in Y}y\frac{\partial g}{\partial \mu}\\ &=\frac{\partial }{\partial \mu}\underbrace{\sum\limits_{y\in Y}yg}_{=~\mu}\\ &=1\end{aligned}~~~~~~~~~~(16) yY(yμ)gμlng=yYygμlngμ由式 (15), 0 yYgμlng=yYyμg=μ= μ yYyg=1          (16)
  ~  
现在引入简写符号 α = ∂ Q ∂ μ \alpha=\frac{\partial Q}{\partial \mu} α=μQ β = ∂ D ∂ μ β= \frac{\partial D}{\partial \mu} β=μD。从命题的假设, 我们有
  ~  
∂ ln ⁡ g ∂ μ = ∂ Q ∂ μ y + ∂ D ∂ μ = α y + β \frac{\partial \ln g}{\partial \mu}=\frac{\partial Q}{\partial \mu}y+\frac{\partial D}{\partial \mu}=\alpha y+\beta μlng=μQy+μD=αy+β
  ~  

  ~  
∑ y ∈ Y g ∂ ln ⁡ g ∂ μ = ∑ y ∈ Y ( α y + β ) g = α ∑ y ∈ Y y g + β ∑ y ∈ Y g = α μ + β ⏟ 根据式  ( 15 ) , =   0            ( 17 ) \sum\limits_{y\in Y}\textcolor{blue}{g}\frac{\partial \ln g}{\partial \mu}=\sum\limits_{y\in Y}(\alpha y+\beta)g=\alpha \sum\limits_{y\in Y}yg+\beta\sum\limits_{y\in Y}g=\underbrace{\alpha \mu +\beta}_{根据 式 ~(15) ,=~0}~~~~~~~~~~(17) yYgμlng=yY(αy+β)g=αyYyg+βyYg=根据式 (15)= 0 αμ+β          (17)
  ~  

  ~  
∑ y ∈ Y ( y − μ ) g ∂ ln ⁡ g ∂ μ = ∑ y ∈ Y ( y − μ ) ( α y + β ) g = ∑ y ∈ Y ( y − μ ) [ α ( y − μ ) + α μ + β ] g = α ∑ y ∈ Y ( y − μ ) 2 g + ( α μ + β ) ∑ y ∈ Y ( y − μ ) g ⏟ =   0 = α σ 2 ⏟ 根据式  ( 16 ) , =   1            ( 18 ) \begin{aligned}\sum\limits_{y\in Y}\textcolor{blue}{(y-\mu)g}\frac{\partial \ln g}{\partial \mu}&=\sum\limits_{y\in Y}(y-\mu)(\alpha y+\beta)g\\ &=\sum\limits_{y\in Y}(y-\mu)[\alpha(y-\mu)+\alpha \mu+\beta]g\\ &=\alpha\sum\limits_{y\in Y}(y-\mu)^2g+(\alpha \mu +\beta)\underbrace{\sum\limits_{y\in Y}(y-\mu)g}_{=~0}\\ &=\underbrace{\alpha \sigma^2}_{根据 式 ~(16) ,=~1}\end{aligned}~~~~~~~~~~(18) yY(yμ)gμlng=yY(yμ)(αy+β)g=yY(yμ)[α(yμ)+αμ+β]g=αyY(yμ)2g+(αμ+β)= 0 yY(yμ)g=根据式 (16)= 1 ασ2          (18)
  ~  
联合 式 (15)-(18),有
  ~  
α μ + β = 0 \alpha\mu+\beta=0 αμ+β=0
  ~  
α σ 2 = 1 \alpha\sigma^2=1 ασ2=1
  ~  
则有 α = 1 σ 2 ,     β = − α μ = − μ σ 2 \alpha=\frac{1}{\sigma^2}, ~~~\beta=-\alpha\mu=-\frac{\mu}{\sigma^2} α=σ21,   β=αμ=σ2μ
  ~  
∂ ln ⁡ g ( y , μ , θ 2 , ⋯   , θ k ) ∂ μ = 1 σ 2 y − μ σ 2 = y − μ σ 2 \frac{\partial \ln g(y,\mu,\theta_2,\cdots,\theta_k)}{\partial \mu}=\frac{1}{\sigma^2}y-\frac{\mu}{\sigma^2}=\frac{y-\mu}{\sigma^2} μlng(y,μ,θ2,,θk)=σ21yσ2μ=σ2yμ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2168585.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《深度学习》迁移学习综合应用 原理、案例解析与实现

目录 一、迁移学习 1、什么是迁移学习 2、迁移学习步骤 1)选择预训练的模型和适当的层 2)冻结预训练模型的参数 3)在新数据集上训练新增加的层 4)微调预训练模型的层 5)评估和测试 二、案例实现 1、数据准备…

内网穿透的应用-Windows系统安装SeaFile并实现远程访问本地共享文件资料详细教程

文章目录 1. 前言2. SeaFile云盘设置2.1 Owncould的安装环境设置2.2 SeaFile下载安装2.3 SeaFile的配置 3. cpolar内网穿透3.1 下载安装3.2 Cpolar注册3.3 Cpolar云端设置3.4 Cpolar本地设置 4.公网访问测试5.结语 1. 前言 本文主要为大家介绍,如何使用两个简单软件…

如何使用ssm实现基于BS的库存管理软件设计与实现+vue

TOC ssm708基于BS的库存管理软件设计与实现vue 绪论 课题背景 身处网络时代,随着网络系统体系发展的不断成熟和完善,人们的生活也随之发生了很大的变化。目前,人们在追求较高物质生活的同时,也在想着如何使自身的精神内涵得到…

【Python报错已解决】ModuleNotFoundError: No module named ‘psutil’

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 专栏介绍 在软件开发和日常使用中,BUG是不可避免的。本专栏致力于为广大开发者和技术爱好者提供一个关于BUG解决的经…

【无人机设计与控制】基于改进蚁群算法的机器人_无人机_无人车_无人船的路径规划算法

摘要 改进的蚁群算法 (IACO) 通过结合启发式信息和自适应参数调节,优化了机器人、无人机、无人车和无人船的路径规划问题。本文对传统蚁群算法的局限性进行了分析,并提出了一种改进方法,提升了算法的收敛速度和全局搜索能力。通过实验对比&a…

三篇文章速通JavaSE到SpringBoot框架 (中) IO 进程线程 网络编程 XML MySQL JDBC相关概念与演示代码

文章目录 IOfile类的作用I/O的作用将上篇文章综合项目使用IO流升级所需知识点 进程 线程创建线程的三种方式 网络编程网络编程介绍IP地址端口号网络通信协议网络通信协议的分层演示代码 XMLXML的作用是什么?xml特点 注解什么是注解?注解的使用注解的重要…

STM32堆栈溢出Bug

可以看到x和buf交换位置后,x处于0x200006B0地址上是不会被函数B影响到的,实际上B函数对buf赋值的过程是出现了越界行为的,所以导致了x在buf地址之后的话会被意外修改掉值。

管易云·奇门和金蝶云星空接口打通对接实战

管易云奇门和金蝶云星空接口打通对接实战 对接源平台:管易云奇门 管易云是金蝶旗下专注提供电商企业管理软件服务的子品牌,先后开发了C-ERP、EC-OMS、EC-WMS、E店管家、BBC、B2B、B2C商城网站建设等产品和服务,涵盖电商业务全流程。 写入目标:金蝶云星空…

Python下利用Selenium获取动态页面数据

利用python爬取网站数据非常便捷,效率非常高,但是常用的一般都是使用BeautifSoup、requests搭配组合抓取静态页面(即网页上显示的数据都可以在html源码中找到,而不是网站通过js或者ajax异步加载的),这种类型…

【趣学Python算法100例】冒泡排序

问题描述 对N个整数(数据由键盘输入)进行升序排列。 问题分析 要整理一组相同类型的数,我们可以用一个叫数组的工具来存放它们。冒泡排序,就是通过一次次比较相邻的两个数并交换位置,让原本乱糟糟的数组变得井井有条…

Python画笔案例-066 绘制橙子

1、绘制橙子 通过 python 的turtle 库绘制 橙子,如下图: 2、实现代码 绘制 橙子,以下为实现代码: """橙子.py注意亮度为0.5的时候最鲜艳本程序需要coloradd模块支持,安装方法:pip install coloradd程序运行需要很长时间,请耐心等待。可以把窗口最小化,然后…

【源码+文档+调试讲解】汽车维修管理系统的设计与实现

摘 要 随着计算机技术的高速发展,现代计算机系统已经从以计算为中心向以信息化处理为中心的方向发展。而汽车维修,不仅需要在硬件上为现代社会的人们提供一个汽车维修的平台,获取汽车知识的环境,更要在软件上为车辆提供汽车维修的…

记一次京东自营广电流量卡踩坑

本文首发于只抄博客,欢迎点击原文链接了解更多内容。 前言 最近由于竞合,电信和联通的大流量卡都下架了,29 元的长期套餐流量最多只有 80G 了,想要长期大流量卡只剩下广电这一个选择了。光从套餐上来看 29 元 192G 的流量还是很诱…

Shell 脚本学习

Shell学习 Shell 脚本 Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。 Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服…

安装了 cursor 之后,我写代码不用手了

最近新一代 AI 编程助手 cursor 爆火。 Cloudflare 副总裁家的 8 岁女儿在 45 分钟内用它搭起了一个聊天机器人。 这个女孩甚至不会编程,只是通过输入一些简单的 prompt 就完成了这样一个聊天机器人。 如果我们通过 RPA 或者智能体的方式,将语音直接转…

著名建筑物检测与识别系统源码分享

著名建筑物检测与识别检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Comp…

c++算法第二天

温馨提示:本篇文章适合刚开始练算法的小白,大佬若见勿嘲 题目 题目解析 遇到0写两遍,非0写一遍,其余非零数右移即可 编写原理 第一步找到最后一个被复写的数 先根据题目所给的例子找到最后一次要复写的数字 20240923_142843 第…

【AI学习】Lilian Weng:Extrinsic Hallucinations in LLMs(LLM 的外在幻觉)

来自OpenAI 的 Lilian Weng的《Extrinsic Hallucinations in LLMs》 Date: July 7, 2024 | Estimated Reading Time: 30 min | Author: Lilian Weng 文章链接:https://lilianweng.github.io/posts/2024-07-07-hallucination/ 大概看了一下,这篇文章的核…

重新拉取maven-jar包

问题:经常会出现这种情况:一个项目重新打包之后,在另外一个项目中无法引用。可以尝试一下解决方式 1:右上角重新拉取: 2:清理所有缓存:idea-file-invalidate Caches 3:设置拉取方式&#xff…

【论文速看】DL最新进展20240926-图像分割、图像修复、CNN

目录 【图像分割】【图像修复】【CNN】 【图像分割】 [2024] CAD: Memory Efficient Convolutional Adapter for Segment Anything 论文链接:https://arxiv.org/pdf/2409.15889 代码链接:https://github.com/Kyyle2114/Convolutional-Adapter-for-Segme…