【论文_1992】 REINFORCE

Williams, R. J. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Mach. Learn., 8:229–256, 1992. PDF 下载链接

前面部分：【论文_1992】 REINFORCE » P1

文章目录

附录 A
- A.1. REINFORCE 算法的一些结论
- A.2. 回合式 REINFORCE 算法的结论
附录 B

附录 A

本附录分别包含定理 1 和定理 2 关于 REINFORCE 和回合式 REINFORCE 算法的证明。除了文中介绍的符号外，我们还将一些感兴趣的集合符号化，
令 $Y_i$ 表示第 $i$ 个单元可能的输出值 $y_i$ 的集合;
其中 $X_i$ 表示该单元的输入向量 ${\bf x}^i$ 的可能值的集合。
虽然它不是一个关键的假设，我们让 $Y_i$ 和 $X_i$ 自始至终都是离散集。
同样，我们让 $I$ 表示 $\bf W$ 的元素的索引集，使得 $\in I$ 当且仅当 $w_{ij}$ 是系统中的一个参数。

这里应当指出，为了简洁起见，本附录中所证明的所有断言都使用了一种约定，在这种约定中，每个未绑定的变量都被隐式地假定为在一组适当的值上被普遍量化。
例如，无论何时出现 $i$ 和 $j$ ，它们都被认为是任意的(仅受 $\in I$ 的约束)

A.1. REINFORCE 算法的一些结论

事实 1：

$\frac{\partial E\{r|{\bf W},{\bf x}^i\} }{\partial w_{ij}}=\sum\limits_{\xi\in Y_i}E\{r|{\bf W},{\bf x}^i,y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)$

证明：
根据可能的输出值 $y_i$ ，我们可以写

$\begin{aligned}E\{r|{\bf W},{\bf x}^i\}&=\sum\limits_{\xi\in Y_i}E\{r|{\bf W},{\bf x}^i,y_i=\xi\}\text{Pr}\{y_i=\xi|{\bf W}, {\bf x}^i\}\\ &=\sum\limits_{\xi\in Y_i}E\{r|{\bf W},{\bf x}^i,y_i=\xi\}\textcolor{blue}{g_i}(\xi,\textcolor{blue}{{\bf w}^i}, {\bf x}^i)\end{aligned}$

注意 $y_i$ 的值的指定使得 $w_{ij}$ 对 $r$ 的最终值没有影响，即 $E\{r|{\bf W},{\bf x}^i,y_i=\xi\}$ 不依赖于 $w_{ij}$ 。
通过对最后一个方程两边对 $w_{ij}$ 求导得到结果

事实 2：

$\sum\limits_{\xi\in Y_i}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)=0$

证明：

$\sum\limits_{\xi\in Y_i} g_i(\xi,{\bf w}^i, {\bf x}^i)=\sum\limits_{\xi\in Y_i} \text{Pr}( \textcolor{red}{x} =\xi,{\bf w}^i, {\bf x}^i)=1$

应该为 y ???

结果是对 $w_{ij}$ 求导。

引理 1：对任意 REINFORCE 算法，有：

$E\{\Delta w_{ij}|{\bf W}, {\bf x}^i\}=\alpha_{ij}\frac{\partial E\{r|{\bf W},{\bf x}^i\}}{\partial w_{ij}}$

证明：首先注意，特征资格 characteristic eligibility 可以写为：

$e_{ij}=\frac{\partial \ln g_i}{\partial w_{ij}}=\frac{1}{g_i}\frac{\partial g_i}{\partial w_{ij}}$

尽管在 $g_i=0$ 时无法定义，但只要 $Y_i$ 是离散的，对于任何强化算法， $\Delta w_{ij}$ 仍然是定义良好的。
这是因为 $g_i(\xi,{\bf w}^i, {\bf x}^i) = 0$ 意味着该值作为输出 $y_i$ 的值出现的概率为零。

$\begin{aligned}E\{\Delta w_{ij}|{\bf W}, {\bf x}^i\}&=\sum\limits_{\xi\in Y_i}E\{\Delta w_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}\text{Pr}\{y_i=\xi|{\bf W}, {\bf x}^i\}\\ &=\sum\limits_{\xi\in Y_i}E\Big\{\frac{\alpha_{ij}(r-b_{ij})}{g_i(\xi, {\bf w}^i, {\bf x}^i)}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)|{\bf W}, {\bf x}^i, y_i=\xi\Big\}g_i(\xi,{\bf w}^i, {\bf x}^i)\\ &=\sum\limits_{\xi\in Y_i}E\{\alpha_{ij}(r-b_{ij})\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)|{\bf W}, {\bf x}^i, y_i=\xi\}\\ &=\underbrace{\alpha_{ij}\sum\limits_{\xi\in Y_i}E\{r|{\bf W}, {\bf x}^i, y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)}_{\alpha_{ij}\frac{\partial E\{r|{\bf W}, {\bf x}^i\}}{\partial w_{ij}}}\\ &~~~~~~-\alpha_{ij}\underbrace{\sum\limits_{\xi\in Y_i}E\{b_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)}_{=~0}\end{aligned}$

利用 $\alpha_{ij}$ 不依赖于输出 $y_i$ 的特定值这一事实;
根据事实 1，最后一个表达式的第一项是 $\alpha_{ij}\frac{\partial E\{r|{\bf W}, {\bf x}^i\}}{\partial w_{ij}}$ 。
考虑剩下的项。

因为 $E\{b_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}=E\{b_{ij}|{\bf W}, {\bf x}^i\}$ ，根据假设，我们有

$\begin{aligned}&\sum\limits_{\xi\in Y_i}E\{b_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)\\ &=E\{b_{ij}|{\bf W}, {\bf x}^i\}\underbrace{\sum\limits_{\xi\in Y_i}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)}_{=~0}\\ &=0\end{aligned}$

由事实 2，证毕。

事实 3：

$\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}=\sum\limits_{{\bf x}\in {\bf X}_i}\frac{E\{r|{\bf W}, {\bf x}^i={\bf x}\}}{\partial w_{ij}}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}$

证明：对于可能的输入模式 ${\bf x}^i$ ，我们可以这样写

$E\{r|{\bf W}\}=\sum\limits_{{\bf x}\in {\bf X}_i}E\{r|{\bf W},{\bf x}^i={\bf x}\}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}$

注意，权重 $w_{ij}$ 位于为确定 ${\bf x}^i$ 而执行的所有计算的下游。
这意味着 $\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}$ 不依赖于 $w_{ij}$ ，因此结果是最后一个方程的两边同时除以 $w_{ij}$ 。

引理 2：对于任意的 REINFORCE 算法

$E\{\Delta w_{ij}|{\bf W}\}=\alpha_{ij}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}$

证明：

$\begin{aligned}E\{\Delta w_{ij}|{\bf W}\} &=\sum\limits_{{\bf x}\in {\bf X}_i}E\{\Delta w_{ij}|{\bf W},{\bf x}^i={\bf x}\}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}\\ &=\sum\limits_{{\bf x}\in {\bf X}_i}\alpha_{ij}\frac{\partial E\{r|{\bf W},{\bf x}^i={\bf x}\}}{\partial w_{ij}}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}\\ &=\alpha_{ij}\sum\limits_{{\bf x}\in {\bf X}_i}\frac{\partial E\{r|{\bf W},{\bf x}^i={\bf x}\}}{\partial w_{ij}}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}~~~~~~\textcolor{blue}{\alpha_{ij}~不依赖单元输入}\\ &=\alpha_{ij}\sum\limits_{{\bf x}\in {\bf X}_i}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}~~~\textcolor{blue}{事实~ 3 ~~从右往左 }\end{aligned}$

其中第一个等式是通过对单元的可能输入模式计算条件概率得到的，
第二个等式是根据引理 1 得出的，
第三个等式是根据 $\alpha_{ij}$ 不依赖于单元输入的假设得出的，
最后一个等式是根据事实 3 得出的。

建立最后一个结果是关键的一步，它就像引理 1 一样，除了对单元 $i$ 的输入的条件概率已经从方程的两边去掉了。
它涉及到两个量，不像引理 1，一般来说计算起来会很麻烦因为 $\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}$ 会很复杂。
从这个引理可以很容易地得出我们的主要结论。

定理 1：对于任何 REINFORCE 算法， $E\{\Delta {\bf W}|{\bf W}\}$ 和 $\nabla _{\bf w}E\{r|{\bf W}\}$ 的内积是非负的。即 $E\{\Delta {\bf W}|{\bf W}\}^T\nabla _{\bf w}E\{r|{\bf W}\} ≥ 0$
更进一步，如果对所有 $i$ 和 $j$ ，都有 $\alpha_{ij}$ > 0，那么只有当 $\nabla _{\bf w}E\{r|{\bf W}\}=0$ 时，这个内积才为 0。

$\begin{aligned}&E\{\Delta {\bf W}|{\bf W}\}^T\nabla _{\bf w}E\{r|{\bf W}\}\\ &=\sum\limits_{(i,j)\in I}E\{\Delta w_{ij}|{\bf W}\}\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\\ &=\sum\limits_{(i,j)\in I}\alpha_{ij}\Big(\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\Big)^2\end{aligned}$

根据引理 2，即得结果。

A.2. 回合式 REINFORCE 算法的结论

对回合式 REINFORCE 算法的分析是基于 unfolds -in-time 映射，它将原始网络 $N$ 与其 unfolds -in-time无环网络 $N^*$ 相关联。
关键的观察是，让 $N$ 面对它的学习问题相当于让 $N^*$ 面对一个相应的联想学习问题。
让 ${\bf W}^*$ 表示 $N^*$ 的权重矩阵,其单个组件的权量表示为 $w_{ij}^t$ 。
$N^*$ 中的权重 $w_{ij}^t$ 对应于 $N$ 中在第 $t$ 个时间步的权重 $w_{ij}$ ,因此对所有 $i, j, t$ , 有 $w_{ij}^t=w_{ij}$ 。
因为这些网络之间的通信,需要注意的是,指定 $\bf W$ 相当于指定 ${\bf W}^*$ ,
同时,学习问题之间的对应关系,我们可以考虑强化 $r$ 对于这两个问题是一样的。

事实 4：

$\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t}$

证明：根据链式法则

$\begin{aligned}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}&=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}^t}\frac{\partial w_{ij}^t}{\partial w_{ij}}\\ &=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}^t}\\ &=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t}\end{aligned}$

因为对于所有的 $t$ ，都有 $w_{ij}^t=w_{ij}$

引理 3. 对任意回合式 REINFORCE 算法

$E\{\Delta w_{ij}|{\bf W}\}=\alpha_{ij}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}$

证明：
令 $\Delta w= \alpha_{ij}(r-b_{ij})e_{ij}^t$ ，使 $\Delta w_{ij}= \sum\limits_{t=1}^k\Delta w_{ij}^t$ 。
注意，这表示的是 $N^*$ 中的 REINFORCE 算法，因此根据引理 2

$E\{\Delta w_{ij}^t|{\bf W}^*\}=\alpha_{ij}\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t}$

$\begin{aligned}E\{\Delta w_{ij}|{\bf W}\}&=E\Big\{\sum\limits_{t=1}^k\Delta w_{ij}^t|{\bf W}^*\Big\}\\ &=\sum\limits_{t=1}^kE\{\Delta w_{ij}^t|{\bf W}^*\}\\ &=\sum\limits_{t=1}^k\alpha_{ij}\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t}\\ &=\alpha_{ij}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}\end{aligned}$

最后一个等式来自事实 4。右 ——> 左

定理 2：和定理 1 完全一样
对于任何回合式 REINFORCE 算法， $E\{\Delta {\bf W}|{\bf W}\}$ 和 $\nabla _{\bf w}E\{r|{\bf W}\}$ 的内积是非负的。
更进一步，如果对所有 $i$ 和 $j$ ，都有 $\alpha_{ij}$ > 0，那么只有当 $\nabla _{\bf w}E\{r|{\bf W}\}=0$ 时，这个内积才为 0。

证明：

$\begin{aligned}E\{\Delta {\bf W}|{\bf W}\}^T\nabla _{\bf w}E\{r|{\bf W}\}&=\sum\limits_{(i,j)\in I}E\{\Delta w_{ij}|{\bf W}\}\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\\ &=\sum\limits_{(i,j)\in I}\alpha_{ij}\Big(\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\Big)^2\end{aligned}$

根据引理 3，即得结果。

注意定理 2 的证明和定理 1 的证明是一样的。
这是因为定理 1 使用引理 2 ，定理 2 使用引理 3，两个引理都有相同的结论。

附录 B

本附录专门用于证明以下结果:

命题 1 假设概率质量或密度函数 $g$ 有这样的形式：
$\mu, \theta_2, \cdots, \theta_k)=\exp[Q(\mu,\theta_2,\cdots,\theta_k)]y+D(\mu,\theta_2,\cdots,\theta_k)+S(y)$
$Q, D, S$ 为函数， $\mu,\theta_2,\cdots,\theta_k$ 为参数。 $\mu$ 是分布的均值。
$\frac{\partial \ln g}{\partial \mu}=\frac{y-\mu}{\sigma^2}$
其中 $\sigma^2$ 是分布的方差

————————————
整理的：
目标：证明 $\mu$ 的 characteristic eligibility $\frac{\partial \ln g}{\partial \mu}=\frac{y-\mu}{\sigma^2}$

其中 $\mu, \theta_2, \cdots, \theta_k)=\exp[Q(\mu,\theta_2,\cdots,\theta_k)]y+D(\mu,\theta_2,\cdots,\theta_k)+S(y)$

输出 $y$ 是由密度函数 $g$ 确定的

令 $\alpha=\frac{\partial Q}{\partial \mu}$ 和 $\frac{\partial D}{\partial \mu}$

$\frac{\partial \ln g}{\partial \mu}=\frac{\partial Q}{\partial \mu}y+\frac{\partial D}{\partial \mu}=\alpha y+\beta$

————————————
原文：
证明：这里我们只考虑概率质量函数的情况，但密度函数可以给出相应的参数。

设 Y 是 g 确定的分布。

$\sum\limits_{y\in Y}\textcolor{blue}{g}\frac{\partial \ln g}{\partial \mu}=\sum\limits_{y\in Y}\frac{\partial g}{\partial \mu}=\frac{\partial }{\partial \mu}\sum\limits_{y\in Y}g=0~~~~~~~~~~(15)$

由于 $\sum\limits_{y\in Y}g=1$ ，结合 $\mu=\sum\limits_{y\in Y}yg$
$\begin{aligned}\sum\limits_{y\in Y}\textcolor{blue}{(y-\mu)g}\frac{\partial \ln g}{\partial \mu}&=\sum\limits_{y\in Y}yg\frac{\partial \ln g}{\partial \mu}-\mu\underbrace{\sum\limits_{y\in Y} g\frac{\partial \ln g}{\partial \mu}}_{由式 ~(15), 为~ 0}\\ &=\sum\limits_{y\in Y}y\frac{\partial g}{\partial \mu}\\ &=\frac{\partial }{\partial \mu}\underbrace{\sum\limits_{y\in Y}yg}_{=~\mu}\\ &=1\end{aligned}~~~~~~~~~~(16)$

现在引入简写符号 $\alpha=\frac{\partial Q}{\partial \mu}$ 和 $\frac{\partial D}{\partial \mu}$ 。从命题的假设，我们有

$\frac{\partial \ln g}{\partial \mu}=\frac{\partial Q}{\partial \mu}y+\frac{\partial D}{\partial \mu}=\alpha y+\beta$

则

$\sum\limits_{y\in Y}\textcolor{blue}{g}\frac{\partial \ln g}{\partial \mu}=\sum\limits_{y\in Y}(\alpha y+\beta)g=\alpha \sum\limits_{y\in Y}yg+\beta\sum\limits_{y\in Y}g=\underbrace{\alpha \mu +\beta}_{根据式 ~(15) ，=~0}~~~~~~~~~~(17)$

且

$\begin{aligned}\sum\limits_{y\in Y}\textcolor{blue}{(y-\mu)g}\frac{\partial \ln g}{\partial \mu}&=\sum\limits_{y\in Y}(y-\mu)(\alpha y+\beta)g\\ &=\sum\limits_{y\in Y}(y-\mu)[\alpha(y-\mu)+\alpha \mu+\beta]g\\ &=\alpha\sum\limits_{y\in Y}(y-\mu)^2g+(\alpha \mu +\beta)\underbrace{\sum\limits_{y\in Y}(y-\mu)g}_{=~0}\\ &=\underbrace{\alpha \sigma^2}_{根据式 ~(16) ，=~1}\end{aligned}~~~~~~~~~~(18)$

联合式 (15)-(18)，有

$\alpha\mu+\beta=0$

$\alpha\sigma^2=1$

则有 $\alpha=\frac{1}{\sigma^2}, ~~~\beta=-\alpha\mu=-\frac{\mu}{\sigma^2}$

$\frac{\partial \ln g(y,\mu,\theta_2,\cdots,\theta_k)}{\partial \mu}=\frac{1}{\sigma^2}y-\frac{\mu}{\sigma^2}=\frac{y-\mu}{\sigma^2}$