强化学习数学基础：随机近似理论与随机梯度下降

Stochastic Approximation and Stochastic Gradient Descent
- 举个例子
- Robbins-Monro algorithm
- - 算法描述
  - 举个例子
  - 收敛性分析
  - 将RM算法用于mean estimation
- Stochastic gradient descent
- - 算法描述
  - 示例和应用
  - 收敛性分析
  - 收敛模式
  - 一个确定性公式
- BGD, MBGD和SGD
- 总结
- 内容来源

Stochastic Approximation and Stochastic Gradient Descent

举个例子

首先回顾mean estimation：

考虑一个random variable X。
目标是估计 $\mathbb{E}[X]$
假设已经有了一系列随机独立同分布的样本 ${x_i\}_{i=1}^N$
X的expection可以被估计为 $\mathbb{E}[X]\approx \bar{x}:=\frac{1}{N}\sum_{i=1}^N x_i$

已经知道这个估计的基本想法是Monte Carlo estimation，以及 $\bar{x}\rightarrow \mathbb{E}$ ，随着 $N\rightarrow \infty$ 。这里为什么又要关注mean estimation，那是因为在强化学习中许多value被定义为means，例如state/action value。

新的问题：如何计算mean $bar{x}$ ： $\mathbb{E}[X]\approx \bar{x}:=\frac{1}{N}\sum_{i=1}^N x_i$
我们有两种方式：

第一种方法：简单地，收集所有样本，然后计算平均值。但是该方法的缺点是如果样本是一个接一个的被收集，那么就必须等待所有样本收集完成才能计算
第二种方法：可以克服第一种方法的缺点，用一种incremental（增量式）和iterative（迭代式）的方式计算average。

具体地，假设 $w_{k+1}=\frac{1}{k}\sum_{i=1}^k x_i, k=1,2,...$ 然后有 $w_k=\frac{1}{k-1}\sum_{i=1}^{k-1} x_i, k=2,3,...$ ，我们要建立 $w_k$ 和 $w_{k+1}$ 之间的关系，用 $w_k$ 表达 $w_{k+1}$ ： $w_{k+1}=\frac{1}{k}\sum_{i=1}^k x_i=\frac{1}{k}(\sum_{i=1}^{k-1}x_i+x_k)=\frac{1}{k}((k-1)w_k+x_k)=w_k-\frac{1}{k}(w_k-x_k)$ 因此，获得了如下的迭代算法： $w_{k+1}=w_k-\frac{1}{k}(w_k-x_k)$
我们使用上面的迭代算法增量式地计算x的mean：
增量式求和
这样就得到了一个求平均数的迭代式的算法。算法的优势是在第k步的时候不需要把前面所有的 $x_i$ 全部加起来再求平均，可以在得到一个样本的时候立即求平均。另外这个算法也代表了一种增量式的计算思想，在最开始的时候因为 $k$ 比较小， $w_k\ne \mathbb{E}[X]$ ，但是随着获得样本数的增加，估计的准确度会逐渐提高，也就是 $w_k\rightarrow \mathbb{E}[X] \text{ as } k\rightarrow N$ 。

更进一步地，将上述算法用一个更泛化的形式表示为： $w_{k+1}=w_k-\alpha_k(w_k-x_k)$ ，其中 $1/ k$ 被替换为 $\alpha_k >0$ 。

该算法是否会收敛到mean $\mathbb{E}[X]$ ？答案是Yes，如果 $\{\alpha_k\}$ 满足某些条件的时候
该算法也是一种特殊的SA algorithm和stochastic gradient descent algorithm

Robbins-Monro algorithm

算法描述

Stochastic approximation (SA):

SA代表了一大类的stochastic iterative algorithm，用来求解方程的根或者优化问题。
与其他求根相比，例如gradient-based method， SA的强大之处在于：它不需要知道目标函数的表达式，也不知道它的导数或者梯度表达式。

Robbins-Monro (RM) algorithm:

This is a pioneering work in the field of stochastic approximation.
著名的stochastic gradient descent algorithm是RM算法的一个特殊形式。
It can be used to analyze the mean estimation algorithms introduced in the beginning。

举个例子

问题声明：假设我们要求解下面方程的根 $g (w) = 0$ ，其中 $w\in \mathbb{R}$ 是要求解的变量， $g:\mathbb{R}\rightarrow \mathbb{R}$ 是一个函数.

许多问题最终可以转换为这样的求根问题。例如，假设 $J (w)$ 是最小化的一个目标函数，然后，优化问题被转换为 $g(w)=\nabla_w J(w)=0$
另外可能面临 $g (w) = c$ ，其中 $c$ 是一个常数，这样也可以将其转换为上述等式，通过将 $g (w) - c$ 写为一个新的函数。

那么如何求解 $g (w) = 0$ ？

如果 $g$ 的表达式或者它的导数已知，那么有许多数值方法可以求解
如果函数 $g$ 的表达式是未知的？例如the function由一个artificial neural network表示

这样的问题可以使用Robbins-Monro(RM)算法求解： $w_{k+1}=w_k-a_k\tilde{g}(w_k, \eta_k), k=1,2,3,...$ 其中

$w_k$ 是root的第k次估计
$\tilde{g}(w_k,\eta_k)=g(w_k)+\eta_k$ 是第k次带有噪声的观测
$a_k$ 是一个positive coefficient

函数 $g (w)$ 是一个black box！也就是说该算法依赖于数据：

输入序列: ${w_k\}$
噪声输出序列： $\{\tilde{g}(w_k,\eta_k)\}$

这里边的哲学思想：不依赖model，依靠data！这里的model就是指函数的表达式。

收敛性分析

为什么RM算法可以找到 $g (w) = 0$ 的解？
首先给出一个直观的例子：

$g (w) = t anh (w - 1)$
$g (w) = 0$ 的true root是 $w * = 1$
初始值： $w_1=2, a_k=1/k, \eta_k=0$ （为简单起见，不考虑噪音）

在本例中RM算法如下： $w_{k+1}=w_k-a_kg(w_k)$
当 $\eta_k=0$ 的时候 $\tilde{g}(w_k, \eta_k)=g(w_k)$ 。

模拟仿真结果： $w_k$ 收敛到true root $w * = 1$ 。
收敛仿真
直观上： $w_{k+1}$ 比 $w_k$ 更接近于 $w *$

当 $w_k > w*$ ，有 $g(w_k)>0$ ，那么 $w_{k+1}=w_k-a_kg(w_k) < w_k$ ，因此 $w_{k+1}$ 比 $w_k$ 更接近于 $w *$
当 $w_k < w*$ ，有 $g(w_k)<0$ ，那么 $w_{k+1}=w_k-a_kg(w_k) > w_k$ ，因此 $w_{k+1}$ 比 $w_k$ 更接近于 $w *$

上面的分析是基于直观的，但是不够严格。一个严格收敛的结果如下：
Robbins-Monro
在RM算法中，如果上面的条件满足，那么 $w_k$ 就会收敛到 $w *$ ， $w *$ 就是 $g (w) = 0$ 的一个解。第一个条件是关于g(w)的梯度要求，第二个条件是关于 $a_k$ 系数的要求，第三个条件是关于这个 $\eta_k$ ，就是测量误差的要求。

这三个条件的解释：

条件1： $0<c_1\le\nabla _k g(w)\le c_2$ 对于所有的 $w$
条件2： $\sum_{k=1}^\infty a_k=\infty$ 且 $\sum_{k=1}^\infty a_k^2< \infty$
条件3： $\mathbb{E}[\eta _k|\mathcal{H}_k]=0$ 并且 $\mathbb{E}[\eta _k^2|\mathcal{H}_k]<\infty$

对第二个条件进行讨论： $\sum_{k=1}^\infty a_k^2< \infty \text{ , } \sum_{k=1}^\infty a_k=\infty$

首先： $\sum_{k=1}^\infty a_k^2< \infty$ 表明随着 $k\rightarrow \infty$ ， $a_k\rightarrow 0$
为什么这个条件重要呢？
因为 $w_{k+1}-w_k=-a_k\tilde{g}(w_k, \eta_k)$
- 如果 $a_k\rightarrow 0$ ，那么 $a_k\tilde{g}(w_k, \eta_k)\rightarrow 0$ ，因此 $w_{k+1}-w_k\rightarrow 0$
- we need the fact that $w_{k+1}-w_k\rightarrow 0$ 如果 $w_k$ 最终收敛
- 如果 $w_k\rightarrow w*$ ，那么 $g(w_k)\rightarrow 0$ 和 $\tilde{g}(w_k, \eta_k)$ 由 $\eta_k$ 确定。
第二， $\sum_{k=1}^\infty a_k=\infty$ 表明 $a_k$ 不应当太快收敛到0.
为什么这个条件重要呢？
根据 $w_2=w_1 - a_1\tilde{g}(w_1, \eta_1)$ , $w_3=w_2 - a_2\tilde{g}(w_2, \eta_2)$ , …, $w_{k+1}=w_k - a_k\tilde{g}(w_k, \eta_k)$ 得出 $w_\infty-w_1=\sum_{k=1}^{\infty} a_k\tilde{g}(w_k, \eta_k)$ 。假定 $w_\infty=w*$ 。如果 $\sum_{k=1}^\infty a_k<\infty$ ，那么 $\sum_{k=1}^\infty a_k\tilde{g}(w_k, \eta_k)$ 可能是有界的。然后，如果初始猜测 $w_1$ 任意选择远离 $w *$ ，那么上述等式可能是不成立的（invalid）。

那么问题来了，什么样的 ${a_k}$ 能够满足这样两个条件呢？ $\sum_{k=1}^\infty a_k=\infty$ 且 $\sum_{k=1}^\infty a_k^2< \infty$
一个典型的序列是 $a_k=\frac{1}{k}$

在数学上 $\lim _{n\rightarrow \infty}(\sum _{k=1}^n\frac{1}{n}-\ln n) = k$ 其中 $k\approx 0.577$ ，称为Euler-Mascheroni常数（也称为Euler常数）
另一个数学上的结论是： $\sum _{k=1}^\infty\frac{1}{k^2}=\frac{\pi^2}{6}<\infty$ 极限 $\sum _{k=1}^\infty$ 在数论中也有一个特定的名字：Basel problem。

如果上面三个条件不满足，则RM算法将不再工作，例如：
不满足条件
在许多RL算法中， $a_k$ 经常选择一个非常小的常数（sufficiently small constant），尽管第二个条件不满足，但是该RM算法仍然可以工作。

将RM算法用于mean estimation

回顾本文最初的mean estimation算法 $w_{k+1}=w_k-\alpha_k(w_k-x_k)$
我们知道：

如果 $\alpha_k=1/k$ ，那么 $w_{k+1}=1/k\sum_{i=1}^k x_i$
如果 $\alpha_k$ 不是 $1/ k$ ，收敛性没办法分析。

现在我们证明这个算法是一个特殊的RM算法，它的收敛性就能够得到了。
1）考虑一个函数 $g(w)\doteq w-\mathbb{E}[X]$ 我们的目标是求解 $g (w) = 0$ ，这样，我们就可以得到 $\mathbb{E}[X]$
2）我们不知道X，但是可以对X进行采样，因此我们得到的观察是 $\tilde{g}(w, x)\doteq w-x$ ，注意
observation
3）求解 $g (x) = 0$ 的RM算法是 $w_{k+1}=w_k-\alpha_k \tilde{g}(w_k, \eta_k)=w_k-\alpha_k(w_k-x_k)$ ,这就是之前给出的mean estimation算法。

Dvoretzkys convergence theorem

这是一个比RM定理更一般化的结论，可以用来证明RM定理
它可以直接用来分析mean estimation problem
它的一个扩展可以用来分析Q-learning和TD learning算法。

Stochastic gradient descent

stochastic gradient descent(SGD)算法在机器学习和强化学习的许多领域中广泛应用；SGD也是一个特殊的RM算法，而且mean estimation algorithm是一个特殊的SGD算法。

算法描述

假设我们的目标是求解下面优化问题: $\min_{w} J(w)=\mathbb{E}[f(w, X)]$

$w$ 是被优化的参数
$X$ 是一个随机变量，The expection实际上就是针对这个 $X$ 进行计算的
$w$ 和 $X$ 可以是标量或者向量，函数 $f(\cdot)$ 是一个标量。

有三种方法求解：
Method 1: gradient descent (GD)
梯度下降
问题是the expected value is difficult to obtain。
Method 2: batch gradient descent (BGD)
批梯度下降
问题是对于每个 $w_k$ ，在每次迭代中需要许多次采样。
Method 3: stochastic gradient descent (SGD):
随机梯度下降
SGD与前面两种算法相比：

与gradient descent算法相比，将true gradient $\mathbb{E}[\nabla _w f(w_k, X)]$ 替换为stochastic gradient $\nabla _w f(w_k, x_k)$
与batch gradient descent算法相比，令 $n = 1$ 。

示例和应用

考虑下面的一个优化问题：

其中：

有三个练习：

证明最优解是 $w*=\mathbb{E}[X]$
用GD算法求解这个问题
用SGD算法求解这个问题

首先看第一个练习：
对 $J (w)$ 求梯度，使其等于0，即可得到最优解，因此有 $\nabla _w J(w)=0$ ，然后根据公式，得到 $\mathbb{E}[\nabla_wf(w,X)]=0$ ，然后得到 $\mathbb{E}[w-X]=0$ ，由于w是一个常数，因此 $w=\mathbb{E}[X]$ 。

第二个联系的答案是：
GD algorithm
相应的，使用SGD算法求解上面问题：

收敛性分析

从GD到SGD：
从GD 到SGD
$\nabla _w f(w_k, x_k)$ 被视为 $\mathbb{E}[\nabla _w f(w_k, X)]$ 的一个noisy measurement：

不管怎样，由于 $\nabla _w f(w_k, x_k)\ne \mathbb{E}[\nabla _w f(w_k, X)]$ ，是否基于SGD随着k趋近于无穷， $w_k\rightarrow w*$ ？答案是肯定的。

这里的方式证明SGD是一个特殊的RM算法，自然地得到收敛性。SGD的目标是最小化 $J(w)=\mathbb{E}[f(w, X)]$
这个问题可以转换为一个root-finding问题： $\nabla_w J(W)=\mathbb{E}[\nabla _w f(w, X)]=0$
令 $g(w)=\nabla_w J(W)=\mathbb{E}[\nabla _w f(w, X)]$ ，那么SGD的目标就是找到满足 $g (w) = 0$ 的根。

这里使用RM算法求解，因为g(w)的表达式未知，所以要用到数据。what we can measure is
g(w)
然后，RM算法求解 $g (w) = 0$ 就得到

It is exacely the SGD algorithm
因此，SGD是一个特殊的RM算法。

因为SGD算法是一个特殊的RM算法，它的收敛性遵从：
SGD的收敛性

收敛模式

问题：由于stochastic gradient是随机的，那么approximation是不精确的，是否SGD的收敛性是slow或者random？
为了回答这个问题，我们考虑在stochastic和batch gradients之间的一个relative error:
定义一个相对误差
由于 $\mathbb{E}[\nabla_w f(w*, X)]=0$ ，我们有：
代入公式
其中后面等式的分母使用了一个mean value theorem（中值定理），并且 $\tilde{w}_k\in [w_k, w*]$
拉格朗日中值定理
假设 $f$ 是严格凸的，满足 $\nabla_w^2f \ge c > 0$ 对于所有的 $w, X$ ，其中 $c$ 是一个positive bound。

然后， $\delta_k$ 的证明就变为了

然后把这个分母的性质带入刚才的relative error公式，就得到

再看上面的式子：
note that
这个公式也表明了SGD的一个有趣的收敛模式：

relative error $\delta_k$ 与 $w_k-w*|$ 成反比
当 $w_k-w*|$ 比较大时， $\delta_k$ 较小，SGD的表现与GD相似（behaves like）
当 $w_k$ 接近 $w *$ ，相对误差可能较大，收敛性在 $w *$ 的周边存在较多的随机性。

考虑一个例子：
Setup:
Setup：
Result:
模拟收敛
MBGD:mini-batch gradient descent

尽管在初始的时候，mean远离true value，但是SGD estimate can approach the neighborhood of the true value fast.
当estimate接近true value，它具有一定程度的随机性，但是仍然逐渐靠近the true value

一个确定性公式

在之前介绍的SGD的formulation中，涉及random variable和expectation。但是在学习其他材料的时候可能会遇到一个SGD的deterministic formulation，不涉及任何random variables。

同样地，考虑这样一个优化问题： $\min_w J(w)=\frac{1}{n}\sum_{i=1}^n f(w, x_i)$

$f(w, x_i)$ 是一个参数化的函数
$w$ 是需要被优化的参数
一组实数 ${x_i\}_{i=1}^n$ ，其中 $x_i$ 不必是任意random variable的一个采样，反正就是一组实数。

求解这个问题的gradient descent算法如下：

假设这样的一个实数集合比较大，每次只能得到一个 $x_i$ ，在这种情况下，可以使用下面的迭代算法： $w_{k+1}=w_k-\alpha_k \nabla_w f(w_k, x_k)$
那么问题来了：

这个算法是SGD吗？它没有涉及任何random variable或者expected values.
我们该如何定义这样一组实数 ${x_i\}_{i=1}^n$ ? 是应该将它们按照某种顺序一个接一个地取出？还是随机地从这个集合中取出？

回答上面问题的思路是：我们手动地引入一个random variable，并将SGD从deterministic formulation转换为stochastic formulation。
具体地，假设一个 $X$ 是定义在集合 ${x_i\}_{i=1}^n$ 的random variable。假设它的概率分布是均匀的，即 $p(X=x_i)=1/n$
然后，这个deterministic optimization problem变成了一个stochastic one：

上面等式的后面是strict，而不是approximate。因此，这个算法是SGD。
The estimate converges if $x_k$ is uniformly and independently sampled from ${x_i\}_{i=1}^n$ . $x_k$ may repreatedly take the same number in ${x_i\}_{i=1}^n$ since it is sampled randomly。

BGD, MBGD和SGD

假设我们想要最小化 $J(w)=\mathbb{E}[f(w,X)]$ ，给定一组来自 $X$ 的随机采样 ${x_i\}_{i=1}^n$ 。分别用BGD,SGD,MBGD求解这个问题：
$BGD\MBGD\SGD$
在BGD算法中：
BGD
在MBGD算法中：
MBGD
在SGD算法中
SGD

MBGD与BGD和SGD进行比较：

与SGD相比，MBGD具有更少的随机性，因为它使用更多的采样数据，而不是像SGD中那样仅仅使用一个。
与BGD相比，MBGD在每次迭代中不要求使用全部的samples，这使其更加灵活和高效
if m=1, MBGD变为SGD
if m=n, MBGD does NOT become BGD strictly speaking，因为MBGD使用n个样本的随机采样，而BGD使用所有n个样本。特别地，MBGD可能使用 ${x_i\}_{i=1}^n$ 中的一个值很多次，而BGD使用每个数值一次。

举个例子：给定一些数值 ${x_i\}_{i=1}^n$ ，我们的目标是计算平均值mean: $\bar{x}=\sum_{i=1}^n x_i/n$ 。这个问题可以等价成一个优化问题： $\min_w J(w)=\frac{1}{2n}\sum_{i=1}^n||w-w_i||^2$ 分别用三个算法求解这个优化问题：
mean
其中 $\bar{x}_k^{(m)}=\sum_{j\in \mathcal{L}_k} x_j/m$

更进一步地，如果 $\alpha_k=1/k$ ，上面等式可以求解为：

BGD在每一步的estimate是exactly the optimal solution $w*=\bar{x}$
MBGD的estimate比SGD更快靠近mean，因为 $\bar{x}_k^{(m)}$ 已经是一个平均。

仿真结果：令 $\alpha_k=1/k$ ，给定100个点，使用不同的mini-batch size得到不同的收敛速度：

总结

Mean estimation: 使用 ${x_k\}$ 计算 $\mathbb{E}[X]$ ： $w_{k+1}=w_k-\frac{1}{k}(w_k-x_k)$
RM算法：使用 $\{\tilde{g}(w_k,\eta_k)\}$ 求解 $g (w) = 0$ ： $w_{k+1}=w_k-a_k\tilde{g}(w_k,\eta_k)$
SGD算法：使用 $\{\nabla_wf(w_k, x_k)\}$ 最小化 $J(w)=\mathbb{E}[f(w,X)]$ ： $w_{k+1}=w_k-\alpha_k \nabla_wf(w_k, x_k)$