0 写在前面

机器学习强基计划聚焦深度和广度，加深对机器学习模型的理解与应用。“深”在详细推导算法模型背后的数学原理；“广”在分析多个机器学习模型：决策树、支持向量机、贝叶斯与马尔科夫决策、强化学习等。强基计划实现从理论到实践的全面覆盖，由本人亲自从底层编写、测试与文章配套的各个经典算法，不依赖于现有库，可以大大加深对算法的理解。

🚀详情：机器学习强基计划(附几十种经典模型源码)

1 从一个实例出发

例1：如图所示随机过程，在时刻 $i$ 有 $p_{0}^{\left( i \right)}$ 概率转移到状态0，有 $p_{1}^{\left( i \right)}$ 概率转移到状态1，问：时刻 $N$ 该随机过程所处状态的概率分布？

每个时刻该随机过程状态都产生转移，不妨用 $N$ 位状态码表示截至时刻 $N$ 时的一个可能路径，例如00…00表示从初始时刻到时刻该随机过程始终处于状态0。

最朴素的想法是完整精确地计算时刻 $N$ 所处状态的概率分布，例如通过路径00…00使时刻 $N$ 转移到状态0的概率是 $P=\prod\nolimits_i^{}{p_{0}^{\left( i \right)}}$ 。然而，这种描述方式的空间复杂度是指数阶 $O\left( 2^N \right)$ 的，容易造成维数灾难，本质原因是每次计算都考虑过往状态的联合分布。

2 马尔科夫链

为避免维数灾难引入如下假设：

$P\left( X_{n+1}=x_{n+1}|X_1=x_1, X_2=x_2,\cdots , X_n=x_n \right) =P\left( X_{n+1}=x_{n+1}|X_n=x_n \right)$

其中 $\mathcal{S}=\left\{ s_1,s_2,\cdots ,s_l \right\}$ 为状态空间， $x_i$ 为时刻 $i$ 的状态且 $x_i\in \mathcal{S}$ 。

该式称为马尔科夫链(Markov Chain)，其特性是无后效性(马尔科夫性)，即任意一个状态包含了所有历史状态的信息，每个状态的推演只与上一个状态有关。根据无后效性，马尔科夫链将所有过往状态的联合分布简化为上一状态的边缘分布，因此避免了维数灾难，在工程技术上得到广泛应用。

马尔科夫链中一般由一组条件概率描述所有相邻状态相关关系，进而衍生整个过程，称为状态转移矩阵(State Transition Matrix) $\boldsymbol{P}_{t}^{\left( n \right)}$ ，其中每一项称为状态转移概率

$p_{ij,t}^{\left( n \right)}\xlongequal{\Delta}P\left( X_{t+n}=s_j|X_t=s_i \right)$

表示处于 $t$ 时刻的状态 $s_i$ 经 $n$ 步后转移为状态 $s_j$ 的概率，满足 $p_{ij}\geqslant 0$ 且 $\sum\nolimits_j^{}{p_{ij}}=1$ 。特别地，当 $n = 1$ 时称为单步转移概率。连续概率分布可类似定义状态转移函数。

3 马氏链的基本性质

马氏链的基本性质如下：

非时变性/齐次性

若马氏链的状态转移矩阵不随时间 $t$ 发生变化，即满足对 $\forall t_1,t_2$ 有 $p_{ij,t_1}^{\left( n \right)}=p_{ij,t_2}^{\left( n \right)}$ ，则称马氏链非时变或齐次，此时转移概率简记为 $p_{ij}^{\left( n \right)}$ 。
可约性

若马氏链可以从任意状态经过有限步到达其他任何状态，则称该马氏链不可约

在这里插入图片描述

周期性

从马氏链某个状态出发，所有可能返回路径的集合为 $L$ ，若 $L$ 中耗费时间步的最大公因数为 $T$ ，则称该状态具有周期 $T$ 。特别地，当 $T = 1$ 时称为非周期状态——若所有状态都是非周期，则整个马氏链非周期。对于不可约马氏链，若存在非周期状态，则该马氏链非周期。

4 C-K方程

切普曼-柯尔莫哥洛夫方程(Chapman-Kolmogorov)是马尔科夫链中很重要的性质体现，具体地，若马氏链齐次，则满足方程

$\boldsymbol{P}^{\left( m+k \right)}=\boldsymbol{P}^{\left( m \right)}\boldsymbol{P}^{\left( k \right)}$

简单证明如下

$\begin{aligned}p_{ij}^{\left( m+n \right)} &=P\left( X_{m+n}=s_j|X_0=s_i \right)\\ &=\sum\nolimits_k^{}{P\left( X_{m+n}=s_j|X_m=s_k,X_0=s_i \right) P\left( X_m=s_k|X_0=s_i \right)}\\ &=\sum\nolimits_k^{}{P\left( X_{m+n}=s_j|X_m=s_k \right) P\left( X_m=s_k|X_0=s_i \right)}\\ &=\sum\nolimits_k^{}{p_{ik}^{\left( m \right)}p_{kj}^{\left( n \right)}}\end{aligned}$

定义向量 $\boldsymbol{p}_t=\left[ \begin{matrix} P\left( X_t=s_1 \right)& P\left( X_t=s_2 \right)& \cdots& P\left( X_t=s_l \right)\\\end{matrix} \right] ^T$ 为马氏链在时刻 $t$ 的一维分布向量；定义 $P\left( X_1=x_1,X_2=x_2,\cdots ,X_n=x_n \right)$ 为马氏链 $n$ 个时刻的 $n$ 维概率分布

C-K方程说明初始分布和状态转移矩阵可完全确定齐次马氏链统计学性质，具体体现为：

马氏链的动力学特性由一步状态转移矩阵唯一确定 $\boldsymbol{P}^{\left( n \right)}=\boldsymbol{P}^n$ ；
马氏链一维分布向量的演变完全由初始分布和单步状态转移矩阵确定 $\boldsymbol{p}_{n}^{T}=\boldsymbol{p}_{0}^{T}\boldsymbol{P}^{\left( n \right)}$ ；
马氏链 $n$ 维概率分布完全由初始分布和转移概率决定
$P\left( X_{n_1}=s_{i_1},X_{n_2}=s_{i_2},\cdots ,X_{n_k}=s_{i_k} \right) =\left( \boldsymbol{p}_{0}^{T}\boldsymbol{P}^{n_1} \right) _{i_1}\left( \boldsymbol{P}^{n_2-n_1} \right) _{i_1i_2}\cdots \left( \boldsymbol{P}^{n_k-n_{k-1}} \right) _{i_{k-1}i_k}$

5 平稳状态分布

对于非周期不可约齐次马氏链，存在不依赖于初始状态的极限概率

$\underset{n\rightarrow \infty}{\lim}p_{ij}^{\left( n \right)}=\pi _j\Leftrightarrow \underset{n\rightarrow \infty}{\lim}\boldsymbol{P}^{\left( n \right)}=\left[ \begin{matrix} \pi _1& \pi _2& \cdots& \pi _j& \cdots\\ \pi _1& \pi _2& \cdots& \pi _j& \cdots\\ \vdots& \vdots& \ddots& \vdots& \vdots\\ \pi _1& \pi _2& \cdots& \pi _j& \cdots\\ \vdots& \vdots& \vdots& \vdots& \vdots\\\end{matrix} \right] =\left[ \begin{array}{l} \boldsymbol{\pi }^T\\ \boldsymbol{\pi }^T\\ \vdots\\ \boldsymbol{\pi }^T\\ \vdots\\\end{array} \right] \Leftrightarrow \underset{n\rightarrow \infty}{\lim}\boldsymbol{p}_{n}^{T}=\boldsymbol{\pi }^T$

其中 $\boldsymbol{\pi }$ 为平稳状态分布(Stationary Distribution)，根据收敛性，马尔科夫链进入平稳状态后就会维持稳定的状态演化模式。

例1题解：具体地，假设 $\boldsymbol{p}_{0}^{T}=\left[ 0.6 0.4 \right]$ ，即初始时刻60%为0状态，40%为1状态，则
$\boldsymbol{p}_{1}^{T}=\boldsymbol{p}_{0}^{T}\boldsymbol{P}^{\left( 1 \right)}=\left[ \begin{matrix} 0.6p_{00}+0.4p_{10}& 0.6p_{01}+0.4p_{11}\\\end{matrix} \right]$
即得经过一次演进后，随机过程所处新状态的概率分布。经过若干次演进后，就得到了初始状态经过一个完整随机过程后的状态分布

6 遍历性与例题分析

马尔科夫链的遍历性是指：对齐次马氏链，若存在正整数 $k$ 使 $\left( \boldsymbol{P}^k \right) _{ij}>0$ ，则该马氏链具有遍历性，存在唯一极限分布 $\boldsymbol{\pi }$ 使方程 $\boldsymbol{\pi }^T=\boldsymbol{\pi }^T\boldsymbol{P}$ 成立。遍历性将马氏链平稳分布的迭代求解转为方程求解。

例2：如图所示，任意给定初态，讨论经若干次随机过程后的概率分布

由于演进到任意状态的概率只取决于上一个状态，因此该模型属于马尔科夫链，列出状态转移矩阵如下

$\boldsymbol{P}=\left[ \begin{matrix} 0.900& 0.075& 0.025\\ 0.150& 0.800& 0.050\\ 0.250& 0.250& 0.500\\ \end{matrix} \right]$

现在给定初始状态 $\boldsymbol{p}_{0}^{T}=\left[ \begin{matrix} 0.3& 0.4& 0.4\\\end{matrix} \right]$ ，则经过60次随机过程后得到稳定分布状态 $\boldsymbol{\pi }^T=\left[ \begin{matrix} 0.625& 0.3125& 0.0625\\\end{matrix} \right]$ ；再任给定初始状态 $\boldsymbol{p}_{0}^{T}=\left[ \begin{matrix} 0.7& 0.1& 0.2\\\end{matrix} \right]$ ，经过57次随机过程后也得到相同的稳定分布状态。

若用遍历性定理求解，则考虑到存在正整数 $n = 1$ 使 ${\boldsymbol{P}^{\left( 1 \right)}}_{ij}>0$ ，故该马氏链具有遍历性，令 $\boldsymbol{\pi }^T=\boldsymbol{\pi }^T\boldsymbol{P}$ 解得 $\boldsymbol{\pi }^T=\left[ \begin{matrix} 0.625& 0.3125& 0.0625\\\end{matrix} \right]$ 。