深入理解强化学习——马尔可夫决策过程：马尔可夫过程和马尔科夫链

news2026/1/7 8:42:49

马尔可夫过程是一组具有马尔可夫性质的随机变量序列 $S_1, S_2, \cdots, S_t$ ，其中下一个时刻的状态 $S_{t+1}$ 只取决于当前状态 $S_t$ 。我们设状态的历史为 $h_t=\{S_1, S_2, \cdots, S_t\}$ （ $h_t$ 包含了之前的所有状态），则马尔可夫过程满足条件：
$p(S_{t+1}|S_t)=p(S_{t+1}|S_1, S_2, \cdots, S_t)=p(S_{t+1}|h_t)$

从当前 $S_t$ 转移到 $S_{t+1}$ ，它是直接就等于它之前所有的状态转移到 $S_{t+1}$ 。

离散时间的马尔可夫过程也称为马尔可夫链（Markov Chain）。马尔可夫链是最简单的马尔可夫过程，其状态是有限的。例如，下图里面有4个状态，这4个状态在 $s_1, s_2, s_3, s_4$ 之间互相转移。比如从 $s_1$ 开始， $s_1$ 有0.1的概率继续存留在 $s_1$ 状态，有0.2的概率转移到 $s_2$ ，有0.7的概率转移到 $s_4$ 。如果 $s_4$ 是我们的当前状态，它有0.3的概率转移到 $s_2$ ，有0.2的概率转移到 $s_3$ ，有0.5的概率留在当前状态。

我们通常用元组 $(S, P)$ 描述一个马尔可夫过程，其中是 $S$ 有限数量的状态集合， $P$ 是状态转移矩阵（State Transition Matrix）。假设一共有 $n$ 个状态，此时。状态转移矩阵定义了所有状态对之间的转移概率，即：
$P=\left[\begin{array}{c} p(s_1|s_1) & \cdots &p(s_n|s_1) \\ \vdots & \ddots & \vdots\\ p(s_1|s_n) &\cdots &p(s_n|s_n) \end{array}\right]$

矩阵 $P$ 中第 $i$ 行第 $j$ 列元素 $p(s_i|s_j)=p(S_{t+1}=s_j|S_t=s_j)$ 表示从状态 $s_i$ 转移到状态 $s_j$ 的概率，我们称 $P (s^{'} ∣ s)$ 为状态转移函数。从某个状态出发，到达其他状态的概率和必须为1，即状态转移矩阵的每一行的和为1。状态转移矩阵类似于条件概率（Conditional Probability），它表示当我们知道当前我们在状态 $s_t$ 时，到达下面所有状态的概率。所以它的每一行描述的是从一个节点到达所有其他节点的概率。

给定一个马尔可夫过程，我们就可以从某个状态出发，根据它的状态转移矩阵生成一个状态序列（Episode），这个步骤也被叫做采样（sampling），生成这些序列的概率和状态转移矩阵有关。

参考文献：
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习（第2版）[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践（原书第2版）[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL：强化学习教程 [M]. 人民邮电出版社, 2022

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1204639.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！