分类目录:《深入理解强化学习》总目录
马尔可夫过程是一组具有马尔可夫性质的随机变量序列
S
1
,
S
2
,
⋯
,
S
t
S_1, S_2, \cdots, S_t
S1,S2,⋯,St,其中下一个时刻的状态
S
t
+
1
S_{t+1}
St+1只取决于当前状态
S
t
S_t
St 。我们设状态的历史为
h
t
=
{
S
1
,
S
2
,
⋯
,
S
t
}
h_t=\{S_1, S_2, \cdots, S_t\}
ht={S1,S2,⋯,St}(
h
t
h_t
ht包含了之前的所有状态),则马尔可夫过程满足条件:
p
(
S
t
+
1
∣
S
t
)
=
p
(
S
t
+
1
∣
S
1
,
S
2
,
⋯
,
S
t
)
=
p
(
S
t
+
1
∣
h
t
)
p(S_{t+1}|S_t)=p(S_{t+1}|S_1, S_2, \cdots, S_t)=p(S_{t+1}|h_t)
p(St+1∣St)=p(St+1∣S1,S2,⋯,St)=p(St+1∣ht)
从当前 S t S_t St 转移到 S t + 1 S_{t+1} St+1 ,它是直接就等于它之前所有的状态转移到 S t + 1 S_{t+1} St+1 。
离散时间的马尔可夫过程也称为马尔可夫链(Markov Chain)。马尔可夫链是最简单的马尔可夫过程,其状态是有限的。例如,下图里面有4个状态,这4个状态在
s
1
,
s
2
,
s
3
,
s
4
s_1, s_2, s_3, s_4
s1,s2,s3,s4之间互相转移。比如从
s
1
s_1
s1开始,
s
1
s_1
s1有0.1的概率继续存留在
s
1
s_1
s1状态,有0.2的概率转移到
s
2
s_2
s2,有0.7的概率转移到
s
4
s_4
s4。如果
s
4
s_4
s4是我们的当前状态,它有0.3的概率转移到
s
2
s_2
s2,有0.2的概率转移到
s
3
s_3
s3,有0.5的概率留在当前状态。
我们通常用元组
(
S
,
P
)
(S, P)
(S,P)描述一个马尔可夫过程,其中是
S
S
S有限数量的状态集合,
P
P
P是状态转移矩阵(State Transition Matrix)。假设一共有
n
n
n个状态,此时。状态转移矩阵定义了所有状态对之间的转移概率,即:
P
=
[
p
(
s
1
∣
s
1
)
⋯
p
(
s
n
∣
s
1
)
⋮
⋱
⋮
p
(
s
1
∣
s
n
)
⋯
p
(
s
n
∣
s
n
)
]
P=\left[\begin{array}{c} p(s_1|s_1) & \cdots &p(s_n|s_1) \\ \vdots & \ddots & \vdots\\ p(s_1|s_n) &\cdots &p(s_n|s_n) \end{array}\right]
P=
p(s1∣s1)⋮p(s1∣sn)⋯⋱⋯p(sn∣s1)⋮p(sn∣sn)
矩阵 P P P中第 i i i行第 j j j列元素 p ( s i ∣ s j ) = p ( S t + 1 = s j ∣ S t = s j ) p(s_i|s_j)=p(S_{t+1}=s_j|S_t=s_j) p(si∣sj)=p(St+1=sj∣St=sj)表示从状态 s i s_i si转移到状态 s j s_j sj的概率,我们称 P ( s ′ ∣ s ) P(s'|s) P(s′∣s)为状态转移函数。从某个状态出发,到达其他状态的概率和必须为1,即状态转移矩阵的每一行的和为1。状态转移矩阵类似于条件概率(Conditional Probability),它表示当我们知道当前我们在状态 s t s_t st时,到达下面所有状态的概率。所以它的每一行描述的是从一个节点到达所有其他节点的概率。
给定一个马尔可夫过程,我们就可以从某个状态出发,根据它的状态转移矩阵生成一个状态序列(Episode),这个步骤也被叫做采样(sampling),生成这些序列的概率和状态转移矩阵有关。
参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022