强化学习从入门到精通(马尔科夫决策过程)(7天入门强化学习)
知识二:马尔科夫决策过程
- 先介绍马尔可夫过程(Markov process)以及马尔可夫奖励过程(Markov reward process)。
2.1 马尔可夫过程
2.1.1 马尔可夫性质
- 随机过程,已知现在状态和过去所有状态,未来状态的条件概率分布仅仅依赖于当前状态。由下面公式可以看出,未来状态只和现在的当前状态相关。
p ( X t + 1 = x t + 1 ∣ X 0 : t = x 0 : t ) = p ( X t + 1 = x t + 1 ∣ X t = x t ) p\left(X_{t+1}=x_{t+1}\mid X_{0:t}=x_{0:t}\right)=p\left(X_{t+1}=x_{t+1}\mid X_{t}=x_{t}\right) p(Xt+1=xt+1∣X0:t=x0:t)=p(Xt+1=xt+1∣Xt=xt)
2.1.2 马尔科夫链
- s t s_{t} st是当前时刻状态, s t + 1 s_{t+1} st+1是下一时刻状态, h t h_{t} ht包含所有状态,马尔可夫过程满足如下公式(只与当前状态有关就是马尔可夫过程):
p ( s t + 1 ∣ s t ) = p ( s t + 1 ∣ h t ) p\left(s_{t+1}\mid s_t\right)=p\left(s_{t+1}\mid h_t\right) p(st+1∣st)=p(st+1∣ht)
- 离散时间的马尔可夫过程也称为马尔可夫链,就是状态有限,时间离散。我们可以用状态转移矩阵
P
P
P,来表示状态转移
p
(
s
t
+
1
=
s
′
∣
s
t
=
s
)
:
p\left(s_{t+1}=s^{\prime}\mid s_{t}=s\right):
p(st+1=s′∣st=s):
P = ( p ( s 1 ∣ s 1 ) p ( s 2 ∣ s 1 ) … p ( s N ∣ s 1 ) p ( s 1 ∣ s 2 ) p ( s 2 ∣ s 2 ) … p ( s N ∣ s 2 ) ⋮ ⋮ ⋱ ⋮ p ( s 1 ∣ s N ) p ( s 2 ∣ s N ) … p ( s N ∣ s N ) ) \boldsymbol{P}=\left(\begin{array}{ccccc}p\left(s_1\mid s_1\right)&p\left(s_2\mid s_1\right)&\dots&p\left(s_N\mid s_1\right)\\p\left(s_1\mid s_2\right)&p\left(s_2\mid s_2\right)&\dots&p\left(s_N\mid s_2\right)\\\vdots&\vdots&\ddots&\vdots\\p\left(s_1\mid s_N\right)&p\left(s_2\mid s_N\right)&\dots&p\left(s_N\mid s_N\right)\end{array}\right) P=⎝⎜⎜⎜⎛p(s1∣s1)p(s1∣s2)⋮p(s1∣sN)p(s2∣s1)p(s2∣s2)⋮p(s2∣sN)……⋱…p(sN∣s1)p(sN∣s2)⋮p(sN∣sN)⎠⎟⎟⎟⎞
2.2 马尔科夫奖励过程
- 马尔可夫奖励过程是马尔可夫链加上奖励函数。在马尔可夫奖励过程中,状态转移矩阵和状态都与马尔可夫链一样,只是多了奖励函数。(就是多了个奖励)。
2.2.1 回报与价值函数
-
回报可以定义为奖励的逐步叠加,公式如下:
G t = r t + 1 + γ r t + 2 + γ 2 r t + 3 + γ 3 r t + 4 + … + γ T − t − 1 r T G_t=r_{t+1}+\gamma r_{t+2}+\gamma^2r_{t+3}+\gamma^3r_{t+4}+\ldots+\gamma^{T-t-1}r_T Gt=rt+1+γrt+2+γ2rt+3+γ3rt+4+…+γT−t−1rT -
回报用 G t G_{t} Gt表示, r t + 1 r_{t+1} rt+1是下一时刻的奖励, r T r_{T} rT是最优一个时刻的奖励, γ \gamma γ是折扣系数。(就是重视挨着的下一时刻的奖励,未来的奖励的重视程度逐渐削弱)
-
状态价值函数,公式如下**(注意:有状态价值V和动作价值Q)**:
V t ( s ) = E [ G t ∣ s t = s ] = E [ r t + 1 + γ r t + 2 + γ 2 r t + 3 + … + γ T − t − 1 r T ∣ s t = s ] \begin{aligned}V^t(s)&=\mathbb{E}\left[G_t\mid s_t=s\right]\\&=\mathbb{E}\left[r_{t+1}+\gamma r_{t+2}+\gamma^2r_{t+3}+\ldots+\gamma^{T-t-1}r_T\mid s_t=s\right]\end{aligned} Vt(s)=E[Gt∣st=s]=E[rt+1+γrt+2+γ2rt+3+…+γT−t−1rT∣st=s]
- 当前 s s s状态的价值用 V t ( s ) V^t(s) Vt(s)表示**(就是** s s s状态下得到的回报),当前时刻到下一时刻的状态**(因为下一时刻的状态有很多,不一定是哪个状态所以用期望的方式取平均)**
2.2.2 贝尔曼方程
- 采用贝尔曼方程计算状态价值 V V V:
V ( s ) = R ( s ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s ) V ( s ′ ) V(s)=R(s)+\gamma\sum_{s'\in S}p\left(s'\mid s\right)V\left(s'\right) V(s)=R(s)+γs′∈S∑p(s′∣s)V(s′)
- 其中 R ( s ) R(s) R(s)是即时奖励**(到状态 s s s时的奖励), V ( s ′ ) V\left(s'\right) V(s′)是其他所有状态的状态价值, p ( s ′ ∣ s ) p\left(s'\mid s\right) p(s′∣s)是状态转移矩阵(就是在状态 s s s到状态 s ′ s' s′的概率), γ \gamma γ是折扣系数(除了到达 s s s的即时奖励,其他状态的奖励都要乘折扣)**。
- 其推到过程如下**(简单看明白就行)**:
V ( s ) = E [ G t ∣ s t = s ] = E [ r t + 1 + γ r t + 2 + γ 2 r t + 3 + … ∣ s t = s ] = E [ r t + 1 ∣ s t = s ] + γ E [ r t + 2 + γ r t + 3 + γ 2 r t + 4 + … ∣ s t = s ] = R ( s ) + γ E [ G t + 1 ∣ s t = s ] = R ( s ) + γ E [ V ( s t + 1 ) ∣ s t = s ] = R ( s ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s ) V ( s ′ ) \begin{aligned} V(s)& =\mathbb{E}\left[G_{t}\mid s_{t}=s\right] \\ &=\mathbb{E}\left[r_{t+1}+\gamma r_{t+2}+\gamma^{2}r_{t+3}+\ldots\mid s_{t}=s\right] \\ &=\mathbb{E}\left[r_{t+1}|s_{t}=s\right]+\gamma\mathbb{E}\left[r_{t+2}+\gamma r_{t+3}+\gamma^{2}r_{t+4}+\ldots\mid s_{t}=s\right] \\ &=R(s)+\gamma\mathbb{E}[G_{t+1}|s_{t}=s] \\ &=R(s)+\gamma\mathbb{E}[V(s_{t+1})|s_t=s] \\ &=R(s)+\gamma\sum_{s^{\prime}\in S}p\left(s^{\prime}\mid s\right)V\left(s^{\prime}\right) \end{aligned} V(s)=E[Gt∣st=s]=E[rt+1+γrt+2+γ2rt+3+…∣st=s]=E[rt+1∣st=s]+γE[rt+2+γrt+3+γ2rt+4+…∣st=s]=R(s)+γE[Gt+1∣st=s]=R(s)+γE[V(st+1)∣st=s]=R(s)+γs′∈S∑p(s′∣s)V(s′)
- 从这个公式可以看出,当前 s s s状态的价值,可以通过下个 s ′ s^{\prime} s′状态的价值导出。贝尔曼方程就是当前状态与未来状态的迭代关系。贝尔曼方程的矩阵形式如下:
( V ( s 1 ) V ( s 2 ) ⋮ V ( s N ) ) = ( R ( s 1 ) R ( s 2 ) ⋮ R ( s N ) ) + γ ( p ( s 1 ∣ s 1 ) p ( s 2 ∣ s 1 ) … p ( s N ∣ s 1 ) p ( s 1 ∣ s 2 ) p ( s 2 ∣ s 2 ) … p ( s N ∣ s 2 ) ⋮ ⋮ ⋱ ⋮ p ( s 1 ∣ s N ) p ( s 2 ∣ s N ) … p ( s N ∣ s N ) ) ( V ( s 1 ) V ( s 2 ) ⋮ V ( s N ) ) \left(\begin{array}{c}V\left(s_{1}\right)\\V\left(s_{2}\right)\\\vdots\\V\left(s_{N}\right)\end{array}\right)=\left(\begin{array}{c}R\left(s_{1}\right)\\R\left(s_{2}\right)\\\vdots\\R\left(s_{N}\right)\end{array}\right)+\gamma\left(\begin{array}{cccc}p\left(s_{1}\mid s_{1}\right)&p\left(s_{2}\mid s_{1}\right)&\ldots&p\left(s_{N}\mid s_{1}\right)\\p\left(s_{1}\mid s_{2}\right)&p\left(s_{2}\mid s_{2}\right)&\ldots&p\left(s_{N}\mid s_{2}\right)\\\vdots&\vdots&\ddots&\vdots\\p\left(s_{1}\mid s_{N}\right)&p\left(s_{2}\mid s_{N}\right)&\ldots&p\left(s_{N}\mid s_{N}\right)\end{array}\right)\left(\begin{array}{c}V\left(s_{1}\right)\\V\left(s_{2}\right)\\\vdots\\V\left(s_{N}\right)\end{array}\right) ⎝⎜⎜⎜⎛V(s1)V(s2)⋮V(sN)⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛R(s1)R(s2)⋮R(sN)⎠⎟⎟⎟⎞+γ⎝⎜⎜⎜⎛p(s1∣s1)p(s1∣s2)⋮p(s1∣sN)p(s2∣s1)p(s2∣s2)⋮p(s2∣sN)……⋱…p(sN∣s1)p(sN∣s2)⋮p(sN∣sN)⎠⎟⎟⎟⎞⎝⎜⎜⎜⎛V(s1)V(s2)⋮V(sN)⎠⎟⎟⎟⎞
- 从而可以导出向量 V V V的值,推到过程如下:
V = R + γ P V I V = R + γ P V V = ( I − γ P ) − 1 R \begin{aligned} \text{V}& =R+\gamma PV \\ \boldsymbol{IV}& =R+\gamma PV \\ \text{V}& =(I-\gamma\boldsymbol{P})^{-1}\boldsymbol{R} \end{aligned} VIVV=R+γPV=R+γPV=(I−γP)−1R
- **注:**矩阵求逆的过程一般情况下都是元素个数的3次方。所以通过上述方法去求解,只适用于很小量的马尔可夫奖励过程。
2.2.3 计算马尔可夫奖励过程价值的迭代算法
- 我们可以将迭代的方法应用于状态非常多的马尔可夫奖励过程,比如:动态规划的方法,蒙特卡洛的方法(通过采样的办法计算它),时序差分学习的方法(时序差分学习是动态规划和蒙特卡洛方法的一个结合)。
2.2.3.1 蒙特卡洛方法
- 因为计算到达全部状态的轨迹很多,所以蒙特卡洛(通过采样的办法计算)得到每个轨迹上的奖励,最后加上开始状态的及时回报,就得到了开始状态的价值。(其实就是用局部代替全体的路径,就是一个采样的方法。从而减少用到的计算资源)。
2.2.3.2 动态规划方法
- 就是不停的迭代,更行开始状态的价值,知道更新前后的开始状态价值差别不大,结束迭代。
2.3 马尔可夫决策过程
- 相对于马尔可夫奖励过程,马尔可夫决策过程多了决策(决策是指动作),其他的定义与马尔可夫奖励过程的是类似的。
2.3.1 马尔可夫决策过程中的策略
- 策略就是在某一个状态应该采取什么样的动作。策略函数如下:
π ( a ∣ s ) = p ( a t = a ∣ s t = s ) \pi(a\mid s)=p\left(a_t=a\mid s_t=s\right) π(a∣s)=p(at=a∣st=s)
- 已知马尔可夫决策过程和策略 π \pi π,我们可以把马尔可夫决策过程转换成马尔可夫奖励过程。在策略 π \pi π下,由 s s s状态转移到 s ′ s' s′状态的概率转移矩阵如下:
P π ( s ′ ∣ s ) = ∑ a ∈ A π ( a ∣ s ) p ( s ′ ∣ s , a ) P_{\pi}\left(s'\mid s\right)=\sum_{a\in A}\pi(a\mid s)p\left(s'\mid s,a\right) Pπ(s′∣s)=a∈A∑π(a∣s)p(s′∣s,a)
- 已知策略 π \pi π就是知道在状态 s s s时执行每个动作的概率。(所以在状态 s s s下和对应动作下 a a a的条件下转移到 s ’ s’ s’的概率,把所有动作求和,就得到了在策略 π \pi π下从状态 s s s转移到 s ’ s’ s’的概率)。
- 对应的在策略 π \pi π下的奖励函数如下:
r π ( s ) = ∑ a ∈ A π ( a ∣ s ) R ( s , a ) r_\pi(s)=\sum_{a\in A}\pi(a\mid s)R(s,a) rπ(s)=a∈A∑π(a∣s)R(s,a)
-
在状态 s s s和对应动作 a a a下的奖励,乘以在状态 s s s条件下执行动作 a a a的概率。
-
马尔可夫决策过程和马尔可夫过程及其奖励过程的差异如下图。
-
左侧的马尔可夫过程,只有一个随机性(到达下一个状态的随机性)。右侧马尔可夫决策过程,有两个随机性(首先,是到达下一个动作的随机性,其次,是到达下一个状态的随机性)。
2.3.2 马尔可夫决策过程中的价值函数
- 马尔可夫决策过程中的价值函数可定义为:
V π ( s ) = E π [ G t ∣ s t = s ] V_\pi(s)=\mathbb{E}_\pi\left[G_t\mid s_t=s\right] Vπ(s)=Eπ[Gt∣st=s]
- 动作价值函数,即Q函数公式如下:
Q π ( s , a ) = E π [ G t ∣ s t = s , a t = a ] Q_\pi(s,a)=\mathbb{E}_\pi\left[G_t\mid s_t=s,a_t=a\right] Qπ(s,a)=Eπ[Gt∣st=s,at=a]
- 这里的期望其实也是基于策略函数的。所以我们需要对策略函数进行一个加和,然后得到它的价值。对 Q Q Q函数中的动作进行加和,就可以得到价值函数:
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) V_\pi(s)=\sum_{a\in A}\pi(a\mid s)Q_\pi(s,a) Vπ(s)=a∈A∑π(a∣s)Qπ(s,a)
- 此处我们对 Q Q Q 函数的贝尔曼方程进行推导:
Q ( s , a ) = E [ G t ∣ s t = s , a t = a ] = E [ r t + 1 + γ r t + 2 + γ 2 r t + 3 + … ∣ s t = s , a t = a ] = E [ r t + 1 ∣ s t = s , a t = a ] + γ E [ r t + 2 + γ r t + 3 + γ 2 r t + 4 + … ∣ s t = s , a t = a ] = R ( s , a ) + γ E [ G t + 1 ∣ s t = s , a t = a ] = R ( s , a ) + γ E [ V ( s t + 1 ) ∣ s t = s , a t = a ] = R ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V ( s ′ ) \begin{aligned} Q(s,a)& =\mathbb{E}\left[G_{t}\mid s_{t}=s,a_{t}=a\right] \\ &=\mathbb{E}\left[r_{t+1}+\gamma r_{t+2}+\gamma^{2}r_{t+3}+\ldots\mid s_{t}=s,a_{t}=a\right] \\ &=\mathbb{E}\left[r_{t+1}|s_{t}=s,a_{t}=a\right]+\gamma\mathbb{E}\left[r_{t+2}+\gamma r_{t+3}+\gamma^{2}r_{t+4}+\ldots\mid s_{t}=s,a_{t}=a\right] \\ &=R(s,a)+\gamma\mathbb{E}[G_{t+1}|s_{t}=s,a_{t}=a] \\ &=R(s,a)+\gamma\mathbb{E}[V(s_{t+1})|s_{t}=s,a_{t}=a] \\ &=R(s,a)+\gamma\sum_{s^{\prime}\in S}p\left(s^{\prime}\mid s,a\right)V\left(s^{\prime}\right) \end{aligned} Q(s,a)=E[Gt∣st=s,at=a]=E[rt+1+γrt+2+γ2rt+3+…∣st=s,at=a]=E[rt+1∣st=s,at=a]+γE[rt+2+γrt+3+γ2rt+4+…∣st=s,at=a]=R(s,a)+γE[Gt+1∣st=s,at=a]=R(s,a)+γE[V(st+1)∣st=s,at=a]=R(s,a)+γs′∈S∑p(s′∣s,a)V(s′)
- 这个和前面的推到是一样的。
2.3.3 贝尔曼期望方程
- 状态价值 V V V的贝尔曼方程如下:
V π ( s ) = E π [ r t + 1 + γ V π ( s t + 1 ) ∣ s t = s ] V_\pi(s)=\mathbb{E}_\pi\left[r_{t+1}+\gamma V_\pi\left(s_{t+1}\right)\mid s_t=s\right] Vπ(s)=Eπ[rt+1+γVπ(st+1)∣st=s]
- 动作价值 Q Q Q的贝尔曼方程如下:
Q π ( s , a ) = E π [ r t + 1 + γ Q π ( s t + 1 , a t + 1 ) ∣ s t = s , a t = a ] Q_\pi(s,a)=\mathbb{E}_\pi\left[r_{t+1}+\gamma Q_\pi\left(s_{t+1},a_{t+1}\right)\mid s_t=s,a_t=a\right] Qπ(s,a)=Eπ[rt+1+γQπ(st+1,at+1)∣st=s,at=a]
- 贝尔曼期望方程定义了当前状态与未来状态之间的关联。我们进一步进行简单的分解,先给下式:
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) \begin{aligned}V_\pi(s)=\sum_{a\in A}\pi(a\mid s)Q_\pi(s,a)\end{aligned} Vπ(s)=a∈A∑π(a∣s)Qπ(s,a)
- 接着给出
Q π ( s , a ) = R ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) Q_{\pi}(s,a)=R(s,a)+\gamma\sum_{s'\in S}p\left(s'\mid s,a\right)V_{\pi}\left(s'\right) Qπ(s,a)=R(s,a)+γs′∈S∑p(s′∣s,a)Vπ(s′)
- 将 Q π ( s , a ) Q_{\pi}(s,a) Qπ(s,a)代入 V π ( s ) V_\pi(s) Vπ(s)得到:
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) ) V_{\pi}(s)=\sum_{a\in A}\pi(a\mid s)\left(R(s,a)+\gamma\sum_{s'\in S}p\left(s'\mid s,a\right)V_{\pi}\left(s'\right)\right) Vπ(s)=a∈A∑π(a∣s)(R(s,a)+γs′∈S∑p(s′∣s,a)Vπ(s′))
- 将 V π ( s ) V_\pi(s) Vπ(s)代入 Q π ( s , a ) Q_{\pi}(s,a) Qπ(s,a)得到:
Q π ( s , a ) = R ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q_{\pi}(s,a)=R(s,a)+\gamma\sum_{s'\in S}p\left(s'\mid s,a\right)\sum_{a'\in A}\pi\left(a'\mid s'\right)Q_{\pi}\left(s',a'\right) Qπ(s,a)=R(s,a)+γs′∈S∑p(s′∣s,a)a′∈A∑π(a′∣s′)Qπ(s′,a′)
- 以上两个公式是贝尔曼方程的另外两种形式
2.3.4 备份图
- 如上图所示,当前状态的价值如下:
V
π
(
s
)
=
∑
a
∈
A
π
(
a
∣
s
)
(
R
(
s
,
a
)
+
γ
∑
s
′
∈
S
p
(
s
′
∣
s
,
a
)
V
π
(
s
′
)
)
V_{\pi}(s)=\sum_{a\in A}\pi(a\mid s)\left(R(s,a)+\gamma\sum_{s'\in S}p\left(s'\mid s,a\right)V_{\pi}\left(s'\right)\right)
Vπ(s)=a∈A∑π(a∣s)(R(s,a)+γs′∈S∑p(s′∣s,a)Vπ(s′))
- 如上图所示,图(b)的计算公式如下:
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) V_\pi(s)=\sum_{a\in A}\pi(a\mid s)Q_\pi(s,a) Vπ(s)=a∈A∑π(a∣s)Qπ(s,a)
- 图(b)给出了状态价值函数与$ Q 函 数 之 间 的 关 系 。 图 ( c ) 计 算 函数之间的关系。图(c)计算 函数之间的关系。图(c)计算Q$函数为:
Q π ( s , a ) = R ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) Q_{\pi}(s,a)=R(s,a)+\gamma\sum_{s'\in S}p\left(s'\mid s,a\right)V_{\pi}\left(s'\right) Qπ(s,a)=R(s,a)+γs′∈S∑p(s′∣s,a)Vπ(s′)
- 将 Q π ( s , a ) Q_{\pi}(s,a) Qπ(s,a)代入 V π ( s ) V_\pi(s) Vπ(s)得:
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) ) V_{\pi}(s)=\sum_{a\in A}\pi(a\mid s)\left(R(s,a)+\gamma\sum_{s'\in S}p\left(s'\mid s,a\right)V_{\pi}\left(s'\right)\right) Vπ(s)=a∈A∑π(a∣s)(R(s,a)+γs′∈S∑p(s′∣s,a)Vπ(s′))
- 如上图所示, Q π ( s , a ) Q_{\pi}(s,a) Qπ(s,a)公式如下:
Q π ( s , a ) = R ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q_{\pi}(s,a)=R(s,a)+\gamma\sum_{s'\in S}p\left(s'\mid s,a\right)\sum_{a'\in A}\pi\left(a'\mid s'\right)Q_{\pi}\left(s',a'\right) Qπ(s,a)=R(s,a)+γs′∈S∑p(s′∣s,a)a′∈A∑π(a′∣s′)Qπ(s′,a′)
- 如上图(c)所示, V π ( s ′ ) V_{\pi}\left(s'\right) Vπ(s′)公式如下:
V π ( s ′ ) = ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) V_{\pi}\left(s'\right)=\sum_{a'\in A}\pi\left(a'\mid s'\right)Q_{\pi}\left(s',a'\right) Vπ(s′)=a′∈A∑π(a′∣s′)Qπ(s′,a′)
- 将其代入前面的, Q Q Q函数可以得到未来 Q Q Q函数与当前 Q Q Q函数之间的关联,如下:
Q π ( s , a ) = R ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q_{\pi}(s,a)=R(s,a)+\gamma\sum_{s'\in S}p\left(s'\mid s,a\right)\sum_{a'\in A}\pi\left(a'\mid s'\right)Q_{\pi}\left(s',a'\right) Qπ(s,a)=R(s,a)+γs′∈S∑p(s′∣s,a)a′∈A∑π(a′∣s′)Qπ(s′,a′)
2.3.5 策略评估
- 策略评估为已知马尔可夫决策过程以及要采取的策略 π \pi π ,计算价值函数 V π ( s ) V_\pi(s) Vπ(s) 的过程。策略评估在有些地方也被称为(价值)预测,也就是预测我们当前采取的策略最终会产生多少价值。通过迭代,由上一次迭代的价值函数,求出这次迭代的价值函数。
2.3.6 预测与控制
- 预测问题是给定一个策略,我们要确定它的价值函数是多少。而控制问题是在没有策略的前提下,我们要确定最佳的价值函数以及对应的决策方案。(策略未知,然后找到最佳的价值函数和最优策略)。