v3 链接
9.3.2 无折扣情形下的梯度推导
平均奖励 r ˉ π \bar r_\pi rˉπ 的定义对折扣和无折扣情况都有效。在折扣情况下的梯度是一个近似值,它在无折扣情况下的梯度更优雅。
因为 无折扣奖励和
E
[
R
t
+
1
+
R
t
+
2
+
R
t
+
3
+
⋯
∣
S
t
=
s
]
{\mathbb E}[R_{t+1}+R_{t+2}+R_{t+3}+\cdots|S_t=s]
E[Rt+1+Rt+2+Rt+3+⋯∣St=s] 可能发散,因此以特别的方式定义 状态价值 和 动作价值:
~
v
π
(
s
)
≐
E
[
(
R
t
+
1
−
r
ˉ
π
)
+
(
R
t
+
2
−
r
ˉ
π
)
+
(
R
t
+
3
−
r
ˉ
π
)
+
⋯
∣
S
t
=
s
]
v_\pi(s)\doteq{\mathbb E}[(R_{t+1}\textcolor{blue}{-\bar r_\pi})+(R_{t+2}\textcolor{blue}{-\bar r_\pi})+(R_{t+3}\textcolor{blue}{-\bar r_\pi})+\cdots|S_t=s]
vπ(s)≐E[(Rt+1−rˉπ)+(Rt+2−rˉπ)+(Rt+3−rˉπ)+⋯∣St=s]
~
q
π
(
s
,
a
)
≐
E
[
(
R
t
+
1
−
r
ˉ
π
)
+
(
R
t
+
2
−
r
ˉ
π
)
+
(
R
t
+
3
−
r
ˉ
π
)
+
⋯
∣
S
t
=
s
,
A
t
=
a
]
q_\pi(s,a)\doteq{\mathbb E}[(R_{t+1}-\bar r_\pi)+(R_{t+2}-\bar r_\pi)+(R_{t+3}-\bar r_\pi)+\cdots|S_t=s,A_t=a]
qπ(s,a)≐E[(Rt+1−rˉπ)+(Rt+2−rˉπ)+(Rt+3−rˉπ)+⋯∣St=s,At=a]
其中
r
ˉ
π
\bar r_\pi
rˉπ 是平均奖励,它是在给定策略
π
\pi
π 下确定的。
在文献中,
v
π
(
s
)
v_\pi(s)
vπ(s) 有不同的名称,如差异奖励[65]或偏差。可以验证,上面定义的状态值满足如下 Bellman-like 公式:
v π ( s ) = ∑ a π ( a ∣ s , θ ) [ ∑ r p ( r ∣ s , a ) ( r − r ˉ π ) + ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) ] ( 9.22 ) v_\pi(s)=\sum\limits_a \pi(a|s,\theta)\Big[\sum\limits_r p(r|s,a)(r-\bar r_\pi)+\sum\limits_{s^\prime}p(s^\prime|s,a)v_\pi(s^\prime)\Big]~~~~~~~~~~(9.22) vπ(s)=a∑π(a∣s,θ)[r∑p(r∣s,a)(r−rˉπ)+s′∑p(s′∣s,a)vπ(s′)] (9.22)
由于
v
π
(
s
)
=
∑
a
∈
A
π
(
a
∣
s
,
θ
)
q
π
(
s
,
a
)
v_\pi(s)=\sum\limits_{a\in {\cal A}}\pi(a|s,\theta)q_\pi(s,a)
vπ(s)=a∈A∑π(a∣s,θ)qπ(s,a),
则
q
π
(
s
,
a
)
=
∑
r
p
(
r
∣
s
,
a
)
(
r
−
r
ˉ
π
)
+
∑
s
′
p
(
s
′
∣
s
,
a
)
v
π
(
s
′
)
q_\pi(s,a)=\sum\limits_r p(r|s,a)(r-\bar r_\pi)+\sum\limits_{s^\prime}p(s^\prime|s,a)v_\pi(s^\prime)
qπ(s,a)=r∑p(r∣s,a)(r−rˉπ)+s′∑p(s′∣s,a)vπ(s′)
式 (9.22) 的矩阵形式为 v π = r π − r ˉ π 1 n + P π v π ( 9.23 ) 泊松公式 v_\pi=r_\pi-\bar r_\pi{\bf 1}_n + P_\pi v_\pi~~~~~~~~~~(9.23)~~~~\textcolor{blue}{泊松公式} vπ=rπ−rˉπ1n+Pπvπ (9.23) 泊松公式
其中 1 n = [ 1 , ⋯ , 1 ] T ∈ R n {\bf 1}_n=[1,\cdots,1]^T\in {\mathbb R}^n 1n=[1,⋯,1]T∈Rn
如何求解 v π v_\pi vπ 呢?
定理 9.4 : 泊松公式的解
令 v π ∗ = ( I n − P π + 1 n d π T ) − 1 r π ( 9.24 ) v_\pi^*=(I_n-P_\pi+{\bf 1}_n d_\pi^T)^{-1} r_\pi~~~~~~~~~~(9.24) vπ∗=(In−Pπ+1ndπT)−1rπ (9.24)
v π ∗ v_\pi^* vπ∗ 是 式 (9.23) 中的泊松公式的解。
此外,泊松公式的任意解都具有以下形式
v
π
=
v
π
∗
+
c
1
n
v_\pi=v_\pi^*+c{\bf 1}_n
vπ=vπ∗+c1n
其中
c
∈
R
c\in {\mathbb R}
c∈R
这个理论表明 泊松公式的解可能不唯一。
Box 9.5: Proof of Theorem 9.4
证明分 3 步
1、证明 式 (9.24) 中的
v
π
∗
v_\pi^*
vπ∗ 是泊松公式的一个解。
令 A ≐ I n − P π + 1 n d π T A\doteq I_n-P_\pi+{\bf 1}_nd_\pi^T A≐In−Pπ+1ndπT
根据 式 (9.24),有 v π ∗ = A − 1 r π v_\pi^*=A^{-1}r_\pi vπ∗=A−1rπ。 A A A 是可逆的,将在第 3 步中证明。
将 v π ∗ = A − 1 r π v_\pi^*=A^{-1}r_\pi vπ∗=A−1rπ 代入 式 (9.23), 有
A − 1 r π = r π − 1 n d π T r π + P π A − 1 r π A^{-1}r_\pi=r_\pi-{\bf 1}_n \textcolor{blue}{d_\pi^T r_\pi} + P_\pi A^{-1}r_\pi A−1rπ=rπ−1ndπTrπ+PπA−1rπ
~
( − A − 1 + I n − 1 n d π T + P π A − 1 ) r π = 0 (-A^{-1}+I_n-{\bf 1}_nd_\pi^T+P_\pi A^{-1})r_\pi=0 (−A−1+In−1ndπT+PπA−1)rπ=0
~
( − I n + A − 1 n d π T A + P π ) A − 1 r π = 0 (-I_n+A-{\bf 1}_nd_\pi^TA+P_\pi )A^{-1}r_\pi=0~~~~~ (−In+A−1ndπTA+Pπ)A−1rπ=0 将 A − 1 A^{-1} A−1 提出来
~
上式 括号里的项为 0。因为
− I n + A − 1 n d π T A + P π = − I n + ( I n − P π + 1 n d π T ) − 1 n d π T ( I n − P π + 1 n d π T ) + P π = 0 -I_n+A-{\bf 1}_nd_\pi^TA+P_\pi=-I_n+(I_n-P_\pi+{\bf 1}_nd_\pi^T)-{\bf 1}_nd_\pi^T(I_n-P_\pi+{\bf 1}_nd_\pi^T)+P_\pi=0~~~~~ −In+A−1ndπTA+Pπ=−In+(In−Pπ+1ndπT)−1ndπT(In−Pπ+1ndπT)+Pπ=0 将 A ≐ I n − P π + 1 n d π T A\doteq I_n-P_\pi+{\bf 1}_nd_\pi^T A≐In−Pπ+1ndπT 代入
~
因此 (9.24) 中的 v π ∗ v_\pi^* vπ∗ 是 泊松公式 (9.23) 的一个解。
第 2 步: 解的一般表达式
将 r ˉ π = d π T r π \bar r_\pi=d_\pi^T r_\pi rˉπ=dπTrπ 代入 (9.24), 得
~
v π = r π − 1 n d π T r π + P π v π ( 9.25 ) v_\pi=r_\pi-{\bf 1}_n d_\pi^Tr_\pi+P_\pi v_\pi~~~~~~~~~~(9.25) vπ=rπ−1ndπTrπ+Pπvπ (9.25)
~
( I n − P π ) v π = ( I n − 1 n d π T ) r π ( 9.26 ) (I_n-P_\pi)v_\pi=(I_n-{\bf 1}_n d_\pi^T)r_\pi~~~~~~~~~~(9.26) (In−Pπ)vπ=(In−1ndπT)rπ (9.26)
~
注意 I n − P π I_n- P_\pi In−Pπ 是奇异的,因为 对任意 π \pi π, 都有 ( I n − P π ) 1 n = 0 (I_n- P_\pi){\bf 1}_n=0 (In−Pπ)1n=0。注意 P π 1 n = 1 n P_\pi {\bf 1}_n={\bf 1}_n Pπ1n=1n
因此,(9.26) 的解不是唯一的,如果 v π ∗ v_\pi^* vπ∗ 是一个解,那么 v π ∗ + x v_\pi^*+x vπ∗+x 也是任何 x ∈ Null ( I n − P π ) x \in \text{Null}(I_n - P_\pi) x∈Null(In−Pπ) 的解。
当 P π P_\pi Pπ 不可约时, Null ( I n − P π ) 1 n = span { 1 n } \text{Null}(I_n - P_\pi) {\bf 1}_n= \text{span}\{{\bf 1}_n\} Null(In−Pπ)1n=span{1n}。
那么泊松方程的任何解都可以表示为 v π ∗ + c 1 n v_\pi^*+ c{\bf 1}_n vπ∗+c1n,其中 c ∈ R c \in {\mathbb R} c∈R。
第 3 步: 证明 A = I n − P π + 1 n d π T A=I_n-P_\pi +{\bf 1}_nd_\pi^T A=In−Pπ+1ndπT 是可逆的。
由于 v π ∗ v_\pi^* vπ∗ 涉及 A − 1 A^{-1} A−1,有必要证明 A A A 是可逆的。
引理 9.3 A 可逆 及其证明
Lemma 9.3. 矩阵 I n − P π + 1 n d π T I_n-P_\pi +{\bf 1}_nd_\pi^T In−Pπ+1ndπT 是可逆的,且逆矩阵为 ( I n − P π + 1 n d π T ) − 1 = ∑ k = 1 ∞ ( P π k − 1 n d π T ) + I n (I_n-P_\pi +{\bf 1}_nd_\pi^T)^{-1}=\sum\limits_{k=1}^\infty(P_\pi^k-{\bf 1}_nd_\pi^T)+I_n (In−Pπ+1ndπT)−1=k=1∑∞(Pπk−1ndπT)+In
证明:
首先声明一些基本事实
~
令 ρ ( M ) \rho(M) ρ(M) 为 矩阵 M M M 的谱半径。
~
如果 ρ ( M ) < 1 \rho(M)< 1 ρ(M)<1 则 I − M I-M I−M 可逆。
~
当且仅当 lim k → ∞ M k = 0 \lim\limits_{k\to \infty}M^k=0 k→∞limMk=0 时, ρ ( M ) < 1 \rho(M)< 1 ρ(M)<1。
——————————
基于以上事实,接下来证明 lim k → ∞ ( P π − 1 n d π T ) k → 0 \lim\limits_{k\to\infty}(P_\pi-{\bf 1}_nd_\pi^T)^k\to 0 k→∞lim(Pπ−1ndπT)k→0
~
( P π − 1 n d π T ) k = P π k − 1 n d π T , k ≥ 1 ( 9.27 ) (P_\pi-{\bf 1}_nd_\pi^T)^k=P_\pi^k-{\bf 1}_nd_\pi^T,~~~~~k\geq 1~~~~~~~~~~(9.27) (Pπ−1ndπT)k=Pπk−1ndπT, k≥1 (9.27)
~
通过归纳证明 (9.27)
~
当 k = 1 k=1 k=1,等式成立。
~
当 k = 2 k=2 k=2,
( P π − 1 n d π T ) 2 = ( P π − 1 n d π T ) ( P π − 1 n d π T ) = P π 2 − P π 1 n d π T − 1 n d π T P π + 1 n d π T 1 n d π T = P π 2 − 1 n d π T \begin{aligned}(P_\pi-{\bf 1}_nd_\pi^T)^2&=(P_\pi-{\bf 1}_nd_\pi^T)(P_\pi-{\bf 1}_nd_\pi^T)\\ &=P_\pi^2-P_\pi{\bf 1}_nd_\pi^T-{\bf 1}_nd_\pi^T P_\pi+{\bf 1}_nd_\pi^T{\bf 1}_nd_\pi^T\\ &=P_\pi^2-{\bf 1}_nd_\pi^T\end{aligned} (Pπ−1ndπT)2=(Pπ−1ndπT)(Pπ−1ndπT)=Pπ2−Pπ1ndπT−1ndπTPπ+1ndπT1ndπT=Pπ2−1ndπT
~
其中 最后一个等号成立是由于 P π 1 n = 1 n , d π T P π = d π T , d π T 1 n = 1 \textcolor{blue}{P_\pi {\bf 1}_n={\bf 1}_n}, ~~d_\pi^TP_\pi=d_\pi^T,~~\textcolor{blue}{d_\pi^T{\bf 1}_n=1} Pπ1n=1n, dπTPπ=dπT, dπT1n=1
~
类似地, k ≥ 3 k\geq3 k≥3
( P π − 1 n d π T ) 3 = ( P π − 1 n d π T ) 2 ( P π − 1 n d π T ) = ( P π 2 − 1 n d π T ) ( P π − 1 n d π T ) = P π 3 − 1 n d π T − 1 n d π T + 1 n d π T = P π 3 − 1 n d π T \begin{aligned}(P_\pi-{\bf 1}_nd_\pi^T)^3&=(P_\pi-{\bf 1}_nd_\pi^T)^2(P_\pi-{\bf 1}_nd_\pi^T)\\ &=(P_\pi^2-{\bf 1}_nd_\pi^T)(P_\pi-{\bf 1}_nd_\pi^T)\\ &=P_\pi^3-{\bf 1}_nd_\pi^T-{\bf 1}_nd_\pi^T+{\bf 1}_nd_\pi^T\\ &=P_\pi^3-{\bf 1}_nd_\pi^T\end{aligned} (Pπ−1ndπT)3=(Pπ−1ndπT)2(Pπ−1ndπT)=(Pπ2−1ndπT)(Pπ−1ndπT)=Pπ3−1ndπT−1ndπT+1ndπT=Pπ3−1ndπT
~
因为 d π d_\pi dπ 是状态的平稳分布,有 lim k → ∞ P π k = d π T 1 n \lim\limits_{k\to\infty}P_\pi^k=d_\pi^T {\bf 1}_n k→∞limPπk=dπT1n,则
~
lim k → ∞ ( P π − 1 n d π T ) k = lim k → ∞ P π k − d π T 1 n = 0 \lim\limits_{k\to \infty}(P_\pi-{\bf 1}_n d_\pi^T)^k=\lim\limits_{k\to \infty}P_\pi^k-d_\pi^T{\bf 1}_n=0 k→∞lim(Pπ−1ndπT)k=k→∞limPπk−dπT1n=0
~
因此, 若是 ρ ( P π − 1 n d π T ) < 1 \rho(P_\pi -{\bf 1}_n d_\pi^T) < 1 ρ(Pπ−1ndπT)<1,则 I n − ( P π − 1 n d π T ) I_n-(P_\pi -{\bf 1}_n d_\pi^T) In−(Pπ−1ndπT) 可逆。
~
其逆 ( I n − ( P π − 1 n d π T ) ) − 1 = ∑ k = 0 ∞ ( P π − 1 n d π T ) k ? ? ? = I n + ∑ k = 1 ∞ ( P π − 1 n d π T ) k = I n + ∑ k = 1 ∞ ( P π k − 1 n d π T ) 代入 式 ( 9.27 ) L e m m a 9.3 证毕 = ∑ k = 0 ∞ ( P π k − 1 n d π T ) + 1 n d π T \begin{aligned}(I_n-(P_\pi -{\bf 1}_n d_\pi^T))^{-1}&=\sum\limits_{k=0}^\infty(P_\pi -{\bf 1}_nd_\pi^T)^k~~~~~~\textcolor{blue}{???}\\ &=I_n+\sum\limits_{k=\textcolor{blue}{1}}^\infty(P_\pi -{\bf 1}_nd_\pi^T)^k\\ &=I_n+\sum\limits_{k=1}^\infty(P_\pi^k-{\bf 1}_nd_\pi^T)~~~~~~~~~~~~~~\textcolor{blue}{代入~式~(9.27)}~~~~~~Lemma ~9.3 ~证毕\\ &=\sum\limits_{k=\textcolor{blue}{0}}^\infty(P_\pi^k-{\bf 1}_nd_\pi^T)+{\bf 1}_nd_\pi^T\end{aligned} (In−(Pπ−1ndπT))−1=k=0∑∞(Pπ−1ndπT)k ???=In+k=1∑∞(Pπ−1ndπT)k=In+k=1∑∞(Pπk−1ndπT) 代入 式 (9.27) Lemma 9.3 证毕=k=0∑∞(Pπk−1ndπT)+1ndπT
~
引理 9.3 的证明受到 [66] 的启发。
然而,在 [66] 中给出的结果 ( I n − P π + 1 n d π T ) − 1 = ∑ k = 0 ∞ ( P π k − 1 n d π T ) (I_n-P_\pi+{\bf 1}_nd_\pi^T)^{-1}=\sum\limits_{k=0}^\infty(P_\pi^k-{\bf 1}_nd_\pi^T) (In−Pπ+1ndπT)−1=k=0∑∞(Pπk−1ndπT) 是不准确的,因为 ∑ k = 0 ∞ ( P π k − 1 n d π T ) 1 n = 0 \sum\limits_{k=0}^\infty (P_\pi^k-{\bf 1}_nd_\pi^T){\bf 1}_n=0 k=0∑∞(Pπk−1ndπT)1n=0, 则 ∑ k = 0 ∞ ( P π k − 1 n d π T ) \sum\limits_{k=0}^\infty (P_\pi^k-{\bf 1}_nd_\pi^T) k=0∑∞(Pπk−1ndπT) 是奇异的。【奇异矩阵指的是行列式为零的方阵】
引理 9.3 纠正了这个错误。
梯度的推导
尽管在无折扣情况下
v
π
v_\pi
vπ 的值不是唯一的,如定理 9.4 所示,但
r
ˉ
π
\bar r_\pi
rˉπ 的值是唯一的。
特别地,从泊松方程可以得出
r ˉ π 1 n = r π + ( P π − I n ) v π = r π + ( P π − I n ) ( v π ∗ + c 1 n ) = r π + ( P π − I n ) v π ∗ \begin{aligned}\bar r_\pi{\bf 1}_n&=r_\pi+(P_\pi-I_n)v_\pi\\ &=r_\pi+(P_\pi-I_n)(v_\pi^*+c{\bf 1}_n)\\ &=r_\pi+(P_\pi-I_n)v_\pi^*\end{aligned} rˉπ1n=rπ+(Pπ−In)vπ=rπ+(Pπ−In)(vπ∗+c1n)=rπ+(Pπ−In)vπ∗
值得注意的是,待定值
c
c
c 被消去了,因此
r
ˉ
π
\bar r_\pi
rˉπ 是唯一的。
因此,我们可以计算
r
ˉ
π
\bar r_\pi
rˉπ 未折扣情况下的梯度。
另外,因为
v
π
v_\pi
vπ 不是唯一的,所以
v
ˉ
π
\bar v_\pi
vˉπ 也不是唯一的。
我们不研究未折扣情况下
v
ˉ
π
\bar v_\pi
vˉπ 的梯度。
对于感兴趣的读者,值得一提的是,我们可以添加更多的约束来唯一地从泊松方程解
v
π
v_\pi
vπ。
例如,假设存在循环状态,则可以确定该循环状态的状态值[65,Section II],从而可以确定
c
c
c。
也有其他的方法来确定。例如,参见 [2] 中的式 (8.6.5)-(8.6.7)。
定理 9.5 无折扣情形下 r ˉ π \bar r_\pi rˉπ 的梯度
在无折扣情形下, r ˉ π \bar r_\pi rˉπ 的梯度为:
∇ θ r ˉ π = ∑ s ∈ S d π ( s ) ∑ a ∈ A ∇ θ π ( a ∣ s , θ ) q π ( s , a ) = E [ ∇ θ ln π ( A ∣ S , θ ) q π ( S , A ) ] ( 9.28 ) \begin{aligned}\nabla_\theta \bar r_\pi&=\sum\limits_{s\in {\cal S}}d_\pi(s)\sum\limits_{a\in {\cal A}}\nabla_\theta\pi(a|s,\theta)q_\pi(s,a)\\ &={\mathbb E}[\nabla_\theta\ln\pi(A|S,\theta)q_\pi(S,A)]~~~~~~~~~~(9.28)\end{aligned} ∇θrˉπ=s∈S∑dπ(s)a∈A∑∇θπ(a∣s,θ)qπ(s,a)=E[∇θlnπ(A∣S,θ)qπ(S,A)] (9.28)
- 其中 S ∼ d π S\sim d_\pi S∼dπ, A ∼ π ( S , θ ) A\sim \pi(S,\theta) A∼π(S,θ)
~严格成立,且 S S S 符合平稳分布。
Box 9.6: Proof of Theorem 9.5
首先, 有 v π ( s ) = ∑ a ∈ A π ( a ∣ s , θ ) q π ( s , a ) v_\pi(s)=\sum\limits_{a\in {\cal A}}\pi(a|s,\theta)q_\pi(s,a) vπ(s)=a∈A∑π(a∣s,θ)qπ(s,a)
~
∇ θ v π ( s ) = ∇ θ [ ∑ a ∈ A π ( a ∣ s , θ ) q π ( s , a ) ] = ∑ a ∈ A [ ∇ θ π ( a ∣ s , θ ) q π ( s , a ) + π ( a ∣ s , θ ) ∇ θ q π ( s , a ) ] ( 9.29 ) \begin{aligned}\nabla_\theta v_\pi(s)&=\nabla_\theta\Big[\sum\limits_{a\in {\cal A}}\pi(a|s,\theta)q_\pi(s,a)\Big]\\ &=\sum\limits_{a\in {\cal A}}\Big[\nabla_\theta \pi(a|s,\theta)q_\pi(s,a)+\pi(a|s,\theta)\nabla_\theta q_\pi(s,a)\Big]\end{aligned}~~~~~~~~~~(9.29) ∇θvπ(s)=∇θ[a∈A∑π(a∣s,θ)qπ(s,a)]=a∈A∑[∇θπ(a∣s,θ)qπ(s,a)+π(a∣s,θ)∇θqπ(s,a)] (9.29)
~
其中 动作价值 q π ( s , a ) = ∑ r p ( r ∣ s , a ) ( r − r ˉ π ) + ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) = r ( s , a ) − r ˉ π + ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) \begin{aligned}q_\pi(s,a)&=\sum\limits_r p(r|s,a)(r-\bar r_\pi)+\sum\limits_{s^\prime}p(s^\prime|s,a)v_\pi(s^\prime)\\ &=r(s,a)-\bar r_\pi+\sum\limits_{s^\prime}p(s^\prime|s,a)v_\pi(s^\prime)\end{aligned} qπ(s,a)=r∑p(r∣s,a)(r−rˉπ)+s′∑p(s′∣s,a)vπ(s′)=r(s,a)−rˉπ+s′∑p(s′∣s,a)vπ(s′)
- 最后一个等号中: ∑ r p ( r ∣ s , a ) r = r ( s , a ) , ∑ r p ( r ∣ s , a ) ⏟ 1 r ˉ π = r π \sum\limits_r p(r|s,a)r=r(s,a),~~~\underbrace{\sum\limits_r p(r|s,a)}_{1}\bar r_\pi= r_\pi r∑p(r∣s,a)r=r(s,a), 1 r∑p(r∣s,a)rˉπ=rπ
~
∇ θ q π ( s , a ) = 0 − ∇ θ r ˉ π + ∑ s ′ p ( s ′ ∣ s , a ) ∇ θ v π ( s ′ ) \nabla_\theta q_\pi(s,a)=0-\nabla_\theta\bar r_\pi+\sum\limits_{s^\prime}p(s^\prime|s,a)\nabla_\theta v_\pi(s^\prime) ∇θqπ(s,a)=0−∇θrˉπ+s′∑p(s′∣s,a)∇θvπ(s′)代回式 (9.29)
~
∇ θ v π ( s ) = ∑ a ∈ A [ ∇ θ π ( a ∣ s , θ ) q π ( s , a ) + π ( a ∣ s , θ ) ( − ∇ θ r ˉ π + ∑ s ′ p ( s ′ ∣ s , a ) ∇ θ v π ( s ′ ) ) ] = ∑ a ∈ A ∇ θ π ( a ∣ s , θ ) q π ( s , a ) − ∇ θ r ˉ π + ∑ a ∈ A π ( a ∣ s , θ ) ∑ s ′ p ( s ′ ∣ s , a ) ∇ θ v π ( s ′ ) ( 9.30 ) \begin{aligned}\nabla_\theta v_\pi(s)&=\sum\limits_{a\in {\cal A}}\Big[\nabla_\theta \pi(a|s,\theta)q_\pi(s,a)+\pi(a|s,\theta)\Big(-\nabla_\theta\bar r_\pi+\sum\limits_{s^\prime}p(s^\prime|s,a)\nabla_\theta v_\pi(s^\prime)\Big)\Big]\\ &=\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s,\theta)q_\pi(s,a)-\nabla_\theta\bar r_\pi+\sum\limits_{a\in {\cal A}}\pi(a|s,\theta)\sum\limits_{s^\prime}p(s^\prime|s,a)\nabla_\theta v_\pi(s^\prime)~~~~~~~~~~(9.30)\end{aligned} ∇θvπ(s)=a∈A∑[∇θπ(a∣s,θ)qπ(s,a)+π(a∣s,θ)(−∇θrˉπ+s′∑p(s′∣s,a)∇θvπ(s′))]=a∈A∑∇θπ(a∣s,θ)qπ(s,a)−∇θrˉπ+a∈A∑π(a∣s,θ)s′∑p(s′∣s,a)∇θvπ(s′) (9.30)
~
令 u ( s ) ≐ ∑ a ∈ A ∇ θ π ( a ∣ s , θ ) q π ( s , a ) u(s)\doteq \sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s,\theta)q_\pi(s,a) u(s)≐a∈A∑∇θπ(a∣s,θ)qπ(s,a)
~
因为 ∑ a ∈ A π ( a ∣ s , θ ) ∑ s ′ ∈ S p ( s ′ ∣ s , a ) ∇ θ v π ( s ′ ) = ∑ s ′ ∈ S p ( s ′ ∣ s ) ∇ θ v π ( s ′ ) \sum\limits_{a\in{\cal A}}\pi(a|s,\theta)\sum\limits_{s^\prime\in {\cal S}}p(s^\prime|s,a)\nabla_\theta v_\pi(s^\prime)=\sum\limits_{s^\prime\in {\cal S}}p(s^\prime|s)\nabla_\theta v_\pi(s^\prime) a∈A∑π(a∣s,θ)s′∈S∑p(s′∣s,a)∇θvπ(s′)=s′∈S∑p(s′∣s)∇θvπ(s′)
~
将 式 (9.30) 写成 矩阵形式:
[ ⋮ ∇ θ v π ( s ) ⋮ ] ⏟ ∇ θ v π ∈ R m n = [ ⋮ u ( s ) ⋮ ] ⏟ u ∈ R m n − 1 n ⊗ ∇ θ r ˉ π + ( P π ⊗ I m ) [ ⋮ ∇ θ v π ( s ′ ) ⋮ ] ⏟ ∇ θ v π ∈ R m n \underbrace{\begin{bmatrix}\vdots\\ \nabla_\theta v_\pi(s)\\ \vdots\\\end{bmatrix}}_{\nabla_\theta v_\pi \in{\mathbb R}^{mn}}=\underbrace{\begin{bmatrix}\vdots\\ u(s)\\ \vdots\\\end{bmatrix}}_{u\in{\mathbb R}^{mn}}-{\bf 1}_n\otimes \nabla_\theta \bar r_\pi+(P_\pi \otimes I_m) \underbrace{\begin{bmatrix}\vdots\\ \nabla_\theta v_\pi(s^\prime)\\ \vdots\\\end{bmatrix}}_{\nabla_\theta v_\pi \in{\mathbb R}^{mn}} ∇θvπ∈Rmn ⋮∇θvπ(s)⋮ =u∈Rmn ⋮u(s)⋮ −1n⊗∇θrˉπ+(Pπ⊗Im)∇θvπ∈Rmn ⋮∇θvπ(s′)⋮
~
简写为:
~
∇ θ v π = u − 1 n ⊗ ∇ θ r ˉ π + ( P π ⊗ I m ) ∇ θ v π \nabla_\theta v_\pi=u-{\bf 1}_n\otimes \nabla_\theta \bar r_\pi+(P_\pi\otimes I_m)\nabla_\theta v_\pi ∇θvπ=u−1n⊗∇θrˉπ+(Pπ⊗Im)∇θvπ
- 其中 n = ∣ S ∣ n=|\cal S| n=∣S∣, m m m 为参数向量 θ \theta θ 的维度。
~1 n ⊗ ∇ θ r ˉ π = u + ( P π ⊗ I m ) ∇ θ v π − ∇ θ v π {\bf 1}_n\otimes \nabla_\theta \bar r_\pi=u+(P_\pi\otimes I_m)\nabla_\theta v_\pi-\nabla_\theta v_\pi 1n⊗∇θrˉπ=u+(Pπ⊗Im)∇θvπ−∇θvπ
~
两边同乘 d π T ⊗ I m d_\pi^T\otimes I_m dπT⊗Im
d π T ⊗ I m 1 n ⊗ ∇ θ r ˉ π = d π T ⊗ I m u + d π T ⊗ I m ( P π ⊗ I m ) ∇ θ v π − d π T ⊗ I m ∇ θ v π d_\pi^T\otimes I_m{\bf 1}_n\otimes \nabla_\theta \bar r_\pi =d_\pi^T\otimes I_mu+d_\pi^T\otimes I_m(P_\pi\otimes I_m)\nabla_\theta v_\pi-d_\pi^T\otimes I_m\nabla_\theta v_\pi dπT⊗Im1n⊗∇θrˉπ=dπT⊗Imu+dπT⊗Im(Pπ⊗Im)∇θvπ−dπT⊗Im∇θvπ
~
d π T 1 n ⊗ ∇ θ r ˉ π = d π T ⊗ I m u d_\pi^T{\bf 1}_n\otimes \nabla_\theta \bar r_\pi =d_\pi^T\otimes I_mu dπT1n⊗∇θrˉπ=dπT⊗Imu
~
∇ θ r ˉ π = d π T ⊗ I m u = ∑ s ∈ S d π ( s ) u ( s ) 参考式 ( 9.30 ) 的矩阵形式记法 = ∑ s ∈ S d π ( s ) ∑ a ∈ A ∇ θ π ( a ∣ s , θ ) q π ( s , a ) \begin{aligned}\nabla_\theta \bar r_\pi &=d_\pi^T \otimes I_m u\\ &=\sum\limits_{s\in {\cal S}}d_\pi(s)u(s)~~~~~~~~\textcolor{blue}{参考 式~(9.30)~的矩阵形式记法}\\ &=\sum\limits_{s\in {\cal S}}d_\pi(s)\sum\limits_{a\in {\cal A}}\nabla_\theta \pi(a|s,\theta)q_\pi(s,a)\end{aligned} ∇θrˉπ=dπT⊗Imu=s∈S∑dπ(s)u(s) 参考式 (9.30) 的矩阵形式记法=s∈S∑dπ(s)a∈A∑∇θπ(a∣s,θ)qπ(s,a)