# [0622] Task02 model-free 免模型类 RL 算法的预测和控制【ε 贪心策略优化的证明】

news2026/2/16 0:04:24

easy-rl PDF版本笔记整理 P3
joyrl 比对补充 P4 - P5
相关代码整理 ——> 有空另开一页

最新版PDF下载
地址：https://github.com/datawhalechina/easy-rl/releases
国内地址(推荐国内读者使用)：
链接: https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw 提取码: us6a

easy-rl 在线版本链接 (用于 copy 代码)
参考链接 2：https://datawhalechina.github.io/joyrl-book/

其它：
【勘误记录链接】
——————
5、深度强化学习基础 ⭐️
开源内容：https://linklearner.com/learn/summary/11
——————————

表格型：蒙特卡洛、Q-learning、Sarsa

状态转移概率 $p[s_{t+1},r_t|s_t,a_t]$ ：在状态 $s_t$ 选择动作 $a_t$ 后，转移到状态 $s_{t+1}$ ，得到奖励 $r_t$ 的概率。

马尔可夫性质：系统下一时刻的状态仅由当前时刻的状态决定，不依赖于以往任何状态。

状态转移概率和奖励未知： model-free。免模型

模型未知或模型太大 ——> 免模型方法

考虑未来的总奖励的原因：奖励延迟

折扣因子 $\gamma$ ：当前行为对太远的未来的某一个回报可能毫无关系。

用下一状态的价值来更新当前状态的价值。自举
时序差分：每走一步更新一次 Q 表格，用下一个状态的 Q 值来更新当前状态的 Q 值。

蒙特卡洛方法：
采样大量 episode ，计算所有 episode 的真实回报，计算平均值，当做状态值的估计。

蒙特卡洛：
$V(s_t)\leftarrow V(s_t) +\alpha(G_{i,t}-V(s_t))$

时序差分：
$V(s_t)\leftarrow V(s_t) +\alpha(r_{t+1}+\gamma V(s_{t+1})-V(s_t))$

时序差分	蒙特卡洛
可在线学习，效率高	必须等游戏结束
不要求序列完整	完整序列
连续任务	有终止的任务
马尔可夫	非马尔可夫更高效
有偏估计	无偏估计
方差小、自举	方差大

时序差分优势：低方差，能够在线学习，能够从不完整的序列中学习。

————————————————

证明：对于任意策略 $\pi$ ，根据其动作价值函数 $q_\pi$ 计算的 $\varepsilon$ -贪心策略 $\pi^\prime$ 比原策略 $\pi$ 好或至少一样好。

$\pi(a|s)=\left\{ \begin{aligned} &\frac{\varepsilon}{|\mathcal{A}(s)|}+1- \varepsilon, &贪心动作\\ &\frac{\varepsilon}{|\mathcal{A}(s)|}, &其它动作\\ \end{aligned} \right.$

由上式：
——> $\pi(a|s)-\frac{\varepsilon}{|\mathcal{A}(s)|}=\left\{ \begin{aligned} &1- \varepsilon, &贪心动作\\ &0, &其它动作\\ \end{aligned} \right.$
——> $\frac{ \pi(a|s)-\frac{\varepsilon}{|\mathcal{A}(s)|}}{1-\varepsilon}=\left\{ \begin{aligned} &1, &贪心动作\\ &0, &其它动作\\ \end{aligned} \right.$

$\begin{aligned}q_\pi(s, \pi^\prime(s))&=\sum\limits_{a\in\mathcal A}\pi^\prime(a|s)q_{\pi^\prime}(s,a)\\ &=\frac{\varepsilon}{|\mathcal{A}(s)|}\sum\limits_{a\in\mathcal A}q_\pi(s, a)+(1-\varepsilon)\max\limits_{a\in\mathcal A}q_\pi(s, a)\\ &=\frac{\varepsilon}{|\mathcal{A}(s)|}\sum\limits_{a\in\mathcal A}q_\pi(s, a)+(1-\varepsilon)\textcolor{blue}{\sum\limits_{a\in \cal A}\frac{ \pi(a|s)-\frac{\varepsilon}{|\mathcal{A}(s)|}}{1-\varepsilon}}\max\limits_{a\in\mathcal A}q_\pi(s, a)\\ &\geq \frac{\varepsilon}{|\mathcal{A}(s)|}\sum\limits_{a\in\mathcal A}q_\pi(s, a)+(1-\varepsilon)\sum\limits_{a\in \cal A}\frac{ \pi(a|s)-\frac{\varepsilon}{|\mathcal{A}(s)|}}{1-\varepsilon}q_\pi(s, a)~~~\textcolor{blue}{这个 ~q_\pi(s, a) ~没有~ \varepsilon ~贪心动作对应的 ~q ~ 大}\\ &=\sum\limits_{a\in\mathcal A}\pi (a|s)q_ \pi (s,a)\end{aligned}$

————————————

偏差高：偏离真实数据
方差高：数据分布分散。

时序差分：更新 V
Sarsa：更新 Q
$q(s_t, a_t)=q(s_t,a_t)+\textcolor{blue}{\alpha}[\underbrace{\overbrace{\textcolor{blue}{r_{t+1}+\gamma q(s_{t+1},a_{t+1})}}^{时序差分目标}-q(s_t,a_t)}_{时序差分误差}]$