基于Q-Table的强化学习笔记
- 1 几个概念
- 1.1 状态空间 S S S和动作空间 A A A
- 1.2 奖励 R R R
- 1.3 价值函数与Q-Table
- 1.4 马尔可夫性
- 2 基于Q-Table的强化学习算法
- 2.1 SARSA算法
- 2.2 Q-learning算法
1 几个概念
最近也从小白入手看了些强化学习(Reinforcement Learning,RL)的相关知识,做了一些简单的笔记巩固一下。
1.1 状态空间 S S S和动作空间 A A A
给定强化学习的状态空间 S S S,空间的元素 s ∈ S s \in S s∈S为每一个状态;给定动作空间 A A A,空间中的元素 a ∈ A a \in A a∈A为可执行的动作。
1.2 奖励 R R R
某状态 s s s下执行动作 a a a获得的回报称为奖励,表示为 R R R,当前 t t t时间下的累计期望奖励表示为:
U t = R t + γ R t + 1 + γ 2 R t + 2 + γ 3 R t + 3 + . . . . . . U_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\gamma^3 R_{t+3}+...... Ut=Rt+γRt+1+γ2Rt+2+γ3Rt+3+......
1.3 价值函数与Q-Table
价值函数是在策略 π ( s , a ) \pi(s,a) π(s,a)下的期望,即
Q π ( s , a ) = E [ U t ∣ S = s , A = a ] Q_{\pi}(s,a)=E[U_t|S=s,A=a] Qπ(s,a)=E[Ut∣S=s,A=a]
所有策略下的价值函数就构成了一张Q-Table,强化学习的主要作用就是通过学习得到一张经验Q-Table,使得得到期望结果的最有动作策略。
1.4 马尔可夫性
指在一个随机过程中,如果当前状态和历史状态序列已知,未来状态的概率分布完全取决于当前状态,那么该随机过程被认为满足马尔科夫性质。这也就是说,满足马尔科夫性质的随机过程中,状态转移仅与当前所处状态有关,与历史状态序列相独立。
根据强化学习算法对马尔科夫性质的要求,在不同的学习回合中,同一个状态下的动作空间 A A A应该相同。根据上文对于状态空间 S S S 的定义,在 t + 1 t + 1 t+1时刻的状态是在 t t t时刻选择激活的种子节点。基于此状态空间的定义,对于两个不同的种子节点激活序列,如果它们最近激活的种子节点是同一个,那么它们具有相同的状态 s s s,但同时在相同状态 s s s下将具有不同的动作空间 A A A,这与马尔科夫性质相违背。