完全零基础的学习强化学习,希望能入门
此图为强化学习的一个脉络图,主要分为两个板块
- 基础的工具
- 基本的概念
- 贝尔曼公式
- 贝尔曼最优公式
- 算法和方法
- 值迭代和策略迭代
- 蒙特卡洛的方法
- 时序差分的方法
- Value Function Approximation
- Policy Gradient 方法
- Actor-Critic 方法
基础工具
基本的概念
贝尔曼公式
状态值(评价一个策略的好坏):
沿着一个策略我所得到奖励回报的一个平均值,状态值越高说明对应的策略越好
贝尔曼公式,描述了所有状态,状态值之间的关系
通过求解贝尔曼公式,求解出来给定策略它的状态值,进而评价策略的好坏
也就是第二章,其实就是类似给出了一个评估指标,即对应的状态值,去评价策略的好坏
但这里我有一些疑惑,
- 为什么是选择奖励汇报的平均值而不是最高值呢
- 或者说去掉一个最低值去掉一个最高值这种形式
- 状态值作为评价策略的局限性和好处分别是什么呢?
- 作为一个CVer,我能想到的是,比如,我在目标检测这个task下如果用了不同的loss,我的map会不同,其实类似的也是想找到最大map所对应的loss
- 如果一定存在最优策略,那么状态值是否一定能够找到?
- 状态值本身的差距是否能够证明策略的优劣程度的差距
- 这里我就会想到,其实类似的在解决一个问题的时候存在多种方法,多种方法之间的优缺点和适用场景一般我都通过列表来表示,这样会很直观的找到我所合适的
- 但有时候可能是会根据我场景的需求点来选择优点最大化的那个,举个例子,比如我只要求精度最高,那可能模型的复杂度和实时性就成为我不怎么考虑的范围
贝尔曼最优公式
强化学习的终极目标是什么?求解最优策略
似乎这里对于最优性的定义是有的,或许可以解决在上述我提到的问题
算法和方法
值迭代和策略迭代:Value Iteration& Policy Iteration
Value iteration 和 Policy iteraction是Truncated policy iteration的极端情况
换一句话说就是,Truncated policy iteration是VI和PI的统一情况
迭代是否是有限制的?
蒙特卡洛方法,Monte Carlo Learning
第一个不需要模型就能够找到最优策略的方法
需要模型和不需要模型的好处/缺点是什么
第一点,没有模型后你要干嘛你要学习什么
第二点,你没有模型你有什么,我们要学习什么呢
要学习随机变量的expectation