总忘记贝尔曼方程的推导过程,自己推一遍吧
matrix-vector form就省略了
对于matrix-vector form形式的状态价值贝尔曼方程求解,若已知MDP的动态(转移矩阵P和奖励函数R),则计算复杂度的贡献主要来自矩阵求逆,复杂度为O(n^3)。故当状态的规模较大时,计算复杂度难以容忍。
(和矩阵有关的时间复杂度计算_矩阵一次遍历的时间复杂度-CSDN博客)。
以下给出element form的贝尔曼方程定义及不同形式
immediate reward是在动作采取后获得的
参考
Home - David Silver