强化学习原理及应用作业之动态规划算法【SYSU_2023SpringRL】 题目描述: 任务一:动态规划方法 一、策略迭代算法 1、代码 2、结果 3、思路讲解 策略评估 策略提升 二、价值迭代算法 1、代码 2、结果 3、思路讲解 算法整个流程 总结 题目描述: 本次实践作业将在以下环境进行: 该环境由一个 6×6 网格组成,其中黄色圆圈为智能体出发点,黑色格子为无法通过的墙壁,若智能体向着墙壁方向移动,则会停留在原地,地图边界的移动同理。带有黄色边框的格子为终止状