文章目录
- 📚Model-Free RL vs Model-Based RL
-
- 🐇核心定义
- 🐇核心区别
- 📚Policy-Based RL vs Value-Based RL
-
- 🐇核心定义
- 🐇 核心区别
- 📚Monte-Carlo update vs Temporal-Difference update
-
- 🐇核心定义
- 🐇核心区别
- 📚On-Policy vs Off-Policy
-
- 🐇核心定义
- 🐇核心区别
参考学习视频:强化学习方法汇总 (Reinforcement Learning)
- 包含AI生成内容,感谢D老师❤️
📚Model-Free RL vs Model-Based RL
🐇核心定义
- Model-Free RL
- 不依赖环境模型,直接通过试错学习策略(Policy)或价值函数(Value Function)。智能体无需知晓状态转移概率或奖励函数,仅通过与环境交互的经验(如状态、动作、奖励序列)进行学习。
- 典型算法:Q-Lear