强化学习基础

news2025/7/7 0:45:12

强化学习的三种方法
基于价值（value-based）
基于策略（policy-based）
基于模型（model-based）

一基于价值的方法

基于价值 (Value-Based)这种方法，目标是优化价值函数V(s)。
价值函数会告诉我们，智能体在每个状态里得出的未来奖励最大预期 (maximum expected future reward) 。
一个状态下的函数值，是智能体可以预期的未来奖励积累总值，从当前状态开始算。
智能体要用这个价值函数来决定，每一步要选择哪个行动。它会采取函数值最大的那个行动。
在这里插入图片描述

二基于策略的方法

这种方式，会直接优化策略函数π(s)，抛弃价值函数。
策略就是评判智能体在特定时间点的表现。把每一个状态和它所对应的最佳行动建立联系。
策略分为两种，
· 确定性策略：某一个特定状态下的策略，永远都会给出同样的行动。
· 随机性策略：策略给出的是多种行动的可能性分布。
在这里插入图片描述
从图中我们可以看到，策略直接指出了每一步的最佳行动。

三基于模型的方法

这种方法是对环境建模。这表示，我们要创建一个模型，来表示环境的行为。
问题是，每个环境都会需要一个不同的模型 (马里奥每走一步，都会有一个新环境) 。这也是这个方法在强化学习中并不太常用的原因。

四强化学习表示

S(State) = 环境，例如迷宫的每一格是一个state
A(Actions) = 动作，在每个状态下。有什么行动是允许的，例如迷宫中行走的方向{上，下，左，右}
R(Rewards) = 奖励，进入每个状态时，能带来正面或负面的价值。
P(Policy) = 方案。由一个状态->行动的函数。
（S，A，R）是使用者设定的，P是算法自动计算出来的

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/348855.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！