强化学习——学习笔记3

news2024/11/17 15:55:27

一、强化学习都有哪些分类?

1、基于模型与不基于模型
根据是否具有环境模型,强化学习算法分为两种:基于模型与不基于模型
基于模型的强化学习(Model-based RL):可以简单的使用动态规划求解,任务可定义为预测和控制,预测的目的是评估当前策略的好坏,即求解状态价值函数 V π ( S ) V_π(S) Vπ(S),控制的目的则是寻找最优策略 π ∗ π_∗ π V ∗ ( s ) V_∗(s) V(s)
在这里“模型”的含义是对环境进行建模,具体而言,是否已知其P和R,即 p ( s ′ ∣ s , a ) p(s′|s,a) p(s′∣s,a) R ( s , a ) R(s,a) R(s,a)的取值。

如果有对环境的建模,那么智能体便可以在执行动作前得知状态转移的情况即 p ( s ′ ∣ s , a ) p(s′|s,a) p(s′∣s,a)和奖励 R ( s , a ) R(s,a) R(s,a),也就不需要实际执行动作收集这些数据;否则便需要进行采样,通过与环境的交互得到下一步的状态和奖励,然后仅依靠采样得到的数据更新策略。
无模型的强化学习(model-free):需要使用蒙特了卡洛法、时序差分法不断的探索环境。

2、基于价值、基于策略
在无模型的方法中,又有基于价值和基于策略的两种方法。
基于价值:智能体通过学习价值函数,隐式的策略,并贪婪的选择值最大的动作,即 a = a r g m a x Q ( s , a ) a=arg maxQ(s,a) a=argmaxQ(s,a),主要包络Q-learning和SARSA,这种方法一般得到的是确定性策略。
其有如下几点缺点:
1)对连续动作的处理能力不足;
2)对受限状态下的问题处理能力不足;
3)无法解决随机策略问题。包括Q-Learning、SARSA。

基于策略:没有价值函数,直接学习策略。其对策略进行进行建模 π ( s , a ) π(s,a) π(s,a)并优化,一般得到的是随机性策略。适用于随机策略、连续动作。主要包括Policy Gradient算法、TRPO、PPO。

对于以上两个分类的方法可以参照下图。
在这里插入图片描述

3、on/off-policy
On-policy:学习的 agent 跟和环境互动的 agent 是同一个。行为策略与目标策略相同。也就是说,行动遵循的行动策略与被评估的目标策略是同一个策略(如果要学习的智能体和与环境交互的智能体是相同的),则称之为同策略,比如Sarsa。其好处就是简单粗暴,直接利用数据就可以优化其策略,但这样的处理会导致策略其实是在学习一个局部最优,因为On-policy的策略没办法很好的同时保持即探索又利用。

Off-policy: 学习的 agent 跟和环境互动的 agent 不是同一个。将收集数据当做一个单独的任务。Off-policy将目标策略和行为策略分开,可以在保持探索的同时,更能求到全局最优值。行动遵循的行动策略和被评估的目标策略是不同的策略(或如果要学习的智能体和与环境交互的智能体不是相同的),则称之为异策略,比如Q-learning。但其难点在于:如何在一个策略下产生的数据来优化另外一个策略。
综上,强化学习的分类可以比喻为如下图:
在这里插入图片描述

二、基于价值强化学习方法简介

1、Q-Learning
先上图:
在这里插入图片描述
在上述流程图中所说的Q表即为下表:
假设我们在玩一个小游戏,该游戏有上下左右不同的动作,同时也会有不同的状态,比如游戏结束等。Q表也可以称为状态-价值函数 Q ( s , a ) Q(s,a) Q(s,a):这个表格的每一行代表每个 state上述例子中的游戏结束等,每一列代表每个 action上述例子中的上下左右,表格的数值就是在各个 state 下采取各个 action 时能够获得的最大的未来期望奖励。
在这里插入图片描述
通过上述的Q table 就可以找到每个状态下的最优行为,进而通过找到所有最优的action得到最大的期望奖励。
Q表更新公式如下:
在这里插入图片描述
Q-learning在更新Q值时下一步动作是不确定的,它会选取Q值最大的动作来作为下一步的更新。
2、SARSA
SARSA(State-Action-Reward-State-Action)是一个学习马尔可夫决策过程策略的算法。至于马尔可夫决策过程策略是什么可以见上一篇文章。
它的算法和公式和 Q learning 很像,但是 Q-Learning 是Off-Policy的,SARSA 是On-Policy 的。
SARSA的Q表更新公式如下:
在这里插入图片描述
从上式中可以看出,Sarsa使用下一步的实际动作来作为更新,而在Q-learning算法中,使用确定性策略选出的新动作只用于动作价值函数,而不会被真正执行,当动作价值函数更新后,得到新状态,并基于新状态由ε贪心策略选择得到执行行动,这意味着行动策略与目标策略不属于同一个策略。
上述两种方法最先提出的时候是没有引入时序差分方法的,而是在计算奖励的过程中一条路走到头,直到状态变为结束为止。而这种方式的计算是会消耗大量的时间。因此有了将时序差分方法与Sarsa/Q-learning或者其他算法结合的新方法。
3、TD(0)控制/Sarsa(0)算法与TD(n)控制/n步Sarsa算法
在这里插入图片描述
TD每过一个时序p就利用奖励 R t + 1 R_{t+1} Rt+1和值函数 V ( S t + 1 ) V(S_{t+1}) V(St+1)
更新一次,当然,这里所说的one-step TD 方法,也可以两步一更新,三步一更新”,这个所谓的多步一更新我们便称之为N步时序差分法。如上图。
回报公式的定义,即为(根据前几项可以看出:γ的上标加t+1即为R的下标,反过来,当最后一项R的下标T确定后,自然便可以得出γ的上标为T−t−1)。因此有如下式:
在这里插入图片描述
从而有:
单步回报: G t : t + 1 = R t + 1 + γ V t ( S t + 1 ) G_{t:t+1}=R_{t+1}+γV_t(S_{t+1}) Gt:t+1=Rt+1+γVt(St+1),即为TD(0)控制/Sarsa(0)算法
两步回报: G t : t + 2 = R t + 1 + γ R t + 2 + γ 2 V t + 1 ( S t + 2 ) G_{t:t+2}=R_{t+1}+γR_{t+2}+γ^2V_{t+1}(S_{t+2}) Gt:t+2=Rt+1+γRt+2+γ2Vt+1(St+2)
n步回报: G t : t + n = R t + 1 + γ R t + 2 + ⋯ + γ n − 1 R t + n + γ n V t + n − 1 ( S t + n ) G_{t:t+n}=R_{t+1}+γR_{t+2}+⋯+γ^{n−1}R_{t+n}+γ^nV_{t+n−1}(S_{t+n}) Gt:t+n=Rt+1+γRt+2++γn1Rt+n+γnVt+n1(St+n)
类似的,当用n步时序差分的思路去更新Q函数则就是所谓的n步Sarsa算法,当我们重新根据动作价值的估计定义如下的b步方法的回报为:
在这里插入图片描述
如此,便可以得到如下Q的更新方式:
在这里插入图片描述
4、Sarsa算法与Q-learning更新规则的对比

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1713571.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

文心智能体平台 | 想象即现实

目录 文心智能体平台介绍平台简介通过平台能做什么平台的优势智能体介绍智能体类型AI 插件介绍 动手创建一个智能体访问平台并进行账号注册根据适合的方式选择智能体类型快速创建智能体智能体个性化模块配置 总结注意事项我的智能体 文心智能体平台介绍 平台简介 文心智能体平…

ArcGIS常规操作-带你创建正确的空间数据库

ArcGIS常规操作-带你创建正确的空间数据库 ArcGIS一词在各行业中出现得越来越多,尤其在国土空间规划中,依赖大量GIS工具和技术的应用,ArcGIS成为了必备的技能之一。今天讲解一下ArcGIS的基础操作,让大家可以快速地上手ArcGIS&…

这有一封“数字赋能 强农兴村”的邀请函,请查收→

2024年6月5日至7日,以“数字赋能 强农兴村”为主题的2024中国(南京)数字乡村博览会暨第八届中国(南京)国际智慧农业博览会将在江苏南京举办。珈和科技在农业AI大数据展区的H16展位与您相约,共襄盛会。 私信…

祝贺!阿里云PolarDB斩获数据库国际顶会ICDE 2024工业赛道最佳论文

5月17日消息,在荷兰举行的国际顶级数据库学术会议ICDE 2024上,阿里云斩获工业和应用赛道的“最佳论文奖”,这也是中国企业首次获此殊荣。阿里云PolarDB创新性地解决了数据库Serverless中跨机事务迁移的核心难题,将跨机迁移时间压缩…

消费者组到底是什么?no.15

Kafka的消费者组。 消费者组,即Consumer Group,应该算是Kafka比较有亮点的设计了。那么何谓Consumer Group呢?用一句话概括就是:Consumer Group是Kafka提供的可扩展且具有容错性的消费者机制。既然是一个组,那么组内必…

LLM - 模型下载与 git-lfs 安装

目录 一.引言 二.安装 git lfs 1.使用 apt-get 安装 2.使用 Brew 安装 3.LFS 验证 三.总结 一.引言 在 HuggingFace 上下载模型时提供一个 git clone 的指令,执行后可以下载对应模型的模型文件: 但是本机还没有 git lfs 命令: git: lfs is not a git comman…

从这些原理中,读懂迅软DSE加密系统

加密技术是保护信息安全的系统,通过对原始数据进行加密,使得未经授权的人无法读取这些信息。 一、迅软DSE加密系统干什么用的? ★保护隐私:加密确保个人、机构的敏感信息在传输和存储过程中不被未授权的人访问。 ★防止数据泄露…

从简单到复杂,红酒配餐的层次感与变化

红酒配餐是一种艺术,通过不同层次的搭配,可以呈现出丰富的味觉变化,使每一口都充满惊喜。云仓酒庄雷盛红酒以其卓着的品质和与众不同的口感,为红酒配餐提供了无限可能。从简单到复杂,红酒配餐的层次感与变化如下&#…

CAD石墨烯生成器 V1.0 渊鱼

插件介绍 CAD石墨烯生成器插件可用于在AutoCAD软件内参数化建立石墨烯几何模型。插件建立石墨烯的球棍模型,可控制模型的尺寸、碳原子环的尺寸、原子直径、化学键直径,并可控制模型的起伏形态。插件生成的实体模型可进行修改或绘图渲染,用于…

flutter开发实战-类似微博帖子列表及下拉刷新上拉加载效果

flutter开发实战-类似微博帖子列表及下拉刷新上拉加载效果 在之前处理类似微博帖子列表及下拉刷新上拉加载效果,刷新使用的是EasyRefresh 一、引入EasyRefresh与likeButton 在工程的pubspec.yaml中引入插件 # 下拉刷新、上拉更多easy_refresh: ^3.3.21pull_to_re…

每天写两道(二)LRU缓存、数组中最大的第k个元素

146.LRU 缓存 . - 力扣(LeetCode) 请你设计并实现一个满足 LRU (最近最少使用) 缓存 约束的数据结构。 实现 LRUCache 类: LRUCache(int capacity) 以 正整数 作为容量 capacity 初始化 LRU 缓存int get(int key) 如果关键字 key 存在于缓存…

【考研数学】数学一和数学二哪个更难?如何复习才能上90分?

很明显考研数学一更难! 不管是复习量还是题目难度 对比项考研数学一考研数学二适用专业理工科类及部分经济学类理工科类考试科目高等数学、线性代数、概率论与数理统计高等数学、线性代数试卷满分150分150分考试时间180分钟180分钟试卷内容结构高等数学约60%&…

精通推荐算法7:多任务学习 -- 总体架构

1 多任务学习的总体架构 目前的互联网主流推荐场景在大多数情况下需要优化多个业务目标。例如在淘宝商品推荐中,需要兼顾点击率和转化率。在抖音短视频推荐中,需要考虑完播率、播放时长、点赞率、评论率、关注率等目标。为了提升各项业务目标&#xff0…

虹科Pico汽车示波器 | 免拆诊断案例 | 2017款吉利帝豪GL车发动机偶尔无法起动

故障现象  一辆2017款吉利帝豪GL车,搭载JLC-4G18发动机和手动变速器,累计行驶里程约为39.3万km。车主反映,该车发动机偶尔无法起动。故障发生频率比较频繁,冷机状态下故障比较容易出现。 故障诊断  接车后试车,故…

一款超好用的国产Redis可视化工具

一、简介 1、这是一款追求极致性能(它可以支持前面100万数据的展示。)海量数据下低内存占用、极简布局、高效交互、跨平台、支持反序列化Java字节码的redis可视化客户端工具。 支持三大操作系统Windows、MacOS、Linux,适合不同操作系统口味的…

树莓派开箱

1.树莓派4B配置 CPU:64位1.5GHZ四核处理器。 GPU:Broadcom VideoCore VI500MHZ 蓝牙5.0 电源Type C(5V 3A),也可以使用排针链接5V锂电池最大放电电流必须达到3A。 还有千兆以太网等以后用到再说。 接下来进入文章重点 2.镜像文件烧录 前期准备:1…

ChatGPT魔法,定制个性化提示词!

扮演Prompt创作者的角色 我想让你成为我的Prompt创作者。你的目标是帮助我创建最佳的Prompt,这个Prompt将由 你ChatGPT使用。 你将遵循以下过程: 1.首先,你会问我Prompt是关于什么的。我会告诉你,但我们需要通过不断的重复来改进…

在 CentOS 上安装 PostgreSQL 的全面指南

PostgreSQL 是一种功能强大的开源关系型数据库管理系统,广泛应用于各种领域。它提供了诸如事务处理、并发控制和数据完整性等高级功能,因此深受开发者和企业的欢迎。本指南将逐步引导您在 CentOS 上安装 PostgreSQL,以便您充分利用其众多优势…

Facebook:社交世界的接口

在当今数字时代,社交媒体已经成为了人们生活中不可或缺的一部分,而Facebook作为其中的巨头之一,扮演着至关重要的角色。本文将带您深入探索Facebook这张社交世界的画卷,全面了解这个令人着迷的平台。 起源与历程 Facebook的故事始…

无线麦克风什么牌子的音质效果好?一文读懂无线领夹麦克风哪款好

​在当今的数字时代,无线技术已经深入到我们生活的方方面面,无线领夹麦克风便是其中的佼佼者。它们为讲者、表演者以及那些需要在移动中讲话的人们提供了解放双手和自由移动的可能。本文旨在探讨无线领夹麦克风的多种用途,以及如何挑选最适合…