【强化学习】一文弄懂，Q-learning和Sarsa的区别

news2025/2/28 15:27:26

一文弄懂，Q-learning和Sarsa的区别

2023.3.6
本文主要参考莫烦老师内容

1. 理解Q_learning算法

主要看下面讲解，就不抄了：
https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/intro-q-learning

读懂几个内容：

1.1 三块内容轻微解释

Epsilon greedy：是个概率值。也就是有一定创造性，有一定概率会跳出Q表的值，不去选最大值，随机一个动作。如果没有这个，始终按最大值动作走，那么有些动作可能永远取不到。
算法决策：算法怎么往下走的，整体的流程。
算法更新：那就是怎么优化这个Q表格（这点类似于梯度下降在神经网络的作用）。

最终目的：得到一个Q表，我们根据规则，又快又准的找到目标

1.2 对Q(s1,a2)现实

们在 s1 采取了 a2, 并到达 s2, 这时我们开始更新用于决策的 Q 表, 接着我们并没有在实际中采取任何行为, 而是再想象自己在 s2 上采取了每种行为, 分别看看两种行为哪一个的 Q 值大, 比如说 Q(s2, a2) 的值比 Q(s2, a1) 的大, 所以我们把大的 Q(s2, a2) 乘上一个衰减值 gamma (比如是0.9) 并加上到达s2时所获取的奖励 R (这里还没有获取到我们的棒棒糖, 所以奖励为 0), 因为会获取实实在在的奖励 R , 我们将这个作为我现实中 Q(s1, a2) 的值

在这里插入图片描述
所以现实Q = R+r*[XXX]

1.3 估计Q(s1,a2)理解

估计Q(s1,a2)理解那就是Q表里对应的那个值

1.4 QLearning 中的 Gamma理解

gamma = 0：只看见眼前的奖励
gamma = 1：上帝视角，也就是机器人能清清楚楚地看到之后所有步的全部价值

在这里插入图片描述

2. Q-learning和Sarsa的区别

在这里插入图片描述

算法上其实就是算Q现实时候不一样，上一步的Q现实
Q_learing ：下一步q表最大值+r
Sarsa：具体的某一步估计q值+r

2.1 理解为什么Q_learning更激进

我们通过1.4QLearning 中的 Gamma理解,就知道当前的Q值，和以后所有的Q都是有关系的，越近影响越大。

Q_learning:取max,也就是不考虑最终走到很大负奖励的值，只考虑会不会最终获得最大奖励，如果获得了，那这条路就牛逼，所以么Q_learning更勇猛，不害怕错，更激进
Sarsa :是取某具体的一步，只要周围有错（很大的负奖励），那么就有机会获得这个不好的奖励，那么整条路反馈都会评分很差。之后会尽量避开。那么最终导致Sarsa会对犯错更敏感，会远离犯错的点，更保守

最终结果呈现是：
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/393256.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

旋转数组的几种做法

旋转数组的几种做法

千淘万浪虽辛苦，吹尽黄沙始到金。 ——刘禹锡第一种方法：遍历整个数组题目描述： 一个数组A中存有N (N>0) 个整数，允许使用另外数组，将每个整数循环向右移动M(M>0)个位置。如果需要…

阅读更多...

【Redis学习3】Redis四种模式之主从复制

【Redis学习3】Redis四种模式之主从复制

主从复制模式主从复制，是指将一台Redis服务器的数据，复制到其他的Redis服务器。前者称为主节点（master），后者成为从节点（slave）；数据的复制是单向，主要是由主节点到从…

阅读更多...

一把火烧掉了苹果摆脱中国制造的幻想，印度制造难担重任

一把火烧掉了苹果摆脱中国制造的幻想，印度制造难担重任

这几年苹果不断推动印度制造，希望摆脱对中国制造的依赖，然而近期苹果在印度的一家代工厂发生大火却证明了苹果的这一计划遭受重大打击，印度制造根本就无法中国制造。一、印度制造屡屡发生幺蛾子苹果推动印度制造已有多年了，然而印…

阅读更多...

Allegro如何刷新封装和库里的封装同步操作指导

Allegro如何刷新封装和库里的封装同步操作指导

Allegro如何刷新封装和库里的封装同步操作指导在做PCB设计的过程中，有时会因为库里的封装有更新，所以PCB上使用到了这个封装时候需要和库里的同步，如下图如何刷新，具体操作如下点击Place点击Update Symbols

阅读更多...

算法刷题-python版-最大回文子串

算法刷题-python版-最大回文子串

文章目录回文字符串如何判断是回文字符串求解字符串的最大回文子串暴力求解中心扩展（比较优的方式）两种方式性能对比回文字符串正读、反读都是同一个字符串本身，这样的字符串就是回文字符串。如 abccba 是回文字符串； 而 abcd …

阅读更多...

产品EMC传导发射超标问题分析与整改

产品EMC传导发射超标问题分析与整改

某产品在入网测试电磁骚扰项目中，直流电源端口（DC端口）传导发射测试超标严重，在低频150kHz~2MHz之间，某些频点超标10dBuV以上。经过对电源单板现场整改，再次测试DC端口传导发射顺利通过，余量在5…

阅读更多...

准备好了吗？加入 GDE 成长计划，成为下一位谷歌开发者专家！

准备好了吗？加入 GDE 成长计划，成为下一位谷歌开发者专家！

谷歌开发者专家 (Google Developer Experts，GDE)，又称谷歌开发者专家项目，是由一群经验丰富的技术专家、具有社交影响力的开发者和思想领袖组成的全球性社区。通过在各项活动演讲以及各个平台上发布优质内容来积极助力开发者、企业和技术社区…

阅读更多...

C#基础篇

C#基础篇

枚举enum 枚举的使用 using System.Net.Http.Headers; using System.Runtime.InteropServices; using System.Security.Cryptography;namespace game_code {enum E_MonsterType{Normal,// 普通怪Boos// Boos怪}internal class Program{static void Main(string[] args){// 枚…

阅读更多...

Linux信号量详解

Linux信号量详解

一、什么是信号量信号量的本质是一种数据操作锁、用来负责数据操作过程中的互斥、同步等功能。信号量就和互斥锁类似，本质上就是一个计数器（全局变量）。不同之处在于，互斥锁的值只有 2 个（加锁 "lock" 和解锁…

阅读更多...

Mysql Server原理简介

Mysql Server原理简介

Mysql客户端包括JDBC、 Navicat、sqlyog，只是为了和mysql server建立连接，向mysql server提交sql语句。mysql server组件第一部分叫连接器主要承担的功能叫管理连接和验证权限，每次在进行数据库访问的时候，必然要输入用户名和密码…

阅读更多...

421 Maximum login limit has been reached. on hdfs-over-ftp

421 Maximum login limit has been reached. on hdfs-over-ftp

使用 hdfs-over-ftp 时登录报错421 Maximum login limit has been reached. 本地测试连接第10个用户的时候会报这个异常就是默认限制了用户登录数量。 DefaultConnectionConfig.java里private int maxLogins 10; 在HdfsOverFtpServer.java里修改了startServer()这个metho…

阅读更多...

MSTP基础

MSTP基础

MSTP基础引入背景技术概览PVSTP（过渡）MSTP单生成树的缺陷1：部分VLAN不通单生成树的缺陷2：无法实现流量的负载分担多生成树解决单生成树实例引入背景 RSTP在STP基础上进行了改进，实现了网络拓扑快速收敛。但由于局域网…

阅读更多...

【redis学习篇】Redis三种持久化方式详解

【redis学习篇】Redis三种持久化方式详解

官方文档一、Redis持久性 Redis如何将数据写入磁盘持久性是指将数据写入持久存储，如固态磁盘（SSD）。Redis提供了一系列持久性选项。其中包括： RDB（快照）：RDB持久性以指定的时间间隔执行数据…

阅读更多...

程序员的上帝视角（4）——视角

程序员的上帝视角（4）——视角

对于开发人员来说，工作都是从评估一个需求开始。我们第一个要解决的问题就是看待需求的视角。视角的不同，得到的设计方案可能是完全不同的。作为一个程序员，不能单单从个人视角来看待问题。而是要尝试从不同角色出发，不停思考。上…

阅读更多...

C++——内存管理

C++——内存管理

一，为什么要有内存管理因为在C/C中各个内置类型或者是自定义类型的大小都不一样，而如何让各个类型在内存中合理分布就非常有必要，由此我们就需要有内存管理。我们来看看下面这个程序中的各个变量都是如何分布的int globalVar 1; static int …

阅读更多...

100种思维模型之混沌与秩序思维模型-027

100种思维模型之混沌与秩序思维模型-027

人类崇尚秩序与连续性，我们习惯于我们的日常世界，它以线性方式运作，没有不连续或突跳。为此，我们学会了期望各种过程以连续方式运行，我们的内心为了让我们更有安全感，把很多事物的结果归于秩序&#xff0c…

阅读更多...

链表的中间结点与链表的倒数第k个结点（精美图示详解哦）

链表的中间结点与链表的倒数第k个结点（精美图示详解哦）

全文目录引言链表的中间结点题目描述与思路实现链表的倒数第k个结点题目描述与思路实现总结引言在上一篇文章中，介绍了反转链表我们利用了链表是逻辑连续的特点，逆置了链表的逻辑连接顺序，从而实现反转链表： 戳我查看反转链表详…

阅读更多...

【编程基础之Python】11、Python中的表达式

【编程基础之Python】11、Python中的表达式

【编程基础之Python】11、Python中的表达式Python中的表达式表达式与运算符算术表达式赋值表达式比较表达式逻辑表达式位运算表达式总结Python中的表达式在Python中，表达式是由操作数、运算符和函数调用等组成的语法结构，可以进行各种数学运算、逻辑判…

阅读更多...

Maven环境下构建多模块项目

Maven环境下构建多模块项目

使用maven提供的多模块构建的特征完成maven环境下多模块的项目的管理和构建这里以四个模块为例来搭建项目，以达到通俗易懂的初衷模块 maven_parent -- 基模块，也就是常说的parent (pom) 模块 maven_dao -- 数据库访问层，例如jdbc操作(jar) …

阅读更多...

华为OD机试题，用 Java 解【查找重复代码】问题

华为OD机试题，用 Java 解【查找重复代码】问题

华为Od必看系列华为OD机试全流程解析+经验分享,题型分享,防作弊指南）华为od机试，独家整理已参加机试人员的实战技巧华为od 2023 | 什么是华为od，od 薪资待遇，od机试题清单华为OD机试真题大全，用 Python 解华为机试题 | 机试宝典使用说明参加华为od机试，一定要注意不…

阅读更多...

推荐文章

最新文章