强化学习中的基本术语

news2025/1/21 10:36:58

0.引言

本篇文章主要介绍强化学习中最基本的术语(不包含具体算法),主要提供给刚入门强化学习的朋友们,让大家快速掌握一些基本术语,之后对看强化学习算法内容有着更好地理解。

1.基本术语

1.1.state

中文称为“状态”,举个具体的例子来说:在一个机器人走网格的游戏当中,每一个不同的格子就是不同的状态(如下图1例子中有9个格子所以有9个不同的状态),通常用一串向量来表示:是s1,s2,s3等等,所有状态的集合通常用state space(状态空间)来表示(如9个状态:S={s}_{i=1}^{9})。

图1

1.2.action

中文称为“行动”,举个具体的例子来说,在上面那个机器人走网格的例子当中,在每一个格子(状态)内,机器人可以选择五种不同的行动(向前、向后、向左、向右、原地不动)来移动到下一个格子中(状态)。所有的行动的集合可以使用action space来描述:A(s_{i})=\left \{ a_{i} \right \}_{5}^{i=1}(为什么行动的集合用A(s)?是因为只有基于状态才有行动,所以行动的集合可以看做是基于状态的这么一种函数)

1.3.State transition

中文称为“状态转移”,这是一个由这一状态转移到下一个状态的过程就称为状态转移,下图2举一个具体的例子,该图描述了由state1通过action2到state2的过程,状态转移实际上定义了一个agent与环境之间的一种交互行为。用数学的方法来表示这个过程如下图3表示,使用条件概率表示,也就是说在状态为s1在a1行动的条件下,到达状态s2的概率为1(图中是一种确定性的状态转移。状态转移也有可能为随机态可以用概率描述,比如s1在a1行动下,有50%的概率到状态s2,有50%到s3)。

图2
图3

 1.4.Policy

中文名称为“策略”,是一个强化学习中独有的概念,它规定了对于一个状态(state)来说该应该选择哪一个行动(action),如下图4例子所示,图中绿色箭头部分就是Policy,比如右上角第一格为状态是s1,Policy要求它的行动为向右(action2)。在数学描述中使用π来描述Policy,如下图5所示,图中为状态s1的一种确定性的Policy(与状态转移相同的是,Policy也有可能是随机性的)。

图4
图5

1.5.Reward

中文称为“回报”,顾名思义它是指在经过一个行动(action)之后能获得的一个具体数值,通常用r表示。如果reward是一个positive的值的话,说明鼓励做出这种行动(action);反之,如果reward是一个negative的值的话,说明做出这种行动(action)会被惩罚。也就是说我么你可以通过设计不同的reward来影响做出agent做出的行为(action),举一个具体的例子(引用一下图1作为图6):我们可以设置当下一个行动(action)是撞到边界(如s1做出向左的行动)的话,reward设置为-1;如果下一个行动(action)进入的是黄色方块区域(如s5做出向右的行动),reward设置为-1;如果下一个行动(action)到蓝色区域reward设置为1;其余行动reward设置为0。也就是说我们鼓励到蓝色区域(目标区域),对进入黄色区域和撞墙行动会惩罚,可以起到一个引导的作用。

用数学描述来描述reward,如下图7所示,同样的reward也可以属于随机性的。

另外需要强调reward是依赖于当前的状态和行为的,不依赖于下一个状态。

图6
图7

 

1.6.Trajectory and Return

Trajectory这个名词其实就是一个state-action-reward chain的过程,如下图8所示。直观一点儿,用图10来表示这个过程(图9中的红色线部分)。

return这个概念在强化学习中也是十分重要的。return就是把Trajectory路径中的所有获得的reward给加起来得到的数值,图10中从s1-s9的return=0+0+0+1=1,从物理意义上来说如果该路径的return的数值越大,那就说明这条路径是更优的选择,从而评估策略的好坏。

图9
图10

 1.7.Discounted return

当图10中的Trajectory的状态到s9时,它的行动(action)就是原地不动,且这个action的reward是1的话,那么这个Trajectory可能无限长的,如下图11所示。

图11

那么它的return也应该是无限大的,就会发散掉,这时我门引入一个变量叫“discount rate”(折扣因子),数学描述使用\gamma表示,且\gamma \subseteq [0,1),从而引入“discounted return”,数学公式表达为:                                                         DR=\sum \gamma ^{n}*return

就如上图10的discounted return表示,这样的话就会收敛了:

另外,\gamma的选择也会影响return中reward的积累,当\gamma取值比较小时,可能会更加重视一些离目标状态比较近一些的reward的积累,也就是更加“近视”;当\gamma取值比较大时,更加注重的是长远的reward,也就是说比较“”远视“”。

1.8.state value

state value的数学表达式如下图12:

图12

其中用v_{\pi }(s)来指代state value,是因为它是一个有关于state的这么一个函数,并且它依赖于Policy,对于不同的Policy有不同的state value,物理意义就是它是一个表示state价值的这么一个值,如果state value越大,Policy也就越好(因为更多的rewards可以获得);E[ ]表示求期望,^{G_{T}}表示discounted return,也就是说当状态为s时,所获得discounted return的期望值就是state value

那么,return和state value有什么区别呢?

return是针对一条Trajectory的所有reward之和,而state value则是指从状态s出发的所有可能的Trajectory的return的期望值(也就是均值)。

1.9.action value

action value的数学表达式如下图13:

图13

其中q_\pi (s,a)来代指action value,因为它是一个关于state-action pair的这么一个函数,并且依赖于Policy,物理意义相当于是state做出不同action之后的价值,也就是说action value越大,那么这个状态做出这种action也就越好。

action value和state value又有什么区别呢?

其实区别对比数学表达式就可以很好的看出来了,本质上都是期望,action value是基于state中一个action之后的期望,而state value是基于state这么一种期望,可以简单的理解为state value是把将每一个action的action value平均之后的值,也就是说state将所有的action value进行求平均结果就是state value。

参考

1.视频P4-P10:第2课-贝尔曼公式(Action value的定义)_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1182298.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于ssm企业人事管理系统

功能如图所示 摘要 基于SSM(Spring SpringMVC MyBatis)框架的企业人事管理系统是一种高效、可定制化的人力资源管理解决方案。该系统整合了现代企业的人力资源需求,提供了一套功能丰富的工具,用于管理员工信息、薪资、考勤、招聘…

C语言--typedef的使用

前言 在C语言中使用结构体时必须加上struct这个关键字,那有没有办法省略这个呢?要想达到这个目的就 需要用到关键字typedef,顾名思义”类型定义”。 typedef 数据类型 新的别名; 它是用来操作数据类型。其主要作用有两个: 1.给一个较长较复杂的类型取一个简单的别名。 2.给类…

python 之字典的相关知识

文章目录 字典的基本特点:1. 定义2. 键唯一性3. 可变性4. 键的类型 基本操作:字典的创建1. 花括号 {}2. dict() 构造函数3. 键值对的 dict() 构造函数使用 zip() 函数创建字典:注意事项访问字典中的值修改和添加键值对删除键值对 字典方法&am…

平衡树相关笔记

引入 二叉查找树 二叉查找树(Binary Search Tree),又名二叉搜索树。满足以下性质: 对于非空的左子树,左子树点权值小于根节点。对于非空的右子树,左子树点权值大于根节点。二叉查找树的左右子树均是二叉…

Android修行手册 - 模板匹配函数matchTemplate详解,从N张图片中找到是否包含五星

点击跳转>Unity3D特效百例点击跳转>案例项目实战源码点击跳转>游戏脚本-辅助自动化点击跳转>Android控件全解手册点击跳转>Scratch编程案例点击跳转>软考全系列 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分享&…

麒麟v10 安装jenkins

1.想安装哪个版本? https://pkg.jenkins.io/redhat-stable/ 我们查看我们想要哪个版本: 4年前安装的是 Jenkins2.279 版本 现在在docker 上安装的是Version 2.425 版本 2.碰到到的问题 1.安装老版本的Jenkins,会出现安装的插件不兼容&…

win版redis详细安装教程

一、下载 github下载地址 https://github.com/MicrosoftArchive/redis/releases 可选择:下载msi包或zip压缩包 这里我选择的是zip压缩包,直接通过cmd命令窗口操作即可。 二、安装步骤 1、解压Redis压缩包 选中压缩包,右键选择解压&#…

WordPress 主题QUX DUX加强版

模板简介: QUX主题是由轻语博客在大前端DU主题的基础上集成了Ucenter&Market插件后修改加强版,在原有主题的基础上迎合市场增加了很多的功能。主题已解密去授权。 更新内容: 新增关闭注册验证码(主题设置–会员中心&#xff…

【黑马程序员】SpringCloud——微服务

文章目录 前言一、服务架构演变1. 单体架构2. 分布式架构2.1 服务治理 3. 微服务3.1 微服务结构3.2 微服务技术对比3.3 企业需求 二、SpringCloud兼容性 三、服务拆分及远程调用1. 服务拆分1.1 服务拆分注意事项1.2 导入服务拆分 Demo 2. 远程调用2.1 根据订单 id 查询订单功能…

2023年10月CSDN客服月报|解决9个重大问题、12个次要问题、12个一般问题,处理5个用户需求

听用户心声,解用户之需。hello,大家好,这里是《CSDN客诉报告》第25期,接下来就请大家一同回顾我们10月份解决的bug~ 一、重大问题 1、全站无法访问 反馈量:90问题原因:DDOS攻击具体表现&…

day3 ARM

【昨日作业】 .text .global start _start: mov r0,#0 存放sum mov r1,#1 存放相加的数值 loop: cmp r1,#100 bhi wh add r0,r0,r1 add r1,r1,#1 b loop wh: b wh .end 【内存读写指令】 通过内存读写指令可以实现向内存中写入指定数据或者读取指定内存地址的数据 c语言内存…

【Python3】【力扣题】231. 2 的幂

【力扣题】题目描述&#xff1a; 此题&#xff1a;n为整数&#xff08;32位有符号整数&#xff09;&#xff0c;x为整数。 2 的幂次方都大于0。若幂为负数&#xff0c;则0<n<1&#xff0c;n不为整数。 因此&#xff0c;n为正整数&#xff0c;x为0和正整数。 若二进制表示…

学为贵雅思写作备考

准确通顺&#xff0c;言之有物 两次读不懂&#xff0c;6分以下&#xff0c; 6分没有印象&#xff0c;味同嚼蜡&#xff0c;但是没错&#xff08;书面语过关&#xff09; 英语比较过关 8-9分&#xff0c;很有见地 6-7单个的句子读得懂&#xff0c;前后是贯通的、逻辑是通顺…

决策式AI与生成式AI

人工智能中深度学习&#xff0c;是一种受人脑的生物神经网络机制启发&#xff0c;并模仿人脑来解释、处理数据的机器学习技术&#xff0c;它能自动对数据进行特征提取、识别、决策和生成。它可以从不同的维度进行划分&#xff0c;如果按模型的特点来划分可分为决策式AI和生成式…

open clip论文阅读摘要

看下open clip论文 Learning Transferable Visual Models From Natural Language Supervision These results suggest that the aggregate supervision accessible to modern pre-training methods within web-scale collections of text surpasses that of high-quality crowd…

我的AIGC部署实践02

我的AIGC部署实践02 上次的教程我们实现了在趋势云平台上创建项目并运行对应的代码。虽然有比较好的结果&#xff0c;不过很多时候我们往往需要根据自己的需要更改代码&#xff0c;那么代码运行及部署的流程是怎么样的呢&#xff1f;让我们继续往下看吧。 1.学习准备 官方代码…

测试工程师面试攻略:教你如何描述项目经验

俗话说的好&#xff0c;知己知彼百战百胜。项目经验说的好不好&#xff0c;直接决定了你值多少钱。满满的干货&#xff0c;先三连再耐心看完。 去面试之前&#xff0c;建议大家把简历写得从业经历和项目经验熟练的背下来&#xff0c;能说出项目经验里的详细的测试情况最好。 一…

工程(十三)——基于激光视觉的SLAM三维重建

博主创建了一个科研互助群Q&#xff1a;772356582&#xff0c;欢迎大家加入讨论。这是一个科研互助群&#xff0c;主要围绕机器人&#xff0c;无人驾驶&#xff0c;无人机方面的感知定位&#xff0c;决策规划&#xff0c;以及论文发表经验&#xff0c;以方便大家很好很快的科研…

了解企业邮箱的外观和功能特点

企业邮箱是什么样子的&#xff1f;企业邮箱不是单一产品&#xff0c;而是由一系列电子邮件服务组成的生态系统。这些服务包括但不限于邮件服务器、客户端、安全解决方案等。这些服务共同构成了企业邮箱的基础设施。 在外观上&#xff0c;企业邮箱和个人邮箱没有太大区别。用户通…

查询优化器:RBO与CBO

SQL查询优化器 1、数据库系统发展简史2、SQL查询优化器3、查询优化器分类4、查询优化器执行过程5、CBO框架Calcite简介 1、数据库系统发展简史 数据库系统诞生于20世纪60年代中期&#xff0c;至今已有近50多年的历史&#xff0c;其发展经历了三代演变&#xff0c;造就了四位图灵…