强化学习笔记-03有限马尔可夫决策过程MDP

news2024/9/19 10:38:25

本文是博主对《Reinforcement Learning- An introduction》的阅读笔记,不涉及内容的翻译,主要为个人的理解和思考。

前文我们了解了强化学习主要是为了实现最大化某个特定目标(收益),而学习如何通过环境进行交互。 而学习的主体被称为agent,其可以是一个模型或者一系列决策函数,其用于产出同环境交互的动作决策。agent同环境的交互主要包含了三种信号的来回传递:

  • the Actions:agent对环境的行为;
  • the Rewards:环境的对agent状态的目标反馈,代表了状态或动作变化,环境所带来的奖励;
  • the States:agent在环境中状态,行为也会带来状态的变化。

MDP是上述以目标为导向从交互学习的过程的建模,其状态、动作和奖励的集合都是一个有限元素的集合,同环境的交互所引起状态序列,可以展开为一个马尔可夫链过程,由特定的状态间转换概率P(S',R'|S,A)来描述状态间变化。

\binom{S_0}{R_0}\overset{A_1}{\rightarrow}\binom{S_1}{R_1}\overset{A_2}{\rightarrow}\binom{S_2}{R_2}\overset{A_3}{\rightarrow}\binom{S_3}{R_3}\overset{A_4}{\rightarrow}\binom{S_4}{R_4}\rightarrow \cdots

前文所提到强化学习的核心在于学习动作决策函数,使最终的累积收益最大化。对于MDP来说,动作决策函数实际上是指当在状态S情况下如何采取动作A,即\pi (a|s),而目标累积收益表示为G_t=R_t+R_{t+1}+R_{t+2}+R_{t+3}+\cdots +R_{t+n},这处的t表示状态序列中某一个时刻,G_t表示时刻t之后的未来目标累积收益,n表示终结时刻。

如何求解决策函数\pi(a|s),MDP主要是通过价值函数value function来解决,价值函数用于描述不同状态V(s)或不同状态动作Q(s,a)下未来累积奖励的期望。

V(s)=E[G_t|S_t=s],\ Q(s, a) = E[G_t|S_t=s, A_t=a]

确定价值函数后,就可以很容易选出决策函数,即选择使价值最大的动作,在选择动作时有两种形式,这在训练时两种决策函数的选择,分别将强化学习算法区分为on-policy和off-policy两种。

  • Deterministic:确定性动作a = \pi (s)=arg max_{a}Q(s, a)
  • Stochastic:随机概率性动作 \pi(a|s)=P_{\pi}[A=a|S=s],可以由价值函数来确定选择概率。

 现在的问题是如何来确定价值函数:

V(s)=E[G_t|S_t=s]=E[R_t + G_{t+1}|S_t=S]\\ =\sum_{a } \pi (a|s)E[R_t + G_{t+1}|S_t=S,A_t=a] \\ =\sum_{a } \pi (a|s)\sum_{s',r}p(s', r|s,a)E[r + G_{t+1}|S_{t+1}=s']\\ =\sum_{a } \pi (a|s)\sum_{s',r}p(s', r|s,a)(r + E[G_{t+1}|S_{t+1}=s'])\\ =\sum_{a } \pi (a|s)\sum_{s',r}p(s', r|s,a)(r + V(s'))

同理状态动作价值函数Q(s,a)可以表示为:

Q(s,a)=E[G_t|S_t=s,A_t=a]=E[R_t+G_{t+1}|S_t=s,A_t=a]\\ =\sum_{s',r}p(s',r|s,a)E[r+G_{t+1}|S_{t+1}=s']\\ =\sum_{s',r}p(s',r|s,a)(r+E[G_{t+1}|S_{t+1}=s'])\\ =\sum_{s',r}p(s',r|s,a)(r+\sum_{a'}\pi(a'|s')E[G_{t+1}|S_{t+1}=s', A_{t+1}=a'])\\ =\sum_{s',r}p(s',r|s,a)(r+\sum_{a'}\pi(a'|s')Q(s',a'))

上面的价值函数计算公式中(Bellman equation),除了需要确定下一状态的价值函数外,还需要决策函数,同一方面在计算决策函数\pi(a|s)时又需要价值函数,因此训练是通过两阶段来进行训练的(Generalized Policy Iteration (GPI) 算法)

  • evaluation:根据当前决策函数\pi(a|s)计算价值函数
  • improvement:根据 状态动作价值函数Q(s,a)来计算最优的决策函数\pi(a|s)

而这个学习迭代过程的收敛条件是当决策函数\pi(a|s)不发生变化improve时,即为最优决策函数,而换句话说,当一个决策函数\pi是最优决策函数时,对于所有其他决策函数\pi '或所有状态s下,都有V_{\pi}(s)\geq V_{\pi'}(s),此时所有价值函数V(s)也是最优价值函数,表示为:

V_{*}(s)=max_{\pi}V_{\pi}(s), \ Q_{*}(s,a)=max_{\pi}Q_{\pi}(s,a)

在MDP中,我们把决策函数\pi(a|s)视为一个确定性动作(on-policy方法),即

a = \pi (s)=arg max_{a}Q(s, a)

此时将上述的价值函数计算公式Bellman equation改写为,称之为Bellman optimality equation

V_*(s)=max_{a} Q(s,a)=max_{a}\sum_{s',r}p(s',r|s,a)(r + max_{a'}Q(s',a'))\\ =max_{a}\sum_{s',r}p(s',r|s,a)(r + V_*(s'))

Q_*(s,a)=\sum_{s',r}p(s',r|s,a)(r + max_{a'}Q_*(s',a'))

此时整体evaluation的过程可以由一个反向求解来表示,每一轮的计算可能通过回溯来更新,而不需要考虑policy就能求解,所以improvement过程实际上并不需要了。这种方法是类似于贪心算法的启发性搜索算法,只满足所有的状态和动作都能经过足够多次数的遍历计算,是可以求解出最优解的。

其他的重要性问题

  • continuing tasks VS episodic tasks

continuing tasks是指没有终态的任务,即之前累积目标奖励G_t=R_t+R_{t+1}+R_{t+2}+R_{t+3}+\cdots是无限大的,此时为了保存收敛性,会加一个打折系数,即G_t=G_t+\gamma G_{t+1}。而episodic tasks即表示存在最终点步骤(终态),而这个最终点步骤(终态)将agent-环境的交互过程分为一个个Episodes的,称之为轮,当这个步骤特征长时,也可能通过添加打折系数。

  • complete knowledge

在上述Bellman equation式子中存在p(s',r|s,a)我们并没有计算,实际上是我们对环境的先验知识,所以应用Bellman equation式必须要求我们有这种先验知识,同时另一个要求是状态、奖励、动作是有限的,另外其组合是有一个限度的,否则对计算空间和计算时间都有压力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/344032.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PCI Express体系结构导读_3PCI总线的数据交换--读书笔记

前言本文为读书笔记,如有误可以指正,一块学习交流本章节主要介绍两种类型的数据传输:a- host读写pci设备的bar寄存器。b- pci设备通过DMA方式读写内存。对于PCI设备读写其他PCI设备的bar寄存器只了解3.1- pci设备bar空间的初始化3.1.1 内存域…

33复杂美:一文看懂加密算法为何物

加密算法 ,区块链底层技术的心脏究竟为何物?加密,简而言之,加密就是借助一种或多种算法将明文信息转换成密文信息,信息的接收方通过密钥对密文信息进行解密获得明文信息的过程。根据加解密的密钥是否相同,加…

C++:类和对象(下)

文章目录1 再谈构造函数1.1 构造函数体赋值1.2 初始化列表1.3 explicit关键字2 static成员2.1 概念2.2 特性3 友元3.1 友元函数&#xff08;流插入&#xff08;<<&#xff09;及流提取&#xff08;>>&#xff09;运算符重载&#xff09;3.2 友元类4 内部类5 匿名对…

使用脚本以可读的 JSON 格式显示 curl 命令输出

在我们经常调试微服务或者使用 Elasticsearch API 时&#xff0c;经常会使用curl 来进行调试。但是有时我们的输出不尽如意。显示的不是一 pretty 格式进行输出的。我们有时还必须借助于其他的一些网站工具&#xff0c;比如 Best JSON Formatter and JSON Validator: Online JS…

叮!一大波来自客户的感谢信

春风渐暖&#xff0c;美好如期&#xff0c;祝福的话语在日子的酝酿里更值得期待。神策数据走过 7 载春秋&#xff0c;描绘的大数据分析和营销科技图景在时间的打磨下清晰可见。时光沉淀经验&#xff0c;匠心兑换卓越&#xff0c;这条终点叫做「帮助中国三千万企业重构数据根基&…

类与对象(上)

类与对象(上) 1.面向过程和面向对象初步认识 C语言是面向过程的&#xff0c;关注的是过程&#xff0c;分析出求解问题的步骤&#xff0c;通过函数调用逐步解决问题。 C是基于面向对象的&#xff0c;关注的是对象&#xff0c;将一件事情拆分成不同的对象&#xff0c;靠对象之间…

vite从零创建react-ts项目

1.创建vite-react-ts文件夹&#xff0c;初始化项目 npm init 初始化后可以看到包管理文件package.json 2.项目结构 根目录下新建index.html模板文件。以往都是放在public文件夹的&#xff0c;但是官方推荐放在根目录。这是有意而为之的&#xff1a;在开发期间 Vite 是一个服…

qt之条形码与二维码的生成

一、简介 条形码&#xff1a; 条形码(barcode)是将宽度不等的多个黑条和空白&#xff0c;按照一定的编码规则排列&#xff0c;用以表达一组信息的图形标识符。常见的条形码是由反射率相差很大的黑条&#xff08;简称条&#xff09;和白条&#xff08;简称空&#xff09;排…

探讨接口测试以及其用例设计方法

接口测试的总结文档 第一部分&#xff1a;主要从问题出发&#xff0c;引入接口测试的相关内容并与前端测试进行简单对比&#xff0c;总结两者之前的区别与联系。但该部分只交代了怎么做和如何做&#xff1f;并没有解释为什么要做&#xff1f; 第二部分&#xff1a;主要介绍为什…

数据结构:带环单链表基础OJ练习笔记(leetcode142. 环形链表 II)(leetcode三题大串烧)

目录 一.前言 二.leetcode160. 相交链表 1.问题描述 2.问题分析与求解 三.leetcode141. 环形链表 1.问题描述 2.代码思路 3.证明分析 下一题会用到的重要小结论&#xff1a; 四.leetcode142. 环形链表 II 1.问题描述 2.问题分析与求解 Judgecycle接口&#xf…

婴儿监视器美国亚马逊CPC认证ASTM F2951标准要求?

婴儿监视器&#xff0c;又称婴儿监听器、婴儿监护器&#xff0c;英文名为( baby monitor其主要用于用于居家和婴儿的监听和护理。欧美市场上广泛使用&#xff0c;已经存在30年历史的 Baby Monitor是采用现代无线电技术应用于居家和婴儿的监听和护理的好帮手。婴儿监护器由看器(…

基于Jeecgboot前后端分离的ERP系统开发系列--出库单(1)

这次从出库单开始进行整个单据录入显示的模板&#xff0c;不再采用默认的online表单代码生成的方式&#xff0c;以满足实际的业务需要&#xff0c;当然刚开始做&#xff0c;以后还需要进行改进。 一、首先单号生成 采用系统开发里的代码编码规则&#xff0c;相应的修改增加代码…

7、MyBatis框架——MyBatis对一对一关系的处理、分步查询、MyBatis对一对多关系的处理

目录 一、项目框架搭建 二、在实体类中添加额外属性实现多表查询 1、mybatis两表关联查询 &#xff08;1&#xff09;实体类类型映射规则 &#xff08;2&#xff09;代码演示 2、分步查询 &#xff08;1&#xff09;autoMapping开启自动映射 &#xff08;2&#xff09;…

Python-正则表达式详解-快速掌握正则表达式核心函数

正则表达式为为高级的文本模式匹配、抽取或文本形式的搜索和替换功能提供了基础。本文主要介绍python正则表达式的一些基础功能&#xff0c;掌握它也可以使得在python编程中处理字符串游刃有余。1.简介正则表达式是一些由字符和特殊符号组成的字符串&#xff0c;匹配一系列有相…

Ansible的安装及部署

目录 一、Ansible对于企业运维的重大意义 二、Ansible的安装 三、构建Ansible清单 1.直接书写受管主机名或ip&#xff0c;每行一个 2.设定受管主机的组[组名称] 四、Ansible配置文件参数详解 1、配置文件的分类与优先级 2.配置新用户的Ansible配置 3.生成免密认证 本章…

算法 ——世界 二

个人简介&#xff1a;云计算网络运维专业人员&#xff0c;了解运维知识&#xff0c;掌握TCP/IP协议&#xff0c;每天分享网络运维知识与技能。个人爱好: 编程&#xff0c;打篮球&#xff0c;计算机知识个人名言&#xff1a;海不辞水&#xff0c;故能成其大&#xff1b;山不辞石…

Linux管道选取命令:cut、grep

选取命令就是将一段数据经过分析后&#xff0c;取出我们所想要的&#xff0c;或是经历分析关键词&#xff0c;取得我们所想要的那一行 一般来说&#xff0c;选取信息通常是针对一行一行来分析的&#xff0c;而不是整篇信息分析 下面介绍两个很常用的信息选取命令&#xff1a;…

Numpy基础与实例——人工智能基础——机器学习

文章目录一、Numpy概述1. 优势2. numpy历史3. Numpy的核心&#xff1a;多维数组4. 内存中的ndarray对象4.1 元数据&#xff08;metadata&#xff09;4.2 实际数据二、numpy基础1. ndarray数组2. arange、zeros、ones、zeros_like3. ndarray对象属性的基本操作3.1 修改数组维度3…

dubbo接口自动化用例性能优化

dubbo接口自动化用例性能优化 目录&#xff1a;导读 前言 优化本地调试时间 单用例执行时间的优化 提高并发 最后 前言 去年换了一个新部门&#xff0c;看了下当前的自动化用例的情况&#xff0c;发现存在三类性能问题&#xff1a; 本地调试运行时等待时间较长&#xf…

C++学习记录——팔 内存管理

文章目录1、动态内存管理2、内存管理方式operator new operator delete3、new和delete的实现原理1、动态内存管理 C兼容C语言关于内存分配的语法&#xff0c;而添加了C独有的东西。 //int* p1 (int*)malloc(sizeof(int));int* p1 new int;new是一个操作符&#xff0c;C不再需…