【强化学习】动态规划算法实践

news2024/11/26 12:21:08

文章目录

  • 【强化学习】动态规划算法实践
    • 一. 实验过程
      • 1.1 Environment
      • 1.2 Policy Iteration
      • 1.3 Policy Evaluation
      • 1.4 Policy Improvement
      • 1.5 Value Iteration
    • 二. 实验结果与分析
      • 2.1 分析Policy Iteration和Value Iteration收敛误差随着迭代次数的分布曲线

【强化学习】动态规划算法实践

阅读本文的前置条件:

前置知识概念:状态价值函数 v v v、动作价值函数 p p p
前置方法概念:

  1. 策略迭代Policy Iteration(内含策略评估Policy Evaluation + 策略优化Policy Improvement)
  2. 价值迭代Value Iteration

实验环境如下:16个格子,走到左上或者右下角即为结束。否则持续行走,每走一步奖励-1。
在这里插入图片描述

给定初始随机策略和状态价值函数 v 0 v_0 v0

在这里插入图片描述

针对上述Gridworld问题编码实现:

  • 使用 Policy Evaluation的方法计算 v π v_\pi vπ
  • 用Policy Iteration方法搜索最优 v ∗ v_* v p ∗ p_* p
  • 用Value Iteration方法搜索最优 v ∗ v_* v p ∗ p_* p

一. 实验过程

本节实验过程将分为环境准备策略迭代策略评估策略提升价值迭代五个部分。

1.1 Environment

由PPT中的Gridworld问题:

  • 4*4的网格,左上和右下角为目标点。
  • 每次移动reward = -1,到达目标点无需移动。
    • 如果移动越界,则位置不变。

我们定义如下Gridworld类表示网格世界。

class GridWorld:
    """ 网格世界,坐标系原点(0,0) 
    """

    def __init__(self, ncol=4, nrow=4):
        self.ncol = ncol  # 定义网格世界的列
        self.nrow = nrow  # 定义网格世界的行
        self.target_grids = [(0, 0), (ncol-1, nrow-1)]  # 存储目标区域
        # 状态数量
        self.state_nums = ncol * nrow
        # 4种动作, actions[0]:上,actions[1]:下, actions[2]:左, actions[3]:右。
        self.actions = [[0, -1], [0, 1], [-1, 0], [1, 0]]
        # 状态转移概率矩阵P[state][action] = [(p, next_state, reward, done)]包含下一个状态和奖励
        # state 是一维表示的
        self.P = self.init_P()

其中,除了基本的行和列之外,我们定义上下左右的四个动作,以及状态转移概率矩阵P。P矩阵表示在状态state中采取动作action后,多大的概率获得多少奖励以及进入下一个状态,是否结束。

由于本次实验环境中一种行动对应的下一个状态只有一种,且定义了除目标点之外的移动均会获得-1的奖励。故此处的p固定为1,对应下节Bellman方程中的 p ( s ′ , r ∣ s , a ) p(s',r|s,a) p(s,rs,a)

为便于计算,我们将二维的4*4网格状态通过一维的线性表示。如 s t a t e = ( x , y ) state = (x,y) state=(xy)可以表示为 s t a t e = x ∗ n c o l + y state = x * ncol + y state=xncol+y

状态转移概率矩阵初始化如下:

    def init_P(self):
        # 初始化
        P = [[[] for j in range(4)] for i in range(self.state_nums)]
        for i in range(self.nrow):
            for j in range(self.ncol):
                # 遍历四个方向
                for a in range(4):
                    # 采取行动后进入的状态s'、奖励r都是固定的概率1
                    psa = 1
                    # 位置在目标状态,因为不需要继续交互,任何动作奖励都为0
                    if (i, j) in self.target_grids:
                        P[i * self.ncol +
                            j][a] = [(psa, i * self.ncol + j, 0, True)]
                        continue
                    # 其他位置(边界越界后依旧保持不动)
                    next_x = min(self.ncol - 1, max(0, j + self.actions[a][0]))
                    next_y = min(self.nrow - 1, max(0, i + self.actions[a][1]))
                    next_state = next_y * self.ncol + next_x
                    reward = -1
                    done = False
                    # 如果下一个位置在目标状态,Done
                    if (next_x, next_y) in self.target_grids:
                        done = True
                    P[i * self.ncol + j][a] = [(psa, next_state, reward, done)]
        return P

1.2 Policy Iteration

b) 用Policy Iteration方法搜索最优 v ∗ 、  p ∗ v_*、\ p_* v p

策略迭代算法的过程如下:对当前的策略进行策略评估,得到其状态价值函数,然后根据该状态价值函数进行策略提升以得到一个更好的新策略,接着继续评估新策略、提升策略……直至最后收敛到最优策略

我们判定,若迭代过程中,旧策略等于新策略,则视为收敛,并且此时的策略即是 p ∗ p* p

同理当 v k + 1 v_{k+1} vk+1 v k v_k vk相同(相差小于阈值θ)时,它就是贝尔曼最优方程的不动点,对应最优状态价值函数 v ∗ v* v

P o l i c y I t e r a t i o n Policy Iteration PolicyIteration过程如下:

在这里插入图片描述

P o l i c y I t e r a t i o n Policy Iteration PolicyIteration 框架代码如下:

    def policy_iteration(self):  # 策略迭代
        # V及pi的初始化已完成(具体赋值见1.3)
        while 1:
            self.policy_evaluation()
            old_pi = copy.deepcopy(self.pi)  # 将列表进行深拷贝,方便接下来进行比较
            new_pi = self.policy_improvement()
            if old_pi == new_pi:
                break

其中1.3节将具体说明policy_evaluation、1.4节将具体说明policy_improvment。

1.3 Policy Evaluation

a) 用本PPT讲的 Policy Evaluation的方法计算 v π v_\pi vπ

对于状态价值函数的Bellman方程如下:
v π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ v π ( s ′ ) ] v_\pi(s) = \sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')] vπ(s)=aπ(as)s,rp(s,rs,a)[r+γvπ(s)]
由此可知我们后续实现自举方式时所用到的状态价值函数递推式:
v k + 1 ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ v k ( s ′ ) ] v_{k+1}(s) = \sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_k(s')] vk+1(s)=aπ(as)s,rp(s,rs,a)[r+γvk(s)]

为此,我们实现的基本步骤如下:

  1. 初始化值函数

    对于所有的初始状态s,我们只需要设置其状态价值v为0即可。

  2. 迭代更新状态价值函数

    对于每一个状态s,我们使用贝尔曼方程计算新的值函数new_v。

  3. 检查收敛

    检查状态价值函数的更新是否收敛于我们定义的阈值θ,若收敛则停止迭代。最新的new_v即为所求。

由上述递推式可知,我们需要预先知道并且定义好如下变量:

  • A:表示动作空间。a表示特定的动作。在本次实验中动作空间定义如下:
    a c t i o n s = [ [ 0 , − 1 ] , [ 0 , 1 ] , [ − 1 , 0 ] , [ 1 , 0 ] ] actions = [[0, -1], [0, 1], [-1, 0], [1, 0]] actions=[[0,1],[0,1],[1,0],[1,0]]
    分别表示上下左右四个方向的行动。

  • π ( a ∣ s ) \pi(a|s) π(as):策略在状态s下采取行动a的概率。我们定义在初始策略中,每一个状态下等概率随机采取行动,即:
    π = [ [ 0.25 , 0.25 , 0.25 , 0.25 ] ∗ s t a t e   n u m s ] \pi = [[0.25, 0.25, 0.25, 0.25] * state\ nums] π=[[0.25,0.25,0.25,0.25]state nums]

  • P ( s ′ , r ∣ s , a ) P(s',r|s,a) P(s,rs,a):策略在状态s下采取行动a后进入状态s’以及获得奖励r的概率。由于本次实验环境较为简单,采取行动后进入的状态s’只有一种,且采取行动a获取的奖励r也是固定为-1(除了目标点之外),故可直接视为1。

  • γ \gamma γ:未来的折扣因子。在当前实验中,我们设置为1。

  • v k ( s ) v_k(s) vk(s):s状态下的价值函数。在初始化后,我们定义每个状态初始都是价值为0。
    v = [ 0 ] ∗ s t a t e   n u m s v = [0] * state\ nums v=[0]state nums

  • θ:收敛阈值。用于判定状态价值函数是否收敛。我们设置为0.001。

至此,我们可以构建Policy Evaluation方法来计算 v π v_\pi vπ,代码如下:

    def policy_evaluation(self):  # 策略评估
        state_nums = self.env.state_nums
        while 1:
            max_diff = 0
            new_v = [0] * state_nums # 初始化值函数
            for s in range(state_nums):
                qsa_list = [] # 状态s下的所有Q(s,a)价值
                # 尝试这个状态的所有动作
                for a in range(4):
                    qsa = 0
                    for res in self.env.P[s][a]:
                        p, next_state, r, done = res
                        # 应用贝尔曼方程的右侧部分
                        qsa += p * (r + self.gamma * self.v[next_state])
                    qsa_list.append(self.pi[s][a] * qsa)
                # 最后累加即得到v_{k+1}
                new_v[s] = sum(qsa_list)
                max_diff = max(max_diff, abs(new_v[s] - self.v[s]))
            self.v = new_v  # 自举
            if max_diff < self.theta:
                break  # 满足收敛条件,退出评估迭代

为了验证正确性,我们在每次自举之后输出状态价值函数,输出结果(部分)如下:

在这里插入图片描述

我们取第二次输出的(0,1)位置上的-1.750 进行验证:
− 1.750 = [ 0.25 ∗ ( − 1 + 1 ∗ ( − 1 ) ) ] + [ 0.25 ∗ ( − 1 + 1 ∗ ( − 1 ) ) ] + [ 0.25 ∗ ( − 1 + 1 ∗ ( − 1 ) ) ] + [ 0.25 ∗ ( − 1 + 1 ∗ ( 0 ) ) ] \\ -1.750 = [0.25*(-1 + 1*(-1))] + [0.25*(-1 + 1*(-1))]+ \\ [0.25*(-1 + 1*(-1))] + [0.25*(-1 + 1*(0))] 1.750=[0.25(1+1(1))]+[0.25(1+1(1))]+[0.25(1+1(1))]+[0.25(1+1(0))]
符合贝尔曼递推式。

1.4 Policy Improvement

策略提升的基本步骤为:

  1. 初始化新策略

    • 对每个状态s,初始化一个新的动作a。
  2. 对每个状态进行策略改进

    • 对每个状态 s
      • 对所有可能的动作 a
        • 计算选择动作 a 后的价值 Q(s*,*a)
  3. 选择最优动作

    • 对于每个状态s ,选择使得 Q(s,a) 最大的动作 a 。
  4. 更新策略

    • 使用新的动作作为当前策略,得到改进后的策略。

      (由于可能存在多个相同价值的动作,所以我们将相同数量的最大动作价值转为概率,赋值给新的策略pi。

    # 策略提升
    def policy_improvement(self):
        state_nums = self.env.state_nums
        for s in range(state_nums):
            qsa_list = []
            for a in range(4):
                qsa = 0
                for res in self.env.P[s][a]:
                    p, next_state, r, done = res
                    qsa += p * (r + self.gamma * self.v[next_state])
                qsa_list.append(qsa)
            maxq = max(qsa_list)
            cntq = qsa_list.count(maxq)  # 计算有几个动作得到了最大的Q值
            # 让这些动作均分概率
            self.pi[s] = [1 / cntq if q == maxq else 0 for q in qsa_list]
            print(f"state: {s}  pi: {self.pi[s]}")
        print("策略提升完成")
        return self.pi

我们打印当前策略在每个状态下的价值以及智能体可采取的动作。

参考《动手学强化学习》输出示例,我们使用一个箭头序列来表示可能采取的行动。o表示不采取行动。例如:

  • ^v<>:表示等概率采取上下左右。
  • ^o<o:表示等概率采取向左和向上两种动作。
  • ooo>:表示在当前状态只采取向右动作。
  • oooo:表示不采取行动。(目标点才有)

在这里插入图片描述

结束第一轮策略评估后:我们得到如下的状态价值,并且在策略提升后,可以看到每个状态点会朝着具有最大状态价值的节点行走的策略。

(策略数组表示选择 [上,下,左,右] 行动的概率。)

在这里插入图片描述

策略评估与策略提升交替迭代3次后,收敛输出如下:

在这里插入图片描述

1.5 Value Iteration

Policy Iteration需要等待policy evaluation完成,使得状态价值函数收敛后才进行Policy Improvement。然后随着状态增多,策略评估的收敛速度变慢,我们不必每次都等待状态价值函数完全收敛才提升策略。

Value Iteration的核心思想就是,我们只进行一次policy evaluation,而不必等待状态价值函数收敛。

但是需要注意的是,价值迭代中不存在显式的策略,我们只维护一个状态价值函数。

相比于策略迭代的递推式:
v k + 1 ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ v k ( s ′ ) ] v_{k+1}(s) = \sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_k(s')] vk+1(s)=aπ(as)s,rp(s,rs,a)[r+γvk(s)]
价值迭代递推式如下:
v k + 1 ( s ) = max ⁡ a ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ v k ( s ′ ) ] v_{k+1}(s) = \max_a\sum_{s',r}p(s',r|s,a)[r+\gamma v_k(s')] vk+1(s)=amaxs,rp(s,rs,a)[r+γvk(s)]

算法流程如下:

在这里插入图片描述

初始化及循环代码如下:

在这里插入图片描述

结束循环后,计算最优的确定性策略(若出现多个最大值,则等概率取最大。)

在这里插入图片描述

在经历4次迭代后,收敛到与策略迭代相同的最优解:

在这里插入图片描述

二. 实验结果与分析

(其余内容分析较烂,就只展示收敛误差吧。)

2.1 分析Policy Iteration和Value Iteration收敛误差随着迭代次数的分布曲线

我们使用wandb库进行可视化状态价值函数的收敛情况,在策略迭代中的三次交替过程中,收敛误差随迭代次数分布如下:

在这里插入图片描述

而价值迭代曲线如下:

在这里插入图片描述

分析可知,在首次策略评估中,由于初始化的是随机等概率策略,故评估误差的收敛十分缓慢,而在收敛后执行策略提升后得到了较优解,策略将朝着最优解迅速收敛。

反观价值迭代误差曲线,在前三次迭代中,状态价值函数的变化量都是1,这意味着每次迭代中至少有一个状态的价值发生了显著变化(靠近目标点的状态)。最后一次迭代中,状态价值函数的变化量为0,表示算法已经收敛到最优解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1255102.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

性能测试必会技能之Jmeter:利用jmeter插件收集性能测试结果汇总报告和聚合报告

利用jmeter插件收集性能测试结果 汇总报告&#xff08;Summary Report &#xff09; 用来收集性能测试过程中的请求以及事务各项指标。通过监听器--汇总报告 可以添加该元件。界面如下图所示 汇总报告界面介绍&#xff1a; 所有数据写入一个文件&#xff1a;保存测试结果到本地…

【c++模版】

在计算机科学的世界里&#xff0c;模板是一种非常强大的工具&#xff0c;它允许我们编写通用的代码&#xff0c;这些代码可以处理多种数据类型。在C中&#xff0c;模板是实现泛型编程的主要方式之一。本文将详细介绍C模板的基本概念&#xff0c;并通过一些有趣的例子和现实生活…

Unity 关于Input类的使用

Input类在我们游戏开发中需要获取外设设备&#xff08;比如键盘、鼠标、游戏手柄等&#xff09;进行交互时&#xff0c;基本都会用到。 它主要有以下一些常用的方法。 1、GetKey(KeyCode key)&#xff0c;检测按键是否被按下&#xff1b; 2、GetKeyDown(KeyCode key)&#x…

什么是CAS/CAS的应用/CAS的ABA问题

文章目录 CAS1. 什么是CAS2. CAS的应用2.1 实现原子类2.2 实现自旋锁 3. CAS的ABA问题3.1 什么是ABA问题3.2 ABA问题引来的BUG3.3 解决方案 CAS 1. 什么是CAS CAS: 全称Compare and swap, 字面意思:”比较并交换“. 操作: 设V为内存中的值, A为寄存器中的值(旧的预期值), B也…

无人零售已成为新兴趋势

无人零售已成为新兴趋势 在新零售浪潮中&#xff0c;必然会涌现新的商业形态&#xff0c;而无人零售则是其中典型代表之一。传统零售受制于人力和场地等限制&#xff0c;消费者体验较差&#xff0c;如长时间排队、缓慢结账、距离过远等问题。而无人零售解决方案&#xff0c;包括…

面试官:java如何实现线程间通信?

程序员的公众号&#xff1a;源1024&#xff0c;获取更多资料&#xff0c;无加密无套路&#xff01; 最近整理了一份大厂面试资料《史上最全大厂面试题》&#xff0c;Springboot、微服务、算法、数据结构、Zookeeper、Mybatis、Dubbo、linux、Kafka、Elasticsearch、数据库等等 …

PyQt6 QLineEdit单行文本框控件

​锋哥原创的PyQt6视频教程&#xff1a; 2024版 PyQt6 Python桌面开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili2024版 PyQt6 Python桌面开发 视频教程(无废话版) 玩命更新中~共计21条视频&#xff0c;包括&#xff1a;2024版 PyQt6 Python桌面开发 视频教程(无废话…

一起学docker系列之十docker安装tomcat实践

目录 前言1 安装tomcat的步骤步骤 1: 查找并拉取 Tomcat 镜像步骤 2: 运行 Tomcat 容器步骤 3: 管理 Tomcat 容器步骤 4: 访问 Tomcat 首页 2 解决访问首页的404访问不到的问题2.1 Tomcat 10 的默认设置问题2.2 端口映射或防火墙问题 3 推荐使用 Tomcat 8.5 版本总结 前言 当安…

2.前端--HTML标签基本概念【2023.11.25】

1.基本语法规范 HTML 标签是由尖括号包围的关键词&#xff0c;例如 <html>。HTML 标签通常是成对出现的&#xff0c;例如 和 &#xff0c;我们称为双标签。有些特殊的标签必须是单个标签&#xff08;极少情况&#xff09;&#xff0c;例如 <br />我们称为单标签。 …

【挑战业余一周拿证】一、亚马逊云科技简介 - 第 3 节 - 云计算

第 3 节 - 云计算 在深入了解亚马逊云科技的各个部分之前&#xff0c;让我们先缩小视野&#xff0c;对云进行一个合理的定义。云计算就是通过互联网按需提供 IT 资源并采用按需付费定价模式&#xff0c;下面&#xff0c;我们将进行详细说明。 按需提供表示的是亚马逊云科技会在…

2024年最新最全的Jmeter接口测试必会技能:jmeter_HTTP Cookie管理器

HTTP Cookie管理器 HTTP Cookie管理器可以像浏览器一样自动存储和发送cookie&#xff0c;以这种自 动收集的方式收集到的cookie不会在cookie manager中进行展示&#xff0c;但是运行后&#xff0c; 可以通过 查看结果树&#xff08;监听器&#xff09;可以查看到cookie信息 除…

RandomAccessFile学习笔记

文章目录 RandomAccessFile学习笔记前言1、RandomAccessFile基本介绍1.1 RandomAccessFile相关基本概念1.2 RandomAccessFile家族体系 2、RandomAccessFile基本使用2.1 RandomAccessFile常用API介绍2.2 RandomAccessFile常用API演示2.3 RandomAccessFile实现断点续传 1、Random…

Centos Bind安装与排错

1.配置Centos系统静态IP vi/etc/sysconfig/network-scripts/ifcfg-ens33BOOTPROTOstaticIPADDR192.168.1.100NETMASK255.255.255.0GATEWAY192.168.1.1DNS18.8.8.8:wqsudo systemctl restart network.service 2.安装BIND&#xff08;需要服务器连接互联网&#xff0c;如果服务…

C/C++内存管理,malloc,realloc,calloc,new,delete详解!!!

1.初步了解内存中各个区间存储的数据特征 1.栈区&#xff1a;存储一些局部变量、函数参数、返回值等&#xff0c;跟函数栈振有关&#xff0c;出了作用域&#xff0c;生命周期结束。 2.堆区&#xff1a;用于动态开辟空间&#xff0c;如果不主动销毁空间&#xff0c;则程序运行结…

保护模式进阶

本系列文章只做个人学习记录使用 参考资料&#xff1a; 《操作系统真象还原》 从0到-1写一个操作系统 获取物理内存容量 计算机要想被使用&#xff0c;就必须先管理&#xff0c;我们想和物理内存打交道&#xff0c;就必须先知道物理内存有多大 linux获取内存的方法 在linux…

计算机组成原理4

1.汇编语言 2.汇编语言常见的运算指令 3.AT&T格式 和 Intel格式 4.跳转指令 5.cmp比较的底层原理 6.函数调用的机器级表示 7.CISC和RISC

公司人事管理系统

1.问题描述 一个小公司包含四类人员&#xff1a;经理&#xff0c;技术人员&#xff0c;销售人员和销售经理&#xff0c;各类人员的工资计算方法如下&#xff1a;经理&#xff1a;固定月薪&#xff08;8000&#xff09;&#xff1b;技术人员&#xff1a;月薪按技术等级&#xf…

【深度学习笔记】05 线性回归

线性回归 线性回归基于几个简单的假设&#xff1a; 首先&#xff0c;假设自变量 x \mathbf{x} x和因变量 y y y之间的关系是线性的&#xff0c; 即 y y y可以表示为 x \mathbf{x} x中元素的加权和&#xff0c;这里通常允许包含观测值的一些噪声&#xff1b; 其次&#xff0c;我…

Spring Cloud Gateway 的简单介绍和基本使用

前言 本文主要对Spring Cloud Gateway进行简单的概念介绍&#xff0c;并通过多模块编程的方式进行一个简单的实操。 文章目录 前言1 什么是网关&#xff08;概念&#xff09;2 微服务中的网关2.1 问题12.2 问题2 3 网关作用4 Spring Cloud Gateway组成5 Spring Cloud Gateway基…

51代码审计-PHP框架MVC类上传断点调试

知识点1&#xff0c;文件上传漏洞挖掘 搜索关键字$_FILES phpmvc架构 MVC模式&#xff08;Model-View-Controller&#xff09;是软件工程中的一种软件架构模式。 MVC把软件系统分为三个基本部分&#xff1a;模型&#xff08;Model&#xff09;、视图&#xff08;View&#…