[PyTorch][chapter 58][强化学习-2-有模型学习2]

news2025/1/11 20:57:21

前言:

   前面我们讲了一下策略评估的原理,以及例子.

   强化学习核心是找到最优的策略,这里

   重点讲解两个知识点:

    策略改进

   策略迭代与值迭代

   最后以下面环境E 为例,给出Python 代码

目录:

     1:  策略改进

      2:  策略迭代与值迭代

      3: 策略迭代代码实现  Python 代码


一  策略改进

      理想的策略应该能够最大化累积奖赏:

       \pi^{*}= arg max_{\pi} \sum_{x \in X} V^{\pi}(x)

     最优策略对应的值函数V^{*}称为最优值函数

      \forall x\in X: V^{*}(x)= V^{\pi^*}(x)

状态值函数(Bellman 等式):

 动作求和

 V_{T}^{\pi}=\sum_{a \in A}\pi(x,a)\sum_{x^{'}\in X}P_{x\rightarrow x^{'}}^a(\frac{1}{T}R_{x \rightarrow x^{'}}^a+\frac{T-1}{T}V_{T-1}^{\pi}(x^{'}))......16.9

 V_{\gamma}^{\pi}=\sum_{a \in A}\pi(x,a)\sum_{x^{'}\in X}P_{x\rightarrow x^{'}}^a(R_{x \rightarrow x^{'}}^a+\gamma V_{\gamma}^{\pi}(x^{'}))......16.9

状态-动作值函数

状态值函数(Bellman 等式): 动作求和

 Q_{T}^{\pi}(x,a)=\sum_{x^{'}\in X}P_{x\rightarrow x^{'}}^a(\frac{1}{T}R_{x \rightarrow x^{'}}^a+\frac{T-1}{T}V_{T-1}^{\pi}(x^{'}))...16.10

 V_{\gamma}^{\pi}(x,a)=\sum_{x^{'}\in X}P_{x\rightarrow x^{'}}^a(R_{x \rightarrow x^{'}}^a+\gamma V_{\gamma}^{\pi}(x^{'}))...16.10

   由于最优值的累计奖赏已经最大,可以对前面的Bellman 等式做改动,

 即使对动作求和  改为取最优

    最优

 V_{T}^{\pi}=max_{a \in A}\sum_{x^{'}\in X}P_{x\rightarrow x^{'}}^a(\frac{1}{T}R_{x \rightarrow x^{'}}^a+\frac{T-1}{T}V_{T-1}^{*}(x^{'}))....16.13

 V_{\gamma}^{\pi}=\sum_{x^{'}\in X}P_{x\rightarrow x^{'}}^a(R_{x \rightarrow x^{'}}^a+\gamma V_{\gamma}^{*}(x^{'}))...16.13

V^{*}(x)=max_{a\in A}Q^{\pi^{*}}(x,a)....16.14  带入16.10

Q_{T}^{*}(x,a)=\sum_{x^{'}\in X}P_{x\rightarrow x^{'}}^a(\frac{1}{T}R_{x \rightarrow x^{'}}^a+\frac{T-1}{T}max_{a^{'} \in A}Q_{T-1}^{*}(x^{'},a^{'}))...16.10

 V_{\gamma}^{\pi}(x,a)=\sum_{x^{'}\in X}P_{x\rightarrow x^{'}}^a(R_{x \rightarrow x^{'}}^a+\gamma max_{a^{'} \in A} Q_{\gamma}^{*}(x^{'},a^{'}))...16.10

      最优Bellman 等式揭示了非最优策略的改进方式:

      将策略选择的动作改变为当前的最优动作。这样改进能使策略更好

   策略为\pi^{'},改变动作的条件为: Q^{\pi}(x,\pi^{'}(x)) \geq V^{\pi}(x)

带入16.10,可以得到递推不等式

    V^{\pi}(x)\leq Q^{\pi}(x,\pi^{'}(x))

             =\sum_{x^{'} \in X}P_{x\rightarrow x^{'}}^{\pi^{'}(x)}(R_{x\rightarrow x^{'}}^{\pi^{'}(x)}+\gamma V^{\pi}(x^{'}))

             =\sum_{x^{'} \in X}P_{x\rightarrow x^{'}}^{\pi^{'}(x)}(R_{x\rightarrow x^{'}}^{\pi^{'}(x)}+\gamma Q^{\pi}(x^{'},\pi^{'}(x^{'})))

             =V^{\pi^{*}}(x)    16.16


二  策略迭代与值迭代

可以看出:策略迭代法在每次改进策略后都要对策略进行重新评估,因此比较耗时。

由公式16.16  V^{\pi}(x)\leq Q^{\pi}(x,\pi^{'}(x))\leq V^{\pi^{*}}(x) 策略改进 与值函数的改进是一致的

由公式16.13可得  

V_{T}(x)=max_{a \in A}\sum_{x^{'}\in X}P_{x\rightarrow x^{'}}^a(\frac{1}{T}R_{x \rightarrow x^{'}}^a+\frac{T-1}{T}V_{T-1}^{*}(x^{'}))

 V_{\gamma}^{\pi}=max_{a\in A}\sum_{x^{'}\in X}P_{x\rightarrow x^{'}}^a(R_{x \rightarrow x^{'}}^a+\gamma V_{\gamma}^{*}(x^{'}))

于是可得值迭代(value iteration)算法.


三  策略迭代代码实现


# -*- coding: utf-8 -*-
"""
Created on Wed Nov  1 19:34:00 2023

@author: cxf
"""

# -*- coding: utf-8 -*-
"""
Created on Mon Oct 30 15:38:17 2023

@author: chengxf2
"""
import numpy as np
from enum import Enum
import copy



class State(Enum):
    #状态空间X    
    shortWater =1 #缺水
    health = 2   #健康
    overflow = 3 #凋亡
    apoptosis = 4 #溢水

class Action(Enum):
    
    #动作空间A
    water = 1 #浇水
    noWater = 2 #不浇水
    
class Env():
    
    def __init__(self):
        
        #状态空间
        self.X = [State.shortWater, State.health,State.overflow, State.apoptosis]   
        #动作空间
        self.A = [Action.water,Action.noWater]   
        
        #从状态x出发,执行动作a,转移到新的状态x',得到的奖赏 r为已知道
        self.Q ={}
        self.Q[State.shortWater] =          [[Action.water,0.5,   State.shortWater,-1],
                                             [Action.water,0.5,   State.health,1],
                                             [Action.noWater,0.4, State.shortWater,-1],
                                             [Action.noWater,0.6, State.overflow,-100]]


        self.Q[State.health] =                [[Action.water,0.6,  State.health,1],
                                              [Action.water,0.4,   State.overflow,-1],
                                              [Action.noWater,0.6, State.shortWater,-1],
                                              [Action.noWater,0.4, State.health,1]]


        self.Q[State.overflow] =                [[Action.water,0.6,   State.overflow,-1],
                                                 [Action.water,0.4,   State.apoptosis,-100],
                                                 [Action.noWater,0.6, State.health,1],
                                                 [Action.noWater,0.4, State.overflow,-1]]


        self.Q[State.apoptosis] =[[Action.water,1, State.apoptosis,-100],
                                [Action.noWater,1, State.apoptosis,-100]]
        
        self.curV ={} #前面的累积奖赏,t时刻的累积奖赏
        self.V ={} #累积奖赏,t-1时刻的累积奖赏
        for x in self.X:    
             self.V[x] =0
             self.curV[x]=0
             
        
    def GetX(self):
        #获取状态空间
        return self.X

    def GetAction(self):
        #获取动作空间
        return self.A
    
    def GetQTabel(self):
        #获取状态转移概率
        return self.Q
    
    

class LearningAgent():
    
    def initStrategy(self):   
        #初始化策略
        stragegy ={}
        stragegy[State.shortWater] = Action.water
        stragegy[State.health] =    Action.water
        stragegy[State.overflow] = Action.water
        stragegy[State.apoptosis] = Action.water
        
        self.stragegy = stragegy
    
    def __init__(self):
          
          env = Env()
          self.X = env.GetX()
          self.A = env.GetAction()
          self.QTabel = env.GetQTabel()
          
          self.curV ={} #前面的累积奖赏
          self.V ={} #累积奖赏
          for x in self.X:    
              self.V[x] =0
              self.curV[x]=0
              
    def  evaluation(self,T):
         #策略评估
         
         for t in range(1,T):
             #当前策略下面的累积奖赏
             
             
             for  state in self.X: #状态空间
                     reward = 0.0
                     action = self.stragegy[state]
                     QTabel= self.QTabel[state]
                     
                     for Q in QTabel:
                         if action == Q[0]:#在状态x 下面执行了动作a,转移到了新的状态,得到的r
                             newstate = Q[2] 
                             p_a_ss =   Q[1]
                             r_a_ss =   Q[-1]
                             #print("\n p_a_ss",p_a_ss, "\t r_a_ss ",r_a_ss)
                             reward += p_a_ss*((1.0/t)*r_a_ss + (1.0-1/t)*self.V[newstate])
                             
                     self.curV[state] = reward               
             if (T+1)== t:
                 break
             else:
                 self.V = self.curV
         
              
         
     
     
    def  improve(self,T):
         #策略改进
         stragegy ={}
         for  state in self.X:
             
             QTabel= self.QTabel[state]
             max_reward = -float('inf') 
             
             #计算每种Q(state, action)
             for action in self.A:
                 
                     reward = 0.0
                     for Q in QTabel:
                         if action == Q[0]:#在状态x 下面执行了动作a,转移到了新的状态,得到的r
                             newstate = Q[2] 
                             p_a_ss =   Q[1]
                             r_a_ss =   Q[-1]
                             #print("\n p_a_ss",p_a_ss, "\t r_a_ss ",r_a_ss)
                             reward += p_a_ss*((1.0/T)*r_a_ss + (1.0-1/T)*self.V[newstate])
                             
                     if reward> max_reward:
                         max_reward = reward
                         stragegy[state] = action
                         #print("\n state ",state, "\t action ",action, "\t reward %4.2f"%reward)
         return stragegy
                     
                     
             
         
        


              
 
    
    def compare(self,dict1, dict2):
        #策略比较
        
        for key in dict1:
            if dict1[key] != dict2.get(key):
               return False
         
        return True
                     

    def learn(self,T):
        
        #随机初始化策略
        self.initStrategy()
     
        n = 0
        while True:
              self.evaluation(T-1) #策略评估
              n = n+1
         
              
             
                  
              print("\n 迭代次数 %d"%n ,State.shortWater.name, "\t 奖赏: %4.2f "%self.V[State.shortWater],
                    State.health.name, "\t 奖赏: %4.2f "%self.V[State.health],
                    State.overflow.name, "\t 奖赏: %4.2f "%self.V[State.overflow],
                    State.apoptosis.name, "\t 奖赏: %4.2f "%self.V[State.apoptosis],)
              
              
              
              strategyN =self.improve(T) #策略改进
              #print("\n ---cur---\n",self.stragegy,"\n ---new-- \n ",strategyN )
              if self.compare(self.stragegy,strategyN):
                  
               
                  print("\n ----- 最终策略 -----\n ")
                  
                  for state in self.X:
                      print("\n state ",state, "\t action: ",self.stragegy[state])
                  
                  break
              else:
                 
                  for state in self.X:
                      self.stragegy[state] = strategyN[state]
              
              
              

    
    



if __name__ == "__main__":
    T =10
    agent = LearningAgent()
    agent.learn(T)

参考:

机器学习.周志华《16 强化学习 》_51CTO博客_机器学习 周志华

CSDN

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1162632.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算协方差

例如,有两组数据: 身高x(厘米) 体重y(公斤) 194 87 183 78 175 71 平均 184 78.7 现在要计算x和y的协方差。 手工计算 用excel计算 ​​​​​​​

Security ❀ HTTP协议常见DOS攻击详解

文章目录 1. 协议基础概述2. HTTP协议报文2.1 HTTP Request 请求包2.2 HTTP Response 应答包 3. HTTP GET Flood3.1. 攻击原理3.2. 防护方法 4. HTTP POST Flood4.1. 攻击原理4.2. 防护方法 5. 慢速CC攻击5.1. 攻击原理5.2. 防护方法 6. 总结 1. 协议基础概述 HTTP - HyperTex…

解决Hbulider 按F11不能退出免打扰模式

原因:F11快捷键并不是退出免打扰模式,需要覆盖配置 右侧如下图👇 [{"key":"ctrlf11","command":"workbench.action.distanceFreeMode"} ]

WheatA 轻量级生态数据软件

无论是在工作还是上学期间,大家想要做一个科研项目或者市场调查时,往往需要大量的数据用于分析总结,这时获得优质的数据就显得额外重要,数据的优劣往往决定了项目结果的好坏。数据来源的主要渠道主要有两种:无非是去数…

CTF-Reverse---VM虚拟机逆向[HGAME 2023 week4]vm题目复现【详解】

文章目录 前言0x1[HGAME 2023 week4]vm提取汇编指令mov指令push指令&pop指令运算操作cmp指令jmp指令je 和 jne exp 前言 没有前言。终于搞定第二题了。费劲是真的费。 题目在nssctf上有。 这一题写完才看到有提示,是关于构建结构体的,下次试试。 0x…

LiveNVR监控流媒体平台局域网Onvif/RTSP/SDK等方式接入监控视频后转GB28181/GB35114级联输出,上级平台无法播放如何抓包分析

1、第一步:抓包工具准备 1.1、Linux 使用 tcpdump 进行抓包,如果系统无此命令,自行安装 1.2、windows 下载安装 wireshark 进行抓包 2、第二步:找到上级平台ip 在基础配置里面GB28181级联配置中SIP服务IP 3、第三步&#…

重新理解B面供应链:在轻创业的潮流里

中国新式供应链正在成型。 在这个由于年轻的消费需求驱动的想法、AI大模型能力、严苛清晰的供应链、工厂图谱一共构成的链条上,越来越多的新创业和新产业模型都正在被加速成型,并真实转化为新的工业生产力。 作者|史圣园 编辑|皮爷 出品|产业家 …

Android 控件背景实现发光效果

主要实现的那种光晕效果&#xff1a;中间亮&#xff0c;四周逐渐变淡的。 这边有三种发光效果&#xff0c;先上效果图。 第一种、圆形发光体 实现代码&#xff1a;新建shape_light.xml&#xff0c;导入以下代码。使用时&#xff0c;直接给view设置为background。 <?xml …

IT开发怕失败?买个低代码搭建属于自己应用

目录 一、驱动低代码流行的主要几个特性 01、低代码缩短了开发时间 02、低代码允许平滑协作 03、低代码在云端和本地都可运行 二、低代码究竟好不好用 三、源码全交付的开发平台 01、高性能、高拓展 02、功能丰富&#xff0c;满足通用场景 03、私有化部署 04、部署方式 05、多数…

PFMEA详解结构分析——Sun FMEA软件

FMEA从1949年诞生到今天已经发生过多次更新&#xff0c;最新版本是2019年6月发布的《AIAG VDA FMEA手册》。新手册借鉴了AIAG的方框图、参数图、流程图等工具的运用&#xff0c;也借鉴了VDA的五步过程导向法&#xff0c;并在此基础上头尾各增加一步&#xff0c;形成了FMEA七步法…

【强化学习】14 —— A3C(Asynchronous Advantage Actor Critic)

A3C算法&#xff08; Asynchronous Methods for Deep Reinforcement Learning&#xff09;于2016年被谷歌DeepMind团队提出。A3C是一种非常有效的深度强化学习算法&#xff0c;在围棋、星际争霸等复杂任务上已经取得了很好的效果。接下来&#xff0c;我们先从A3C的名称入手&…

视频号的视频怎么保存到相册,第三方工具快速下载保存!

视频号是目前非常火爆的短视频平台之一&#xff0c;许多用户在上面发布了各种精彩的视频内容。然而&#xff0c;很多人都想把视频保存到自己的相册中&#xff0c;以便随时欣赏和分享。那么&#xff0c;如何将视频号的视频保存到相册呢&#xff1f; 我们需要了解一个专注于视频…

Nacos注册中心--适合小白体制

认识和安装NacosNacos快速入门Nacos服务分级存储模型Nacos环境隔离 代码获取&#xff1a;1693905917/springCloud: springCloud学习 (github.com) 认识和安装Nacos 认识Nacos Nacos是阿里巴巴的产品&#xff0c;现在是SpringCloud中的一个组件。相比Eureka功能更加丰富&…

voronoi diagram(泰森多边形) 应用 - Panda Preserve

欢迎关注更多精彩 关注我&#xff0c;学习常用算法与数据结构&#xff0c;一题多解&#xff0c;降维打击。 背景知识 voronoi 提出 voronoi 图一开始是由荷兰气候学家AHThiessen提出&#xff0c;是用来计算区域内的降雨量。 由于气象塔是离散放置的&#xff0c;该气候学家就…

大促来袭 线下门店查价同样重要

都说双十一是电商的狂欢&#xff0c;这话没错&#xff0c;但线下门店同样也会利用这波热度&#xff0c;做促销引流量&#xff0c;自然也会出现不同的低价&#xff0c;不管是线上还是线下低价&#xff0c;都会对各自的生意有所影响&#xff0c;当然也不是禁止低价&#xff0c;是…

C++17对if/switch的增强

C17之前不允许在if/switch语句中定义一个临时变量 但在C17之后可以了

Rocky9 上安装 redis-dump 和redis-load 命令

一、安装依赖环境 1、依赖包 dnf -y install perl gcc gcc-c zlib-devel2、编译openssl 1.X ### 下载编译 wget https://www.openssl.org/source/openssl-1.1.1t.tar.gz tar xf openssl-1.1.1t.tar.gz cd openssl-1.1.1t ./config --prefix/usr/local/openssl make make ins…

公会发展计划(GAP):经过实战考验的 Web3 任务模式

2020 年 12 月&#xff0c;Yield Guild Games 踏上了一段征程&#xff0c;以表彰兢兢业业的 Web3 游戏玩家所付出的时间和努力&#xff0c;同时为他们提供利用自己的技能促进个人成长的机会。这一旅程的第一步是于 2022 年 7 月推出的公会发展计划&#xff08;GAP&#xff09;。…

利用端口映射技术快速搭建微力私人网盘并实现远程访问【内网穿透】

文章目录 1.前言2. 微力同步网站搭建2.1 微力同步下载和安装2.2 微力同步网页测试2.3 cpolar的安装和注册 3.本地网页发布3.1 Cpolar云端设置3.2 Cpolar本地设置 4. 公网访问测试5. 结语 1.前言 私有云盘作为云存储概念的延伸&#xff0c;虽然谈不上多么新颖&#xff0c;但是其…

蓝桥杯每日一题2023.11.1

题目描述 乘积最大 - 蓝桥云课 (lanqiao.cn) 题目分析 先对a[1] ~ a[n]排序 分类讨论&#xff1a; 1.k n 全选 2.k < n ①k是偶数&#xff08;结果必然非负&#xff09; 负数有偶数个&#xff08;负负得正&#xff09; 负数有奇数个&#xff08;只用选取偶数个即可&…