强化学习——马尔可夫决策过程的理解

news2025/1/11 5:55:34

在这里插入图片描述

目录

  • 一、马尔可夫决策过程
    • 1.策略
    • 2.状态价值函数
    • 3.动作价值函数
    • 4.贝尔曼期望方程
  • 参考文献

一、马尔可夫决策过程

  马尔可夫决策过程(MDP)是马尔可夫奖励过程(MRP)的扩展,它引入了“动作”这一外界的影响因素,使得智能体能够主动选择行为,从而影响状态转移和奖励。MDP由状态集合、动作集合、折扣因子、奖励函数和状态转移函数构成。与MRP不同,MDP中的状态转移和奖励不仅取决于当前状态,还与智能体选择的动作相关。

  MDP的核心在于智能体与环境之间的持续交互:智能体根据当前状态选择一个动作,然后环境通过状态转移函数和奖励函数生成下一个状态和对应的奖励,并将这些反馈给智能体。智能体的目标是通过选择策略(即根据当前状态选择动作的规则)来最大化其累积奖励。MDP模型广泛应用于离散状态和动作空间的决策问题,而在状态空间为连续时,MDP仍然适用但需采用状态转移函数而非矩阵表示。

1.策略

  策略(Policy)是智能体在马尔可夫决策过程(MDP)中根据当前状态选择动作的规则。策略 π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi (a|s)=P(A_{t}=a|S_{t}=s) π(as)=P(At=aSt=s) 可以是确定性策略或随机性策略。在确定性策略中,每个状态只对应一个确定的动作,即该动作的概率为1,其他动作的概率为0;在随机性策略中,每个状态对应一个关于动作的概率分布,智能体根据该分布随机选择动作。由于马尔可夫性质的存在,策略只与当前状态相关,不依赖于历史状态。策略决定了智能体在每个状态下的行为,从而影响其累积奖励的期望,因此与不同策略对应的状态价值函数也会不同。

2.状态价值函数

  状态价值函数(State Value Function)是用于评估一个智能体在特定策略下,从某一状态开始并持续采取该策略时,期望获得的累积奖励的函数,用 V π ( s ) V^{\pi}(s) Vπ(s) 表示基于策略 π \pi π 的状态价值函数。具体来说,它表示在给定状态下,智能体在未来遵循某策略时所能获得的所有奖励的期望值。状态价值函数是评估和比较不同状态的有用工具,可以帮助智能体选择最优策略,从而最大化累积奖励。

V π ( s ) = E π [ G t ∣ S t = s ] V^{\pi}(s)= \mathbb{E}_{\pi}[G_{t}|S_{t}=s] Vπ(s)=Eπ[GtSt=s]

3.动作价值函数

  动作价值函数(Action Value Function)是用于评估在特定策略下,智能体从某一状态执行某一动作后,期望获得的累积奖励的函数,用 Q π ( s , a ) Q^{\pi}(s,a) Qπ(s,a)表示基于策略 π \pi π 。它表示在给定状态和动作的条件下,智能体在未来继续遵循该策略所能获得的所有奖励的期望值。动作价值函数帮助智能体评估在某一状态下不同动作的优劣,从而选择最优动作来最大化累积奖励。

Q π ( s , a ) = E π [ G t ∣ S t = s , A t = a ] Q^{\pi}(s,a)= \mathbb{E}_{\pi}[G_{t}|S_{t}=s,A_{t}=a] Qπ(s,a)=Eπ[GtSt=s,At=a]

V π ( s ) = ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) V^{\pi}(s)= \sum_{a\in A}\pi (a|s)Q^{\pi}(s,a) Vπ(s)=aAπ(as)Qπ(s,a)

Q π ( s , a ) = r ( s , a ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) V π ( s ′ ) Q^{\pi}(s,a)= r(s,a)+\gamma \sum_{s^{'}\in S} P (s^{'}|s,a)V^{\pi}(s^{'}) Qπ(s,a)=r(s,a)+γsSP(ss,a)Vπ(s)

4.贝尔曼期望方程

V π ( s ) = E π [ R t + γ V π ( S t + 1 ) ∣ S t = s ] = ∑ a ∈ A π ( a , s ) ( r ( a , s ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) ) V^{\pi}(s)= \mathbb{E}_{\pi}[R_{t}+\gamma V^{\pi}(S_{t+1})|S_{t}=s] =\sum_{a \in A}\pi (a,s)(r(a,s)+\gamma \sum_{s^{'}\in S}p(s^{'}|s,a)V^{\pi} (s^{'})) Vπ(s)=Eπ[Rt+γVπ(St+1)St=s]=aAπ(a,s)(r(a,s)+γsSp(ss,a)Vπ(s))

Q π ( s , a ) = E π [ R t + γ Q π ( S t + 1 , A t + 1 ) ∣ S t = s , A t = a ] = r ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) ∑ a ′ ∈ A π ( a ′ , s ′ ) Q π ( s ′ , a ′ ) Q^{\pi}(s,a)= \mathbb{E}_{\pi}[R_{t}+\gamma Q^{\pi}(S_{t+1},A_{t+1})|S_{t}=s,A_{t}=a]=r(s,a)+\gamma \sum_{s^{'}\in S}p(s^{'}|s,a)\sum_{a^{'}\in A} \pi (a^{'},s^{'})Q^{\pi}(s^{'},a^{'}) Qπ(s,a)=Eπ[Rt+γQπ(St+1,At+1)St=s,At=a]=r(s,a)+γsSp(ss,a)aAπ(a,s)Qπ(s,a)

参考文献

[1] 动手学强化学习

[2] 强化学习(Reinforcement Learning)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2096136.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

翻译新选择!除了在线翻译百度,还有这三款宝藏工具等你发现

咱们来聊聊现在世界变成一个“大家庭”的事儿。现在,世界各地的人们交流越来越多,语言不通不再是障碍了!翻译工具就像超级护照,帮我们轻松跨越语言障碍。说到翻译,百度翻译真的很有名,速度快,翻…

JAVA中的线程池说明一

系列文章 JAVA中的线程池说明一 JAVA中的线程池说明二 目录 1.为什么需要线程池? 2.什么是线程池? 3.标准库中的线程池 4.实现自定义线程池 1.为什么需要线程池? 线程的存在意义在于解决并发编程中进程开销过大的问题,因此引入了线程,也被称为…

【Hot100】LeetCode—74. 搜索二维矩阵

原题链接: 74. 搜索二维矩阵 1- 思路 二分 ① 实现一个二分函数② 对每行数组进行二分 2- 实现 ⭐74. 搜索二维矩阵——题解思路 class Solution {public boolean searchMatrix(int[][] matrix, int target) {for(int[] m:matrix){if(binarySearch(m,target)){re…

【知识图谱】3、Python操作图数据库neo4j示例

今天突然想起上次知识图谱系列埋了一个坑(【知识图谱】1、Neo4j环境搭建入门指南:从零开始玩转图数据库),说后续写一篇关于Python操作neo4j的示例。趁着周六有充足时间,这里写个demo补上。 本文demo还是以面试的求职者、岗位要求…

浅谈-Unity内存管理

灵魂拷问-什么是内存 物理内存虚拟内存内存寻址方位 物理内存 下面是一张i7的处理器的芯片细节图,在整个板载面积上我们可以很明显的看到Shared L3 Cache占用了最大面积。为什么?因为硬件产商为了让我们忽略掉CPU访问内存是一个非常慢速的过程&#x…

Nginx: TCP建立连接的优化和启用Fast Open功能

TCP 建立连接优化 在三次握手中,相关TCP的内核参数可优化这一过程 net.ipv4.tcp_syn_retries 6net.ipv4.tcp_synack_retries 5net.ipv4.tcp_syncookies 0net.ipv4.tcp_max_syn_backlognet.core.somaxconnnet.core.netdev_max_backlog 1 ) net.ipv4…

游戏:科技强国的璀璨星芒与经济增长新动力

游戏:科技强国的璀璨星芒与经济增长新动力 在时代的浪潮中,游戏正以一种令人瞩目的姿态,成为科技强国之路上一颗闪耀的星,同时也对经济有着多方面的深远影响。 从《黑神话:悟空》的爆火,到美国、英国、法国…

磐石云AXB小号平台同时支持AXYB、AXN、AXYBN

外卖订单,物流配送,金融,房地产,等行业都在使用订单小号或者说是工作号。 在当今数字化信息爆炸的时代,通信方式的多样化和复杂化给我们带来了便利,但也带来了管理的挑战。面对繁杂的通信需求,…

Ai Illustrator 取消吸附到像素点,鼠标拖动的时候只能到像素点

Ai Illustrator 取消吸附到像素点,鼠标拖动的时候只能到像素点 在做图的时候无意间变成吸附到像素点了,导致无法更细致的移动点。 像这样: 关闭的方法是打开上面菜单中的 【视图】取消勾选【对齐像素】 即可。 结果就是:

C++实现彩虹猫时空隧道特效(无害)

#include <Windows.h> // 如果不是在Visual Studio环境下运行的话W最好改小写。 using namespace std;int main() {for (int i 1; i < 10; i) {HDC hdc GetWindowDC(GetDesktopWindow());RECT rect;GetWindowRect(GetDesktopWindow(), &rect);StretchBlt(hdc, r…

240901-通过端口转发在局域网内访问WLS2中Gradio的Web应用

A. 需求描述 两台不同的电脑共用同一个路由器&#xff0c;其中一台电脑时Windows&#xff0c;上面安装了WSL2&#xff0c;我在WLS2中启动了一个Gradio的网络应用&#xff0c;并设置了server_name‘0.0.0.0’&#xff0c;另外一台电脑如何访问该网络应用。 B. 方法介绍 要使另一…

STM32H750+CubeIDE+FreeRTOS+ETH(LAN8720A)+LWIP

文章目录 STM32H750CubeIDEFreeRTOSETH(LAN8720A)LWIPCubeIDE配置RCC时钟树SYSETH串口MPUFreeRTOSLWIPGPIO然后就可以点击生成代码了&#xff01; 代码修改printf重定向补充硬件复位更改补充链接文件然后就可以编译下载ping成功了&#xff01; socket网络编程 STM32H750CubeIDE…

Freepik发布号称目前最强AI图像生成器Mystic

Freepik 于2024年8月27日正式推出了新的人工智能图像模型 “Mystic”&#xff0c;并号称是目前最强的AI图像生成器&#xff0c;本文从介绍Mystic开始&#xff0c;剖析其技术细节&#xff0c;功能特色&#xff0c;收费价格&#xff0c;并与当前市场上领先的 Midjourney V6.1 进行…

【dotnet】vscode配置dotnet开发环境

下载dotnet sdk https://dotnet.microsoft.com/en-us/download/visual-studio-sdks下载完安装&#xff0c;安装完毕在cmd中输入以下代码 dotnet出现以下结果代表安装完毕 在vscode终端中输入以下创建web项目 dotnet new webapp --output aspnetcoreapp --no-https上述命令…

[Jsprit]Jsprit学习笔记-vrp问题的求解

目录 一、整体的求解逻辑主要步骤 二、搜索策略的选择三、搜索策略执行解1、解的选择2、解的破坏3、解的接受3.1 新解的接受策略 一、整体的求解逻辑 下面是Jsprit实现的代码部分 public Collection<VehicleRoutingProblemSolution> searchSolutions() {logger.info(&q…

基于3D Slicer与matlab平台的图像引导介入手术-demo

1.实现手术手术导航的基本框架 2、基本协议框架 3、演示视频 DemoWithChinse2

unordered系列容器的实现

1. unordered_set与unordered_map的结构 我们知道STL中的unordered_set与unordered_map底层就是一个开散列的哈希表 1.1 unordered_set的结构 我们知道unordered_set其实就是K模型&#xff0c;所以unordered_set容器对红黑树的封装如下&#xff1a; template<class k, cl…

VTK随笔十二:体绘制(体绘制管线、vtkVolumeMapper、vtkVolume、不规则网格数据体绘制技术 )

体绘制&#xff0c;有时又称作三维重建(区别于投影图像的三维重建)&#xff0c;是一种直接利用体数据来生成二维图像的绘制技术。与面绘制不同&#xff0c;体绘制技术不需要提取体数据内部的等值面&#xff0c;它是一个对三维体数据进行采样和合成的过程。体绘制能够通过设置不…

【深度学习入门】计算机视觉任务

一、引言 对于神经网络&#xff0c;可以把中间的隐藏层看作一个黑盒子&#xff0c;这个黑盒子能自动选择如何提取特征&#xff0c;这不同于传统机器学习的人工操作&#xff0c;它的实现原理也是我们学习深度学习的重点。本文章以计算机视觉任务中的图像分类任务为例子&#xff…

zookeeper 集群搭建 及启动关闭脚本

1准备奇数台机子3&#xff0c;5&#xff0c;7 我准备的是三台 192.168.58.81 zookeeper-1 192.168.58.82 zookeeper-2 192.168.58.83 zookeeper-3 下载jdk 把他配置环境变量并检查是否是环境变量 echo $JAVA_HOME cd /opt/software wget http://mirrors.hust.edu.…