深度强化学习（三）马尔科夫决策过程

深度强化学习（三）马尔科夫决策过程

news2026/2/12 3:20:13

文章目录

- 马尔可夫过程MP
- 马尔科夫链MC
- - 状态转移概率矩阵
  - - n步转移概率
  - 马尔科夫链
- 马尔科夫奖励过程MRP
- - 奖励机制
  - 计算价值
  - - 概念定义
    - 计算价值
    - 推导贝尔曼方程
    - 贝尔曼方程实际应用

参考文章：https://blog.csdn.net/taka_is_beauty/article/details/88356375

序贯决策问题是针对随机动态系统的不确定性按照时间顺序给出最优策略。马尔科夫决策过程是解决序贯决策问题的经典方法。

马尔可夫过程MP

马尔科夫过程是指满足马尔科夫性的随机过程，马尔科夫过程的未来状态只与当前状态有关，与过去所有的状态都无关
马尔科夫过程可以用一个二元组（S，P）表示，其中S表示状态空间，由一组有限的状态组成；P是状态转移概率矩阵。

在这里插入图片描述

马尔科夫链MC

状态离散的马尔科夫过程被称为马尔科夫链，马尔科夫链在时间和状态上均离散。

状态转移概率矩阵

将一个状态转移到另一个状态的概率按照顺序组成的矩阵就是状态转移矩阵。

在这里插入图片描述
状态转移概率矩阵的性质：

转移概率的取值均大于或等于0。
转移概率矩阵的任意一行的概率和为0。

n步转移概率

n步转移概率描述的是从第m步的状态i转移到第m+n步的状态j的条件概率

在这里插入图片描述

马尔科夫链

对马尔科夫过程的抽样

在这里插入图片描述

马尔科夫奖励过程MRP

MRP=马尔科夫链+一个奖励函数，奖励函数是一个期望函数
马尔科夫奖励过程可以由一个四元组（S，P，R，γ）。

在这里插入图片描述

奖励机制

前面的马尔科夫链加上奖励机制后，可以获得一个奖励函数：
在这里插入图片描述

计算价值

概念定义

Horizon：同一个游戏环节或者轨迹的长度，由有限个步数决定的。
Return回报：从时间t到horizon的时间长度内，把奖励进行折扣所获得的收益。
这里有一个叠加系数γ，越往后的奖励的的折扣越多，因为我们更希望得到现有的奖励。
状态的价值：在某一个时刻t，在状态s下所期望的回报是：从这个状态开始的未来期望累积回报

在这里插入图片描述

折扣系数γ∈[0,1]
- 可以避免无穷的奖励
- 未来是不确定的
- 希望尽可能快的获得奖励

计算价值

在这里插入图片描述

推导贝尔曼方程

贝尔曼方程用来简化马尔科夫决策问题，贝尔曼方程表明，当前状态的的总体回报=当前状态的立即回报+未来后序状态的价值函数。

推导过程：
在这里插入图片描述

在这里插入图片描述

我们知道，不同的马尔科夫链得到的下一步的状态是不同的，这里是要把所有的下一步都累加。

贝尔曼方程实际应用

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1039636.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【Vue3 源码解析】nextTick

【Vue3 源码解析】nextTick

nextTick 是 Vue 3 中用于异步执行回调函数的函数，它会将回调函数延迟到下一个微任务队列中执行。其中，Vue 更新 DOM 是异步的。下面是对 nextTick 函数的详细解释： export function nextTick<T void, R void>(this: T,fn?: (this:…

阅读更多...

2023-09-25 LeetCode每日一题（LFU 缓存）

2023-09-25 LeetCode每日一题（LFU 缓存）

2023-09-25每日一题一、题目编号 460. LFU 缓存二、题目链接点击跳转到题目位置三、题目描述请你为最不经常使用（LFU）缓存算法设计并实现数据结构。实现 LFUCache 类： LFUCache(int capacity) - 用数据结构的容量 capacity 初始…

阅读更多...

全流量安全分析之服务器非法外连

全流量安全分析之服务器非法外连

服务器非法外连监控的重要性在于保护服务器的安全性和防止被黑客利用，以下是几个重要的理由： 1、发现恶意活动：通过监控服务器的外连流量，可以及时发现是否有未经授权或可疑的连接尝试。这可能包括入侵攻击、数据泄露、恶意软件传…

阅读更多...

基于微信小程序的家校通系统设计与实现(亮点：选题新颖、上传作业、批改作业、成绩统计)

基于微信小程序的家校通系统设计与实现(亮点：选题新颖、上传作业、批改作业、成绩统计)

文章目录前言运行环境说明家长微信小程序端的主要功能有：教师微信小程序端的主要功能有：管理员的主要功能有：具体实现截图详细视频演示为什么选择我自己的网站自己的小程序（小蔡coding）有保障的售后福利代码参考论文…

阅读更多...

MySQL 索引底层 B+Tree 原理解析

MySQL 索引底层 B+Tree 原理解析

目录一、前言二、B-Tree 和 BTree 的区别三、InnoDB 和 MyISAM 存储引擎索引存储区别MyISAMInnoDB 四、InnoDB 联合索引底层数据结构五、MySQL 中三次磁盘IO最大能检索多少数据一、前言索引是帮助高效获取数据排好序的数据结构，任何数据库都会使用到索引&#x…

阅读更多...

漂流伞顾曼宁（顾曼）的创业之路：相信的力量

漂流伞顾曼宁（顾曼）的创业之路：相信的力量

顾曼宁（顾曼）的心情在蚂蚁生态全球CEO大会上充满了感动和鼓舞。这是一个期待已久的盛会，时隔三年，蚂蚁生态全球的首席执行官们再次汇聚一堂。智慧与商业的碰撞下，更藏着感情与坚持的交汇。蚂蚁集团举办了【相信展】的…

阅读更多...

求生之路2服务器搭建插件安装及详细的游戏参数配置教程linux

求生之路2服务器搭建插件安装及详细的游戏参数配置教程linux

求生之路2服务器搭建插件安装及详细的游戏参数配置教程linux 大家好我是艾西，在上一篇文章中我用windows系统给搭建演示了一遍怎么搭建自己的L4D2游戏。那么也有不少小伙伴想知道linux系统的搭建方式以及在这个过程中有什么区别。那么艾西今天就跟大家分享下用lin…

阅读更多...

Nginx可视化管理工具结合cpolar实现远程访问内网服务

Nginx可视化管理工具结合cpolar实现远程访问内网服务

前言 Nginx Proxy Manager 是一个开源的反向代理工具，不需要了解太多 Nginx 或 Letsencrypt 的相关知识，即可快速将你的服务暴露到外部环境，并且支持 SSL 配置。基于 Tabler 的美观且安全的管理界面,无需了解 Nginx 即可轻松创建转发域、重定…

阅读更多...

生产看板管理系统助力车间生产线提升产量、质量

生产看板管理系统助力车间生产线提升产量、质量

随着制造业的发展和市场竞争的加剧，企业需要寻求创新的生产管理解决方案来提高生产效率和质量。而车间生产看板管理系统正是满足这一需求的理想选择。这种系统通过实时监控生产线上的各项指标，帮助企业及时发现生产问题，并采取相应的措施。通…

阅读更多...

【送书活动】《客户成功的力量》——客户成功体系如何构建？请看这7步

【送书活动】《客户成功的力量》——客户成功体系如何构建？请看这7步

文章目录前言当下客户成功的痛点客户成功体系构建七步法作者简介赠书活动前言在中国企业服务领域的发展过程中，客户成功从在中国萌芽开始，行业内外对其讨论几乎没有停止过。近段时间，关于客户成功的讨论再次被业内广泛关注，原因…

阅读更多...

微力私人网盘通过cpolar端口映射，成功实现远程访问本地电脑！

微力私人网盘通过cpolar端口映射，成功实现远程访问本地电脑！

文章目录 1.前言2. 微力同步网站搭建2.1 微力同步下载和安装2.2 微力同步网页测试2.3 cpolar的安装和注册 3.本地网页发布3.1 Cpolar云端设置3.2 Cpolar本地设置 4. 公网访问测试5. 结语 1.前言私有云盘作为云存储概念的延伸，虽然谈不上多么新颖，但是其…

阅读更多...

遥遥领先-华为发布会重磅来袭！我的梦，刘德华...

遥遥领先-华为发布会重磅来袭！我的梦，刘德华...

本次发布会一共涉及了三个头号人物，分别是 1.余承东 2.刘德华 3.何刚对于很多伙伴期待的手机，本次发布会是没有登场的，也有部分伙伴猜测华为是由于部分原因没有登场。相信后期将会有有更大的策划和科技登场~ “穿过了黑夜，…

阅读更多...

【C语言干货】一秒钟记住52个字母的ASCII码

【C语言干货】一秒钟记住52个字母的ASCII码

一、ASCII的介绍 ASCII (American Standard Code for Information Interchange)：美国信息交换标准代码是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言。它是最通用的信息交换标准，并等同于国际标准 ISO/IEC 646。…

阅读更多...

ubuntu 14.04更新GCC版本

ubuntu 14.04更新GCC版本

按最基本的apt-get install gcc-8，不成功，提示如下。按网上说的：apt-get update ,apt-get upgrade 后都无效果。 apt-cache search get 搜索后，发现资源链接里最新的也只有4.8.4所以不行。需要更新资源链接，镜像地…

阅读更多...

uni-app：实现背景渐变效果

uni-app：实现背景渐变效果

效果代码单个渐变色 background-image: linear-gradient(to top right, #f00, #00f); 多个渐变色 background-image: linear-gradient(to bottom, #0073ff 0%, #1d6cff 25%, #1e8bff 50%, #41b3ff 100%); /* 多个渐变色 */ <template><view></view> <…

阅读更多...

【Vue.js】使用Element搭建首页导航左侧菜单

【Vue.js】使用Element搭建首页导航左侧菜单

目录 Mock.js 是什么有什么好处安装mockjs 编辑引入mockjs mockjs使用 login-mock Bus事物总线首页导航栏与左侧菜单搭建结合总线完成组件通讯 Mock.js 是什么 Mock.js是一个用于生成随机数据的模拟数据生成器。它可以帮助开发人员模拟接口请求，生…

阅读更多...

轻松几步操作，视频边框背景虚化无压力

轻松几步操作，视频边框背景虚化无压力

在视频剪辑的世界中，许多人都苦于繁琐的操作和复杂的流程。然而，如果你掌握了正确的工具和方法，许多复杂的任务可以变得简单高效。今天，我将分享一个简单实用的视频剪辑技巧，让你轻松完成批量剪辑视频并虚化边框的快速…

阅读更多...

常识判断 --- 党史

常识判断 --- 党史

目录中共1~3大例题国民党例题中共4~5大例题中共起义~会议例题中共六届六中全会（1938年9月） 中共七大（1945年4月） 例题中共七届二中全会例题中共8~10大中共11~12届全会例题中共13~14大 …

阅读更多...

基于物联网的农村地区智能微电网系统（Simulink）

基于物联网的农村地区智能微电网系统（Simulink）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…

阅读更多...

Generative AI 新世界 | 扩散模型原理的代码实践之采样篇

Generative AI 新世界 | 扩散模型原理的代码实践之采样篇

在上一期的文章中，探讨了在 Amazon SageMaker Studio 上使用 QLoRA 等量化技术微调 Falcon 40B 大语言模型。而从本期开始，我们将一起尝试在更深的知识维度，继续探究生成式 AI 这一火热的新知识领域。亚马逊云科技开发者社区为开发者们提供全…

阅读更多...

推荐文章

最新文章