强化学习代码实战(3) --- 寻找真我

news2026/2/12 0:58:13

前言

本文内容来自于南京大学郭宪老师在博文视点学院录制的视频，课程仅9元地址，配套书籍为深入浅出强化学习编程实战郭宪地址。

正文

我们发现多臂赌博机执行一个动作之后，无论是选择摇臂1，摇臂2，还是摇臂3之后都会返回原来的状态，也就是说它的状态并没有改变，而右边的寻金币游戏，从1到2，智能体执行动作之后位置（状态）发生了变化，而强化学习就是寻找当前状态下最优的动作，或者说不同状态下最优动作合集（策略）。

从下图右可以看出，P和R都和s，a有关系，无模型就是因为缺P和R。

实际应用中，对于游戏一般用截取的图像信息作为s，但通常不能只用一帧图像作为s，比如说在大小球的游戏中，一帧图像，无法判断小球移动方向和球速，最起码要两帧，在实际应用中，为了提高精确度，一般用四帧图像作为s。AlphaGo中用过去八手双方棋局作为状态。

动作的定义

策略的定义：策略就是给定状态s时，动作集上的分布，比方说，找金币，智能体在状态5时，采用确定性策略，此时向西走概率为1，向其他方向为0，为改状态下的动作概率分布。

值函数定义：就是在策略Π下，智能体从状态s出发，用采用策略Π的累计回报的期望，简单理解，从状态s出发，不同的选择函数（策略，该策略是动作选择策略），会选择不同的动作，转移到不同的状态，最后会找到很多条路径（s，a），选则累计回报最大的路径。

值函数和行为值函数的区别：值函数只和s有关，行为值函数和s，a相关。但两者都是对策略Π的度量。

我们看一下寻找梦中的他游戏的环境设置，

状态空间：对下图进行10×10的网格划分也就是说会有100个不同的状态空间，所以最多会遍历100步，

动作空间：有上下左右四个选择

状态转移概率：此处主要说一下，鸳鸯在碰到障碍物时，不会移动到障碍物位置，而是继续保持原本状态，同样在即将出界时，也是保持原本状态。比方说，向东连续走两个格，第三个格有障碍物，不会移动到障碍物位置，而是保持原本位置不变。

立即回报：碰到障碍物时回报为-1，找到他时回报为1，正常移动回报为0

策略表示：使用了词典函数（待理解）

值函数：设置了10×10的矩阵，对应一百个表格（属于表格型强化学习）

环境渲染用到了pygame包，使用时共三个步骤

1.获取当前图片所在目录

2.获取图片文件名

3.下载图片，并转换成surface对象

最后要继续使用pygame绘制窗口

1.display.set_mode：绘制窗口幕布

2.blit：图片显示在窗口中

3.display.update：幕布更新函数

代码可从视频链接自取

参考文献

1.深入浅出强化学习编程实战郭宪

2. 博文视点学院

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1133071.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

强化学习代码实战(3) --- 寻找真我

前言

正文

参考文献

相关文章

MySQL Join 类型

【会员管理系统】篇二之项目搭建、初始化、安装第三方库

【模式识别】贝叶斯决策模型理论总结

【Redis】redis 十大数据类型概述

【Elasticsearch】es脚本编程使用详解

crossover23.6闪亮登场发布啦，2023最新功能解析

手把手教你玩转单目摄像头（OpenCv+Python）

C++入门03——程序流程结构

Leetcode刷题详解——寻找旋转排序数组中的最小值

通俗介绍：什么是 Redis ？

win10安装spark

如何理解某一个开发框架的意图，从而去写和落代码文件位置不会出错

基于Java的学生学籍管理系统设计与实现(源码+lw+部署文档+讲解等)

智慧矿山：AI算法助力！刮板机监测，生产效率和安全性提升！

MobileNetV3

C++简单实现内存池原理

国产内存强势崛起，光威龙武挑战D5内存24×2新标杆

Python遍历删除列表元素的一个奇怪bug

【带头学C++】----- 1.基础知识 ---- 1.23 运算符概述

配置Sentinel 控制台