建模杂谈系列223 Q-Learning示例的代码拆解分析

news2025/1/13 7:50:08

说明

找到了一个合适的例子,然后我对其中的内容进行了拆解分析。我觉得代码表达的内容比伪代码清晰多了。

这次算是补砖了(监督+无监督+强化),过去实际上接触过很多强化体系内的基本工具,但一直没有开始做,部分原因是没时间,但更多的还是因为技术洁癖吧(没ready就不想搞)。

所以我觉得应该可以不考虑姿势,先进行破冰,但同时也不能分散注意力。所以之前我给自己定义的界限是:探索新领域可以,但不能写代码。我觉得这次算是一个微微踩线的动作:没自己写代码,但是稍微改了改代码,总体不到1小时完成整个Case,还行。

内容

这个例子的源是这篇文章, 我从我觉得比较方便的地方把代码拆开来做了分析。

图也来自上文哈。
在这里插入图片描述
原文也挺有趣的,用DataFrame来表达上面的结构:

  • 1 索引是状态
  • 2 列名是可采取的行动(Left, Right)
  • 3 值是对应的回报(Return)

目标问题是:在一维平面上,有6个点,其中一个是目标点。通过QLearning来找到最优的路径。

这算是无模型的方法,一开始并没有任何的提示,只是在目标点给了1的奖励,其他位置为0。所以算法需要经过一次次的探索来丰富自己的路径数据。

每一次的探索从一个随机点(本例固定为最左边的点)开始游走,到目标点就停下,探索结束。一次也就是一个episode。我想,如果空间大的话,是可以采取有限步达到目标的方式,随机很多点去探索。

以下是我去分解验证的过程:

函数可参考原文,没有改

每次episode从重置状态开始

#设置Q估计表内的状态位置为0
current_state = 0 
#与绑定环境相关
updata_environment(current_state) 
total_steps = 0

如果不是在目标状态,则执行一次探索

if current_state != states[-1]:
    cur_rand = random.uniform(0,1)
    #random.uniform(0,1)表示在0-1内随机生成一个随机数
    # loc通过行/列标签索引到状态矩阵,(iloc通过行/列号索引矩阵这里没用到),all()表示索引到的状态矩阵与0的比对结果再作一次与运算
    is_random_open = cur_rand > want
    print('【1】Is random Open',is_random_open)
    is_current_state_all_Q_0 = (Q_table.loc[current_state] == 0).all()
    print('【2】Is Current State all 0',is_current_state_all_Q_0)

    # 是否要随机采取行动(改变位置)
    is_random_need_to_change = is_random_open or is_current_state_all_Q_0
    print('【3】Is Need To Random Change Action', is_random_need_to_change)

    if is_random_need_to_change:
        if is_random_open:
            print('【4】Change Action Due To Random')
        if is_current_state_all_Q_0:
            print('【4】Change Action Due To Current State Return 0')
        # 基于当前状态选择动作
        current_action = random.choice(get_vaild_actions(current_state)) 
    else:
        # 根据已知的回报选择动作
        print('【4】Choose Known Best Action')
        current_action = Q_table.loc[current_state].idxmax()

    print('【5】Current Action:', current_action)

    # 获取根据当前状态+行动后的新状态
    next_state = get_next_state(current_state,current_action)

    print('【6】Moving From State %s To State %s by Action %s' %(current_state, next_state, current_action))
    # 读取下一个状态下的【行为-奖励】数据 
    next_state_Q_values = Q_table.loc[next_state,get_vaild_actions(next_state)] 
    print('【7】Next State Action Returns', next_state_Q_values)

    # 从下一步值从获得的影响
    part1_next_reward = rewards[next_state] 
    print('【8.1】part1_next reward', part1_next_reward)
    part2_decrease_max = reward_decrease*next_state_Q_values.max() 
    print('【8.2】part2_decrease_max reward', part2_decrease_max)
    part3_current_reward = Q_table.loc[current_state,current_action]
    print('【8.3】part3_current reward', part3_current_reward)
    # 本状态、本动作的奖励增益
    delta_reward = efficiency *(part1_next_reward + part2_decrease_max - part3_current_reward)
    print('【9】Current State & Action 【Delta】 Reward' ,delta_reward)

    print('【10】Current State & Action Reward ' , Q_table.loc[current_state, current_action])
    Q_table.loc[current_state, current_action]+=delta_reward
    print('【11】Current State & Action Reward Changed By 【Delta Reward】 ' , Q_table.loc[current_state, current_action])
    print('【12】Moving To New State & Update')
    current_state = next_state
    updata_environment(current_state) #更新环境
    print('【13】QTable',Q_table)
else:
    print('【14】找到目标')

一开始执行时,会看到探索的位置左右移动,一直到找到目标之后。可能会经过十几轮才会找到目标。

在这里插入图片描述
那个u会一直挪来挪去,最终会找到出口。
在这里插入图片描述
到达目标后,第一次的episode结束,然后进入第二波。此时的QTable不再是全为0,游走的效率会提升(达到状态4之后就会必然走向5,而不会退回3)

然后再过一轮,这时候状态3的Right也有了大于0的回报,这样随机游走会进一步减少。
在这里插入图片描述
之后的每一次游走,会不断丰富在各个状态下的回报值。这个过程中,随机游走已经确定了,每次都直接往右走。
在这里插入图片描述

进入批次运行的状态,看u总是直接从左到右。
在这里插入图片描述
大概几十次之后
在这里插入图片描述

总结

整体上,我觉得强化学习很好玩,和打游戏简直一毛一样。

这次是一个快速探索的实验,到这里就结束了,原理性验证通过,还是挺满意的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/560722.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java 与排序算法(5):归并排序

一、归并排序 归并排序(Merge Sort)是一种基于分治思想的排序算法。它将待排序的数组分成两个长度相等的子数组,然后对这两个子数组分别进行归并排序,最后将两个排好序的子数组合并成一个有序的数组。 具体实现过程如下&#xf…

【国内chatgpt使用方法合集】(5月22日已更新)

写在前面 Hello大家好, 我是【麟-小白】,一位软件工程专业的学生,喜好计算机知识。希望大家能够一起学习进步呀!本人是一名在读大学生,专业水平有限,如发现错误或不足之处,请多多指正&#xff0…

Elasticsearch文档操作:初学者指南(2023年最新版包含DSL语句的使用和RestHighLevelClient在Java中的使用)

2023年还没有学习Elasticsearch?,那么您将错过最强大、最通用的编程语言之一。 本文将介绍在Elasticsearch对文档分别使用DSL语句和Java High Level REST ClientAPI来对文档进行操作。获取更多信息查看官网帮助文档 运行环境: Linux,docke…

驱动开发DAY6

非阻塞IO 在应用程序中读取硬件数据时,无论硬件数据是否准备完毕,read()函数不会阻塞,继续向下执行 阻塞IO 当应用程序中读取硬件数据时,在硬件数据没有准备好时,进程会阻塞在read(&…

C语言——如何写出好的代码?

哈喽,大家好,今天我们来学习如何才能写出优秀的代码,主要讲的是assert和const的用法。 首先,什么样的代码才算的上是优秀的代码呢?应该符合下面的要求: 1. 代码运行正常 2. bug很少 3. 效率高 4. 可读性高 …

自抗扰PID(梯形图源代码)

有关ADRC的详细算法和源代码,请参看专栏的系列文章,这里不再赘述,常用链接如下: ADRC自抗扰控制算法(含梯形图完整源代码和算法公式)_adrc算法_RXXW_Dor的博客-CSDN博客PLC的自抗扰控制(ADRC)算法_RXXW_Dor的博客-CSDN博客_adrc算法1、自抗扰控制算法,网上很多文章有所…

x210---根文件系统制作

一、busybox的移植 1.1、busybox源码下载 (1)busybox是一个开源项目,所以源代码可以直接从网上下载。 (2)busybox的版本差异不大,版本新旧无所谓。 (3)下载busybox可以去linuxidc等镜像网站,也可以去www.busybox.net官方网站下载。 1.2、修…

技术人如何写简历?(文末有福利)

前言 笔者在滴滴、阿里和字节时候也面试了不少人,看过形形色色的简历没有上百也有大几十份了。校招季也快到了,这里总结自身经验聊一下 技术人的简历如何去写面试官是怎么样从一份简历去开展后续的面试 简历的作用 简历是你向一家公司求职的“敲门砖…

数据结构学习之路-集合

集合Set 集合的特点集合的内部实现(使用链表)集合的内部实现(使用红黑树)复杂度分析使用红黑树实现集合的限制 集合的特点 不存放重复的元素常用于去重 例如:存放新增的IP地址,统计新增IP量;存…

torch中的model.eval()、model.train()详解

👨‍💻个人简介: 深度学习图像领域工作者 🎉工作总结链接:https://blog.csdn.net/qq_28949847/article/details/128552785 链接中主要是个人工作的总结,每个链接都是一些常用demo&#xff0c…

Laravel框架05:模型和自动验证

Laravel框架05:模型和自动验证 一、模型(AR模式)概述二、定义模型三、调用模型四、基本操作1. 添加数据① AR模式② Request 2. 查询数据3. 修改操作① AR模式② update 4. 删除操作 五、控制器验证1. 基本语法2. 输出错误信息 一、模型&…

今麦郎跻身“我最喜欢中国品牌”榜,致力领航中国品牌发展新范式

在中国经济探寻高质量发展的当下,中国民营企业肩负着推动经济发展的重任。在当前中国经济向上向前的大背景下,展示中国特色、传播中国文化、践行社会责任多位一体的高质量品牌越来越受到重视。但冰冻三尺非一日之功,唯有经历时间考验&#xf…

Spring:Spring 整合 MyBatis 的具体过程

文章目录 Spring:Day 04整合 MyBatis一、配置环境1. 导入依赖2. 准备一个数据库 二、用 Spring 整合 MyBatis1. 编写通用配置文件2. 编写实现类3. 编写 Spring 配置文件4. 测试5. 分析总结 三、拓展1. 实现2. 总结 四、事务1. 概述2. 没有事务时3. 声明式事务4. 总结…

“Shell“SNAT,DNAT

文章目录 一.SNAT1.1 SNAT原理1.2 SNAT的应用环境1.3 SNAT工作原理1.4 进行SNAT转换后1.5 配置SNAT策略1.6SNAT实验 二.DNAT2.1 DNAT工作原理2.2 配置DNAT策略2.3 DNAT实验 一.SNAT 1.1 SNAT原理 SNAT原理:修改数据包的源地址。SNAT 应用环境:局域网主…

基础学习——关于卷积层的记录

文章目录 前言一、功能层1、池化层2、nn.BatchNorm2d()3、全连接层4、softmax层 二、卷积层1、普通卷积2、空洞卷积3、多尺度卷积4、分组卷积5、深度可分离卷积6、形变卷积 前言 老是忘有些模块的具体作用,记录一下。 一、功能层 1、池化层 池化层夹在连续的卷积…

总结最全面的TCP、UDP、Socket、HTTP网络编程面试题

先看一天面试的经验: 第一场: 面试官:你说一下TCP的三次握手 我:第一次Client将SYN置1......、第二次Server收........、 第三次........ 面试官:很难背吧? 我:......是啊,很难&…

harbor安装

文章目录 先决条件硬件软件网络端口 安装docker签发证书生成证书颁发机构证书 生成服务器证书向 Harbor 和 Docker 提供证书 下载harbor安装包containerd 配置私有仓库(二选一)分发证书(如上文只是路径变了)配置登录加密登录打标签并推送与拉取 docker 配…

【EasyPoi实战系列】Spring Boot使用EasyPoi动态控制导出的列 - 第471篇

历史文章(文章累计460) 《国内最全的Spring Boot系列之一》 《国内最全的Spring Boot系列之二》 《国内最全的Spring Boot系列之三》 《国内最全的Spring Boot系列之四》 《国内最全的Spring Boot系列之五》 《国内最全的Spring Boot系列之六》 用…

机器学习神经网络——GBDT(Gradient Boosting Decision Tree 梯度提升决策树)算法

系列文章目录 机器学习神经网络——Adaboost分离器算法 机器学习之SVM分类器介绍——核函数、SVM分类器的使用 机器学习的一些常见算法介绍【线性回归,岭回归,套索回归,弹性网络】 文章目录 系列文章目录 前言 一、GBDT(Gradient Boos…

计算机网络:物理层

物理层 1. 通信基础1.1 基本概念1.1.1 通信模型1.1.2 通信方式1.1.3 数据传输方式1.1.4 数据同步的传输/通信方式1.1.5 码元1.1.6 速率1.1.7 带宽 1.2 奈氏准则|香农定理1.2.1 奈氏准则1.2.2 香农定理 1.3 编码、调制1.3.1 数字数据编码为数字信号1.3.2 数字数据调制为模拟信号…