强化学习代码实战(2) --- 多臂赌博机

news2024/12/23 5:29:02

目录

前言

1.Python基础

2.Numpy基础

 3.多臂赌博机

参考文献


前言

      本文内容来自于南京大学郭宪老师在博文视点学院录制的视频,课程仅9元地址,配套书籍为深入浅出强化学习 编程实战 郭宪地址。

1.Python基础

1. print()

可以用该语句查看当前数据的情况,验证数据过程是否正确,也就是验证代码写的是否正确。

2. if...else...

 

3. for循环

4. while循环

5. 函数定义

6. 类

数据成员

函数成员

 

 子类初始化时要用super()(本质上还是对基类进行初始化)

 

2.Numpy基础

 3.多臂赌博机

      多臂赌博机希望可以得到摇动N次后得到到最高的回报,对于该赌博机,有回报模型(摇一次出多少币是确定的),但没有状态转移模型,所以是一个无模型问题。

       以下图为例,在多臂赌博机中,动作a=[0,1,2]分别代表对三个摇臂的动作,而每个摇臂对应不同回报,所以服从三个回报,状态s,在本例中较为简单,对某一个摇臂动作,然后返回初始状态,再继续对某一个摇臂动作,再返回初始状态......,循环往复。本例中的评估,基于行为值函数,本质上是对当前动作回报值的计算(期望,也就是摇N次对回报取平均值)。我们需要分别得到三个摇臂的q(q(a1),q(a2),q(a3))。

      进而我们看一下实现的过程,假设q[0],q[1],q[2]的期望(未知)分别是1,10,6(满足正态分布),初始化时我们对每一个摇臂进行一次实验,分别得到3,4,6个金币,根据贪婪策略(选回报最大动作,也就是摇臂3),连续执行十次,按照期望(正态分布)得到60金币,但如果选择摇臂2,十次后可得到100金币,所以这时贪婪策略就不太合适。所以出现了探索-利用平衡策略,利用就是用当前最好策略,探索就是有一定概率选择其他不那么好的动作。

 

     再看一下伪码和源码的对应关系。

     代码中可修改的内容。

用到的三种策略

\xi -greedy:简单理解,以摇臂赌博机为例,第一次探索q[0]=0.2,q[1]=0.3,q[2]=0.6,\varepsilon=0.1,此时有0.9的概率继续选择2的动作,有0.1的概率选择1的动作,这就增加的探索能力,假设选择了动作1,立即汇报为1.5,那么q[1]=0.9,成为最高的回报值,下次有0.9被选择的概率。(比较彼此回报时用的是平均回报)

 

ucbq_{ucb}分别计算不同动作的累计回报,假设谁大选谁,\frac{}{q}代表各自动作的平均回报值,假设动作3的平均回报是0.6为最大,但连续选择3次之后,第四次n(动作总次数)变为4,n_{a}为动作1,2,3各自的次数,那么此时对动作1,2而言n_{a}较小,n大,所以q_{ucb}对应的值会超过动作3,以此实现探索。

 bolzman:简单理解是利用概率方式,优先选回报最多的动作,但对回报低的动作也有概率选择。

 

参考文献

1.深入浅出强化学习 编程实战 郭宪

2. 博文视点学院

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1127319.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用线程时,有哪三种常见的线程安全问题

Java全能学习面试指南:https://javaxiaobear.cn 今天我们学习 3 类线程安全问题。 什么是线程安全 要想弄清楚有哪 3 类线程安全问题,首先需要了解什么是线程安全,线程安全经常在工作中被提到,比如:你的对象不是线程…

程序员必备网站,别说话直接收藏!

俗话说的好,一个程序员,20%靠知识储备,80%靠网络搜索。打开代码,打开Google,开始工作。 那么常用的写码软件,你知道几个呢?下面我们来一起看一下常用的写码软件吧~建议收藏本文,保证…

docsify搭建个人博客——简单公共知识库

整站建设流程:安装docsify > 排错>配置封面> 配搜索> 启动> 放md类的文章> 自动生成目录; 更新文章流程: 把目录文章放到docsify\docs目录下,然后双击docsify-autosidebar.exe即可(它会重新生成目录…

2023版 STM32实战11 SPI总线读写W25Q

SPI全称 英文全称:Serial peripheral Interface 串行外设接口 SPI特点 -1- 串行(逐bit传输) -2- 同步(共用时钟线) -3- 全双工(收发可同时进行) -4- 通信只能由主机发起(一主,多从机) 开发使用习惯和理解 -1- CS片选一般配置为软件控制 -2- 片选低电平有效,从…

JAVA入门总结回顾

1.常用的DOS命令:DOS窗口常用命令-CSDN博客 2.检查jdk是否安装成功:在cmd中输入java -version或者java或者javac。出现相应的对应显示内容。 3.JDK,JRE之间的关系:JDK是JAVA的开发工具包,JRE是JAVA的的运行环境。JRE…

第二证券:指数是什么意思?

跟着经济全球化的加速和商场化进程的深化,指数已成为金融商场重要的风向标和抉择方案参看。指数是依据商场上必定数量的标的股票价格改变而核算的数值,代表了特定股票商场的全体涨跌状况。本文将从多个视点剖析指数的意义和作用。 一、指数的品种和核算…

k8s部署xxl-job后,执行任务提示拒绝连接Connection Refused

一、问题背景 1.1 问题说明 之前由于网络插件flannel安装不成功,导致xxl-job执行任务的时候,提示拒绝服务,如下图所示: 但是安装flannel安装成功后,依然无法联通,还是提示相同问题 1.2 排查网络 通过i…

短视频矩阵系统搭建/源头----源码

一、智能剪辑、矩阵分发、无人直播、爆款文案于一体独立应用开发 抖去推----主要针对本地生活的----移动端(小程序软件系统,目前是全国源头独立开发),开发功能大拆解分享,功能大拆解: 7大模型剪辑法(数学阶乘&#xff…

Golang 数据库操作

文章目录 初始化连接连接池SetMaxOpenConnsSetMaxIdleConnsSetConnMaxIdleTimeSetConnMaxLifetime 查询数据插入数据更新数据删除数据实现账号密码登录功能sqlx的部分用法 首先安装包:Install go get -u github.com/go-sql-driver/mysql // MySQL数据库的包 go get…

原型制作的软件 Experience Design mac( XD ) 中文版软件特色

​XD是一个直观、功能强大的UI/UX开发工具,旨在设计、原型、用户之间共享材料以及通过数字技术进行设计交互。Adobe XD提供了开发网站、应用程序、语音界面、游戏界面、电子邮件模板等所需的一切。xd mac软件特色 体验设计的未来。 使用 Adobe XD 中快速直观、即取即…

女儿的睡衣,蕾丝花边蝴蝶结,太好看了吧

分享女儿的睡衣穿搭 大部分女孩子都喜欢 粉粉嫩小公主风格的衣服 我的宝贝也不例外啦 蕾丝花边和蝴蝶结真的会让女生少女心爆棚 非常厚实软糯的珊瑚绒质地,穿上非常暖和 裤脚和袖口都做了收口设计,真的很赞! 还有麻麻款呢,…

C算法:使用选择排序实现从(大到小/从小到大)排序数组,且元素交换不可使用第三变量。

需求&#xff1a; 使用选择排序实现从(大到小/从小到大)排序&#xff0c;且元素交换不可使用第三变量 (异或交换法) 代码实现&#xff1a; #include <stdio.h> void maopao(int* array,int len,int(*swap)(int a,int b)) {int i,j;for(i0;i<len-1;i){for(ji1;j<…

如何判断LED透明屏质量好坏?

要判断LED透明屏的质量好坏&#xff0c;您可以考虑以下几个关键因素&#xff1a; 焊点品质。焊点饱满的证明焊接工艺好&#xff0c;亮度高的透明屏&#xff0c;证明焊锡用的好&#xff1b;品质不好的是虚焊&#xff0c;容易出现接触不良现象。 灯珠温度。点亮一段时间后&#x…

如何删除重复文件?简单操作法方法盘点!

“我之前传文件的时候好像传了很多重复的&#xff0c;导致这些文件占用了我大量的内存&#xff0c;有什么方法可以快速删除这些重复的文件吗&#xff1f;感谢&#xff01;” 随着时间的推移&#xff0c;我们的电脑中常常会积累大量的重复文件&#xff0c;这不仅占用宝贵的存储空…

竞赛选题 深度学习人脸表情识别算法 - opencv python 机器视觉

文章目录 0 前言1 技术介绍1.1 技术概括1.2 目前表情识别实现技术 2 实现效果3 深度学习表情识别实现过程3.1 网络架构3.2 数据3.3 实现流程3.4 部分实现代码 4 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 深度学习人脸表情识别系…

Allegro教学:Assembly层和Silkscreen元器件编号如何处理?

在电子工程中&#xff0c;PCB的设计和制造最为关键&#xff0c;而PCB上有多种层&#xff0c;有信号层、电源层、接地层和机械层&#xff0c;今天我们来聊聊Assembly层。来聊聊Silkscreen元器件编号问题&#xff0c;希望本文对小伙伴们有所帮助。 首先在回答这个问题前&#xff…

电脑机械硬盘怎么恢复数据?未备份的话,这几个方法请收好

在当今数字化的时代&#xff0c;数据的重要性不言而喻。然而&#xff0c;当电脑机械硬盘遇到数据丢失问题时&#xff0c;很多用户会感到束手无策。那么&#xff0c;电脑机械硬盘怎么恢复数据&#xff1f;在没有备份数据的情况下&#xff0c;这几个方法请收好。 图片来源于AI制作…

云栖大会?全部免费!!抢先一步看!

2023云栖大会定档10月31日&#xff01; 点击链接免费预约云栖门票&#xff1a; 2023云栖大会-领票页面 2023 云栖大会将于 10.31-11.2 在杭州云栖小镇举办&#xff0c;深度拥抱大数据AI 核心技术&#xff0c;见证阿里云大数据AI产品年度重磅发布及创新。开放融合的科技展示平…

用爬虫代码爬取高音质音频示例

目录 一、准备工作 1、安装Python和相关库 2、确定目标网站和数据结构 二、编写爬虫代码 1、导入库 2、设置代理IP 3、发送HTTP请求并解析HTML页面 4、查找音频文件链接 5、提取音频文件名和下载链接 6、下载音频文件 三、完整代码示例 四、注意事项 1、遵守法律法…

swiper3 无缝滚动 + 鼠标悬停停止/继续

html结构&#xff1a; <div class"peopleSwiper"><div class"swiper-container"><div class"swiper-wrapper"><div class"swiper-slide"><img src"images/people01.png"></div><di…