[PyTorch][chapter 58][强化学习-1]

news2024/11/18 23:23:57

前言:

    RL(Reinfocement Learning) 强化学习 是机器学习,深度学习一个重点。

    后面20章将重点结合一些例子回顾一下经典的强化学习算法。

     这里重点介绍一下机器学习中的强化学习算法,以及Gym 工具

目录:

  1.      简介
  2.      强化学习基本要素
  3.     \epsilon 贪心算法
  4.     softmax 算法
  5.     Gym

一 简介

          强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。

              

                   

    


二  强化学习基本要素

强化学习五要素

Agent

Environment

State

Action

Reward

   S_t:  t 时刻 Agent 的状态

 A_t:    t 时刻 Agent 根据当前的S_t,采取的action

 R_{t+1}:  t时刻Agent 采取了action,状态更新到S_{t+1},得到的reward

 策略\pi: 在状态s 下面,agent 选择a 的概率。

      \pi(a|s),通常用Qtable 来维护.

     v_{\pi}(s):  Agent 在t时刻采取的动作A_t ,获得奖励 R_{t+1},整个过程的贡献.

     公式:V_{\pi}(s)=E_{\pi}(R_{t+1}+rR_{t+2}+r^2R_{t+3}+...|S_t=s)

      r \in [0,1]

       r=0: 为greed算法即t时刻价值仅由t+1时刻收益决定

       r>0:t时刻价值由随后每一步收益等比例决定。


三 \epsilon 贪心算法

     这是机器学习里面一种经典的算法

     
 

    参数说明:

     Q(k):  n次action 后的平均奖赏:

                 =\frac{\sum_i^n v_i}{n}

               优化方案:通过每次通过单次奖赏与前边所有次的平均奖赏来计算本次动作后的平均奖赏

                 

                =\frac{(n-1)Q_{n-1}(k)+v_n}{n}

若每个动作奖赏的不确定性较大,如概率分布较宽时,则需更多的探索,此时需要较大的ϵ值
若每个动作奖赏的不确定性较小,如概率分布较集中时,则少量的尝试就能很好地近似真实奖赏,此时需要的ϵ较小通常令ϵ取一个较小的常数,如0.1或0.01
若尝试次数非常大,则在一段时间后,奖赏都能很好地近似出来,不再需要探索,这种情形下可让ϵ随着尝试次数的增加而逐渐减小,例如 ϵ=1∕√t


四: softmax
        softmax算法是另一种对探索和利用进行这种的算法, 它基于Blotzmann分布:

公式16.4: 

其中Q(i)为当前摇臂的平均奖励,
\tau为温度:

其越小则平均奖励搞得摇臂被选取的概率越高,

趋于0时策略将趋于仅利用, 
趋于无穷大时策略则将趋于仅探索.


五 Gym

     是一个强化学习工具,里面包含很多游戏,用于验证强化学习算法

以一个乒乓球游戏为例:

   

import gym

env = gym.make('Tennis-v4', render_mode="human")
#print("观测空间: ", env.observation_space)
print("动作空间       ", env.action_space)
print("动作空间s数      ", env.action_space.n)

state = env.reset()
#print("初始状态:", state)


for i in range(5000):
    action = env.action_space.sample()
    state, reward, done,  info = env.step(action)
    print('动作:', action, '当前状态:', state, '奖励:', reward, '是否结束:', done, '日志:', info)




print("\n ----end-----")
env.close()

函数介绍:

3.1 reset: 初始化

'''
* @breif: 重置环境,回到初始状态
* @param[in]: seed	-> 随机种子
* @retval: 环境初始观测状态
'''
state = env.reset(seed=None)

3.2 make: 环境创建

'''
* @breif: 生成环境对象
* @param[in]: id            ->  启用环境的名称
* @param[in]: render_mode   ->  渲染模式
* @retval: 环境对象
'''
env = gym.make(id:str, render_mode:str)

3.3 step

   

'''
* @breif: 单步执行环境动力学过程
* @param[in]: 动作
* @retval: 四元组(当前状态, 奖励, 额外限制, 日志)
'''
state, reward, done,info = env.step(action)

  3.4 close

  

env.close()

  上面我们通过不同的Algorithm,来更新Qtable,

当学习好了Qtable,

action=np.argmax: 我们可以根据当前的state,选择一个最优的action,

 env.step(action): 根据action 来更新环境

env.render: 渲染当前的窗口

安装流程:aPytorch深度强化学习1-1:Gym安装与环境搭建教程(附基本指令表)_安装gym_Mr.Winter`的博客-CSDN博客

强化学习第一节(RL基本概念+工具+R算法)【个人知识分享】_哔哩哔哩_bilibili

第16节:强化学习RL_1.为何学习增强学习_[]_哔哩哔哩_bilibili

周志华《机器学习》“西瓜书”+“南瓜书” :第16章 强化学习

OpenAI Gym 经典控制环境介绍——CartPole(倒立摆) - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1141995.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

释放搜索潜力:基于ES(ElasticSearch)打造高效的语义搜索系统,让信息尽在掌握[2.项目讲解篇],支持Linux/Windows部署安装

搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排)、系统架构、常见问题、算法项目实战总结、技术细节以及项目实战(含码源) 专栏详细介绍:搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排)、系统架构、常见问题、算法项目实战总结、技术…

智慧矿山系统中的猴车安全监测与识别

智慧矿山是近年来兴起的一种采用人工智能(AI)技术的矿山管理方式,它通过利用智能传感设备和先进算法来实现对矿山环境和设备进行监测和管理,从而提高矿山的安全性和效率。在智慧矿山的AI算法系列中,猴车不安全行为识别…

js中HTMLCollection如何循环

//不带索引 let divCon document.getElementsByClassName("el-form-item__error"); if (divCon.length > 0) {for (var item of divCon) {console.log("打印:", item.innerText);} }//带有索引 let divCon document.getElementsByClassNam…

毅速丨增减材协同制造已逐渐成为趋势

近年来,增材制造3D打印技术的发展非常迅速,被广泛应用于航空航天、汽车、电子、医疗等许多行业。增材制造技术通过逐层增加材料的方式制造出各种复杂形状的零件,具有很高的制造效率和灵活性。 然而,在精密加工领域,增材…

如何学好C++?学习C和C++的技巧是什么?

如何学好C?学习C和C的技巧是什么? 你这三个问题,前两个都是意思是差不多的,那么怎么怎么学习C/C我来问答一下:最近很多小伙伴找我,说想要一些C资料,然后我根据自己从业十年经验,熬夜搞了几个通…

二叉树问题——对称二叉树

摘要 101. 对称二叉树 一、对称二叉树解析 1.1 递归思路分析 首先想清楚,判断对称二叉树要比较的是哪两个节点,要比较的可不是左右节点!对于二叉树是否对称,要比较的是根节点的左子树与右子树是不是相互翻转的,理解…

Map集合的遍历:键值对

package day01;import java.util.*;public class Mapday1 {public static void main(String[] args) {/* HashMap 无序 不重复&#xff0c;会覆盖前面 无索引*/System.out.println("--------------------");Map<String, Integer> map new HashMap<>();m…

如何设置模型的粗糙质感?

1、粗糙贴图的原理 粗糙贴图&#xff08;Roughness Map&#xff09;是一种用于模拟物体表面粗糙程度的贴图技术。它通过控制光线在物体表面的散射程度来实现不同粗糙度的效果。粗糙贴图通常使用灰度图像来表示不同部分的粗糙度&#xff0c;白色表示较光滑的表面&#xff0c;黑…

敏捷战略下的目标管理

1. 生而敏捷的 OKR 敏捷战略规划的周期相对较长&#xff0c;一般是以年为单位在做规划&#xff0c;通常是 3~5年。在战略规划之后&#xff0c;需要有更短周期的目标管理去做承接。现今&#xff0c; OKR 成为承接敏捷战略最好的目标管理工具。 将OKR 和战略、愿景、使命之间的关…

【网络工程师8个疑难杂症解决方案】

典型问题① 用户抱怨:整个网络变慢 网络症状:影响所有连接到网段上的工作站 查找问题:在正常的网络使用时段&#xff0c;将网络测试仪连接到集线器&#xff0c;在光纤连接的两端产生流量&#xff0c;测试每边健康状况。在某一时刻断开或接上光纤&#xff0c;每当光纤连入网段…

基于GPIO子系统编写LED驱动

编写应用程序进行测试 设置定时器&#xff0c;每5秒打印一次hello world 驱动程序 #include <linux/init.h> #include <linux/module.h> #include<linux/of.h> #include<linux/of_gpio.h> #include<linux/fs.h> #include<linux/io.h> #i…

笔记-《RabbitMQ实战指南》

目录 1.发到Mq对应的3个参数&#xff1a;Exchange(交换器)&#xff0c;RountingKey(路由键)&#xff0c;param2.队列3.Exchange(交换器)4.Binding(绑定)5.交换器类型6.Connection(连接)&#xff0c;Channel(信道)7. AMQP协议8. 判断Channel或者Connection关闭状态9. 交换器和队…

【论文解读】RLAIF基于人工智能反馈的强化学习

一、简要介绍 人类反馈强化学习(RLHF)可以有效地将大型语言模型(LLM)与人类偏好对齐&#xff0c;但收集高质量的人类偏好标签是一个关键瓶颈。论文进行了一场RLHF与来自人工智能反馈的RL的比较(RLAIF) -一种由现成的LLM代替人类标记偏好的技术&#xff0c;论文发现它们能带来相…

Spring MVC的常用注解

目录 RequestMapping 例子&#xff1a; RequestMapping 支持什么类型的请求 使 RequestMapping 只支持特定的类型 RestController 通过 HTTP 请求传递参数给后端 1.传递单个参数 注意使⽤基本类型来接收参数的情况 2.传递多个参数 3.传递对象 4.RequestParam 后端参数…

Haskell Stack编译cannot encode character ‘8226‘ 错误 (Win10)

文章目录 Haskell Stack编译cannot encode character 8226 错误解决方案 &#xff1a; 更改Windows语言和区域设置(locale setting)为支持UTF-18 Haskell Stack编译cannot encode character ‘8226’ 错误 解决方案 &#xff1a; 更改Windows语言和区域设置(locale setting)为支…

测开(自动化测试selenium(WebDriver API))

一个简单的 Web自动化 演示 百度一下 迪丽热巴。这样的一个用户行为 &#xff0c;会涉及的那些操作呢&#xff1f;1、打开浏览器 2、在输入框里面输入关键词【迪丽热巴】PS&#xff1a;当然这里可能还涉及到一个操作&#xff0c;回车执行操作。或者说&#xff1a;点击 “百度一…

vue源码分析(四)——vue 挂载($mount)的详细过程

文章目录 前言一、使用RuntimeCompiler解析$mount的原因二、$mount 解析的详细过程1.解析挂载的#app执行了vm.$mount2. 通过$mount方法执行以下文件的mount方法3. 执行util工具文件夹中的query方法4. 执行query方法后返回$mount方法判断el是否是body5. 判断!options.render&…

Spring的执行流程与Bean的生命周期

目录 一、Spring的执行流程&#xff08;生命周期&#xff09; 二、Bean的生命周期 一、Spring的执行流程&#xff08;生命周期&#xff09; 首先在Spring的执行过程中会先启动容器&#xff0c;这里是将配置文件进行加载。根据配置文件完成Bean的实例化&#xff0c;比如是配置的…

通过cpolar分享本地电脑上有趣的照片:部署piwigo网页

通过cpolar分享本地电脑上有趣的照片&#xff1a;部署piwigo网页 文章目录 通过cpolar分享本地电脑上有趣的照片&#xff1a;部署piwigo网页前言1.Piwigo2. 使用phpstudy网页运行3. 创建网站4. 开始安装Piwogo 总结 前言 作为一个游戏爱好者&#xff0c;笔者在闲暇之余也会登录…

ChatGLM系列二:ChatGLM2的介绍及代码实践

一、介绍 2023年06月25日&#xff0c;清华大学开源了 ChatGLM2-6B 模型&#xff0c;是 ChatGLM 模型的升级版本。ChatGLM2-6B 在多个方面有显著提升&#xff1a;模型性能更强&#xff0c;在各种测试集上的表现更好&#xff1b;支持更长的上下文&#xff0c;最大上下文长度提升…