【强化学习基础】强化学习的基本概念:状态、动作、智能体、策略、奖励、状态转移、轨迹、回报、价值函数

news2025/4/9 17:40:43

文章目录

  • 1.状态(State)
  • 2.动作(Action)
  • 3.智能体(Agent)
  • 4.策略(Policy)
  • 5.奖励(Reward)
  • 6.状态转移(State transition)
  • 7.智能体与环境交互(Interacts with the environment)
  • 8.强化学习随机性的两个来源(Randomness in RL)
    • 8.1.动作具有随机性(Actions have randomness)
    • 8.2.状态转移具有随机性(State transition have randomness)
  • 9.轨迹(Trajectory)
  • 10.回报(Return)和折扣回报(Discounted return)
  • 11.价值函数(Value Function)
    • 11.1.动作价值函数(Action-Value Function)
    • 11.2.状态价值函数(State-Value Function)

1.状态(State)

超级玛丽游戏中,观测到的这一帧画面就是一个 状态(State)
在这里插入图片描述

2.动作(Action)

玛丽做的动作:向左、向右、向上即为 动作(Action)
在这里插入图片描述

3.智能体(Agent)

动作是由谁做的,谁就是 智能体(Agent)。自动驾驶中,汽车就是智能体;机器人控制中,机器人就是智能体;超级玛丽游戏中,玛丽就是智能体。

4.策略(Policy)

策略( Policy π \pi π的含义就是,根据观测到的状态,做出动作的方案, π ( a ∣ s ) \pi(a|s) π(as) 的含义是在状态 s s s 是采取动作 a a a 的概率密度函数PDF。
在这里插入图片描述

5.奖励(Reward)

强化学习的目标就是尽可能的获得更多的 奖励(Reward)
在这里插入图片描述

6.状态转移(State transition)

当智能体做出一个动作,状态会发生变化(从旧的状态变成新的状态)。我们就可以说状态发生的转移。状态转移可以是确定的,也可以是随机的。
在这里插入图片描述
状态转移函数 p ( s ′ ∣ s , a ) p(s' | s, a) p(ss,a) 的公式:

p ( s ′ ∣ s , a ) = P ( S ′ = s ′ ∣ S = s , A = a ) p(s' | s, a)=\mathbb{P}(S' = s' | S=s, A=a) p(ss,a)=P(S=sS=s,A=a)

含义为: p ( s ′ ∣ s , a ) p(s' | s, a) p(ss,a) 表示在状态 s s s 时,采取动作 a a a ,跳转到新的状态 s ′ s' s 的概率。

7.智能体与环境交互(Interacts with the environment)

步骤一: 智能体观测到环境的状态 s t s_t st,然后做出动作 a t a_t at
在这里插入图片描述
步骤二: 由于智能体做出了动作 a t a_t at,环境的状态发生了变化,变成了 s t + 1 s_{t+1} st+1;同时由于智能体做出的动作 a t a_t at, 获得了一个奖励 r t r_t rt
在这里插入图片描述

8.强化学习随机性的两个来源(Randomness in RL)

8.1.动作具有随机性(Actions have randomness)

在这里插入图片描述
假定当前状态为 s s s,采取的动作 a a a 具有随机性,可能采取向左的动作,可能采取向右的动作,可能采取向上的动作。

8.2.状态转移具有随机性(State transition have randomness)

在这里插入图片描述
假定当前状态为 s s s,采取的动作为 a a a,环境会跳转到下一个状态 s ′ s' s。状态从 s s s s ′ s' s 的转移具有随机性。

9.轨迹(Trajectory)

由状态 s t a t e state state 、动作 a c t i o n action action 、奖励 r e w a r d reward reward 组成的一个序列,成为轨迹(trajectory)。
在这里插入图片描述

10.回报(Return)和折扣回报(Discounted return)

回报: 指未来的累计奖励。从t时刻的开始一直到游戏结束,把未来的奖励加起来称之为回报。注意:由于t时刻游戏还没有结束, R t 、 R t + 1 、 R t + 2 R_t、R_{t+1}、R_{t+2} RtRt+1Rt+2 等奖励, 都是随机变量,不是具体的数值。

在这里插入图片描述
折扣率: γ \gamma γ
折扣回报: 带折扣率的回报。

为什么回报具有随机性?

  • 1)动作是随机的(状态为 s s s 时,采取的动作 a a a 具有随机性):
    P = [ A = a ∣ S = s ] = π ( a ∣ s ) \mathbb{P}=[A=a | S=s] = \pi(a|s) P=[A=aS=s]=π(as)

  • 2)状态转移是随机的(状态 s s s 时采取了动作 a a a ,跳转到下一个状态 s ′ s' s ,从状态 s s s 到 状态 s ′ s' s 具有随机性):
    P = [ S ′ = s ′ ∣ S = s , A = a ] = p ( s ′ ∣ s , a ) \mathbb{P}=[S' = s'| S=s, A=a] =p(s'|s, a) P=[S=sS=s,A=a]=p(ss,a)

因此,对于任意时刻 i ≥ t i≥t it,奖励 R i R_i Ri 取决于 状态 S i S_i Si 和动作 A i A_i Ai

所以,回报 U t U_t Ut 取决于状态 S i 、 S i + 1 、 S i + 2 、 S i + 3 … S_i、S_{i+1}、S_{i+2}、S_{i+3}… SiSi+1Si+2Si+3 和动作 A i 、 A i + 1 、 A i + 2 、 A i + 3 … A_i、A_{i+1}、A_{i+2}、A_{i+3}… AiAi+1Ai+2Ai+3

11.价值函数(Value Function)

11.1.动作价值函数(Action-Value Function)

在这里插入图片描述

如何评估随机变量的好坏? ==> 求期望

动作价值函数: Q π ( s , a ) = E [ U t ∣ S t = s t , A t = a t ] Q_\pi(s,a) = \mathbb{E}[ U_t | S_t = s_t, A_t = a_t ] Qπ(s,a)=E[UtSt=st,At=at] ,与状态 S S S 有关,与动作 A A A 有关,同时也与策略 π \pi π 有关。

最优动作价值函数: Q ∗ ( s , a ) = max ⁡ π Q π ( s , a ) Q^*(s,a) = \max_{\pi}Q_\pi(s,a) Q(s,a)=maxπQπ(s,a) , 策略 π \pi π 有无数种,我们要选择一个能让 Q π ( s , a ) Q_\pi(s,a) Qπ(s,a) 最大化的策略 π \pi π

11.2.状态价值函数(State-Value Function)

在这里插入图片描述

状态价值函数: V π ( s t ) = E A [ Q π ( s t , A ) ] V_\pi(s_t) = \mathbb{E}_A[ Q_{\pi}(s_t, A)] Vπ(st)=EA[Qπ(st,A)] ,利用求期望的方式可以把动作 A A A 去掉,因此状态价值函数只与状态 S S S 和策略 π \pi π 有关。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/105122.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高效率的Python开发工具——PyCharm v2022.3正式发布

JetBrains PyCharm是一种Python IDE,其带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具。此外,该IDE提供了一些高级功能,以用于Django框架下的专业Web开发。 PyCharm v2022.3官方正式版下载(q技术交流:786598704)…

wireshark抓包数据提取TCP/UDP/RTP负载数据方法

wireshark抓包数据提取TCP_UDP_RTP负载数据方法 文章目录wireshark抓包数据提取TCP_UDP_RTP负载数据方法1 背景2 TCP和UDP负载提取方式3 RTP负载提取方式1 背景 在视频抓包分析过程中,有时候需要从TCP、UDP、RTP中直接提取payload数据,比如较老的摄像机…

微课堂助力在线教育招生引流方式_付费视频系统搭建对在线教育的作用

一、借助优惠码线上线下推广课程 1、线下发传单: 机构先在我们后台创建对应课程的通用优惠码,然后再制作课程传单介绍页。传单上显示出对应课程的通用优惠码,线下派发传单给到用户。 2、线下刮刮卡片推广:将私有码制作成卡片配合…

SVM(二)对偶问题转化以及求解

上篇: SVM(支持向量机)(一)基本形式推导 凸优化 考虑如下优化问题: 应用拉格朗日乘子法: 定义拉格朗日对偶函数G\mathcal{G}G,这里 infinfinf 是上确界(集合的最小上…

超标量处理器设计——第十章_提交

参考《超标量处理器》姚永斌著 文章目录超标量处理器设计——第十章_提交10.1 概述10.2 重排序缓存10.2.1 一般结构10.2.2 端口需求10.3 管理处理器的状态10.3.1 使用ROB管理指令集定义的状态10.3.2 使用物理寄存器管理指令集定义的状态10.4 特殊情况处理10.4.1 分支预测失败的…

【微服务】Nacos ⼀致性协议

目录 一、为什么 Nacos 需要⼀致性协议 二、为什么 Nacos 选择了 Raft 以及 Distro 1、从服务注册发现来看 2、从配置管理来看 3、为什么是 Raft 和 Distro 呢 三、早期的 Nacos ⼀致性协议 四、当前 Nacos 的⼀致性协议层 💖 Spring家族及微服务系列文章 …

【关于时间序列的ML】项目 2 :使用机器学习预测股票价格

🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞…

5G无线技术基础自学系列 | RF优化流程

素材来源:《5G无线网络规划与优化》 一边学习一边整理内容,并与大家分享,侵权即删,谢谢支持! 附上汇总贴:5G无线技术基础自学系列 | 汇总_COCOgsta的博客-CSDN博客 在介绍完了RF优化的思路和措施之后&…

【Linux 软件包管理器 yum】

While there is life there is hope. 目录 1 什么是软件包 2 关于 rzsz 3 注意事项 4 查看软件包 5 如何安装软件 6 如何卸载软件 总结 1 什么是软件包 在Linux下安装软件, 一个通常的办法是下载到程序的源代码, 并进行编译, 得到可执行程序. 但是这样太麻烦了, 于是有些人…

[译] 来了解一下 Island Architecture 孤岛架构

建立一个网站有不同的方法,其中之一便是多页应用程序(MPA),它大约在十年前就过时了,现在又重新流行起来。MPA已经被Angular和React以及其他现代框架所普及的单页应用(SPA)方法所取代。 由于应用软件迭代趋势的运作方式,方法/工具…

异步任务如何测试?

总是能收到这样的问题: 异步任务如何测试?异步的接口如何测试?可以通过自动化来保证异步任务是否执行了吗?能否保证执行是否成功? 收到这样的问题,其实大家的问题都是通用的,那么正好整理下我…

毫无基础的人如何入门 Python ?

Python 我也是从零开始自学的,因为工作的原因,我需要 python 做很多数据抓取的工作。我把自己的学习的感想,做了一下总结,阅读到最后,一定会有惊喜。 首选,我不会一下子,给你推荐一堆视频课程&…

从git上新拉下来的vue项目,没有node_modules依赖,npm install报错,node-sass报错

因为没有node_modules依赖,我直接 1.npm install,但是报错: 2.npm install --force报错 3.npm audit fix --force报错 4.npm install --legacy-peer-deps报错 5.npm install --registry https://registry.npm.taobao.org 直接安装淘宝镜像也…

一名智能驾驶产品经理的自我修养

已剪辑自: https://mp.weixin.qq.com/s/fCSO7hmP3FP-Xat-NyFG0A 随着智能驾驶浪潮的兴起,市场上产生了对相关人才的大量需求,也诞生了一些传统汽车行业所没有的新兴岗位。其中,智驾产品经理,作为一个典型的、互联网与汽车行业深度…

应用反演工程对四层减反膜进行分析

有很多的过程可以被称之为反演工程,但在Essential Macleod中,该术语的意思是用来识别理想设计的和实际生产尝试之间的差异。该功能大致可以概括为“出了什么问题”。这一过程类似于优化,在优化过程中,将初始设计进行优化&#xff…

软饭硬吃,因为“测试能力单一”面试多次被拒,给跳槽的各位测试人员提个醒

最近公司有几位同事打算离职出去看看其他机会,几轮面试下来感觉很好,最终却没有收到几家offer。这几位同事都有好几年工作经验,测试经验丰富,也参与过大型项目的测试,在测试用例设计、测试流程把控、测试执行等方面做得…

汇富纳米冲刺创业板:拟募资6.25亿 王跃林堂叔侄控制近50%股权

雷递网 雷建平 12月20日湖北汇富纳米材料股份有限公司(简称:“汇富纳米”)日前递交招股书,准备在深交所创业板上市。汇富纳米计划募资6.25亿元,其中,3.5亿元用于2万吨/年气相法纳米粉体材料项目&#xff0c…

[前端攻坚]:如何优雅的用function实现一个class

使用function来写出一个class的类对于我们来说当然是简单的,但必须注意的是,要做好function实现一个class,那么就要必须实现达到高精准度的模仿,把该实现的细节都实现好,才能更好的对class进行深入的理解 废话少说&…

js逆向-无限debugger的原理与绕过

js逆向-无限debugger的原理与绕过 debugger是JavaScript中定义的一个专门用于断点调试的关键字,只要遇到他,JavaScritp的执行便会在此处中断,进入调试模式。 有了debugger这个关键字,我们就可以非常方便地对JavaScript代码进行调试,比如使用JavaScript Hook时,我们可以…

想用python拿大厂offer?那这个一定是你需要的

想用python拿大厂offer?那这个一定是你需要的 python,是一种解释型(高级)的,面向对象的,带有动态语义的高级程序设计的开源语言。1989年,Guido von Rossum(荷兰人)人称龟…