强化学习p1-基本概念

news2024/12/21 12:44:55

Terminologies(名词)

状态(State)
每个时刻,环境有一个状态 (state),可以理解为对当前时刻环境的概括
状态(State) 有时也被称为观测(Observation),因为有时智能体并不能观测到环境改变后的全部,只能观测到部分。

环境(Environment)
环境 (environment) 是与智能体进行交互的对象,可以抽象地理解为交互过程中的规则或机制。

动作(Action)
动作 (action) 是智能体基于当前状态所做出的决策。

智能体(Agent)
强化学习的主体被称为智能体 (agent)。通俗地说,由谁做动作或决策,谁就是智能体。

状态空间(State Space)
状态空间 (state space) 是指所有可能存在状态的集合,记作花体字母 S。
状态空间可以是离散的,也可以是连续的。状态空间可以是有限集合,也可以是无限可数集合。

动作空间(Action Apace)
动作空间 (action space) 是指所有可能动作的集合,记作花体字母 A
动作空间可以是离散集合或连续集合,可以是有限集合或无限集合。

策略(Policy)
**策略 (policy)**根据观测到的状态,如何做出决策,即如何从动作空间中选取一个动作。
π ( a ∣ s ) = P ( A = a ∣ S = s ) π(a|s) = P(A=a|S=s) π(as)=P(A=aS=s)
强化学习的目标就是得到一个策略函数 (policy function),也叫π函数 ( function) ,在每个时刻根据观测到的状态做出决策。策略可以是确定性的,也可以是随机性的,两种都非常有用。

奖励(Reward)
奖励 (reward) 是指在智能体执行一个动作之后,环境返回给智能体的一个数值。奖励往往由我们自己来定义,奖励定义得好坏非常影响强化学习的结果。

状态转移(State transition)
状态转移 (state transition) 是指智能体从当前 t t t时刻的状态 s s s转移到下一个时刻状态为 s ′ s' s的过程
我们用状态转移概率函数 (state transition probability function) 来描述状态转移,记作
p t ( s ′ ∣ s , a ) = P ( S t + 1 ′ = s ′ ∣ S t = s , A t = a ) p_t(s'|s,a) = P(S'_{t+1}=s'|S_t=s,A_t=a) pt(ss,a)=P(St+1=sSt=s,At=a)

表示这个事件的概率: 在当前状态 s s s ,智能体执行动作 a a a,环境的状态变成 s ′ s' s
在这里插入图片描述
马尔可夫决策过程 (Markov decision process, MDP)

强化学习的数学基础和建模工具是马尔可夫决策过程 (Markov decision process,MDP)
一个 MDP 通常由状态空间、动作空间、状态转移函数、奖励函数、折扣因子等组成。

Return and Value

回报(Return)
回报 (return) 是从当前时刻开始到本回合结束的所有奖励的总和,所以回报也叫做累计奖励 (cumulative future reward)

t t t时刻的回报记作随机变量 U t U_t Ut。如果一回合游戏结束,已经观测到所有奖励,那么就把回报记作 u t u_t ut。设本回合在时刻 n n n结束。定义回报为:
U t = R t + R t + 1 + R t + 2 + R t + 3 + . . . + R n U_t = R_t+R_{t+1}+R_{t+2}+R_{t+3}+...+R_{n} Ut=Rt+Rt+1+Rt+2+Rt+3+...+Rn

回报是未来获得的奖励总和,所以智能体的目标就是让回报尽量大,越大越好。强化学习的目标就是寻找一个策略,使得回报的期望最大化。这个策略称为最优策略 (optimum policy)。

折扣回报(Discounted Return)

在 MDP 中,通常使用折扣回报 (discounted return),给未来的奖励做折扣。折扣回报的定义如下:
U t = R t + γ R t + 1 + γ 2 R t + 2 + γ 3 R t + 3 + . . . U_t = R_t+\gamma R_{t+1}+\gamma ^2R_{t+2}+\gamma ^3R_{t+3}+... Ut=Rt+γRt+1+γ2Rt+2+γ3Rt+3+...
这里的 γ ∈ [ 0 , 1 ] \gamma \in [0,1] γ[0,1]叫折扣率。对待越久远的未来,给奖励打的折扣越大。
t t t时刻当前状态 s t s_t st和策略函数 π ( a ∣ s ) \pi(a|s) π(as)选取动作 a t a_t at然后状态转移 p t ( s ′ ∣ s , a ) = P ( S t + 1 ′ = s ′ ∣ S t = s , A t = a ) p_t(s'|s,a) = P(S'_{t+1}=s'|S_t=s,A_t=a) pt(ss,a)=P(St+1=sSt=s,At=a)选取新的状态 S t + 1 ′ = s ′ S'_{t+1}=s' St+1=s
奖励 R i R_i Ri只依赖于 S i S_i Si A i A_i Ai

动作价值函数(Action-value function)
假设我们已经观测到状态 s t s_t st,而且做完决策,选中动作 a t a_t at。那么 U t U_t Ut中的随机性来自于 t + 1 t+1 t+1时刻起的所有的状态和动作: S t + 1 , A t + 1 , S t + 2 , A t + 2 , . . . , S n , A n S_{t+1},A_{t+1},S_{t+2},A_{t+2},...,S_{n},A_{n} St+1,At+1,St+2,At+2,...,Sn,An
U t U_t Ut关于变量 S t + 1 , A t + 1 , S t + 2 , A t + 2 , . . . , S n , A n S_{t+1},A_{t+1},S_{t+2},A_{t+2},...,S_{n},A_{n} St+1,At+1,St+2,At+2,...,Sn,An求条件期望,得到
Q π ( s t , a t ) = E S t + 1 , A t + 1 , S t + 2 , A t + 2 , . . . , S n , A n [ U t ∣ S t = s t , A t = a t ] Q_\pi(s_t,a_t)=E_{{S_{t+1},A_{t+1},S_{t+2},A_{t+2},...,S_{n},A_{n}}}[U_t | St=s_t,A_t=a_t] Qπ(st,at)=ESt+1,At+1,St+2,At+2,...,Sn,An[UtSt=st,At=at]
期望中的 S t = s t S_t=s_t St=st A t = a t A_t=a_t At=at是条件,意思是已经观测到 S t S_t St A t A_t At的值。条件期望的结果 Q π ( s t , a t ) Q_\pi(s_t,a_t) Qπ(st,at)被称作动作价值函数 (action-value function)。
动作价值函数 Q π ( s t , a t ) Q_\pi(s_t,a_t) Qπ(st,at)依赖于 s t s_t st a t a_t at,而不依赖于 t + 1 t+1 t+1时刻及其之后的状态和动作,因为随机变量 S t + 1 , A t + 1 , S t + 2 , A t + 2 , ⋯   , S n , A n S_{t+1},A_{t+1},S_{t+2},A_{t+2},\cdots,S_{n},A_{n} St+1,At+1,St+2,At+2,,Sn,An都被期望消除了。
作用:根据策略 π , Q π ( s , a ) \pi,Q_\pi(s,a) π,Qπ(s,a)来估计当前状态 s s s对于智能体选择动作 a a a是否明智,得到好的效果

最优动作价值函数(Optimal action-value function)

最优动作价值函数 Q ∗ ( s t , a t ) Q^*(s_t,a_t) Q(st,at)用最大化消除策略 π \pi π:
Q ∗ ( s t , a t ) = m a x π Q π ( s t , a t ) Q^*(s_t,a_t)=max_\pi Q_\pi(s_t,a_t) Q(st,at)=maxπQπ(st,at)
Q ∗ Q^* Q可以对当前状态 s s s对执行动作 a a a做评测

状态价值函数(State-value function)

状态价值函数 (state-value function):
V π ( s t ) = E A t ∼ π ( . ∣ s t ) [ Q π ( s t , A t ) ] = ∑ a ∈ A π ( a ∣ s t ) Q π ( s t , a ) V_\pi(s_t)=E_{A_{t\sim\pi(.|s_t)}}[Q_\pi(s_t,A_t)]=\sum \limits_{a\in A}\pi(a|s_t)Q_\pi(s_t,a) Vπ(st)=EAtπ(.∣st)[Qπ(st,At)]=aAπ(ast)Qπ(st,a)
公式里把动作 A t A_t At作为随机变量,然后关于 A t A_t At 求期望,把 A t A_t At消掉。得到的状态价值函数 V π ( s t ) V_\pi(s_t) Vπ(st) 只依赖于策略 π \pi π与当前状态 s t s_t st,不依赖于动作
状态价值函数 V π ( s t ) V_\pi(s_t) Vπ(st) 也是回报 U t U_t Ut 的期望: V π ( s t ) = E S t + 1 , A t + 1 , S t + 2 , A t + 2 , . . . , S n , A n [ U t ∣ S t = s t ] V_\pi(s_t) = E_{{S_{t+1},A_{t+1},S_{t+2},A_{t+2},...,S_{n},A_{n}}}[U_t | St=s_t] Vπ(st)=ESt+1,At+1,St+2,At+2,...,Sn,An[UtSt=st] 期望消掉了 U t U_t Ut 依赖的随机变量 S t + 1 , A t + 1 , S t + 2 , A t + 2 , . . . , S n , A n S_{t+1},A_{t+1},S_{t+2},A_{t+2},...,S_{n},A_{n} St+1,At+1,St+2,At+2,...,Sn,An状态价值越大,就意味着回报的期望越大。用状态价值可以衡量策略 π \pi π与状态 s t s_t st的好坏。
作用:根据策略 π , V π ( s ) \pi,V_\pi(s) π,Vπ(s)来估计当前状态 s s s是好是坏,策略 π \pi π固定,状态 s s s越好 V V V的值越大。
E s [ V π ( S ) ] E_s[V_\pi(S)] Es[Vπ(S)]来评估策略 π \pi π的效果

如何控制智能体agent的动作?
法一 策略 π ( a ∣ s ) \pi(a|s) π(as)
观察状态 s t s_t st,随机选择动作 a t ∼ π ( . ∣ s t ) a_t\sim \pi( .|s_t) atπ(.∣st)
法二 动作价值函数 Q ∗ ( s , a ) Q^*(s,a) Q(s,a)
观察状态 s t s_t st,选择最大价值的动作 a t = a r g m a x a Q ∗ ( s t , a ) a_t = argmax_aQ^*(s_t,a) at=argmaxaQ(st,a)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/505267.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机毕业论文内容参考|软件工程|网络流量异常信息分析方法研究

文章目录 导文文章重点摘要前言绪论课题背景国内外现状与趋势课题内容相关技术与方法介绍技术分析技术设计技术实现总结与展望导文 网络流量异常信息分析方法研究 文章重点 摘要 本课题针对网络安全中网络流量异常的分析方法进行研究,提出一种基于机器学习和深度学习的异常检…

OpenCV教程——处理图像像素及图像掩膜

1.像素值 像素值是图像被数字化时由计算机赋予的值,代表了图像中某一小方块(即【像素点】)的平均亮度信息。 灰度图像通常用8位表示一个像素,这样总共有256个灰度等级(像素值在0~255之间)。 …

最值得推荐的免费分区管理软件

磁盘管理是 Windows 的内置工具,用于操作硬盘上的分区,但自 Windows XP 以来直到Windowa11 该程序几乎没有变化。个人测试了五个备选方案,以了解它们之间的比较。 奇客分区 默认的分区个数根据磁盘大小?需要重新划分分区&#xf…

2023/5/8总结

JAVA基础知识(2) 1.方法 1、方法定义 格式:public static void 方法名(){ //方法体 } 2、方法调用 格式:方法名(); 3、方法的通用格式 public static 返回值类型方法名&…

Camtasia2023官方中文版免费下载

在现在的网络互联网时代,越来越多的人走上了自媒体的道路。有些自媒体人会自己在网络上录制精彩视频,也有一些人会将精彩、热门的电影剪辑出来再加上自己给它的配音,做成大家喜欢看的电影剪辑片段。相信不管大家是自己平时有独特的爱好也好、…

【机组组合】基于数据驱动的模型预测控制电力系统机组组合优化【IEEE24节点】(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

MySQL ---- 事务

事务 1、事务简介 事务是一组操作的集合,它是一个不可分割的工作单位,事务会把所有的操作作为一个整体一起向系统提交或撒销操作请求,即这些操作要么同时成功,要么同时失败。 在实际的开发过程中,一个业务操作如&am…

如何创建可引导的 ESXi USB 安装介质 (macOS, Linux, Windows)

如何创建可引导的 ESXi USB 安装介质 (macOS, Linux, Windows) 如何制作 ESXi USB 启动盘 请访问原文链接:https://sysin.org/blog/create-bootable-esxi-usb-installer/,查看最新版。原创作品,转载请保留出处。 作者主页:sysi…

第四十六章 Unity 布局(上)

学习了UI元素的使用,并不能构建出一个完整的UI界面,我们需要使用一些方法将这些UI元素按照“设计稿”的效果,将其摆放到对应的位置上。如何摆放这些UI元素,就是我们需要讲的“布局”,当然这需要借助一些布局组件来完成…

SpringBootFoundation

SpringBootFoundation 一. 项目创建1.1 创建项目1.2 并调整pom.xml1.3 创建子项目1.4 配置子项目pom1.4.1 使用`csmall-server`作为父项目 并且 添加依赖项1.5 关于聚合项目二. YAML语法的配置2.1 关于YAML语法一. 项目创建 1.1 创建项目 本项目是一个聚合项目的结构,首先,创…

clickhouse集群部署指南

一、前言: 上篇文章介绍了clickhouse单机部署指南,本章重点介绍下集群部署指南,文章重在实战,相关知识请自行学习。 二、环境准备: CentOS7 4核16G 3台(172.25.16.82、172.25.16.83、172.25.16.84) 三、安装包准备…

第三方ipad笔哪个牌子好用?ipad触控笔推荐平价

至于选择苹果原装的电容笔,还是平替的电容笔,要看个人的需求而定,比如画图用的,可以用Apple Pencil;比如学习记笔记用的,可以用平替电容笔,目前的平替电容笔无论是品质还是性能,都非…

【Linux】Linux环境下安装Jenkins(图文解说详细版)

文章目录 前言1、在根目录下创建文件夹2、下载linux jenkins3、 进入jenkins目录解压,解压命令:4、启动5、访问一下,浏览器访问:http://服务器IP:8080/ 前言 首先安装Jenkins之前,linux中必须安装好了JDK和Maven,如果…

MVI架构理解

回顾MVC MVP MVVM MVC MVC架构主要分为以下几部分: View层: 对应于xm布局文件和java代码动态view部分。 Controller层: 主要负责业务逻辑,在android中由Activity承担,但xml视图能力太弱,所以Activity既要负责视图的显示又要加入…

Node框架 【Koa】之 【静态资源管理、模板引擎、连接数据库】

文章目录 🌟前言🌟静态资源托管🌟安装🌟使用 🌟Koa视图🌟EJS模板引擎使用🌟安装🌟配置🌟使用🌟模板渲染方法🌟使用案例 🌟数据库&…

OBS直播时编码器、码率控制器、分辨率帧率是什么以及如何向第三方推流

内容摘要:OBS直播时编码器、码率控制器、分辨率、帧率到底是什么,以及OBS向第三方直播平推流时,要注意什么。 图:OBS直播时输出界面参数设定 OBS编码器 1. 软编:x264 使用CPU进行编码,占用CPU资源多&…

m3u8文件

#EXTM3U:m3u文件头,必须放在第一行,起标示作用; #EXT-X-VERSION:播放列表文件的兼容版本。若不存在此标记,则默认为协议的第一个版本; #EXT-X-MEDIA-SEQUENCE: 播放列表中的每个媒…

第1章计算机系统漫游之 “操作系统管理硬件“

7、操作系统管理硬件 回到 hello 程序的例子。当 shell 加载和运行 hello 程序时,当 hello 程序输出自己的消息时,程序没有直接访问键盘、显示器、磁盘或主存储器。取而代之的是,它们依靠操作系统提供的服务。 可以把操作系统看成是应用程序…

王琤:当数据治理遇上ChatGPT

以ChatGPT为代表的人工智能等技术正在“狂飙”,为全球带来一场翻天覆地的变革。4月27日在2023数据治理新实践峰会上,Datablau数语科技创始人&CEO王琤先生以《数据治理新实践与人工智能》为主题进行了分享,与参会同仁共同探索当数据治理遇…

APP开发的上线流程

APP的使用已经非常普及,对于企业来说通过APP可以加强和客户的沟通,展现最新的产品和服务。随着APP应用商店对用户隐私的重视,APP的上线规则比以前更加复杂,甚至出现APP需要反复修改数十次才能上架的问题,今天和大家分享…