【深度强化学习基础】(一)基本概念

news2025/3/13 4:32:34

【深度强化学习基础】(一)基本概念

一、概率论基础知识

1.随机变量
X设为随机变量,x为该随机变量的观测值
如:抛一枚硬币4次可能得到的观测值为(正面记为1,反面记为0):
x1=1,x2=0,x3=1,x4=1;

2.概率密度函数
连续概率密度函数
如高斯分布:
p ( x ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) . p(x)=\frac{1}{\sqrt{2\pi\sigma^{2}}}\exp\Big(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\Big). p(x)=2πσ2 1exp(2σ2(xμ)2).
该概率密度分布函数阐述了随机变量出现在均值附近的概率比较大,出现在远离均值处的概率较小。
在这里插入图片描述
离散型概率分布函数
X ∈ { 1 , 3 , 7 } . X\in\{1,3,7\}. X{1,3,7}.
该概率密度函数表示:x取值为1的概率为0.2,取值为3的概率为0.5,取值为7的概率是0.3,而在其他取值处的概率均为0。
在这里插入图片描述
概率密度/概率分布函数的性质:
设随机变量X的定义域为 x \text{x} x
对于连续型随机变量:
∫ x p ( x ) d x = 1 \int_x p(x) d x=1 xp(x)dx=1 把定义域内所有x的可能取值的其概率作连续积分,结果为1。
对于离散型随机变量:
∑ x ∈ X p ( x ) = 1 \sum_{x \in X} p(x)=1 xXp(x)=1

3.期望:
连续型:
E [ f ( X ) ] = ∫ x p ( x ) ⋅ f ( x ) d x \mathbb{E}[f(X)]=\int_x p(x) \cdot f(x) d x E[f(X)]=xp(x)f(x)dx
离散型:
E [ f ( X ) ] = ∑ x ∈ x p ( x ) ⋅ f ( x ) \mathbb{E}[f(X)]=\sum_{x \in x} p(x) \cdot f(x) E[f(X)]=xxp(x)f(x)

4.随机抽样

二、强化学习领域术语

在这里插入图片描述

state:
当前状态,在超级马里奥中就是当前这一时刻的马里奥状态
agent
智能体,指的是做动作的客体,在该游戏中就是马里奥
action
指的是智能体要做的动作,比如马里奥游戏中,马里奥要:向前,向上,或者向后,这样的动作
在这里插入图片描述
policy
策略函数。强化学习中用策略函数来决定智能体该状态下做什么动作(action),策略函数是一个概率密度函数,所以是完备的,即把所有的可能的action的概率加起来一定是1。
如,给定状态s,要判断该状态下采取什么动作action, π ( a ∣ s ) \pi(a \mid s) π(as)。假设各个动作的概率分别为:

  • π ( \pi( π( left ∣ s ) = 0.2 \mid s)=0.2 s)=0.2
  • π ( \pi( π( right ∣ \mid s) = 0.1 =0.1 =0.1
  • π ( up ⁡ ∣ s ) = 0.7 \pi(\operatorname{up} \mid s)=0.7 π(ups)=0.7

那么如果没有特定的策略,就是随机抽样的话,policy函数就是以这几个概率做一个随机抽样来决定这一时刻做什么动作。
reward:对每一个做的动作做一个奖励机制,这个奖励机制将很大程度上影响动作的采取。
如:
• 碰到金币: 𝑅 =+1
• 赢得游戏: 𝑅 = +10000
• 碰到Goomba: 𝑅 = −10000 (game over).
• 无事发生: 𝑅 = 0
state transition
旧状态通过一个动作转移到新状态在这里插入图片描述 p ( s ′ ∣ s , a ) = P ( S ′ = s ′ ∣ S = s , A = a ) p\left(s^{\prime} \mid s, a\right)=\mathbb{P}\left(S^{\prime}=s^{\prime} \mid S=s, A=a\right) p(ss,a)=P(S=sS=s,A=a).
agent与环境的交互方式即为:在这里插入图片描述

三、强化学习中两个随机性的来源:

1.Action
强化学习中action是随机的,是根据策略函数进行决策得到的
在这里插入图片描述

2.状态转移函数state transition
状态转移是根据当前状态,以及当前状态下智能体做出的动作,算出这个概率 p ( s ′ ∣ s , a ) p\left(s^{\prime} \mid s, a\right) p(ss,a),然后根据这个概率随机抽样下一个环境状态。所以这里也是随机的。
在这里插入图片描述
如上图,根据当前的s以及a计算出了下一个状态有两种状态,概率分别为0.8和0.2,则随机抽样产生下一个状态。
则玩这个游戏的轨迹就是:
观察当前状态 s t s_t st,选择动作 a t ∼ π ( ⋅ ∣ s t ) a_t \sim \pi\left(\cdot \mid s_t\right) atπ(st),并且执行 a t a_t at,然后环境就会根据 p ( s t + 1 ∣ s t , a ) p\left(s_{t+1} \mid s_t, a\right) p(st+1st,a)抽样产生 s t + 1 s_{t+1} st+1以及奖励 r t r_t rt.
在这里插入图片描述
{state,action,reward}轨迹为:
s 1 , a 1 , r 1 , s 2 , a 2 , r 2 , ⋯   , s n , a n , r n s_1, a_1, r_1, s_2, a_2, r_2, \cdots, s_n, a_n, r_n s1,a1,r1,s2,a2,r2,,sn,an,rn

四、rewards以及returns

Return
定义:未来累计奖励(未来的reward加和)
U t = R t + R t + 1 + R t + 2 + R t + 3 + ⋯ U_t=R_t+R_{t+1}+R_{t+2}+R_{t+3}+\cdots Ut=Rt+Rt+1+Rt+2+Rt+3+
又由于对于当前时刻来说,不是每一时刻的reward重要性都一样,是有重要性权重的:
未来的reward要比当前时刻的reward重要性低,或者说价值低。所以 R t + 1 R_{t+1} Rt+1的权重要低于 R t R_{t} Rt
Discounted return
γ \gamma γ:折扣因子
U t = R t + γ R t + 1 + γ 2 R t + 2 + γ 3 R t + 3 + ⋯ U_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\gamma^3 R_{t+3}+\cdots Ut=Rt+γRt+1+γ2Rt+2+γ3Rt+3+
reward的随机性来源
当前时刻的reward取决于做的动作action,action取决于当前时刻s,因此当前时刻的 R i R_{i} Ri取决于 S i S_{i} Si以及 A i A_{i} Ai
当前状态是随机的: S i ∼ p ( ⋅ ∣ s i − 1 , a i − 1 ) S_i \sim p\left(\cdot \mid s_{i-1}, \quad a_{i-1}\right) Sip(si1,ai1)
当前的动作也是随机的: A i ∼ π ( ⋅ ∣ s i ) A_i \sim \pi\left(\cdot \mid s_i\right) Aiπ(si)
因此当前时刻的reward R i R_{i} Ri也是随机的。
而当前时刻的return U t U_{t} Ut取决于 R t R t + 1 ⋯ R n R_t R_{t+1} \cdots R_{n} RtRt+1Rn
所以 U t U_{t} Ut取决于 S t , A t , S t + 1 , A t + 1 , ⋯   , S n , A n S_t, A_t, \quad S_{t+1}, A_{t+1}, \cdots, \quad S_n, A_n St,At,St+1,At+1,,Sn,An
在这里插入图片描述

五、Value Functions

1.Action-Value Function Q π ( s , a ) Q_\pi(s,a) Qπ(s,a)

U t U_t Ut在当前时刻就是一个随机变量,那么如何评价当前时刻的情况呢,求期望可以解决。
Q π ( s t , a t ) = E [ U t ∣ S t = s t , A t = a t ] Q_\pi\left(s_t, a_t\right)=\mathbb{E}\left[U_t \mid S_t=s_t, A_t=a_t\right] Qπ(st,at)=E[UtSt=st,At=at]
求期望把里面的随机性通过积分积掉,可以得到一个实数。
使用:
S i ∼ p ( ⋅ ∣ s i − 1 , a i − 1 ) S_i \sim p\left(\cdot \mid s_{i-1}, \quad a_{i-1}\right) Sip(si1,ai1)
A i ∼ π ( ⋅ ∣ s i ) A_i \sim \pi\left(\cdot \mid s_i\right) Aiπ(si)
两个函数,把未来的动作以及状态通过积分积掉,得到的是只取决于当前状态以及当前动作的观测 Q π ( s , a ) Q_\pi(s,a) Qπ(s,a),但是该函数还与policy函数 π \pi π有关,因为求积分的时候会用到policy函数,如果 π \pi π不一样,求出的期望 Q π ( s , a ) Q_\pi(s,a) Qπ(s,a)也不一样。
Q π ( s , a ) Q_\pi(s,a) Qπ(s,a)函数的意义在于:告诉我们用policy函数 π \pi π的时候,在当前状态st下,做动作at是好还是不好。
最优动作价值函数:
Q ⋆ ( s t , a t ) = max ⁡ π Q π ( s t , a t ) Q^{\star}\left(s_t, a_t\right)=\max _\pi Q_\pi\left(s_t, a_t\right) Q(st,at)=maxπQπ(st,at)

1.State-Value Function V π ( s ) V_\pi(s) Vπ(s)

Q π ( s , a ) Q_\pi(s,a) Qπ(s,a)中的动作求积分,把动作积掉,变量就只剩下状态s
V π ( s t ) = E A [ Q π ( s t , A ) ] = ∑ a π ( a ∣ s t ) ⋅ Q π ( s t , a ) . V_\pi\left(s_t\right)=\mathbb{E}_A\left[Q_\pi\left(s_t, A\right)\right]=\sum_a \pi\left(a \mid s_t\right) \cdot Q_\pi\left(s_t, a\right) . \quad Vπ(st)=EA[Qπ(st,A)]=aπ(ast)Qπ(st,a). (Actions are discrete.)

V π ( s t ) = E A [ Q π ( s t , A ) ] = ∫ π ( a ∣ s t ) ⋅ Q π ( s t , a ) d a ⋅ V_\pi\left(s_t\right)=\mathbb{E}_A\left[Q_\pi\left(s_t, A\right)\right]=\int \pi\left(a \mid s_t\right) \cdot Q_\pi\left(s_t, a\right) d a \cdot Vπ(st)=EA[Qπ(st,A)]=π(ast)Qπ(st,a)da (Actions are continuous.)
对于固定的policy函数 π \pi π V π ( s ) V_\pi(s) Vπ(s)可以评估出当前状态的好坏。
使用不同的 π \pi π函数,求得不同的 V π ( s ) V_\pi(s) Vπ(s),然后通过对 V π ( s ) V_\pi(s) Vπ(s)求均值 E s [ V π ( s ) ] E_s[V_\pi(s)] Es[Vπ(s)]还可以表现出这个 π \pi π函数是否好。可以用来评估 π \pi π函数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2191076.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Yolov8改进WIoU,SIoU,EIoU,α-IoU

1,IOU原理部分 IoU(Intersection over Union)是一种在计算机视觉领域常用的性能评估指标,尤其在目标检测和图像分割任务中。它通过计算预测边界框(预测框)与真实边界框(真实框)之间的交集面积与并集面积之比来衡量预测的准确性。IoU的值越接近1,表示预测框与真实框的重…

Error while loading conda entry point: conda-libmamba-solver

问题 解决方法 conda install --solverclassic conda-forge::conda-libmamba-solver conda-forge::libmamba conda-forge::libmambapy conda-forge::libarchive

C0015.Clion中开发C++时,连接Mysql数据库方法

安装mysql数据库 CMakeLists.txt中配置mysql数据库 # 先指定mysql数据库的安装位置 include_directories("C:/Program Files/MySQL/MySQL Server 8.0/include") link_directories("C:/Program Files/MySQL/MySQL Server 8.0/lib") link_libraries(libmysq…

Python | 使用Seaborn绘制KDE核密度估计曲线

核密度估计(KDE)图,一种可视化技术,提供连续变量概率密度的详细视图。在本文中,我们将使用Iris Dataset和KDE Plot来可视化数据集。 什么是KDE图? KDE图,全称核密度估计图(Kernel Density Est…

智慧农业案例 (二)- 智能化灌溉系统

橙蜂智能公司致力于提供先进的人工智能和物联网解决方案,帮助企业优化运营并实现技术潜能。公司主要服务包括AI数字人、AI翻译、领域知识库、大模型服务等。其核心价值观为创新、客户至上、质量、合作和可持续发展。 橙蜂智农的智慧农业产品涵盖了多方面的功能&…

回归预测|基于哈里斯鹰优化最小二乘支持向量机的数据回归预测Matlab程序HHO-LSSVM 多特征输入单输出含基础程序

回归预测|基于哈里斯鹰优化最小二乘支持向量机的数据回归预测Matlab程序HHO-LSSVM 多特征输入单输出含基础程序 文章目录 一、基本原理一、基本原理二、HHO-LSSVM的流程三、优缺点四、应用场景 二、实验结果三、核心代码四、代码获取五、总结 一、基本原理 HHO-LSSVM回归预测结…

校园资源共享新方案:基于SpringBoot的实现

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多学生、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常适…

Vue之父尤雨溪成立VoidZero公告,已获得 460 万美元种子轮融资

VoidZero Inc. 创立公告 摘要: 我创立了 VoidZero Inc.,这是一家致力于构建开源、高性能、统一的开发工具链,服务于 JavaScript 生态系统的公司。我们已获得 Accel 领投的 460 万美元种子轮融资。 十五年前,当我开始使用 JavaSc…

哈尔滨自闭症学校寄宿条件与优势解析

自闭症儿童的希望之光:广州星贝育园寄宿制学校深度解析 在当今社会,自闭症儿童作为一群需要特别关注和照顾的群体,其教育与康复问题日益受到社会各界的重视。自闭症儿童不仅需要专业的康复训练,还需要一个稳定、温馨且充满爱的环…

UE5 小地图的基础方法

图片小地图,场景空间映射UI坐标 场景截图,创建UI,添加截图,映射坐标,以第三人称模版为例

银行数字化转型导师坚鹏:2025年银行开门红蓄客方法及案例

2025年银行开门红蓄客方法及案例 课程背景: 面对即将打响的开门红战役,很多银行存在以下问题: 不知道银行开门红蓄客方法? 不知道银行开门红蓄客难题? 不知道银行开门红蓄客案例? 课程特色&#x…

《黑神话:悟空》2D像素版 支持PC+安卓版附下载链接

黑神话:悟空被B站火圣哥哥做成了一款2D像素风格的游戏!是不是光听到这个想法就觉得很酷?接下来,我带你们一起走进他的创作世界,看看他是如何一步步实现这个脑洞大开的创意的。相信你们一定会被他的巧思与坚持所打动。 …

职场中的10个“人情世故”,随处可见

职场上,“现实”是主基调。如果不通#人情世故#,可能举步维坚。很多时候,人情世故并不是什么高深的学问,就是在点点滴滴间,只要稍加注意,就能学通。下面这10条,是职场很常见的人情世故。 1、登门…

计算机的错误计算(一百一十三)

摘要 用错数分析计算机的错误计算(一百一十二)中错误计算的原因。 计算机的错误计算(一百一十二)中的迭代为 对于 , Excel 与 LibreOffice 的输出均是错误结果,均没有1位正确有效数字。另外,其文献[1]中也…

Android高级控件

文章目录 1.下拉列表Spinner1.数组适配器ArrayAdapter2.简单适配器SimpleAdapter3.基本适配器BaseAdapter 2.列表视图ListView3.网格视图GridView4.翻页视图ViewPager5.翻页标签栏pagerTabStrip6.ViewPager实现引导页7.碎片Fragment1.Fragment静态注册2.Fragment生命周期3.Frag…

国内的无人机行业的现状和前景分析

近年来,随着科技的飞速发展,无人机(Unmanned Aerial Vehicle, UAV)作为战略性新兴产业的重要组成部分,在全球范围内迅速崛起。无人机利用无线电遥控设备和自备的程序控制装置操纵,实现不载人飞行&#xff0…

COMP 9517 Computer Vision week3

目录 特征表示图像特征概念(image feature)图像特征应该具备的属性 图像特征种类颜色特征颜色直方图(Color Histogram)颜色矩(Colour moments) 纹理特征(texture features)Haralick特征局部二值模式(Local Binary Patterns, LBP)尺度不变特征变换SIFT(Scale-invariant feature …

Python酷库之旅-第三方库Pandas(133)

目录 一、用法精讲 596、pandas.DataFrame.plot.density方法 596-1、语法 596-2、参数 596-3、功能 596-4、返回值 596-5、说明 596-6、用法 596-6-1、数据准备 596-6-2、代码示例 596-6-3、结果输出 597、pandas.DataFrame.plot.hexbin方法 597-1、语法 597-2、…

如何向文科生解释什么是计算机的缓存

缓存(Cache)是计算机系统中的一个至关重要的技术概念,用于提高数据访问的速度。我们可以把缓存想象成一个临时的存储区域,它存放着系统中常用或最近使用的数据,以便快速访问,而不必每次都从速度较慢的原始数…

HTB:Synced[WriteUP]

目录 连接至HTB服务器并启动靶机 1.What is the default port for rsync? 2.How many TCP ports are open on the remote host? 3.What is the protocol version used by rsync on the remote machine? 4.What is the most common command name on Linux to interact w…