09强化学习

news2025/2/20 11:12:19

强化学习有关词汇

state:对Environment的完整描述

action: 给定环境中所有有效操作的集合，通常称为动作空间

agent:执行action的模型

Environment:代理之外的所有部分。agent可以直接或间接的与之交互的一切，Agent执行操作时，Environment会发生变化；每一次这样的变化都被认为是一次state转换。Agent执行的每一个动作都会收到环境的reward。

polocoes:策略是agent用来决定采取什么action的规则，可以是确定的，也可以是随机的。目的是根据state来决定action，控制agent进行运动。

Policy function π：（s,a）——> [0 ,1]:π（a | s）= P(A=a | S = s)

在观察一种S时，根绝策略函数，Agent的A是随机的。一种强化学习的目的就是学习这个policy函数

Reward:agent从环境中接收的数值，作为对agent操作对未来局势影响的判断。也就是agent所采取action的动机。所有动作都会产生奖励。

reward可以大致分为三种：强调期望行为的积极奖励；强调代理应该偏离的行为的消极奖励；以及零奖励，这意味着代理没有做任何特殊或独特的事情

reward一般是人为定义的，reward定义的好坏可以直接影响结果。强化学习的目标就是获得max reward

state transition:状态转移具有随机性

Trajectory:序列是由代理与环境交互过程中的一系列状态和动作所组成。

Return & Discounted return（回报与折扣回报）：累计的未来的回报，

retrun: ${{\rm{U}}_t} = {{\rm{R}}_t} + {{\rm{R}}_{t + 1}} + {{\rm{R}}_{t + 2}} + {{\rm{R}}_{t + 3}} + ...$

Ut只是一个随机变量，在t时刻，并不知道它是什么，它依赖于未来所有的action和state

Discounted return: $\Upsilon$ 折扣率

${{\rm{U}}_t} = \Upsilon {{\rm{R}}_t} + {\Upsilon ^2}{{\rm{R}}_{t + 1}} + {\Upsilon ^3}{{\rm{R}}_{t + 2}} + {\Upsilon ^4}{{\rm{R}}_{t + 3}} + ...$

Action-Value Function:

Definition: Action-value function for policy π：

${Q_\pi }({s_t},{a_t}) = {\rm E}\left[ {{U_t}|{S_t} = {s_t},{A_t} = {a_t}} \right]$

Return Ut depends on actions At,At+1,At+2,…… and states St, st+1,St+2,…

Actions are random: P[A = a | S =s] = π(a | s)(Policy function.)
States are random: P[S’ = s’ |s = s,A = a]=p(s’ | s , a)(State transition.)

State-Value Function：
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/908383.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

09强化学习

强化学习有关词汇

相关文章

BarCodeWiz ActiveX Control Crack

css的常见伪元素使用

每日一题——判断是不是平衡二叉树

华为OD机试真题 Java 实现【通过软盘拷贝文件】【2023 B卷 200分】，附详细解题思路

C++的对象与类的含义

SQL 盲注

【链表篇】速刷牛客TOP101 高效刷题指南

Redis中的有序集合及其底层跳表

派森 #P122. 峰值查找

ARM体系结构学习笔记：过程调用标准AAPC、 ARM32调用约定、ARM64调用约定

交叉编译相关知识

IDEA创建Mybatis格式XML文件

数据结构 - 线性表的定义和基本操作

【AI绘画--七夕篇】：七夕特别教程，使用SDXL绘制你的心上人（Stable Diffusion）（封神榜—妲己）

cuda gdb调试

【c语言】五子棋（EasyX图形库+背景音乐）

（四）Doceke安装MySQL镜像+Docker启动MySQL容器

视频汇聚平台EasyCVR安防视频监控在地下停车场中的具体应用方案

go、java、.net、C#、nodejs、vue、react、python程序问题进群咨询

【网络基础实战之路】基于三层架构实现一个企业内网搭建的实战详解