Policy-Based Reinforcement Learning（1）

Policy-Based Reinforcement Learning（1）

news2026/2/12 12:10:44

之前提到过Discount Return：

$U_t = R_t + \gamma R_{t+1} + \gamma ^2R_{t+2} + \gamma ^3 R_{t+1} + ...$

Action-value Function ：

$Q_ \pi (s_t,a_t) = E[U_t|S_t = s_t, A_t = a_t]$

State-value Function:

$V_\pi(s_t) = E_A[Q_\pi (s_t,A)]$ （这里将action A积分掉）这里如果策略函数 $\pi$ 很好， $V_\pi$ 就会很大；反之策略函数不好， $V_\pi$ 就会很小。

对于离散类型： $V_\pi (s_t) = E_A[Q_\pi (s_t,A)] = \sum_{a}^{}\pi (a|s_t) * Q_\pi (s_t, a)$

用神经网络 $\pi (a|s_t;\theta )$ 近似策略 $\pi (a|s_t)$ ，

$V_\pi (s_t;\theta ) = \sum_{a}^{}\pi (a|s_t;\theta ) * Q_\pi (s_t, a)$

即学习参数 $\theta$ ，使得 $J(\theta ) =E_S[V(S;\theta )]$ 越来越大。这里使用梯度上升的方法，对于一个可观测状态s，更新 $\theta \leftarrow \theta + \beta \frac{\partial V(s;\theta )}{\partial \theta }$

这里 $\frac{\partial V(s;\theta )}{\partial \theta }$ 称为策略梯度（Policy Gradient）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1809133.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Qt中解决编译中文乱码和编译失败的问题

Qt中解决编译中文乱码和编译失败的问题

解决方法 1.使用#pragma execution_character_set(“utf-8”) QT5中在cpp中使用#pragma execution_character_set(“utf-8”)解决中文乱码，不过这里要求该源代码必须保存成带Bom的utf-8格式，这也是有些在网上下载的代码，加上这句源代码后还…

阅读更多...

QPS，平均时延和并发数

QPS，平均时延和并发数

我们当前有两个服务A和B，想要知道哪个服务的性能更好，该用什么指标来衡量呢？ 1. 单次请求时延一种最简单的方法就是使用同一请求体同时请求两个服务，性能越好的服务时延越短，即 R T 返回结果的时刻 − 发送请求的…

阅读更多...

对猫毛过敏？怎么有效的缓解过敏症状，宠物空气净化器有用吗？

对猫毛过敏？怎么有效的缓解过敏症状，宠物空气净化器有用吗？

猫过敏是一种常见的过敏反应，由猫的皮屑、唾液或尿液中的蛋白质引起。这些蛋白质被称为过敏原，它们可以通过空气传播，被人体吸入后，会触发免疫系统的过度反应。猫过敏是宠物过敏中最常见的类型之一，对许多人来说&#…

阅读更多...

C语言学习系列：初识C语言

C语言学习系列：初识C语言

前言，C语言是什么语言，比如中文、英语、法语、德语等，是人与人交流的工具。 C语言也是语言，不过是一种特殊的语言，是人与计算机交流的工具。为什么叫C语言呢？ 这就要从C语言的历史说起了。一&#…

阅读更多...

11. MySQL 备份、恢复

11. MySQL 备份、恢复

文章目录【 1. MySQL 备份类型】【 2. 备份数据库 mysqldump 】2.1 备份单个数据表2.2 备份多个数据库2.3 备份所有数据库2.4 备份文件解析【 3. 恢复数据库 mysql 】【 4. 导出表数据 OUTFILE 】【 5. 恢复表数据 INFILE 】问题背景尽管采取了一些管理措施来保证数据库的…

阅读更多...

14. RTCP 协议

14. RTCP 协议

RTCP 协议概述 RTCP（Real-time Transport Control Protocol 或 RTP Control Protocol 或简写 RTCP），实时传输控制协议，是实时传输协议（RTP）的一个姐妹协议。注：RTP 协议和 RTP 控制协议&#…

阅读更多...

Oracle数据库连接并访问Microsoft SQL Server数据库

Oracle数据库连接并访问Microsoft SQL Server数据库

Oracle数据库连接并访问Microsoft SQL Server数据库说明： 1.实际开发中，Oracle数据库与SQLServer数据库之间可能需要相互进行访问，方便业务数据抽取，编写视图及表等操作。 2.SQLServer访问Oracle数据库配置相对较为简单&…

阅读更多...

Python数据分析与机器学习在电子商务推荐系统中的应用

Python数据分析与机器学习在电子商务推荐系统中的应用

文章目录 📑引言一、推荐系统的类型二、数据收集与预处理2.1 数据收集2.2 数据预处理三、基于内容的推荐3.1 特征提取3.2 计算相似度3.3 推荐物品四、协同过滤推荐4.1 基于用户的协同过滤4.2 基于物品的协同过滤五、混合推荐与评估推荐系统5.1 结合推荐结果5.2 评…

阅读更多...

抓包工具 HttpAnalyzerFull_V7.6.4 的下载、安装、使用

抓包工具 HttpAnalyzerFull_V7.6.4 的下载、安装、使用

目录一、简介二、下载和安装三、如何注册四、使用介绍4.1 开始、停止、清空监控内容4.2 筛选监控内容4.3 监控内容显示一、简介 Http Analyzer 是一款功能强大的数据包分析工具，它可以实时监控服务器返回的消息，支持64位Windows系统，可以同…

阅读更多...

go语言后端开发学习(三)——基于validator包实现接口校验

go语言后端开发学习(三)——基于validator包实现接口校验

前言在我们开发模块的时候,有一个问题是我们必须要去考虑的，它就是如何进行入参校验，在gin框架的博客中我就介绍过一些常见的参数校验，大家可以参考gin框架学习笔记(四) ——参数绑定与参数验证，而这个其实也不是能够完全应对我…

阅读更多...

MYSQL 索引下推 45讲

MYSQL 索引下推 45讲

刘老师群里,看到一位小友问<MYSQL 45讲>林晓斌的回答大意是一个组合索引 (a,b,c) 条件 a > 5 and a <10 and b123, 这样的情况下是如何? 林老师给的回答是 A>5 ,然后下推B123 小友问 "为什么不是先进行范围查询,然后在索引下推 b123?" 然后就…

阅读更多...

python数据分析-Matplotlib绘图实例以及金融数据分析应用

python数据分析-Matplotlib绘图实例以及金融数据分析应用

通过学习扩展库matplotlib及背后的理论知识进行数据分析和可视化，重点以案例分析为主，通过实际案例演示相关理论和Python语言的应用。读取文件countries-aggregated.csv数据，其中Date：日期, Country：国家, Confirmed…

阅读更多...

格式化后硬盘数据能恢复吗？硬盘数据恢复这样做！

格式化后硬盘数据能恢复吗？硬盘数据恢复这样做！

硬盘是电脑中必备的数据存储设备，另外还有移动硬盘。移动硬盘存储空间非常大、性价比高、便于携带，给我们带来和很多便利。但是和其他存储设备一样，各种硬盘也会出现各种问题，比如常见的格式化硬盘导致数据丢失的问题。怎么样恢复…

阅读更多...

【Linux系统化学习】网络层——IP协议

【Linux系统化学习】网络层——IP协议

目录 IP协议协议头格式两个问题网段划分 IP地址的分类 CIDR网段划分（无分类编址） 特殊的IP地址 IP地址的数量限制私有IP地址和公网IP地址路由路由表的查询 IP协议应用层、运输层上两层协议我们只考虑的是通信的双方对应层，…

阅读更多...

MQ解决的问题

MQ解决的问题

系统中MQ能解决哪些问题？ 1.不同语言的程序使用MQ通信 2.分布式，微服务，之间的通信，实现服务质检解耦 3.高并发实现销峰作用 4.实现异步，提高用户体验。

阅读更多...

Java的自动装箱和自动拆箱

Java的自动装箱和自动拆箱

自动装箱和拆箱在Java开发中的应用与注意事项在Java开发中，自动装箱（Autoboxing）和自动拆箱（Unboxing）是指基本数据类型与其对应的包装类之间的自动转换。这些特性可以使代码更加简洁和易读，但在实际项目…

阅读更多...

类和对象的学习总结（一）

类和对象的学习总结（一）

面向对象和面向过程编程初步认识 C语言是面向过程的，关注过程（分析求解问题的步骤） 例如：外卖，关注点菜，接单，送单等 C是面向对象的，关注对象，把一件事拆分成不同的对象&…

阅读更多...

机器学习笔记——支持向量机

机器学习笔记——支持向量机

支持向量机参数模型对分布需要假设（这也是与非参数模型的区别之一）间隔最大化，形式转化为凸二次规划问题最大化间隔间隔最大化是意思：对训练集有着充分大的确信度来分类训练数据，最难以分的点也有足够大的信度将…

阅读更多...

-31-（）

-31-（）

在终端运行时消除输入空格对程序的影响可以使用{在scanf后加“getchar()”或者在scanf（“空格%d”,&a）} 按位与和移位操作符只能用于整数且都要转位二进制后进行相应操作不创建临时变量，实现两个数的交换：1——使用加减法&…

阅读更多...

插卡式仪器模块：数据记录模块（插卡式）

插卡式仪器模块：数据记录模块（插卡式）

• 32 位分辨率 • 250 KSPS 采样率 • 可以同时并且连续地记录两个通道的电压输入 • 实时上传原始数据至 PC 端通道22输入阻抗电压22 kΩ10 MΩ电流0.2 Ω输入范围电压 250 mV 4.5 V电流1.5 A耦合DCDC带宽450 Hz385 HzADC 分辨率32 Bits24 Bits采样率10 kSPS250 kSPS测量…

阅读更多...

推荐文章

最新文章