强化学习（赵世钰版）-学习笔记（9.策略梯度法）

强化学习（赵世钰版）-学习笔记（9.策略梯度法）

news2026/2/13 17:59:45

本章是课程的导数第二章，旨在讲解策略的函数化形式。

之前的方法，描述一个策略都是用表格的形式，每一行代表一个状态，每一列代表一个行为，表格中的元素对应相关状态下执行相关行为的概率。

函数化的策略表征形式是指，策略改用一个参数化的函数表示，这种表征方式的优点是节省存储空间，并且提升了泛化能力。

表格化与函数化的策略，有三个差异。第一是如何定义这个最优策略，表格形式的是指每个状态值都能最大化。函数形式的是指能让一个指标最大化（本质上就是优化理论）。

第二个差异是，如何获取某一状态下执行某个行为的概率。表格形式是直接查表，而函数形式是带入到方程中计算。

第三个差异是如何更新策略，表格形式是直接在表的对应位置进行修改，而函数形式则是对函数的参数进行修改。

策略梯度法的思路其实很简单，第一步是构建一个衡量最优策略的方法（类似于优化理论中的目标函数），第二步是用基于梯度的优化方法找寻最优策略。

第一种衡量指标叫状态均值（average state value）法或者均值法（average value），本质就是求状态值的期望。

这个期望中间的概率分布（即各状态值的权重）如何选择？有两大类方法。第一类是这个概率分布与策略之间相互独立，那么求梯度的时候，这个概率分布不参与求导。那么如何确定这个概率分布能，一种是采用均匀分布，一种是将第一个状态置为1，其他都为0。

第二种大类是这个概率分布与策略是相关的，那一般选择稳定分布。

第二种衡量最优策略的方法是平均单步奖励（average one-step reward）或者平均奖励（average reward），其实是求了另外一个期望。

平均单步奖励的本质，是Agent基于一个策略获得一个轨迹，计算这个轨迹每一步奖励的期望值，再做个平均。

这个平均单步奖励的方法，计算的结果与初始的状态是无关的。

下面对状态均值法和单步奖励均值法这两大类衡量方法做了一个对比：

第一个需要注意点是，两个衡量方法都是基于策略π的函数，那本质上就是基于参数的函数（将参数看做自变量，函数结果是因变量）。

第二点，通过对γ的设置，可以分为包含折扣的方法和不包含折扣的方法（即对将来的奖励值进行打折计算）。

第三点就是，两个衡量的方法是相关的（不相等，但能相互转换）。

衡量的方法确定后，就要根据衡量的方法，确定给予梯度的优化方法。

这里给出了相关的梯度计算方法。

这个是梯度方法用期望的形式展示。

这个方法为什么有用呢？第一是可以用样本去近似这个梯度值。

第二，对数求梯度这一部分，可以继续展开。

继续演算，可以得到一个期望形式的结果。

这里定义了整个策略的相关概率值生成的方法，用的就是Softmax的方法。

这里的函数可以用一个神经网络来实现，由于策略里每一个状态下的各个行为都有大于零的概率，所以该策略具有一定的随机性，模型包含了探索性。

后面是梯度上升算法（gradient ascent）找寻最优解的内容，因为最优策略是反馈值最大的策略，所以用的是梯度上升法。梯度计算部分用随机梯度替代，不知道的行为值，用采样替代。

采样估计这里，如果用的是MC方法，则这个算法就是REINFORCE算法。

REINFORCE算法的伪代码如下所示。

这里讨论了采样的方法，状态的采样没有太多要求，A的采样根据当前策略的执行时序来，所以是个On-policy方法。

第二是如何解释这个方法，在基于梯度上升的迭代法中，对表达式进行整理，加号的右边可以变成这样，α是学习率，β_t是一个时间序列上的数，但是跟梯度无关，第三部分是梯度。

β表明了迭代法前后两个数据之间的大小关系。

β的具体作用是，用于调节策略中探索与开发之间的关系。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2319132.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【c++】【STL】unordered_set 底层实现（简略版）

【c++】【STL】unordered_set 底层实现（简略版）

【c】【STL】unordered_set 底层实现（简略版） ps:这个是我自己看的不保证正确，觉得太长的后面会总结整个调用逻辑 unordered_set 内部实现 template <class _Kty, class _Hasher hash<_Kty>, class _Keyeq equal_to<_Kty>…

阅读更多...

网络安全设备配置与管理-实验4-防火墙AAA服务配置

网络安全设备配置与管理-实验4-防火墙AAA服务配置

实验4-p118防火墙AAA服务配置从这个实验开始，每一个实验都是长篇大论😓 不过有好兄弟会替我出手注意：1. gns3.exe必须以管理员身份打开，否则ping不通虚拟机。 win10虚拟机无法做本次实验，必须用学校给的虚拟机。首…

阅读更多...

【论文阅读】Contrastive Clustering Learning for Multi-Behavior Recommendation

【论文阅读】Contrastive Clustering Learning for Multi-Behavior Recommendation

论文地址：Contrastive Clustering Learning for Multi-Behavior Recommendation | ACM Transactions on Information Systems 摘要近年来，多行为推荐模型取得了显著成功。然而，许多模型未充分考虑不同行为之间的共性与差异性，以…

阅读更多...

基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）

基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）

摘要 I ABSTRACT II 第 1 章引言 1 研究背景及意义 1 研究背景 1研究意义 1 国内外研究现状 2 智慧旅游 3旅游大数据 3 研究内容 4本章小结 4 第 2 章相关技术概述 5 基于内容的推荐算法 5 基于内容的推荐算法原理 5基于内容的推荐算法实现 5 协同过滤推荐算法 6 协同过…

阅读更多...

Ubuntu 24 常用命令方法

Ubuntu 24 常用命令方法

文章目录环境说明1、账号管理1.1、启用 root 2、包管理工具 apt & dpkg2.1、apt 简介 & 阿里源配置2.2、dpkg 简介2.3、apt 和 dpkg 两者之间的关系2.4、常用命令 3、启用 ssh 服务4、防火墙5、开启远程登录6、关闭交换分区7、build-essential（编译和开发软…

阅读更多...

Flask多参数模版使用

Flask多参数模版使用

需要建立目录templates； 把建好的html文件放到templates目录里面； 约定好参数名字，单个名字可以直接使用；多参数使用字典传递； 样例： from flask import render_template # 模板 (Templates) #Flask 使用…

阅读更多...

自然语言处理｜深入解析 PEGASUS：从原理到实践

自然语言处理｜深入解析 PEGASUS：从原理到实践

一、引言在信息爆炸的时代，互联网上的文本数据以极快的速度增长。无论是新闻资讯、学术论文、社交媒体动态，还是各类报告文档，我们每天接触到的文字信息量巨大。如何快速、准确地提取关键内容成为一项重要任务。文本摘要技术通过将长篇文本…

阅读更多...

Spring AI Alibaba快速使用

Spring AI Alibaba快速使用

AI 时代，Java 程序员也需要与时俱进，这两个框架必须掌握。一个是 Spring AI一个是 Spring Alibaba AI。 Spring AI 是一个AI工程领域的应用程序框架，它的目标是将 Spring生态系统的设计原则应用于人工智能领域。但是， Spring…

阅读更多...

socks 协议介绍

socks 协议介绍

SOCKS协议详解一、基本定义与核心功能 SOCKS（Socket Secure）是一种网络传输协议，主要用于通过代理服务器转发客户端与目标服务器之间的通信请求。其核心功能包括隐藏用户真实IP地址、穿透防火墙限制以及支持多种网络协议（如TCP…

阅读更多...

Linux --centos安装显卡驱动

Linux --centos安装显卡驱动

显卡下载页面 https://www.nvidia.com/en-us/drivers/unix/ 随便下载一个即可安装过程查看当前设备的显卡信息 lspci | grep -i vga安装gcc相关依赖 yum update -y yum update gcc yum install build-essential yum install gcc-multilibdkms yum groupinstall "Dev…

阅读更多...

统信UOS中使用Vscode编程

统信UOS中使用Vscode编程

写在前面：统信UOS其实就是套壳的Linux系统，所以有问题如果搜不到解决方法，可以参考Linux下的解决方法。 1.环境配置 Vscode : 1.85.0 Vscode就直接下载安装就行，然后安装插件：Volar、中文汉化包 node：18…

阅读更多...

docker安装向量数据库Milvus及可视化工具 Attu

docker安装向量数据库Milvus及可视化工具 Attu

前置条件 1.安装了docker 2.服务器网络正常，可以连接到容器下载地址 3.服务器磁盘空间正常，docker磁盘占用过大，请参考docker容量占用过大解决办法一、下载yml文件可在文章资源下载或者自行下载：下载yml 下载这个单机版本的…

阅读更多...

DeepSeek + Kimi 自动生成 PPT

DeepSeek + Kimi 自动生成 PPT

可以先用deepseek生成ppt大纲，再把这个大纲复制到Kimi的ppt助手里： https://kimi.moonshot.cn/kimiplus/conpg18t7lagbbsfqksg 选择ppt模板： 点击生成ppt就制作好了。

阅读更多...

Apache Paimon 在抖音集团多场景中的优化实践

Apache Paimon 在抖音集团多场景中的优化实践

资料来源：火山引擎-开发者社区本文将基于抖音集团内部两大业务的典型实时数仓场景，介绍Paimon在抖音集团内部的生产实践。作者：李明、苏兴、文杰抖音集团大数据工程师目前抖音集团内部主要使用 Lambda 架构进行实时数仓建设，其…

阅读更多...

当下主流 AI 模型对比：ChatGPT、DeepSeek、Grok 及其他前沿技术

当下主流 AI 模型对比：ChatGPT、DeepSeek、Grok 及其他前沿技术

📝个人主页🌹：一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 1. 引言人工智能（AI）领域近年来取得了巨大的突破，特别是在大语言模型（LLM&#…

阅读更多...

【自用】NLP算法面经（5）

【自用】NLP算法面经（5）

一、L1、L2正则化正则化是机器学习中用于防止过拟合并提高模型泛化能力的技术。当模型过拟合时，它已经很好地学习了训练数据，甚至是训练数据中的噪声，所以可能无法在新的、未见过的数据上表现良好。比如： 其中，x1和…

阅读更多...

体育直播视频源格式解析：M3U8 vs FLV

体育直播视频源格式解析：M3U8 vs FLV

在体育直播领域，视频源的格式选择直接影响着直播的流畅度、画质以及兼容性。目前，M3U8 和 FLV 是两种最为常见的视频流格式，它们各有优劣，适用于不同的场景。本文将从技术原理、优缺点以及应用场景等方面对 M3U8 和 FLV 进行详细解…

阅读更多...

Ubuntu20.04安装并配置Pycharm2020.2.5

Ubuntu20.04安装并配置Pycharm2020.2.5

一. 下载pycharm 社区版 1. 下载地址： PyCharm: the Python IDE for data science and web developmentThe Python IDE for data science and web development with intelligent code completion, on-the-fly error checking, quick-fixes, and much more.https:/…

阅读更多...

Filter Solutions学习-02 【高级设计】界面介绍

这是高级界面的各种控件的功能。其中说一下filter type。这不是根据自己想当然决定的，而是根据实际的需要，比如带外衰减的程度，带内波动（平坦）如何，还有群时延等等决定的。比如不要求矩形系数选什么。。 …

阅读更多...

用Python实现交互式数据可视化：从基础图表到动态仪表板

用Python实现交互式数据可视化：从基础图表到动态仪表板

用Python实现交互式数据可视化：从基础图表到动态仪表板一、项目背景本文将通过一个完整的Python项目，展示如何使用Plotly和ipywidgets构建从基础统计到动态交互的全栈数据可视化方案。二、核心功能模块 1. 数据生成与预处理 np.random.seed(100)…

阅读更多...

推荐文章

最新文章