强化学习笔记-0910 On-policy Method with Approximation

news2025/1/23 7:03:06

前几章我们所讨论的强化学习方法都是将价值函数v(s)建模为一个table形式,通过状态s来查询具体状态的价值。但是当状态-动作空间极大,且多数状态-动作并没有太大意义时,这种table查询效率是极低的。

因此本节是将价值函数建模为一个参数模型v(s|w),其中w是该价值预估模型的参数,而状态s是价值预估模型的输出,通过模型来输出该状态的价值预估。

1. supervised learning

那么如何来学习这个模型,该模型主要在于拟合状态的价值,该价值可以表示为最优动作决策下的最优收益G_\pi(s)。为了拟合这个函数,采用来监督学习的方式,定义如下学习损失The Prediction Objective (VE):

\bar{VE}(w)=\sum_s \mu (s)[G_\pi (s)-v(s|w)]^2

上式中的\mu(s)表示状态s的出现概率,满足\sum_s \mu(s)=1,假设\eta(s)表示单个episode中状态s的平均出现次数,h(s)表示状态s出现在单个episode的初始状态的概率。

\eta(s)=h(s)+\sum_{​{s}'}\eta (s')\sum_a \pi(a|s')p(s,r|s',a)

\mu(s)=\frac{\eta (s)}{\sum_{s'}\eta(s')}

2. Stochastic-gradient and Semi-gradient Methods

求解模型参数采用SGD的进行优化:

w_{t+1}=w_t - \frac{1}{2}\alpha \partial_w[G_\pi(s)-v(s|w)]^2=w_t + \alpha[G_\pi(s)-v(s|w)]\partial_w v(s|w)

上式中的G_\pi(s)表示在决策函数\pi下的状态价值,我们可以通过MC方法通过采样获得累积奖励来计算。

另一种方法是通过TD或者DP算法类似的bootstrapping方法,通过一个预估值U(s)来取代真实采样的累积收益G_\pi(s)。这种方式称为Semi-gradient Methods。

  • 动态规划:U_t(s) = \sum_{s'} [r + \gamma v(s'|w)] \sum_a \pi(a|s')p(s, r|s',a)
  • TD(0):U_t(s)=r_{t+1} + \gamma v(s_{t+1}|w)
  • TD(n):U_t(s)=\sum_{i=0}^{n-1}\gamma^{i} r_{t+i+1} + \gamma^{n} v(s_{t+n}|w)

3. Episodic Semi-gradient Control

前面讨论了如何通过模型来估计价值函数,接下来我们很容易结合GPI策略,构造value estimate、policy improve的两步强化学习过程TD(0) on-policy sarsa:

同时TD(n) on-policy sarsa可以表示为如下,可以看出其主要是将原来的table方法中的Q(s,a)值更新替换为价值预估模型中参数更新。

4. Average Reward: Continuing Tasks 

 之前在求解累积收益G_t时,引入了一个折扣因子\gamma,其主要有两部分原因:一是为了避免累积收益值不收敛,另一个是考虑到近期收益影响更大。然而当面临一个连续动作场景(没有开始状态以及最终状态)时,后者假设就是有问题的,特别是处于某种均衡的摇摆状态时,添加折扣将会丢失未来的状态信息。因此存在另一式Average Reward的方式,其也可以避免累积收益值不收敛。

首先定义决策\pi下的平均收益:

r(\pi)=\sum_s \mu_{\pi}(s)\sum_a\pi(a|s)\sum_{s'}p(s,r|s',a)r

此外定义了差分累积收益G_t

G_t=r_{t+1}-r(\pi)+r_{t+2}-r(\pi)+... = \sum_{i=1} (r_{t+i}-r(\pi))

TD(n)形式下可以定义为:

G_t=\sum_{i=1}^n(r_{t+i}-r(\pi))+v(s_{t+n}|w)

\delta_t(s_t)=G_t(s)-v(s|w)=\sum_{i=1}^n(r_{t+i}-r(\pi))+v(s_{t+n}|w)-v(s_t|w)

平均收益可以如下方式进行迭代:

r_{t+1}(\pi)=\frac{1}{t+1}\sum_i^{t+1} r_i =r_{t}(\pi) + \frac{1}{t+1}(r_t-r_{t}(\pi))\\ =r_{t}(\pi) + \beta (\sum_{i}^n[r_t - r_{t}(\pi)]+v(s_{t+n}|w)-v(s_t|w))

此时基于TD(n)的on-policy Sarsa的算法描述如下:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/643150.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

修改文件权限chown/chgrp/chmod【Linux】

文章目录 Linux当中的权限问题Linux权限的概念切换用户账号 Linux权限管理文件类型和访问权限(事物属性) Linux文件名后缀文件权限值的表示方法 文件访问权限的相关设置方法如何改变文件的访问权限如何改变文件的拥有者如何改变文件的所属组如何修改文件…

leetcode 152.乘积最大子数组

题目描述 给你一个整数数组 nums ,请你找出数组中乘积最大的非空连续子数组(该子数组中至少包含一个数字),并返回该子数组所对应的乘积。 测试用例的答案是一个 32-位 整数。 子数组 是数组的连续子序列。 来源:力扣&a…

从2PC和容错共识算法讨论zookeeper中的Create请求

大家好,我是方圆。最近在读《数据密集型应用系统设计》,其中谈到了zookeeper对容错共识算法的应用。这让我想到之前参考的zookeeper学习资料中,误将容错共识算法写成了2PC(两阶段提交协议),所以准备以此文对…

Speech | 提取语音(数据集)的语音特征合集

本文主要讲解了提取数据集的一些主要工具,以及如何使用这些工具,包含安装以及运行命令。 提取语音(数据集)的语音特征工具(Extract audio features toolkits) • openSMILE • COVAREP • ESPNet • YAAF…

Java集合框架:链表和LinkedList详解

目录 一、ArrayList的缺陷 二、链表(主要介绍不带头的非循环的 单链表 / 双链表) 注: 三、模拟链表的实现: MySingleList(单链表) MyLinkedList(双链表) 四、LinkedList的使用 …

HNU计算机体系结构-实验一:RISC-V指令理解

HNU计算机体系结构-实验一 前言1.实验目的2.实验步骤1.安装模拟器Ripes2.生成汇编指令3.思考问题1)指令add x15, x14, x152)指令bge x15 x14 -683)指令lw x15, -20 x84)指令sw x15, -20 x85)简述BranchE信号的作用6&am…

通达信筹码集中度计算公式,解决了结果不同的问题

筹码分布图基本上是国内股票交易软件的标配,一般在K线图窗口的右侧。通达信软件中,在右下角有个“筹”,点击之后就可以看到“筹码分布图”。(如下图)筹码分布图是根据一定的模型计算出的流通股票持仓成本分布情况&…

postman接口关联实战解析

在使用postman做接口测试时,有时候后面的接口需要获取前面接口的某一个返回值做为请求参数,这时就可以使用关联。 如从A接口提取出a字段的值,供B接口的b字段使用。 一个接口的返回报文如下: {"retCode": "0&quo…

【数据库原理与实践】知识点归纳(上)

第1章 数据库系统概述 (数据处理技术的发展 数据库的基本概念和特点) 一:数据、信息、知识、决策 对应:Data、Information、Knowledge、Decision 二:数据库技术的产生与发展 产生原因:数据管理任务的…

如何正确使用Postman变量?又该如何灵活设置变量?

目录 引言 理解变量 postman的变量类型 变量作用域 变量覆盖规则 创建变量 创建全局变量 创建环境变量 创建集合变量 使用变量 引言 Postman变量可以帮助你快速生成测试数据、模拟不同的场景和环境。 但是,如何正确使用Postman变量?又该如何…

Android的服务Service

Android学了太久了,都忘了。复习下四大组件之一的Service。 介绍 Android的Service是一种在后台执行长时间运行操作的组件,它可以在没有用户界面的情况下执行任务,并且可以与应用程序的其他组件进行通信。Service通常用于处理网络请求、音乐…

快速创建Django项目

环境搭建 安装Django之前需要先安装python环境和pycharm。 目前 Django 1.6.x 以上版本已经完全兼容 Python 3.x。 python安装教程:https://blog.csdn.net/David_house/article/details/100110542 项目创建 打开pycharm,选择文件–>新建项目 创建D…

MySQL操作基础

文章目录 一、Mysql的基本概念1.1数据库有哪些组成数据表数据库 1.2数据库系统和数据库管理系统1.3数据库的发展史 二、数据库的分类三、数据库的数据类型三、数据库的操作3.1查看数据库的结构3.2创建及删除数据库和表3.3管理表中的数据记录3.4修改表名和表结构 Linux操作系统&…

11.JavaWeb-Spring框架

1.Spring概念 Spring框架是一个轻量级开源的应用程序框架,用于开发Java企业级应用程序。它提供了一种综合的编程和配置模型,可以帮助开发人员构建灵活、可扩展且易于维护的应用程序。 Spring的根本使命:简化Java开发 【Spring给予了Java新生】…

文心一言 VS 讯飞星火 VS chatgpt (40)-- 算法导论5.4 4题

四、一次聚会需要邀请多少人,才能让其中 3 人的生日很可能相同? 文心一言: 为了解决这个问题,我们需要先计算出所有可能的生日组合数,然后计算出其中生日相同的组合数。 已知需要邀请的人数为:23人 根据组合数公式…

大数据开发之Hive案例篇12:HDFS rebalance 一例

文章目录 一. 问题描述二. 解决方案2.1 增加节点2.2 rebalance2.3 rebalance引发的问题 一. 问题描述 公司的离线数仓是CDH集群,19个节点,HDFS存储空间大约400TB左右,使用量在200TB左右。 由于历史遗留的问题,数据仓库需要重构&a…

将Qtcreator编译器、调试器等配置为MSVC2017/2019

目录 1. 前言 2. 工具/原料 2.1. 安装Windows下的软件开发调试器 3. 配置Qtcreator 1. 前言 安装Qt或Qtcreator时,一般选择MinGW 64-bit或MSVC编译器。对于MinGW 64-bit很简单,一般安装后会自动在Qtcreator配置好,不用费心就可以进行开发…

一种对不同类型齐格勒-尼科尔斯 P-I-D 控制器调谐算法研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

基于NIM_DUILIB_FRAMEWORK框架的网易云信demo:NIM_PC_DEMO

NIM_PC_DEMO 网易云信 PC IM Demo 是基于网易云信 PC SDK 制作的即时通讯示例程序,UI 库使用 NIM Duilib 制作。 github地址:。 1、预览 2、最低要求 CMake 3.10 或以上版本。Visual Studio 2017 或以上版本。Git。 3、开发步骤 NIM Demo 从 8.4.0 版本开始使…

selenium面试题总结

今天有同学问到seleinum面试的时候会问到的问题,随便想了想,暂时纪录一下。欢迎大家在评论中提供更多问题。 1.selenium中如何判断元素是否存在? selenium中没有提供原生的方法判断元素是否存在,一般我们可以通过定位元素异常捕获…