强化学习的数学原理:贝尔曼公式

news2024/11/18 3:39:11

大纲

这一节课程的大纲:

在这里插入图片描述

重点

对于这次课,重点是两个东西:

在这里插入图片描述

Motivating examples(为什么需要贝尔曼公式)

首先要明白,为什么 return 是重要的?

在这里插入图片描述

之前其实就说过,return 能够帮助我们评价一个策略是好还是坏,因此 return 的概念是非常重要的。

对于上图中的三种不同的策略,我们能够得到各个策略下所得到的 return 值:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

此时我们比较一下三个 return :

在这里插入图片描述

刚刚我们计算 return 使用的是 return 的本质定义,但实际上我们有更好的方法,来看下面的例子:

在这里插入图片描述

可以看见共有四个状态,然后每个状态 s 都有对应的策略(绿色箭头)和其对应的 return 值。

方法一就是使用我们刚刚的方式,也就是从定义出发,我们计算 return 的方式如下,引入 vi 用以表示 return 值:

在这里插入图片描述

而方法二就有意思多了:

在这里插入图片描述

从上式可以看出,从不同状态出发得到的 return,它是依赖于从其它状态出发所得到的 return 的,而这个 idea 在强化学习当中被称为 Bootsstrapping。

Bootsstrapping在不同的历史阶段有不同的含义,但现在的含义大概是表示 从自己出发然后去不断地迭代所得到的一些结果。
在这里插入图片描述
Bootstrapping使得强化学习算法能够在不完全依赖真实回报的情况下进行价值函数的更新,从而提高了算法的效率和灵活性。
然而,Bootstrapping也可能引入误差,因为价值函数的更新是基于之前的估计值,如果这些估计值本身就存在误差,那么误差可能会累积并影响算法的性能。

但此时有一个问题,我们要求解的就是 v,但居然还要事先知道 v?这怎么可能呢?

然而从数学的角度上看,是可以解决的。

在这里插入图片描述

注意:上图左侧中的关于 γv 这个矩阵的形式并不是顺序的v1、v2、v3、v4,因此我们需要使用一个矩阵(上图右侧的形式)来对其进行变换,变换后的结果就是顺序的了。

这个过程可以数学化为上图中的公式。

这个公式解也很容易解,只要具备一点线性代数的知识就能够求解,我们将 γPv 移动左边,然提出相同项 v,将(1-γP)求逆放到右边式子就可以进行求解了(γ、r 以及 P 我们都是已知的)。

而所得到的这个公式,就是我们本节课要提到的 贝尔曼公式:

在这里插入图片描述

但是这个贝尔曼公式是针对非常简单的、特别是 deterministic (确定性的过程)的一个情况,后面会介绍更加泛化的贝尔曼公式。

State value(什么是状态价值)

在介绍概念之前,需要先引入一些符号:

在这里插入图片描述

上图是一个简单的单步过程,St 表示当前状态,在当前状态下采取 At 的动作后得到的下一个 reward 就是 R(t+1),然后状态也跳转到了 S(t+1) 。

值得注意的是,有时候 R(t+1) 也会写成 Rt,从数学上来说没有什么本质区别,只是一个习惯问题,一般都是 R(t+1)。

另外在这个转换过程当中,所有的这些跳跃,它们都是由条件概率来决定的:

在这里插入图片描述

对于这样的单步过程如果连续起来,就成了多步的过程,也就形成了之前所说的 trajectory 的概念:

在这里插入图片描述

对于上图这样的 trajectory,我们当然可以对其求 discounted return,使用 G(t) 来表示。

有了这些准备,那么我们现在可以正式开始定义 State value 了:

在这里插入图片描述

State value 就是 G(t) 的 expectation 期望值,或者也可以叫 expected value 或者叫 mean,或者叫 average ,它们实际上都代表同一个意思,就是平均值。

,“期望”(expectation)通常指的是数学上的期望值,即随机变量的平均值或者是在概率分布下的加权平均
期望一直是定量,它与总体的均值相等。但是均值可以是变量,因为取不同样本的时候均值可以不同。

实际上 State value 的全程是 State value function,我们使用 VΠ(s) 来代替 state value,其数学定义就是对 Gt 求 expectation 。但注意这是一个 条件期望,也就是当前的状态应该取一个具体的值 s。

return 和 state value 的联系

那么 return 和 state value 有什么区别和联系呢?

其实非常简单,return 是针对单个 trajectory 所求的,而 state value 则是对多个 trajectory 所求得的 return 和后再求平均值之后的结果。

如果从一个状态出发有可能得到多个 trajectory,这时候 return 和 state value 显然是有区别的;但是如果从一个状态出发一切都是确定性的,那么只能够得到一条 trajectory,那这时候从该状态出发所得到的 return 和 state value 就是一样的。

Bellman equation(贝尔曼公式)

贝尔曼公式推导

在这里插入图片描述

刚刚我们已经知道了 state value 是非常重要的,但是怎么计算 state value 呢?

贝尔曼公式就是用来计算 state value 的,其用一句话来阐述就是:它描述了不同状态的 state value 之间的关系。

接下来我们来推到 贝尔曼公式:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

dynamic model 也称为 environment model,这又分为两种情况,一种是我们知道这个 model 进行求解(在本节以及下面几节课都是基于已知 model 的),还有一种是不知道 model,即使不知道 model 我们仍可以求出来 state value,这又被称为 model-free 的强化学习算法(这将在未来的课程当中介绍)。

接下来举一个例子来深入理解一下这个 贝尔曼公式:

我们考虑这样一个例子,在下图中我们由一个策略 Π(绿色箭头),我们要做的就是把这个问题当中所有的贝尔曼公式全部写出来:

在这里插入图片描述

说白了就是确定对于 s1 这个状态来说,其贝尔曼公式中各个概率项需要分析并且确定出来。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

当我们计算出来 state value 之后,下一步实际上就可以去改进这个策略,这样慢慢地我们就可以得到最优的策略。

另一个例子:

在这里插入图片描述

在这里插入图片描述

贝尔曼公式:矩阵向量形式

在这里插入图片描述

之前说过,对于 n 个 state 那么就会有 n 个这样的贝尔曼公式。那么把所有的这些公式放在一起就能得到一组,这一组就可以整理成矩阵向量的形式,进而完成 贝尔曼公式 中对 state value 的求解。

如何得到这些公式的 矩阵向量形式:

在这里插入图片描述

在这里插入图片描述

举个例子来看一下,当有 4 个状态时所得到的 矩阵向量 形式如何:

在这里插入图片描述

另一个例子:

在这里插入图片描述

贝尔曼公式:求解 state values

首先回答一个问题,为什么需要求解 state value?

实际上给定一个 policy,然后我们会列出其贝尔曼公式,再进一步求解这个贝尔曼公式得到 state value。这么一个过程称为:policy evaluation。

在这里插入图片描述

policy evaluation 是 RL 中非常关键的一个问题,是非常基础的一个工具,只有能够去评价一个策略是好还是不好我们才能够去改进它最后才能找到最优策略。

因此求解贝尔曼公式进而得到 state value 是非常重要的问题。

在这里插入图片描述

上图中的第一行表达式就是我们刚刚推出的贝尔曼公式的 矩阵向量形式,求解有两种方式,一种是求解析解,如上图第二行表达式所示(通过第一行表达式,我们很容易能够推导出第二行表达式),但是这样做是复杂的,因为有一个求逆的过程,在状态空间非常大的时候,这种计算是困难且复杂的。

因此我们一般使用 迭代 的方式来完成求解,即上图中第三行表达式(左边是V(k+1),右边是 Vk )。假如带入 V0,那么自然就能得到 V1,然后带入 V1,则又能得到 V2,这样迭代下去就能得到一个序列,可以从数学上证明,当 K 趋向于无穷大的时候,Vk 就收敛到了 VΠ,而这个 VΠ 就是真实的 state value。

在这里插入图片描述

来看个例子,先看两种比较好的策略得到的 state values:

在这里插入图片描述

从上图的两种不同策略可以看出,对于不同的策略是能够得到相同的 state value 值的。

再来看两种不好的策略所导致的结果:

在这里插入图片描述

通过这些例子,我们明白了可以通过计算 state value 来评价一个策略究竟是好还是不好。

Action value(什么是行为价值)

在学习了 state value 之后学习 action value 就会容易一些,下面是二者之间的区别与联系:

在这里插入图片描述

action value 的定义:

在这里插入图片描述

action value 依赖于从哪个状态出发、以及是哪一个 action 来出发,另外它也依赖于策略 Π。

在这里插入图片描述

一个例子:

在这里插入图片描述

在这里插入图片描述

因此 action value 是非常重要的,因为在未来会关注在某一个状态其不同的 action,比较这些不同的 action,我们会选一个 action value 值最大的那个。

action value 如何计算?

第一种方法是知道了 state value,比如求解了一个 贝尔曼公式,然后从 state value 中计算出来 action value;

第二种方式是不计算 state value 而直接计算 action value,比如说通过数据的方式,此时就不再依赖于这个模型了(在未来都会介绍):

在这里插入图片描述

Summary(总结)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1882644.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

哪个牌子的超声波清洗器好?精选四大超强超声波清洗机力荐

生活中戴眼镜的人群不在少数,然而要维持眼镜的干净却不得不每次都需要清洗,只是通过手洗的方式实在太慢并且容易操作不当让镜片磨损更加严重!所以超声波清洗机就诞生了!超声波清洗机能够轻松清洗机眼镜上面的油脂污渍,…

Kubernetes的发展历程:从Google内部项目到云原生计算的基石

目录 一、起源与背景 1.1 Google的内部项目 1.2 Omega的出现 二、Kubernetes的诞生 2.1 开源的决策 2.2 初期发布 三、Kubernetes的发展历程 3.1 社区的成长 3.2 生态系统的壮大 3.3 重大版本和功能 3.4 多云和混合云的支持 四、Kubernetes的核心概念 4.1 Pod 4.…

有源晶振Output Load含义与供电范围解析

在深入探讨有源晶振的Output Load与供电范围之前,我们首先需要了解有源晶振的基本概念。有源晶振,又称为实时时钟模块或晶体振荡器,是一种能够提供稳定、精确频率信号的电子组件。与无源晶振不同,有源晶振内部包含了必要的电路&am…

机器学习复习总结

目录 第一章 机器学习的概念及其应用 1.1机器学习的特点: **1.2机器学习的分类: 1.2.1监督学习: 1.2.2无监督学习: 1.2.3强化学习: 1.2.4三种机器学习的区别 *1.3深度学习 1.3.1深度学习的实质: …

生产环境部署Nginx服务器双机热备部署-keepalived(多种模式教程)

前言:今天演示下生产环境keepalived的部署方式,安装模式有很多,比如说主备模型和双主模型,主备分:抢占模式 和 非抢占模式。这里我会一一展开说具体怎么配置一、双节点均部署Nginx: 第一步:上传…

烟台网站建设前需要了解哪些

在进行烟台网站建设之前,需要了解以下几个重要的方面: 1. 目标和定位:在建设网站之前,需要明确网站的目标和定位。是为了展示公司业务,还是为了销售产品,或者是为了提供信息和服务等。根据不同的目标和定位…

JAVA:常用的算法指南

请关注微信公众号:拾荒的小海螺 博客地址:http://lsk-ww.cn/ 1、简述 在软件开发过程中,算法扮演着关键的角色。它们用于解决各种问题,从数据处理到搜索、排序等。本文将介绍几种常见的算法及其 Java 实现,包括排序算…

防爆巡检终端在石化工厂安全保障中的应用

防爆巡检终端在石化工厂安全保障中的应用是广泛而关键的,其设计旨在确保在易燃易爆环境中进行安全、有效的巡检工作。以下是防爆巡检终端在石化工厂安全保障中的详细应用描述: 1. 环境监测与预警 防爆巡检终端配备了各种传感器,能够实时监测…

分享一个用于深入分析【大模型LLM】工作原理的工具

背景 LLM Transparency Tool 是一个用于深入分析和理解大型语言模型(LLM)工作原理的工具,旨在增加这些复杂系统的透明度。它提供了一个交互式界面,用户可以通过它观察、分析模型对特定输入(prompts)的反应…

【MySQL基础篇】函数及约束

1、函数 函数是指一段可以直接被另一段程序程序调用的程序或代码。 函数 - 字符串函数 MySQL中内置了很多字符串函数,常用的几个如下: 函数功能CONCAT(S1,S2,...,Sn)字符串拼接,将S1,S2,...,Sn拼接成一个字符串LOWER(str)将字符串str全部…

DDD学习笔记四

领域模型的构建 基础领域模型的基本组成有名称、属性、关联、职责、事件和异常 发掘领域概念3种策略: 1)学习已有系统,重用已有模型 2)使用分类标签。分类标签来源于领域,需要我们研究一些资料并做一些提炼。从采用5W…

解决 prettier/prettier 和 indent 冲突问题和一点简单思考

用过 prettier 的都知道,经常会遇到 prettier 与 eslint 的某些规则冲突的情况。在之前的一篇文章中,我简单地描述过怎么搭建起应用 eslint/prettier 的基本配置,也提到了怎么解决 prettier 与 eslint 的一些冲突问题。 其中有这么一段话&am…

C语言 | Leetcode C语言题解之第202题快乐数

题目: 题解: //计算的过程函数,我没重点讲,很简单看一下代码就好了 int getSum(int n) {int sum 0;while (n) {sum (n % 10) * (n % 10);n / 10;}return sum; }bool isHappy(int n){int sum getSum(n);int hash[820] {0};whi…

寒武纪实现高维向量的softmax进阶优化和库函数对比

关于寒武纪编程可以参考本人之前的文章添加链接描述,添加链接描述,添加链接描述 实验证明,axis=0和axis=-1的时候,手写softmax速度可以和库函数媲美,甚至于更甚一筹。 src/softmax.mlu #include <bang.h> #include

OPCUA相关概念和KepServer OPCUA连接PLC

文章背景 项目中需要使用OPC UA 来读取PLC的点位。本文简单介绍了OPC UA和使用KepServer软件连接PLC并读点。OPC相关概念 OPC之前&#xff0c;软件开发需要写大量驱动程序去连接设备&#xff0c;设备上的一个硬件改变&#xff0c;应用程序都有可能需要重写&#xff0c;不同设备…

Facebook助力中东地区博弈游戏广告营销新视界

Facebook助力中东地区博弈游戏广告营销新视界 中东地区&#xff0c;作为世界上充满活力和潜力的游戏市场之一&#xff0c;近年来&#xff0c;Slots游戏在该地区的热度持续攀升。众多游戏开发商和广告主纷纷寻求有效的推广方式&#xff0c;以吸引更多的潜在用户。在这个过程中&…

在自定义数据集上对 YOLOv10 模型进行微调以检测肾结石

对 YOLOv10 模型进行微调以增强肾结石检测,可将诊断时间从每份报告 15-25 分钟显著缩短至每秒处理约 150 份报告。这项研究面向医学研究人员、医疗保健专业人士和 AI 公司,通过以数据为中心的技术,无需改变模型架构,即可获得94.1 的 mAP50 。 NMS 免费培训:它真的有效吗?…

11083 旅游背包(优先做)

这个问题可以使用动态规划来解决。我们可以定义一个三维数组dp&#xff0c;其中dp[i][j][k]表示前i种物品&#xff0c;总体积不超过j&#xff0c;总重量不超过k的最大价值。 我们可以使用四重循环来填充这个数组。外层循环遍历所有的物品&#xff0c;第二层循环遍历所有可能的…

C++视觉开发 一.OpenCV环境配置

一.OpenCV安装环境配置 1.OpenCV安装 &#xff08;1&#xff09;下载 官方下载链接&#xff1a;http://opencv.org/releases 这边选择需要的版本&#xff0c;我是在windows下的4.9.0。&#xff08;科学上网下载很快&#xff0c;否则可能会有点慢&#xff09; (2)安装 双击下…

卢森堡-海外媒体发稿:新闻媒体宣发报道超给力

卢森堡高卢期刊gauljournal 卢森堡高卢期刊gauljournal自成立以来&#xff0c;一直致力于报道真实、客观的新闻&#xff0c;为读者提供最全面、准确的信息。多年来&#xff0c;该期刊在海内外媒体宣发方面取得了极大的成就&#xff0c;其报道在国际媒体上的曝光率非常高&#…