什么是蒙特卡洛学习,时序差分算法

news2024/11/16 5:50:09

在学习的过程中经常会看到蒙卡特洛和时序差分算法,到底这两个是指什么,今天稍微整理下,开始吧。

    • 蒙卡特洛

1.1 蒙卡特洛方法

蒙特卡罗方法又叫做统计模拟方法,它使用随机数(或伪随机数)来解决计算问题。

比如上图,矩形的面积我们可以轻松得到,但是对于阴影部分的面积,我们积分是比较困难的。所以为了计算阴影部分的面积,我们可以在矩形上均匀地撒豆子,然后统计在阴影部分的豆子数占总的豆子数的比例,就可以估算出阴影部分的面积了。

1.2 蒙卡特洛学习

蒙特卡罗方法的特征是采样,通过多次采样,再计算这些样本中状态的状态值的平均值,由大数定律可以知道,当样本的数目非常大时,平均值非常接近期望值。

  • 完整的状态序列(complete episode):指从某一个状态开始,个体与环境交互直到终止状态的奖励为止.完整的状态序列不要求起始状态一定是某一个特定的状态,但是要求个体最终进入环境认可的某一个终止状态.

  • 蒙特卡洛强化学习有如下的特点:不依赖状态转移概率(即不依赖模型),直接从经历过的完整的状态序列中学习,使用的思想就是用平均收获值代替价值.理论上完整的状态序列越多,结果越准确.

价值=平均回报

其实从字面理解就是求均值的意思。就是状态S在每一个样本中收获的回报均值。

比如,现评估某状态S的价值函数。我们采样了两个经验轨迹,从一个经验轨迹里面得到的回报是5,然后下一个经验轨迹里面的得到的回报是7,我们可以从起始状态来评估此状态的价值函数为:

对于t时刻的状态S,未来折扣累积奖励为:

蒙特卡洛法利用经验轨迹的平均未来折扣累积奖励G作为状态值的期望。

2、时序差分算法

2.1 时序差分算法

时序差分方法又称TD方法,是强化学习中应用最为广泛的一种学习方法。它结合了蒙特卡罗方法与动态规划方法,首先它可以像蒙特卡罗方法那样直接从经验中进行学习而不需要知道完整的环境模型,同时它又可以像动态规划方法那样根据已学习到的价值函数的估计进行当前估计的更新(步步更新),而不需等待整个episode结束。

2.2 时序差分公式

蒙特卡罗方法有一个缺陷,他需要在每次采样结束以后才能更新当前的值函数,但问题规模较大时,这种更新的方式显示是非常慢的。

3、总结

写了好久的草稿好像丢失了一部分,唉,无所谓了,下次还是得写好再上传

总结一下

蒙卡特洛的原理就是大数据量采样,求出平均值作为期望值,在强化学习中需要完整经过整个游戏的开始导结束,然后根据多次完整经验算出平均值

时序差分算法的原理就是根据当前和下一次的进行比较,求出期望值。

这两种算法的原理在于更新状态值的时机,一个是整个过程结束之后,一个是走一步更新一步

今天先写这些,后面会继续更新,以便更好的理解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/136890.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python全栈开发(二)——python基础语法(二)

我们昨天说了python的数据类型,今天说说python的缩进规则和函数、python的顺序语句结构,条件和分支语句以及循环语句。缩进不规范会报错(IndentationError: unexpected indent),python的函数使用,从定义到实…

操作系统——进程之处理机调度

操作系统——进程之处理机调度一、处理机调度的本概念和层次1、高级调度(作业调度)2、中级调度(内存调度)3、低级调度(进程调度)二、进程调度的时机、切换与过程、方式1、进程调度的时机2、进程调度的方式3…

ATAC-seq分析:比对(3)

1. 质控 在比对之前,我们建议花一些时间查看 FASTQ 文件。一些基本的 QC 检查可以帮助我们了解您的测序是否存在任何偏差,例如读取质量的意外下降或非随机 GC 内容。 2. Greenleaf 在本节中,我们将稍微处理一下 Greenleaf 数据集。 我们将处理…

新一代OPC UA解决方案,快速实现IT与OT融合

一、OPC数据采集难题 OPC技术在现今的工业自动化中应用越来越广泛,为现场工业控制设备与控制软件之间的数据交换提供了统一的数据存储规范。但随着工业的不断发展,OPC数据采集出现了一些难题。例如,在传统OPC在远程连接时候一定会面临的DCOM…

Qt扫盲-Qt Designer配置QSS交互使用

Qt Designer配置QSS交互记录一、概述二、用法1. 选择2. 修改1. 菜单区2. 编辑区3. 在底部功能区4. 查询一、概述 Qt Designer {Qt Designer }是一个很好的工具来预览样式表、设置样式的效果,而且是所见即所得,用界面这种开发更快些。 我一般是在Qt Des…

【编译基础】new delete详解及内存泄漏

内存的使用,一文不太够 文章目录C语言1.new关键字2.delete关键字C语言1.malloc关键字2.free关键字区别内存泄漏参考博客😊点此到文末惊喜↩︎ C语言 1.new关键字 作用:C通过new关键字动态分配内存三种用法 plain new:最朴素的n…

JdbcUtils工具类的优化升级——通过配置文件连接mysql8.0

我之前的博文JDBC重构——JdbcUtils工具类的封装写了一个JdbcUtils的工具类,但是这个类也会有一个问题:如下图所示:连接数据库的代码在java中是写死的,如果我们想要换一个数据库进行连接,就会很麻烦,这时我…

嵌入式HLS 案例开发手册——基于Zynq-7010/20工业开发板(2)

目 录 2 led_flash 案例 19 2.1 HLS 工程说明 19 2.2 编译与仿真 20 2.3 IP 核测试 23 3 key_led_demo 案例 23 3.1 HLS 工程说明 23 3.2 编译与仿真 25 3.3 IP 核测试 27 前 言 本文主要介绍 HLS 案例的使用说明,适用开发环境: Windows 7/10 64bit、Xilinx Vivado…

从零搭建的前后端完整的直播网页方案

前言:由于前段时间刚租了台服务器打算自己玩玩,随想首页或者哪哪个页面挂个我个人的直播间应该还挺有趣的。遂探索如何在我的网站上弄一个直播。三下五除二,清清爽爽,看完此文5分钟即可直播。 整体思路 最简单直观的图解。 由上图…

VB2019创建、使用静态库(同样的使用动态库dll)

库: 二进制可执行文件,操作系统载入内存执行,将不怎么更改的底层打包成库后可以使整体编译更改,并且实现对底层的保密(不对外或员工开放)。库有两种:静态库(.a、.lib)和动…

【国科大模式识别】第二次作业(阉割版)

【题目一】最大似然估计也可以用来估计先验概率。假设样本是连续独立地从自然状态 ωi\omega_iωi​ 中抽取的, 每一个自然状态的概率为 P(ωi)P\left(\omega_i\right)P(ωi​) 。如果第 kkk 个样本的自然状态为 ωi\omega_iωi​, 那么就记 zik1z_{i k}1zik​1, 否则 zik0z_{i…

【无标题】测试新发文章

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注…

Spring之后处理器

目录 一:概述 二:案例演示 三:Bean的后处理器----BeanPostProcessor 案例:对Bean方法进行执行时间日志增强 四:Spring ioc整体流程总结 一:概述 Spring的后处理器是Spring对外开发的重要扩展点、允许我…

量子计算机是什么?量子计算机和传统计算机之间有什么区别?

1.突破1000量子比特大关! 2022年11月9日的IBM年度量子峰会上,IBM宣布了Osprey在量子硬件和软件方面取得的突破性进展,同时推出了“鱼鹰”(Osprey)芯片。“鱼鹰”是全球迄今为止量子比特最多的量子计算机,而…

软考初级信息处理

软考初级信息处理技术员还是比较简单的,只要多刷题,实操也很重要的!备考时间讲究高效哦! 1、考试安排: 2、关于信处的考点分析: 上午考试: 下午考试: 3、信处如何备考:…

从spark WordCount demo中学习算子:map、flatMap、reduceByKey

文章目录spark map和flatMap应用:Word CountreduceByKey的用法spark map和flatMap val rdd sc.parallelize(List("coffee panda","happy panda","happiest panda party"))(1)map rdd.map(_.split(" &q…

windows terminal 还是 cmder ?

前景提要 windows terminal自带的没有tab命令自动补全, cmd的自动补全垃圾; cmder虽然有自动补全, 但是界面管理不太行; 而且比较复杂;只想要其UI和路径换行显示; windows terminal 应用商城或https://github.com/microsoft/terminal 下载页 https://github.com/mic…

【算法刷题】哈希表题型及方法归纳

哈希表特点 常见的三种哈希结构: 1、数组:操作简单,方便快捷,但不适于进行一些更复杂的操作。 注:适用于用set或map的情景:(1)当数组大小受限;(2&#xff0…

powerquery 连接 postgresql

1下载安装postgresql的驱动器 https://pan.baidu.com/s/1ii9PudUs9WL_clP7Ub647Q 提取码:hm6g 2 安装配置odbc 2.1打开控制面板 – 选择管理工具 2.2选择ODBC数据源(64位) 2.3控制面板搜索数据源-单击添加 选择postgresql unicode 2.4配置数据源信息 3.通过e…

einsum 理解

本文是参考以下两篇文章,再结合我自己的经验完成的: 文章一:https://zhuanlan.zhihu.com/p/358417772 文章二:https://zhuanlan.zhihu.com/p/27739282 Einsum介绍: 给定矩阵A 和矩阵B (在Python中也可以说是…