强化学习--免模型预测与控制

强化学习--免模型预测与控制

news2025/4/17 13:17:29

免模型预测与控制

强化学习

免模型预测与控制
免模型预测
蒙特卡洛估计
时序差分估计
时序产分与蒙特卡洛的比较
免模型控制
- Q-learning

免模型预测

蒙特卡洛估计

蒙特卡洛估计方法在强化学习中是免模型预测价值函数的方式之一，本质是一种统计模拟方法，它的发展得益于电子计算机的发明。假设我们需要计算一个不规则图形的面积，这种情况下是很难通过规则或者积分的方式得到结果的。

而蒙特卡洛基于这样的想法：比如我们有一袋豆子，把豆子均匀地在一定范围内朝这个图形上撒，撒到足够多的数量时数一下这个图形中有多少颗豆子，这个豆子的数目就是图形的面积。当豆子越小撒的越多的时候，结果就越精确。此时我们借助计算机程序可以生成大量均匀分布坐标点，然后统计出图形内的点数，通过它们占总点数的比例和坐标点生成范围的面积就可以求出图形面积。
蒙特卡洛方法主要分成两种算法，一种是首次访问蒙特卡洛方法，另外一种是每次访问蒙特卡洛方法。首次访问蒙特卡洛方法主要包含两个步骤，首先是产生一个回合的完整轨迹，然后遍历轨迹计算每个状态的回报。注意，只在第一次遍历到某个状态时会记录并计算对应的回报。

在这里插入图片描述

时序差分估计

时序差分估计方法是一种基于经验的动态规划方法，它结合了蒙特卡洛和动态规划的思想。最简单的时序差分可以表示为式：
在这里插入图片描述

时序产分与蒙特卡洛的比较

时序差分方法可以在线学习每走一步就可以更新，效率高。蒙特卡洛方法必须等游戏结束时才可以学习。
时序差分方法可以从不完整序列上进行学习。蒙特卡洛方法只能从完整的序列上进行学习。
时序差分方法可以在连续的环境下（没有终止）进行学习。蒙特卡洛方法只能在有终止的情况下学习。
时序差分方法利用了马尔可夫性质，在马尔可夫环境下有更高的学习效率。蒙特卡洛方法没有假设环境具有马尔可夫性质，利用采样的价值来估计某个状态的价值，在不是马尔可夫的环境下更加有效。

免模型控制

Q-learning

为了解决控制问题，我们只需要直接预测动作价值函数，然后在决策时选择动作价值即 Q 值最大对应的动作即可。这样一来，策略和动作价值函数同时达到最优，相应的状态价值函数也是最优的。
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1315705.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Mac brew install youtube-dl 【 youtube 下载工具：youtube-dl 安装】

Mac brew install youtube-dl 【 youtube 下载工具：youtube-dl 安装】

文章目录 1. 简介2. 预备3. 安装4. 命令5. 测试 1. 简介 youtube-dl - 从youtube.com或其他视频平台下载视频 https://github.com/ytdl-org/youtube-dl 2. 预备安装并配置 git安装 brew 3. 安装 MacBook-Pro ~ % brew install youtube-dl Warning: youtube-dl has been …

阅读更多...

mysql 索引场景大于＞为什么失效

mysql 索引场景大于＞为什么失效

可以先看这个：Mysql查询条件为大于时，不走索引失效场景-CSDN博客改为> ，可双看到key_len减少了，从90变到了86，也就是说联合索引(a b c) ，只有(a b) 起了效果,c 没有。可以不查c看看结果，还…

阅读更多...

Leetcode—459.重复的子字符串【简单】

Leetcode—459.重复的子字符串【简单】

2023每日刷题（五十九） Leetcode—459.重复的子字符串算法思想巧解的算法思想实现代码从第一个位置开始到s.size()之前，看s字符串是否是ss的子串 class Solution { public:bool repeatedSubstringPattern(string s) {return (s s).fin…

阅读更多...

常见内存泄漏场景与解决方案

常见内存泄漏场景与解决方案

服务器开发文章目录文章目录服务器开发文章目录前言一、内存泄漏是什么？二、常见内存泄漏场景三、内存泄漏规避与定位总结前言作为C/C程序员，谁还不写Bug，Bug中最常见要数内存泄漏、内存崩溃、死锁等问题，本文主要讲解内存泄…

阅读更多...

【Python表白系列】满屏飘字表白代码等你来取！（完整代码）

【Python表白系列】满屏飘字表白代码等你来取！（完整代码）

文章目录环境需求完整代码详细分析系列文章环境需求 python3.12.0PyCharm Community Edition 2023.2.5pyinstaller6.2.0（可选，这个库用于打包，使程序没有python环境也可以运行，如果想发给好朋友的话需要这个库哦~）【注】 python环境搭建请见：https://want595.blog.csdn.…

阅读更多...

汽车租赁小程序源码租车小程序

汽车租赁小程序源码租车小程序

汽车租赁小程序，多门店租车小程序，本套系统分为用户端，门店管理端，总管理后台三部分。门店可以加盟入驻平台。可以源码，也可以二次开发，也可以定制开发。php开发语言，前端是uniapp。用户端是小程…

阅读更多...

微软Microsoft二面面试题分享通过总结（不是标准答案分享

微软Microsoft二面面试题分享通过总结（不是标准答案分享

误打误撞我写的shitty代码当年面试算法开发岗竟然通过了 Background 先说下背景，软件工程本科毕业之后，当年8月到北欧读两年制硕士。面试发生在当年的11月，微软哥本哈根，location在丹麦的哥本哈根lingby（是不是这么…

阅读更多...

点赋网络：15秒快速新科技，重新定义新智能

点赋网络：15秒快速新科技，重新定义新智能

随着科技的不断进步，自助设备在我们的生活中变得越来越常见。其中，智能饮品机作为一种方便快捷的购物方式，受到了广大消费者的喜爱。然而，以前的智能饮品机往往存在购物流程繁琐、速度缓慢等问题。现在，一种全新的智能…

阅读更多...

Linux面试题精选：提升你的面试准备

Linux面试题精选：提升你的面试准备

大家有关于JavaScript知识点不知道可以去 🎉博客主页：阿猫的故乡 🎉系列专栏：JavaScript专题栏 🎉ajax专栏：ajax知识点 🎉欢迎关注：👍点赞🙌收藏✍️留言学习…

阅读更多...

canal环境部署

canal环境部署

docker 部署canal同步数据 1 环境: 2 Mysql 配置查看 binlog 是否启用 SHOW VARIABLES LIKE ‘%log_bin%’; 开启 binlog, 修改 my.cnf docker cp mysql:/etc/my.cnf /data/mysql/conf 拷贝文件到临时目录修改后再拷贝回去 # For advice on how to change settings please …

阅读更多...

基于SSM框架的安全教育平台论文

基于SSM框架的安全教育平台论文

基于SSM框架的安全教育平台摘要随着信息技术在管理上越来越深入而广泛的应用，管理信息系统的实施在技术上已逐步成熟。本文介绍了安全教育平台的开发全过程。通过分析安全教育平台管理的不足，创建了一个计算机管理安全教育平台的方案。文章介绍了安全…

阅读更多...

代码上传的gitee平台

代码上传的gitee平台

1.首先我们访问工作台 - Gitee.com进行注册和登录 2.我们创建一个仓库： 3.在本地创建我们的项目在这文件夹里面我们打开git bush,执行一下操作： git init ：初始化仓库 git status：检查状态 git add . ：将当前文件…

阅读更多...

如何使用MySQL Workbench将样本数据库导入到MySQL数据库服务器

如何使用MySQL Workbench将样本数据库导入到MySQL数据库服务器

如何使用MySQL Workbench将样本数据库导入到MySQL数据库服务器摘要：在本教程中，您将学习如何使用MySQL Workbench将MySQL样本数据库加载到MySQL数据库服务器。之后，您将有classicmodels示例数据库以方便练习和学习MySQL。步骤1. 下载class…

阅读更多...

Tomcat性能优化

Tomcat性能优化

Tomcat是一款常用的Java Web应用服务器，对其进行性能优化可以提高Web应用的响应速度和吞吐量。Tomcat性能取决于内存的大小。增加JVM内存：在Tomcat的bin目录下的catalina.sh文件中修改JAVA_OPTS参数，将堆内存大小-Xmx和-Xms调整为适当的值。…

阅读更多...

Win11如何找到电脑中的NVIDIA控制面板

Win11如何找到电脑中的NVIDIA控制面板

目录桌面任意地方右击，选择

阅读更多...

Python生成器（Generator）（继续更新...)

学习网页： Welcome to Python.orghttps://www.python.org/https://www.python.org/ Python生成器生成器（Generator）是 Python 的一种特殊类型的迭代器。生成器允许你创建自己的数据流，每次从数据流中获取一个元素，…

阅读更多...

【已解决-实操篇】SaTokenException: 非Web上下文无法获取Request问题解决-实操篇

【已解决-实操篇】SaTokenException: 非Web上下文无法获取Request问题解决-实操篇

在上一篇《【理论篇】SaTokenException: 非Web上下文无法获取Request问题解决 -理论篇》中，凯哥(公众号：凯哥Java)介绍了了产生这个问题的源码在哪里，以及怎么解决的方案。没有给出实际操作步骤。本文，凯哥就通过threadLocal方案…

阅读更多...

SQL错题集3

SQL错题集3

1.薪水第二多的员工的emp_no以及其对应的薪水salary limit a,b 其中a表示查询数据的起始位置，b表示返回的数量。 （MySQL数据库中的记录是从0开始的） 注意从0开始 2.员工编号emp_no为10001其自入职以来的薪水salary涨幅值growth 聚合函数不能…

阅读更多...

006 Windows共享

006 Windows共享

一、共享要求一般是局域网内使用 1、物理上处于统一局域网同一公司的网络同一家庭的网络连接同一手机热点的主机 2、逻辑上处于同一局域网直接可以ping对方主机（能够直接访问到） 二、共享权限 1、共享权限一般设置为everyone完全控制 2、NTF…

阅读更多...

使用连接池对于feign的远程调用的优化

使用连接池对于feign的远程调用的优化

Feign底层发起http请求时，默认使用URLConnection发起http请求，不支持连接池操作，那么为了提高Feign的性能，可以采用的手段是使用连接池代替默认的URLConnection 支持连接池的http客户端 Apache HttpClientOKHttp本示例采用的是Apa…

阅读更多...

推荐文章

最新文章