【强化学习的数学原理】课程：从零开始到透彻理解-30分钟了解强化学习名词脉络

【强化学习的数学原理】课程：从零开始到透彻理解-30分钟了解强化学习名词脉络

news2025/4/8 7:17:44

完全零基础的学习强化学习，希望能入门

此图为强化学习的一个脉络图，主要分为两个板块

基础的工具
1. 基本的概念
2. 贝尔曼公式
3. 贝尔曼最优公式
算法和方法
1. 值迭代和策略迭代
2. 蒙特卡洛的方法
3. 时序差分的方法
4. Value Function Approximation
5. Policy Gradient 方法
6. Actor-Critic 方法

基础工具

基本的概念

贝尔曼公式

状态值(评价一个策略的好坏):

沿着一个策略我所得到奖励回报的一个平均值，状态值越高说明对应的策略越好

贝尔曼公式，描述了所有状态，状态值之间的关系

通过求解贝尔曼公式，求解出来给定策略它的状态值，进而评价策略的好坏

也就是第二章，其实就是类似给出了一个评估指标，即对应的状态值，去评价策略的好坏

但这里我有一些疑惑，

为什么是选择奖励汇报的平均值而不是最高值呢
或者说去掉一个最低值去掉一个最高值这种形式
状态值作为评价策略的局限性和好处分别是什么呢?
作为一个CVer，我能想到的是，比如，我在目标检测这个task下如果用了不同的loss，我的map会不同，其实类似的也是想找到最大map所对应的loss
如果一定存在最优策略，那么状态值是否一定能够找到？
状态值本身的差距是否能够证明策略的优劣程度的差距
这里我就会想到，其实类似的在解决一个问题的时候存在多种方法，多种方法之间的优缺点和适用场景一般我都通过列表来表示，这样会很直观的找到我所合适的
但有时候可能是会根据我场景的需求点来选择优点最大化的那个，举个例子，比如我只要求精度最高，那可能模型的复杂度和实时性就成为我不怎么考虑的范围

贝尔曼最优公式

强化学习的终极目标是什么?求解最优策略

似乎这里对于最优性的定义是有的，或许可以解决在上述我提到的问题

算法和方法

值迭代和策略迭代:Value Iteration& Policy Iteration

Value iteration 和 Policy iteraction是Truncated policy iteration的极端情况

换一句话说就是，Truncated policy iteration是VI和PI的统一情况

迭代是否是有限制的？

蒙特卡洛方法，Monte Carlo Learning

第一个不需要模型就能够找到最优策略的方法

需要模型和不需要模型的好处/缺点是什么

第一点，没有模型后你要干嘛你要学习什么

第二点，你没有模型你有什么，我们要学习什么呢

要学习随机变量的expectation

随机近似理论，Stochastic Approximation

时序差分的方法，Temporal-Difference Learning

Value Function Approximation

Policy Gradient 方法

Actor-Critic 方法

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2038117.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

糟糕界面集锦－控件篇07

糟糕界面集锦－控件篇07

对制作一个图形界面程序的步骤还有疑问吗？在Unisyns Automate Pro 中这个问题特别明显：开发人员显然忘记了TAB 键的作用是在控件之间遍历这个常识。作者使用了开发工具自动生成的控件次序(Tab Order)。程序的界面如下图，需要说明的是&#xf…

阅读更多...

二、达梦数据库（DM8）- Django集成

二、达梦数据库（DM8）- Django集成

达梦数据库（DM8）- Django集成一、集成介绍二、下载驱动包三、Windows1.安装dmPython2.测试dmPython3.安装django-dmPython5.配置数据库信息6.测试四、Linux1.x86_642.aarch_642.1 安装gcc编译工具2.2 安装dmPython 五、注意事项1.django-授权SYS.SYSOB…

阅读更多...

＜数据集＞怠岗图片数据集＜目标检测＞

＜数据集＞怠岗图片数据集＜目标检测＞

图片数量：2479张类别数：3 序号类别名称图片数1工作状态9182使用手机2883打瞌睡1273 图片示例： 工作状态： 使用手机： 打瞌睡：

阅读更多...

如何减少 Docker 镜像大小：6 种优化方法

如何减少 Docker 镜像大小：6 种优化方法

如果您想减少docker镜像的大小，您需要使用构建docker镜像的标准最佳实践。本博客讨论了您可以快速实施的各种优化技术，以制作最小、最精简的 docker 镜像。我们还将介绍一些用于 Docker 镜像优化的最佳工具。 Docker 作为一种容器引擎，可以…

阅读更多...

SpringBoot快速入门（手动创建）

SpringBoot快速入门（手动创建）

目录案例：需求步骤 1 创建Maven项目 2 导入SpringBoot起步依赖 3 定义Controller 4 编写引导类案例：需求搭建简单的SpringBoot工程，创建hello的类定义h1的方法，返回Hello SpringBoot! 步骤 1 创建Maven项目大家&…

阅读更多...

【Java】文件IO

【Java】文件IO

文章目录一、什么是文件二、硬盘1. 机械硬盘2. 固态硬盘三、文件路径四、文件类型文件硬盘系统管理文件，引入一个额专门的模块，“文件系统”，每个文件都有一个“路径”描述文件所在位置一、什么是文件此处谈到的文件，本…

阅读更多...

SQL Zoo 8+.NSS Tutorial

SQL Zoo 8+.NSS Tutorial

以下数据来自SQL Zoo 1.at Edinburgh Napier University，studying (8) Computer Science，Show the the percentage who STRONGLY AGREE.（在爱丁堡纳皮尔大学，学习“计算机科学”，显示STRONGLY AGREE的百分比&#xff0…

阅读更多...

解决navicat隔一段时间连接（操作，查询）就卡顿问题Navicat老是卡死，必须强制退出

解决navicat隔一段时间连接（操作，查询）就卡顿问题Navicat老是卡死，必须强制退出

解决方法： 打开编辑--->高级--->设置心跳时间30s（输入框设置为30 (建议30-240之间，不要超过240)– 点击确定！） 问题： 使用 Navicat 连接服务器上的数据库时，如果隔一段时间没有使用&…

阅读更多...

餐厅管理系统

餐厅管理系统

目录一、系统简介 1.1需求分析餐厅管理系统是一个基于Javaweb的系统，旨在为音乐餐厅、情侣餐厅和中餐厅提供全面的管理和服务功能。系统主要包括餐厅详情管理、价格管理和加入购物车功能。 1.2 编程环境与工具二、系统总体设计 2.1 系统的功能模块图…

阅读更多...

[log4cplus]: 快速搭建分布式日志系统

[log4cplus]: 快速搭建分布式日志系统

关键词：日志系统、日志分类、自动分文件夹、按时间（月/周/日/小时/分）轮替一、引言这里我默认看此文的我的朋友们都已经具备一定的基础，所以，我们本篇不打算讲关于log4cplus的基础内容，文中如果涉及到没有吃透的点，需要朋友们动动自己聪明的脑袋和发财的手指，进一…

阅读更多...

C++进阶中多态的全部主要内容

C++进阶中多态的全部主要内容

今天小编和大家一起学习C中多态的全部主要内容，希望今天大家和小编一起学习之后，会对多态有一个初步的了解和使用，好啦，话不多说，开始学习！~~~ 一、多态的概念及满足条件概念：指的就是不同的对…

阅读更多...

NC单链表的排序

NC单链表的排序

系列文章目录文章目录系列文章目录前言前言前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站，这篇文章男女通用，看懂了就去分享给你的码吧。描述给定一个节点…

阅读更多...

九、OpenCVSharp 中的图像形态学操作

九、OpenCVSharp 中的图像形态学操作

文章目录简介一、腐蚀1. 腐蚀的原理和数学定义2. 结构元素的形状和大小选择3. 腐蚀操作的代码实现和效果展示二、膨胀1. 膨胀的概念和作用2. 与腐蚀的对比和组合使用（如开运算、闭运算）三、开运算1. 开运算的定义和用途（去除小的明亮区域）2. 开运算在去除噪声和分离物体方…

阅读更多...

鸿蒙（API 12 Beta3版）【扩展屏投播开发指导】使用投播组件

鸿蒙（API 12 Beta3版）【扩展屏投播开发指导】使用投播组件

通过本节开发指导，可在系统镜像投屏后，获取投屏设备信息，实现扩展屏模式的投播，实现双屏协作的能力。运作机制虚拟扩展屏是在系统投屏启动过程中建立的，依据双端协商的投屏视频流的分辨率创建，支持1080…

阅读更多...

OpenHarmony图像解码库—stb-image【GN编译】

OpenHarmony图像解码库—stb-image【GN编译】

简介 stb_image主要是C/C实现的图像解码库。下载安装直接在OpenHarmony-SIG仓中搜索stb-image并下载。使用说明以OpenHarmony 3.1 Beta的rk3568版本为例库代码存放路径：./third_party/stb-image 修改添加依赖的编译脚本，路径：/devel…

阅读更多...

哈希 | Java | (hot100) 力扣 49

哈希 | Java | (hot100) 力扣 49

我的想法：双重forhashset 方法一由于互为字母异位词的两个字符串包含的字母相同，因此对两个字符串分别进行排序之后得到的字符串一定是相同的，故可以将排序之后的字符串作为哈希表的键。力扣官方 values()方法返回一个包含HashMap中所有…

阅读更多...

高性能日志系统日志器模块

高性能日志系统日志器模块

概述作用：整合输出模块和格式化模块，创建日志器，通过该日志器对日志进行输出成员格式化模块对象管理输出模块对象管理，数组管理（日志器可能会向多个位置进行日志输出）默认日志输出限制等级，只…

阅读更多...

springboot智能城市交通管理系统-计算机毕业设计源码55174

springboot智能城市交通管理系统-计算机毕业设计源码55174

目录摘要 1 绪论 1.1 选题背景与意义 1.2国内外研究现状 1.3论文结构与章节安排 2系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1系统开发流程 2.2.2 用户登录流程 2.2.3 系统操作流程 2.2.4 添加信息流程 2.2.5 修改信息流程 2.2.6 删除信息流程 2.3 系统功能…

阅读更多...

React + React-tsparticles + Tsparticles完成炫酷的登录特效

React + React-tsparticles + Tsparticles完成炫酷的登录特效

效果(动态) npm i react-tsparticles2.12.2 npm i tsparticles2.12.0 注意:最好和上面的版本一样,不然会出现一个报错,具体如何解决的话去官网吧,上面的版本是没有问题的代码块总计6个代码块, options里面是相关粒子的配置完整代码 import ./index.sass import { Form, Inp…

阅读更多...

5个人共享一台高配工作站流程运行SW UG等软件大装配设计

5个人共享一台高配工作站流程运行SW UG等软件大装配设计

如何实现5个人共享一台高配工作站流程运行SW UG等软件大装配设计？ 一、前期准备硬件准备： 选购一台高性能的服务器作为云主机，确保服务器具备足够的计算能力、内存和存储空间以支持多用户并发使用。云主机需要结合企业具体的使用情况和人数…

阅读更多...

推荐文章

最新文章