【强化学习的数学原理】课程:从零开始到透彻理解-30分钟了解强化学习名词脉络

news2024/9/21 12:24:26

完全零基础的学习强化学习,希望能入门

此图为强化学习的一个脉络图,主要分为两个板块

  1. 基础的工具
    1. 基本的概念
    2. 贝尔曼公式
    3. 贝尔曼最优公式
  2. 算法和方法
    1. 值迭代和策略迭代
    2. 蒙特卡洛的方法
    3. 时序差分的方法
    4. Value Function Approximation
    5. Policy Gradient 方法
    6. Actor-Critic 方法

基础工具

基本的概念

贝尔曼公式

状态值(评价一个策略的好坏):

沿着一个策略我所得到奖励回报的一个平均值,状态值越高说明对应的策略越好

贝尔曼公式,描述了所有状态,状态值之间的关系

通过求解贝尔曼公式,求解出来给定策略它的状态值,进而评价策略的好坏

也就是第二章,其实就是类似给出了一个评估指标,即对应的状态值,去评价策略的好坏

但这里我有一些疑惑,

  1. 为什么是选择奖励汇报的平均值而不是最高值呢
  2. 或者说去掉一个最低值去掉一个最高值这种形式
  3. 状态值作为评价策略的局限性和好处分别是什么呢?
    • 作为一个CVer,我能想到的是,比如,我在目标检测这个task下如果用了不同的loss,我的map会不同,其实类似的也是想找到最大map所对应的loss
  4. 如果一定存在最优策略,那么状态值是否一定能够找到?
  5. 状态值本身的差距是否能够证明策略的优劣程度的差距
    • 这里我就会想到,其实类似的在解决一个问题的时候存在多种方法,多种方法之间的优缺点和适用场景一般我都通过列表来表示,这样会很直观的找到我所合适的
    • 但有时候可能是会根据我场景的需求点来选择优点最大化的那个,举个例子,比如我只要求精度最高,那可能模型的复杂度和实时性就成为我不怎么考虑的范围

贝尔曼最优公式

强化学习的终极目标是什么?求解最优策略

似乎这里对于最优性的定义是有的,或许可以解决在上述我提到的问题

算法和方法

值迭代和策略迭代:Value Iteration& Policy Iteration

Value iteration 和 Policy iteraction是Truncated policy iteration的极端情况

换一句话说就是,Truncated policy iteration是VI和PI的统一情况

迭代是否是有限制的?

蒙特卡洛方法,Monte Carlo Learning

第一个不需要模型就能够找到最优策略的方法

需要模型和不需要模型的好处/缺点是什么

第一点,没有模型后你要干嘛你要学习什么

第二点,你没有模型你有什么,我们要学习什么呢

       要学习随机变量的expectation

随机近似理论,Stochastic Approximation

时序差分的方法,Temporal-Difference Learning

Value Function Approximation

Policy Gradient 方法

Actor-Critic 方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2038117.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

糟糕界面集锦-控件篇07

对制作一个图形界面程序的步骤还有疑问吗?在Unisyns Automate Pro 中这个问题特别明显:开发人员显然忘记了TAB 键的作用是在控件之间遍历这个常识。作者使用了开发工具自动生成的控件次序(Tab Order)。程序的界面如下图,需要说明的是&#xf…

二、达梦数据库(DM8)- Django集成

达梦数据库(DM8)- Django集成 一、集成介绍二、下载驱动包三、Windows1.安装dmPython2.测试dmPython3.安装django-dmPython5.配置数据库信息6.测试 四、Linux1.x86_642.aarch_642.1 安装gcc编译工具2.2 安装dmPython 五、注意事项1.django-授权SYS.SYSOB…

<数据集>怠岗图片数据集<目标检测>

图片数量:2479张 类别数:3 序号类别名称图片数1工作状态9182使用手机2883打瞌睡1273 图片示例: 工作状态: 使用手机: 打瞌睡:

如何减少 Docker 镜像大小:6 种优化方法

如果您想减少docker镜像的大小,您需要使用构建docker镜像的标准最佳实践。 本博客讨论了您可以快速实施的各种优化技术,以制作最小、最精简的 docker 镜像。我们还将介绍一些用于 Docker 镜像优化的最佳工具。 Docker 作为一种容器引擎,可以…

SpringBoot快速入门(手动创建)

目录 案例:需求 步骤 1 创建Maven项目 2 导入SpringBoot起步依赖 3 定义Controller 4 编写引导类 案例:需求 搭建简单的SpringBoot工程,创建hello的类定义h1的方法,返回Hello SpringBoot! 步骤 1 创建Maven项目 大家&…

【Java】文件IO

文章目录 一、什么是文件二、硬盘1. 机械硬盘2. 固态硬盘 三、文件路径四、文件类型 文件 硬盘 系统管理文件,引入一个额专门的模块,“文件系统”,每个文件都有一个“路径”描述文件所在位置 一、什么是文件 此处谈到的文件,本…

SQL Zoo 8+.NSS Tutorial

以下数据来自SQL Zoo 1.at Edinburgh Napier University,studying (8) Computer Science,Show the the percentage who STRONGLY AGREE.(在爱丁堡纳皮尔大学,学习“计算机科学”,显示STRONGLY AGREE的百分比&#xff0…

解决navicat隔一段时间连接(操作,查询)就卡顿问题Navicat老是卡死,必须强制退出

解决方法: 打开编辑--->高级--->设置心跳时间30s(输入框设置为30 (建议30-240之间,不要超过240)– 点击确定!) 问题: 使用 Navicat 连接服务器上的数据库时,如果隔一段时间没有使用&…

餐厅管理系统

目录 一、 系统简介 1.1需求分析 餐厅管理系统是一个基于Javaweb的系统,旨在为音乐餐厅、情侣餐厅和中餐厅提供全面的管理和服务功能。系统主要包括餐厅详情管理、价格管理和加入购物车功能。 1.2 编程环境与工具 二、 系统总体设计 2.1 系统的功能模块图…

[log4cplus]: 快速搭建分布式日志系统

关键词: 日志系统 、日志分类、自动分文件夹、按时间(月/周/日/小时/分)轮替 一、引言 这里我默认看此文的我的朋友们都已经具备一定的基础,所以,我们本篇不打算讲关于log4cplus的基础内容,文中如果涉及到没有吃透的点,需要朋友们动动自己聪明的脑袋和发财的手指,进一…

C++进阶中多态的全部主要内容

今天小编和大家一起学习C中多态的全部主要内容,希望今天大家和小编一起学习之后,会对多态有一个初步的了解和使用,好啦,话不多说,开始学习!~~~ 一、多态的概念及满足条件 概念:指的就是不同的对…

NC单链表的排序

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 描述 给定一个节点…

九、OpenCVSharp 中的图像形态学操作

文章目录 简介一、腐蚀1. 腐蚀的原理和数学定义2. 结构元素的形状和大小选择3. 腐蚀操作的代码实现和效果展示二、膨胀1. 膨胀的概念和作用2. 与腐蚀的对比和组合使用(如开运算、闭运算)三、开运算1. 开运算的定义和用途(去除小的明亮区域)2. 开运算在去除噪声和分离物体方…

鸿蒙(API 12 Beta3版)【扩展屏投播开发指导】使用投播组件

通过本节开发指导,可在系统镜像投屏后,获取投屏设备信息,实现扩展屏模式的投播,实现双屏协作的能力。 运作机制 虚拟扩展屏 是在系统投屏启动过程中建立的,依据双端协商的投屏视频流的分辨率创建,支持1080…

OpenHarmony图像解码库—stb-image【GN编译】

简介 stb_image主要是C/C实现的图像解码库。 下载安装 直接在OpenHarmony-SIG仓中搜索stb-image并下载。 使用说明 以OpenHarmony 3.1 Beta的rk3568版本为例 库代码存放路径:./third_party/stb-image 修改添加依赖的编译脚本,路径:/devel…

哈希 | Java | (hot100) 力扣 49

我的想法:双重forhashset 方法一 由于互为字母异位词的两个字符串包含的字母相同,因此对两个字符串分别进行排序之后得到的字符串一定是相同的,故可以将排序之后的字符串作为哈希表的键。 力扣官方 values()方法返回一个包含HashMap中所有…

高性能日志系统 日志器模块

概述 作用:整合输出模块和格式化模块,创建日志器,通过该日志器对日志进行输出成员 格式化模块对象管理输出模块对象管理,数组管理(日志器可能会向多个位置进行日志输出)默认日志输出限制等级,只…

springboot智能城市交通管理系统-计算机毕业设计源码55174

目录 摘要 1 绪论 1.1 选题背景与意义 1.2国内外研究现状 1.3论文结构与章节安排 2系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1系统开发流程 2.2.2 用户登录流程 2.2.3 系统操作流程 2.2.4 添加信息流程 2.2.5 修改信息流程 2.2.6 删除信息流程 2.3 系统功能…

React + React-tsparticles + Tsparticles完成炫酷的登录特效

效果(动态) npm i react-tsparticles2.12.2 npm i tsparticles2.12.0 注意:最好和上面的版本一样,不然会出现一个报错,具体如何解决的话去官网吧,上面的版本是没有问题的 代码块 总计6个代码块, options里面是相关粒子的配置 完整代码 import ./index.sass import { Form, Inp…

5个人共享一台高配工作站流程运行SW UG等软件大装配设计

如何实现5个人共享一台高配工作站流程运行SW UG等软件大装配设计? 一、前期准备 硬件准备: 选购一台高性能的服务器作为云主机,确保服务器具备足够的计算能力、内存和存储空间以支持多用户并发使用。云主机需要结合企业具体的使用情况和人数…