西湖大学赵世钰老师【强化学习的数学原理】学习笔记-1、0节

news2025/1/12 13:38:11

强化学习的数学原理是由西湖大学赵世钰老师带来的关于RL理论方面的详细课程,本课程深入浅出地介绍了RL的基础原理,前置技能只需要基础的编程能力、概率论以及一部分的高等数学,你听完之后会在大脑里面清晰的勾勒出RL公式推导链条中的每一个部分。赵老师明确知道RL创新研究的理论门槛在哪,也知道视频前的你我距离这个门槛还有多远。

本笔记将会用于记录我学习中的理解,会结合赵老师的视频截图,以及PDF文档Book-Mathematical-Foundation-of-Reinforcement-Learning进行笔记注释,之后也会补充课程相关的代码样例,帮助大家理解

笔记合集链接(排版更好哦🧐):《RL的数学原理》

记得点赞哟(๑ゝω╹๑)

前面章节贵在基础性,后面章节在于前沿性与实践性

  • Chapter1:基本概念
  • Chapter2:贝尔曼公式,重要的概念及工具,用以策略评价
  • Chapter3:贝尔曼最优公式->最优策略,强化学习的最终目标就是求解最优策略, 需要把握两点:最优策略与最优状态价值。贝尔曼最优方程:1.不动点原理,2. 解决基础性问题,3. 提供求解贝尔曼方程的算法
  • Chapter4: 你的第一类求解最优策略的算法:值迭代,策略迭代,Truncated policy(第三个是前两者的结合,亦或者说是前两者的一种积分情况)。以上三个算法都是迭代式的算法,都包含策略迭代与值迭代,在实践中不断迭代,从而获得最优策略。未来所有的算法都是以此为基本逻辑。另外,以上都需要环境模型。
  • Chapter5:蒙特卡洛是最简单,也是唯一不需要模型的算法,需要明确没有模型的情况下,我们的训练目标是什么,以及我们所拥有的是什么:期望值(某种程度上可以理解为平均值),采样数据。模型与数据必有其一才可学习。你的第一类求解无模型的RL的算法:1. MC Basic(策略迭代数据版,效率特别低), 2. MC Exploring Starts, 3.MC ϵ-greedy
  • Chapter6:随机近似理论,估计随机变量的期望, 两种估计的方法:1.无增量的想法,需要对所有采样的结果都获取到之后求平均,获得近似,2. 有增量的想法,先对其有一个不准确的估计,每次获得采样后,不断更新估计。三种算法:1. Robbins-Monro(RM)算法,2. Stochastic gradient descent(SGD)随机梯度下降,3. SGD,BGD批量下降,MBGD小批量梯度下降三者之间的比较。
  • Chapter7:时序差分方法,1. 用TD方法计算state value(前面使用了蒙特卡洛、模型等方法计算),2. Sarsa:用TD思想学习动作价值,3. Q-learing:用TD直接计算最优动作价值,因此是off-policy离线策略。Behaviour Policy 与 Target Policy 如果二者相同,那就是On-policy,反之就是Off-policy(可以从先前别的策略学习到的数据为我所用)
  • Chapter8:从之前的邻接矩阵形式,迈入了函数表达式,使用近似函数模拟的方式求解状态价值:明确目标函数,求梯度,使用梯度上升或梯度下降进行优化。模型应用中,值函数的更新是通过真实值和函数值之差的绝对值来评判。与时序差分算法的多种结合。利用了神经网络所具有的优秀函数拟合能力,发展产生了深度强化学习。
  • Chapter9:从Value-based迈入了policy-based,他们的区别在于后者是直接使用函数拟合,并且直接改变优化策略:明确目标函数,求梯度,使用梯度上升或梯度下降进行优化。
  • Chapter10:结合Value-based(Critic)和policy-based(Actor)

课程是否适合你?

本课程是原理部分,偏向于用数学原理来描述问题,能够更全面更完整理解,只有深刻理解原理,才能有所创新

0节:课程介绍

1、Why this course?

  • Reinforcement learning:An introduction.强化学习界的圣经(广泛引用,但是数学内容不多,对深入学习不算友好,同时会有高级知识提前出现在基础内容中,导致学习不太友好)
  • 一大类书籍都偏向于通过文字描述,通过直观解释来介绍,另一大类又太过数学化,需要极强的专业背景,中间存在一个Gap等待被填充
  • 我们希望从本质去回答去回答算法设计的逻辑,将数学控制在合理的水平,既能清晰展现原理,又不会过于晦涩
  • 建议大家循序渐进,按照章节进行学习

2、The story of Alphago

3、Brief history of rl

DQN:RL与deep RL的分界线

Q-learning:一种时序差分算法

4、Details of this course

强化学习与监督学习、半监督学习并列属于ML,其有着广泛地交叉应用领域,并在控制方向上也有着重大作用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1629163.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

索引失效的几种场景

索引失效的几种场景 初始化数据一、对索引使用左或左右模糊匹配二、对索引使用函数三、对索引使用表达式计算四、对索引进行隐式类型转换五、索引使用不满足最左前缀原则六、where子句使用or总结 初始化数据 本文使用的是InnoDB存储引擎,先来创建一个学生表。 dro…

2021年山东省职业院校技能大赛高职组“信息安全管理与评估”样题

培训、环境、资料、考证 公众号:Geek极安云科 网络安全群:624032112 网络系统管理群:223627079 网络建设与运维群:870959784 移动应用开发群:548238632 极安云科专注于技能提升,赋能 2024年广东省高校的技…

【第二十五课】动态规划:数字三角形(acwing-898 / 蓝桥官网503 / c++代码)

目录 acwing-898数字三角形(模板题) 思路 注意点 代码 视频讲解推荐 2020蓝桥杯省赛-数字三角形 错误思路 (可不看) 思路 代码 注意点 续上之前的啦。 【第二十五课】动态规划:01背包问题(acwing-2 / 思路 / 含一维数组优化 / c代码) 适合在学习过背包…

OS复习笔记ch3-1

引言 学到第三章,就正式步入我们OS的大门了 本章我们将围绕以下几个问题去解决 什么是进程?进程状态有哪些?进程如何描述?进程如何控制? 本节内容主要是回答前两个问题,第二节回答后两个问题。 进程 …

windows环境下安装Apache

首先apache官网下载地址:http://www.apachelounge.com/download/按照自己的电脑操作系统来安装 这里我安装的是win64 主版本是2.4的apache。 然后解压压缩包到一个全英文的路径下!!!一定一定不要有中文 中文符号也不要有&#xff…

详细分析PyInstaller打包python为exe执行文件(附Demo)

目录 前言1. 基本知识2. Demo 前言 需要将python文件打包成exe文件,变成rpa自动化形式 1. 基本知识 PyInstaller是一个用于将Python应用程序打包成独立可执行文件的工具 可以将Python脚本打包成Windows、Linux和Mac OS X上的可执行文件,这个作用可以将…

【Linux】软硬链接与动静态库(理解软硬链接的特点及使用场景、如何建立动静态库与使用第三方库)

一、软链接 1.1 如何建立软链接 //建立软链接 -s代表soft ln -s 目标文件名 链接文件名//删除软链接 rm 链接文件 或 unlink 链接文件 1.2 软链接的特点与功能 通过ls -i指令可以查看文件的inode编号 、 可以看出目标文件与软链接文件各自有自己的inode,所以软…

揭秘App全渠道统计服务:如何精准追踪你的用户来源?

在移动互联网时代,App的推广和运营至关重要,而渠道统计则是衡量推广效果的关键一环。近日,xinstall推出了一款全新的App全渠道统计服务,该服务旨在帮助开发者和运营者更全面地了解用户来源,优化推广策略,从…

前端JS加密库CryptoJS的常用方法

CryptoJS是前端常用的一个加密库&#xff0c;如MD5、SHA256、AES等加密算法。 官方文档&#xff1a;https://www.npmjs.com/package/crypto-js 安装方法 方法一&#xff1a;直接在html文件中引入 <script type"text/javascript" src"path-to/bower_componen…

C# 项目:导线计算 / 坐标转换 / 曲线放样 / 水准网 / 导线网平差

文章目录 Part.I IntroductionPart.II 软件简介Chap.I 导线计算Chap.II 坐标转换Chap.III 曲线放样Chap.IV 水准网 / 导线网平差 Part.III 软件使用过程中可能遇到的问题Reference Part.I Introduction 本文将对几个基于 C# 开发的软件进行简要的介绍&#xff0c;这些软件都是…

前端更优雅的使用 jsonp

前端更优雅的使用 jsonp 背景&#xff1a;最近项目中又使用到了 jsonp 这一项跨域的技术&#xff0c;&#xff08;主要还是受同源策略影响&#xff09;&#xff0c;下面有为大家提供封装好的函数及对应使用示例&#xff0c;欢迎大家阅读理解 文章目录 前端更优雅的使用 jsonp同…

SAP-ERP TM运输管理模块详解-1

简介 SAP中的运输功能(即TM模块,属于SD的子模块)是后勤执行的一部分,用于自动计算交货成本。也就是说,SAP可以让系统自动对销售发货的商品计算运费,对于运费占这个成本很大比重的销售模式,可以使用该功能。运输功能相对于SD其他模块,相对比较独立的,应用面不是很广。其…

【算法一则】【贪心】数组中的数可以拼装成的最大数

题目 给定一组非负整数 nums&#xff0c;重新排列每个数的顺序&#xff08;每个数不可拆分&#xff09;使之组成一个最大的整数。 注意&#xff1a;输出结果可能非常大&#xff0c;所以你需要返回一个字符串而不是整数。 示例 1&#xff1a; 输入&#xff1a;nums [10,2] …

使用 frp 通过云厂商公网IP实现内网穿透

写在前面 有小伙伴推荐&#xff0c;简单了解博文内容涉及 内网穿透 工具 frp 的安装以及2个Demo内网的静态文件服务访问 Demo内网多端口映射 Demo理解不足小伙伴帮忙指正 不必太纠结于当下&#xff0c;也不必太忧虑未来&#xff0c;当你经历过一些事情的时候&#xff0c;眼前的…

【数据分析面试】32.矩阵元素求和 (Python: for…in…语句)

题目&#xff1a;矩阵元素求和 &#xff08;Python) 假设给定一个整数矩阵。你的任务是编写一个函数&#xff0c;返回矩阵中所有元素的和。 示例 1&#xff1a; 输入&#xff1a; matrix [[1, 2, 3], [4, 5, 6], [7, 8, 9]]输出&#xff1a; matrix_sum(matrix) -> 45…

判断n以内的素数个数的五种方法+时间对比

目录 方法一&#xff1a;暴力法 复杂度 方法二&#xff1a;跨度为6的倍数的优化 复杂度 方法三&#xff1a;埃氏筛法 复杂度 方法四&#xff1a;埃氏筛法的改良 复杂度 方法五&#xff1a;线性筛 复杂度 性能对比测试 练习 方法一&#xff1a;暴力法 就是写一个函…

STL--string详解

STL基本内容 string是什么 string实质上是一个对象 string可看作一个串&#xff0c;类似字符数组 可以扩容&#xff0c;可以增删查改 可用下表访问操作符[]引用&#xff0c;修改某值 构造函数 默认构造 拷贝构造&#xff1a;参数为(string 或 char*) 求string对象的长度不…

锂电池SOH预测 | 基于SVM的锂电池SOH预测(附matlab完整源码)

锂电池SOH预测 锂电池SOH预测完整代码锂电池SOH预测 锂电池的SOH(状态健康度)预测是一项重要的任务,它可以帮助确定电池的健康状况和剩余寿命,从而优化电池的使用和维护策略。 SOH预测可以通过多种方法实现,其中一些常用的方法包括: 容量衰减法:通过监测电池的容量衰减…

C语言学习/复习36

一、程序的环境与预处理 二、翻译环境与执行环境 三、运行环境 四、预编译(预处理)详解

【Hadoop】-Apache Hive使用语法与概念原理[15]

一、数据库操作 创建数据库 create database if not exists myhive; 使用数据库 use myhive; 查看数据库详细信息 desc database myhive; 数据库本质上就是在HDFS之上的文件夹。 默认数据库的存放路径是HDFS的&#xff1a;/user/hive/warehouse内 创建数据库并指定hdfs…