西湖大学赵世钰老师【强化学习的数学原理】学习笔记-1、0节

西湖大学赵世钰老师【强化学习的数学原理】学习笔记-1、0节

news2026/3/29 20:02:11

强化学习的数学原理是由西湖大学赵世钰老师带来的关于RL理论方面的详细课程，本课程深入浅出地介绍了RL的基础原理，前置技能只需要基础的编程能力、概率论以及一部分的高等数学，你听完之后会在大脑里面清晰的勾勒出RL公式推导链条中的每一个部分。赵老师明确知道RL创新研究的理论门槛在哪，也知道视频前的你我距离这个门槛还有多远。

本笔记将会用于记录我学习中的理解，会结合赵老师的视频截图，以及PDF文档Book-Mathematical-Foundation-of-Reinforcement-Learning进行笔记注释，之后也会补充课程相关的代码样例，帮助大家理解

笔记合集链接（排版更好哦🧐）：《RL的数学原理》

记得点赞哟(๑ゝω╹๑)

前面章节贵在基础性，后面章节在于前沿性与实践性

Chapter1：基本概念

Chapter2：贝尔曼公式，重要的概念及工具，用以策略评价

Chapter3：贝尔曼最优公式->最优策略，强化学习的最终目标就是求解最优策略， 需要把握两点：最优策略与最优状态价值。贝尔曼最优方程：1.不动点原理，2. 解决基础性问题，3. 提供求解贝尔曼方程的算法

Chapter4：你的第一类求解最优策略的算法：值迭代，策略迭代，Truncated policy（第三个是前两者的结合，亦或者说是前两者的一种积分情况）。以上三个算法都是迭代式的算法，都包含策略迭代与值迭代，在实践中不断迭代，从而获得最优策略。未来所有的算法都是以此为基本逻辑。另外，以上都需要环境模型。

Chapter5：蒙特卡洛是最简单，也是唯一不需要模型的算法，需要明确没有模型的情况下，我们的训练目标是什么，以及我们所拥有的是什么：期望值（某种程度上可以理解为平均值），采样数据。模型与数据必有其一才可学习。你的第一类求解无模型的RL的算法：1. MC Basic（策略迭代数据版，效率特别低）, 2. MC Exploring Starts, 3.MC ϵ-greedy

Chapter6：随机近似理论，估计随机变量的期望， 两种估计的方法：1.无增量的想法，需要对所有采样的结果都获取到之后求平均，获得近似，2. 有增量的想法，先对其有一个不准确的估计，每次获得采样后，不断更新估计。三种算法：1. Robbins-Monro（RM）算法,2. Stochastic gradient descent(SGD)随机梯度下降,3. SGD,BGD批量下降,MBGD小批量梯度下降三者之间的比较。

Chapter7：时序差分方法，1. 用TD方法计算state value（前面使用了蒙特卡洛、模型等方法计算），2. Sarsa：用TD思想学习动作价值，3. Q-learing：用TD直接计算最优动作价值，因此是off-policy离线策略。Behaviour Policy 与 Target Policy 如果二者相同，那就是On-policy，反之就是Off-policy（可以从先前别的策略学习到的数据为我所用）

Chapter8：从之前的邻接矩阵形式，迈入了函数表达式，使用近似函数模拟的方式求解状态价值：明确目标函数，求梯度，使用梯度上升或梯度下降进行优化。模型应用中，值函数的更新是通过真实值和函数值之差的绝对值来评判。与时序差分算法的多种结合。利用了神经网络所具有的优秀函数拟合能力，发展产生了深度强化学习。

Chapter9：从Value-based迈入了policy-based，他们的区别在于后者是直接使用函数拟合，并且直接改变优化策略：明确目标函数，求梯度，使用梯度上升或梯度下降进行优化。

Chapter10：结合Value-based（Critic）和policy-based（Actor）

课程是否适合你？

本课程是原理部分，偏向于用数学原理来描述问题，能够更全面更完整理解，只有深刻理解原理，才能有所创新

0节：课程介绍

1、Why this course？

Reinforcement learning:An introduction.强化学习界的圣经（广泛引用，但是数学内容不多，对深入学习不算友好，同时会有高级知识提前出现在基础内容中，导致学习不太友好）
一大类书籍都偏向于通过文字描述，通过直观解释来介绍，另一大类又太过数学化，需要极强的专业背景，中间存在一个Gap等待被填充
我们希望从本质去回答去回答算法设计的逻辑，将数学控制在合理的水平，既能清晰展现原理，又不会过于晦涩
建议大家循序渐进，按照章节进行学习

2、The story of Alphago

3、Brief history of rl

DQN：RL与deep RL的分界线

Q-learning：一种时序差分算法

4、Details of this course

强化学习与监督学习、半监督学习并列属于ML，其有着广泛地交叉应用领域，并在控制方向上也有着重大作用

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1629163.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

索引失效的几种场景

索引失效的几种场景

索引失效的几种场景初始化数据一、对索引使用左或左右模糊匹配二、对索引使用函数三、对索引使用表达式计算四、对索引进行隐式类型转换五、索引使用不满足最左前缀原则六、where子句使用or总结初始化数据本文使用的是InnoDB存储引擎，先来创建一个学生表。 dro…

阅读更多...

2021年山东省职业院校技能大赛高职组“信息安全管理与评估”样题

2021年山东省职业院校技能大赛高职组“信息安全管理与评估”样题

培训、环境、资料、考证公众号：Geek极安云科网络安全群：624032112 网络系统管理群：223627079 网络建设与运维群：870959784 移动应用开发群：548238632 极安云科专注于技能提升，赋能 2024年广东省高校的技…

阅读更多...

【第二十五课】动态规划：数字三角形(acwing-898 / 蓝桥官网503 / c++代码)

【第二十五课】动态规划：数字三角形(acwing-898 / 蓝桥官网503 / c++代码)

目录 acwing-898数字三角形(模板题) 思路注意点代码视频讲解推荐 2020蓝桥杯省赛-数字三角形错误思路 (可不看) 思路代码注意点续上之前的啦。【第二十五课】动态规划：01背包问题(acwing-2 / 思路 / 含一维数组优化 / c代码) 适合在学习过背包…

阅读更多...

OS复习笔记ch3-1

OS复习笔记ch3-1

引言学到第三章，就正式步入我们OS的大门了本章我们将围绕以下几个问题去解决什么是进程？进程状态有哪些？进程如何描述？进程如何控制？ 本节内容主要是回答前两个问题，第二节回答后两个问题。进程 …

阅读更多...

windows环境下安装Apache

windows环境下安装Apache

首先apache官网下载地址：http://www.apachelounge.com/download/按照自己的电脑操作系统来安装这里我安装的是win64 主版本是2.4的apache。然后解压压缩包到一个全英文的路径下！！！一定一定不要有中文中文符号也不要有&#xff…

阅读更多...

详细分析PyInstaller打包python为exe执行文件（附Demo）

详细分析PyInstaller打包python为exe执行文件（附Demo）

目录前言1. 基本知识2. Demo 前言需要将python文件打包成exe文件，变成rpa自动化形式 1. 基本知识 PyInstaller是一个用于将Python应用程序打包成独立可执行文件的工具可以将Python脚本打包成Windows、Linux和Mac OS X上的可执行文件，这个作用可以将…

阅读更多...

【Linux】软硬链接与动静态库(理解软硬链接的特点及使用场景、如何建立动静态库与使用第三方库)

【Linux】软硬链接与动静态库(理解软硬链接的特点及使用场景、如何建立动静态库与使用第三方库)

一、软链接 1.1 如何建立软链接 //建立软链接 -s代表soft ln -s 目标文件名链接文件名//删除软链接 rm 链接文件或 unlink 链接文件 1.2 软链接的特点与功能通过ls -i指令可以查看文件的inode编号、可以看出目标文件与软链接文件各自有自己的inode，所以软…

阅读更多...

揭秘App全渠道统计服务：如何精准追踪你的用户来源？

揭秘App全渠道统计服务：如何精准追踪你的用户来源？

在移动互联网时代，App的推广和运营至关重要，而渠道统计则是衡量推广效果的关键一环。近日，xinstall推出了一款全新的App全渠道统计服务，该服务旨在帮助开发者和运营者更全面地了解用户来源，优化推广策略，从…

阅读更多...

前端JS加密库CryptoJS的常用方法

前端JS加密库CryptoJS的常用方法

CryptoJS是前端常用的一个加密库，如MD5、SHA256、AES等加密算法。官方文档：https://www.npmjs.com/package/crypto-js 安装方法方法一：直接在html文件中引入 <script type"text/javascript" src"path-to/bower_componen…

阅读更多...

C# 项目：导线计算 / 坐标转换 / 曲线放样 / 水准网 / 导线网平差

C# 项目：导线计算 / 坐标转换 / 曲线放样 / 水准网 / 导线网平差

文章目录 Part.I IntroductionPart.II 软件简介Chap.I 导线计算Chap.II 坐标转换Chap.III 曲线放样Chap.IV 水准网 / 导线网平差 Part.III 软件使用过程中可能遇到的问题Reference Part.I Introduction 本文将对几个基于 C# 开发的软件进行简要的介绍，这些软件都是…

阅读更多...

前端更优雅的使用 jsonp

前端更优雅的使用 jsonp

前端更优雅的使用 jsonp 背景：最近项目中又使用到了 jsonp 这一项跨域的技术，（主要还是受同源策略影响），下面有为大家提供封装好的函数及对应使用示例，欢迎大家阅读理解文章目录前端更优雅的使用 jsonp同…

阅读更多...

SAP-ERP TM运输管理模块详解-1

SAP-ERP TM运输管理模块详解-1

简介 SAP中的运输功能（即TM模块，属于SD的子模块）是后勤执行的一部分，用于自动计算交货成本。也就是说，SAP可以让系统自动对销售发货的商品计算运费，对于运费占这个成本很大比重的销售模式，可以使用该功能。运输功能相对于SD其他模块，相对比较独立的，应用面不是很广。其…

阅读更多...

【算法一则】【贪心】数组中的数可以拼装成的最大数

【算法一则】【贪心】数组中的数可以拼装成的最大数

题目给定一组非负整数 nums，重新排列每个数的顺序（每个数不可拆分）使之组成一个最大的整数。注意：输出结果可能非常大，所以你需要返回一个字符串而不是整数。示例 1： 输入：nums [10,2] …

阅读更多...

使用 frp 通过云厂商公网IP实现内网穿透

使用 frp 通过云厂商公网IP实现内网穿透

写在前面有小伙伴推荐，简单了解博文内容涉及内网穿透工具 frp 的安装以及2个Demo内网的静态文件服务访问 Demo内网多端口映射 Demo理解不足小伙伴帮忙指正不必太纠结于当下，也不必太忧虑未来，当你经历过一些事情的时候，眼前的…

阅读更多...

【数据分析面试】32.矩阵元素求和 (Python： for…in…语句)

【数据分析面试】32.矩阵元素求和 (Python： for…in…语句)

题目：矩阵元素求和 （Python) 假设给定一个整数矩阵。你的任务是编写一个函数，返回矩阵中所有元素的和。示例 1： 输入： matrix [[1, 2, 3], [4, 5, 6], [7, 8, 9]]输出： matrix_sum(matrix) -> 45…

阅读更多...

判断n以内的素数个数的五种方法+时间对比

判断n以内的素数个数的五种方法+时间对比

目录方法一：暴力法复杂度方法二：跨度为6的倍数的优化复杂度方法三：埃氏筛法复杂度方法四：埃氏筛法的改良复杂度方法五：线性筛复杂度性能对比测试练习方法一：暴力法就是写一个函…

阅读更多...

STL--string详解

STL--string详解

STL基本内容 string是什么 string实质上是一个对象 string可看作一个串，类似字符数组可以扩容，可以增删查改可用下表访问操作符[]引用，修改某值构造函数默认构造拷贝构造：参数为(string 或 char*) 求string对象的长度不…

阅读更多...

锂电池SOH预测 | 基于SVM的锂电池SOH预测（附matlab完整源码)

锂电池SOH预测 | 基于SVM的锂电池SOH预测（附matlab完整源码)

锂电池SOH预测锂电池SOH预测完整代码锂电池SOH预测锂电池的SOH（状态健康度）预测是一项重要的任务，它可以帮助确定电池的健康状况和剩余寿命，从而优化电池的使用和维护策略。 SOH预测可以通过多种方法实现，其中一些常用的方法包括：容量衰减法：通过监测电池的容量衰减…

阅读更多...

C语言学习/复习36

C语言学习/复习36

一、程序的环境与预处理二、翻译环境与执行环境三、运行环境四、预编译(预处理)详解

阅读更多...

【Hadoop】-Apache Hive使用语法与概念原理[15]

【Hadoop】-Apache Hive使用语法与概念原理[15]

一、数据库操作创建数据库 create database if not exists myhive; 使用数据库 use myhive; 查看数据库详细信息 desc database myhive; 数据库本质上就是在HDFS之上的文件夹。默认数据库的存放路径是HDFS的：/user/hive/warehouse内创建数据库并指定hdfs…

阅读更多...

推荐文章

最新文章