sheng的学习笔记-AI-强化学习（Reinforcement Learning, RL）

sheng的学习笔记-AI-强化学习（Reinforcement Learning, RL）

news2026/2/10 6:36:09

AI目录：sheng的学习笔记-AI目录-CSDN博客

基础知识

什么是强化学习

强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

举例说明

以种西瓜举例

种瓜有许多步骤，从一开始的选种，到定期浇水、施肥、除草、杀虫，经过一段时间才能收获西瓜。通常要等到收获后，我们才知道种出的瓜好不好。若将得到好瓜作为辛勤种瓜劳动的奖赏，则在种瓜过程中当我们执行某个操作（例如，施肥）时，并不能立即获得这个最终奖赏，甚至难以判断当前操作对最终奖赏的影响，仅能得到一个当前反馈（例如，瓜苗看起来更健壮了）。我们需多次种瓜，在种瓜过程中不断摸索，然后才能总结出较好的种瓜策略。这个过程抽象出来，就是“强化学习”

原理

强化学习任务通常用马尔可夫决策过程（Markov Decision Process，简称MDP）来描述：

机器处于环境E中，状态空间为X，其中每个状态x∈X是机器感知到的环境的描述，如在种瓜任务上这就是当前瓜苗长势的描述；

机器能采取的动作构成了动作空间A，如种瓜过程中有浇水、施不同的肥、使用不同的农药等多种可供选择的动作；若某个动作α∈A作用在当前状态x上，则潜在的转移函数P将使得环境从当前状态按某种概率转移到另一个状态，如瓜苗状态为缺水，若选择动作浇水，则瓜苗长势会发生变化，瓜苗有一定的概率恢复健康，也有一定的概率无法恢复；在转移到另一个状态的同时，环境会根据潜在的“奖赏”(reward)函数R反馈给机器一个奖赏，如保持瓜苗健康对应奖赏+1，瓜苗凋零对应奖赏-10，最终种出了好瓜对应奖赏+100.

综合起来，强化学习任务对应了四元组E=〈X,A,P,R〉，其中P指定了状态转移概率，R指定了奖赏；在有的应用中，奖赏函数可能仅与状态转移有关。

给西瓜浇水的马尔可夫决策过程

该任务中只有四个状态（健康、缺水、溢水、凋亡）和两个动作（浇水、不浇水）

在每一步转移后，若状态是保持瓜苗健康则获得奖赏1，瓜苗缺水或溢水奖赏为-1，这时通过浇水或不浇水可以恢复健康状态，当瓜苗凋亡时奖赏是最小值-100且无法恢复。

图中箭头表示状态转移，箭头旁的α,p,r分别表示导致状态转移的动作、转移概率以及返回的奖赏。容易看出，最优策略在“健康”状态选择动作“浇水”、在“溢水”状态选择动作“不浇水”、在“缺水”状态选择动作“浇水”、在“凋亡”状态可选择任意动作。

需注意“机器”与“环境”的界限

例如在种西瓜任务中，环境是西瓜生长的自然世界；
在下棋对弈中，环境是棋盘与对手；
在机器人控制中，环境是机器人的躯体与物理世界。

总之，在环境中状态的转移、奖赏的返回是不受机器控制的，机器只能通过选择要执行的动作来影响环境，也只能通过观察转移后的状态和返回的奖赏来感知环境。

在强化学习中并没有监督学习中的有标记样本（即“示例-标记”对），换言之，没有人直接告诉机器在什么状态下应该做什么动作，只有等到最终结果揭晓，才能通过“反思”之前的动作是否正确来进行学习。因此，强化学习在某种意义上可看作具有“延迟标记信息”的监督学习问题。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2149909.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

电机设计及电机仿真APP系列之—高速永磁同步电机仿真APP

电机设计及电机仿真APP系列之—高速永磁同步电机仿真APP

电机的各种工作状态和参数变化。用户可通过调整仿真参数，快速得到电机的响应和性能参数，从而进行针对性的优化和改进。借助仿真APP，可大大减少电机设计迭代次数和成本，提高测试效率和准确性。小编整理了10款不同类型的电机仿真A…

阅读更多...

掌握顶会流量密码！“Mamba+CNN”双热点组合！轻松找到创新点！

掌握顶会流量密码！“Mamba+CNN”双热点组合！轻松找到创新点！

传统视觉模型在处理大规模或高分辨率图像时存在一定限制。然而Mamba与CNN相结合，在处理序列数据和图像数据时有着显著的优势，并且能够有效提升模型计算效率和准确率。这种结合可以让Mamba在处理长序列数据时既能够捕捉到序列中的时间依赖关系&#xff…

阅读更多...

springboot整合springbatch和xxljob实现定时数据同步（完整代码）

springboot整合springbatch和xxljob实现定时数据同步（完整代码）

springboot整合springbatch和xxljob实现定时数据同步（完整代码） 前言：公司一些老项目的定时任务使用spring自带的调度器来完成数据同步的，久而久之带来很多的不方便。首先没办法快速定位监控定时任务的执行情况，其次就…

阅读更多...

c++11右值引用和移动语义

c++11右值引用和移动语义

一.左值引用和右值引用什么是左值引用，什么是右值引用左值是一个表示数据的表达式（变量名解引用的指针），我们可以获取到它的地址，可以对它赋值，左值可以出现在符号的左边。使用const修饰后，…

阅读更多...

python检测keycloak证书连接报错问题

python检测keycloak证书连接报错问题

最近一直被keycloak的证书问题困扰了很久，老是提示ssl安全连接，由于不会java,只好硬着头皮用python测试。我这里的证书是自己签注的证书，导入系统的是CA根证书。 from keycloak import KeycloakOpenID# 1. 配置 Keycloak 客户端 keycloak_o…

阅读更多...

电子画册3D翻页电子版是如何制作

电子画册3D翻页电子版是如何制作

随着科技的发展，传统的纸质画册逐渐被电子画册所取代。电子画册3D翻页电子版以其独特的交互方式和丰富的视觉体验，受到了越来越多人的喜爱。让我来教你怎么制作吧。 1.要制作电子杂志,首先需要选择一款适合自己的软件。比如FLBOOK在线制作电子杂志平台…

阅读更多...

信息收集常用指令

信息收集常用指令

目的本文主要是记录一些在信息搜集时，常用的提高搜索效率的命令。后续会继续记录一些用到的更多指令和方法，慢慢更新。 1、inurl “inurl:xxx”是指查找url中包含xxx的网页。 URL：统一资源定位符。统一资源定位系统。可以说包含域名&am…

阅读更多...

ThreaLocal

ThreaLocal

1.概述 ThreadLoca称线程局部变量，用于在线程中保存数据，保存的数据仅属于当前线程(即对其他线程而言，该变量是当前线程独有的变量) threadLocal利用Thread中的ThreadLocalMap来进行数据存储 2.常用方法存储数据至当前线程ThreadLocalMap中…

阅读更多...

无监督神经组合优化的扩散模型框架

无监督神经组合优化的扩散模型框架

文章目录 Abstract1. Introduction2. Problem Description2.1 无监督神经组合优化3. Neural Probabilistic Optimization Objective for Approximate Likelihood Models3.1 具有联合变分上界的训练扩散模型Abstract 从离散集合的不可处理分布中进行采样，而不依赖相应的训练数据…

阅读更多...

OpenAI o1解决了Quiet-STaR的挑战吗？（下）

OpenAI o1解决了Quiet-STaR的挑战吗？（下）

随着OpenAI o1近期的发布，业界讨论o1关联论文最多之一可能是早前这篇斯坦福大学和Notbad AI Inc的研究人员开发的Quiet-STaR，即让AI学会先安静的“思考”再“说话” ，回想自己一年前对于这一领域的思考和探索，当初也将这篇论文进行…

阅读更多...

初学者蒙语学习，使用什么翻译软件学习更快？

初学者蒙语学习，使用什么翻译软件学习更快？

为了加快蒙古语的学习，初学者应该从基础语法和词汇入手，利用语言学习应用进行系统学习，并通过音频和视频材料提高听力。语言交换和参加课程可以提供实践机会，而使用闪卡和文化沉浸有助于记忆词汇和理解语言背景。定期复习和设定学…

阅读更多...

聊天组件 Vue3-beautiful-chat 插槽

聊天组件 Vue3-beautiful-chat 插槽

前言 Vue3-beautiful-chat 组件有四个插槽可以定制一、user-avatar（头像）首先是头像插槽，我们可以直接在 <beautiful-chat></beautiful-chat> 中间使用；作用：我们可以在用户头像上添加自定义样式，比如添加节日边框、可以使用首字母作为头像。。。 …

阅读更多...

小阿轩yx-通过state模块定义主机状态

小阿轩yx-通过state模块定义主机状态

小阿轩yx-通过state模块定义主机状态前言前面学习了远程执行模块，这些模块的执行类似语段 shell 脚本，每次执行都会触发一次相同的功能，在大量的 minion 上运行远程命令当然是重要的，但是对于 minion 的环境控制，使…

阅读更多...

Python 二级考试

Python 二级考试

易错点定义学生关系模式如下：Student （S#， Sn， Ssex，class，monitorS#）（其属性分别为学号、学生名、性别、班级和班长学号） 在关系模式中，如果Y -> X&…

阅读更多...

超详细！百分百安装成功pytorch，建议收藏

超详细！百分百安装成功pytorch，建议收藏

文章目录一、Anaconda安装1.1下载anaconda1.2配置Anaconda环境1.3验证anaconda是否安装成功二、查看电脑显卡三、更新显卡驱动3.1下载驱动3.2、查看显卡驱动版本四、cuda安装4.1CUDA下载4.2CUDA环境配置4.3验证CUDA是否安装成功五、安装pytorch4.1下载pytorch5.2验证pytorc…

阅读更多...

计算机专业的就业方向

计算机专业的就业方向

计算机专业的就业方向亲爱的新生们，欢迎你们踏上计算机科学的旅程！作为一名计算机专业的学生，你们即将进入一个充满无限可能的领域。今天，我将为大家介绍计算机专业的一些主要就业方向，帮助你们了解未来的职业选择。…

阅读更多...

备忘录应用哪些值得推荐？优秀的桌面备忘录下载

备忘录应用哪些值得推荐？优秀的桌面备忘录下载

在我们的日常生活和工作中，备忘录是一款常用的记录软件，它为我们提供了极大的便利，让我们可以随时记录下重要的信息、灵感和待办事项。然而，如今网上的备忘录软件琳琅满目，究竟哪一款才是真正优秀的呢？ 在…

阅读更多...

分步指南：如何使用 ChatGPT 撰写文献综述

分步指南：如何使用 ChatGPT 撰写文献综述

撰写文献综述对于研究人员和学生来说，往往是一项既耗时又复杂的任务。这一过程不仅要求对所选主题的现有研究进行全面的了解和掌握，还需要学术严谨性。然而，随着像 ChatGPT 这样的高级语言模型的广泛应用，撰写文献综述的过程变得更加高效和简化。通过合理利用 ChatGPT，研究…

阅读更多...

分享三款简单好用的文档翻译软件

分享三款简单好用的文档翻译软件

在平时的工作学习中免不了会碰上需要翻译文件的时候，给大家分享三款简单好用的翻译软件，可以直接翻译整篇的文档，翻译速度快，准确率高，可以大大提高效率。 1.谷歌翻译这个翻译软件支持在线翻译，也可以翻…

阅读更多...

华为 HCIP-Datacom H12-821 题库 (25)

华为 HCIP-Datacom H12-821 题库 (25)

🐣博客最下方微信公众号回复题库,领取题库和教学资源 🐤诚挚欢迎IT交流有兴趣的公众号回复交流群 🦘公众号会持续更新网络小知识😼 1.以下哪些事件会导致 IS-IS 产生一个新的 LSP? A、邻接 Up 或Down B、引入的 IP 路由发送变…

阅读更多...

推荐文章

最新文章