深度学习3. 强化学习-Reinforcement learning | RL

news2026/2/15 4:42:15

强化学习是机器学习的一种学习方式，它跟监督学习、无监督学习是对应的。本文将详细介绍强化学习的基本概念、应用场景和主流的强化学习算法及分类。

目录

什么是强化学习？

强化学习的应用场景

强化学习的主流算法

强化学习(reinforcement learning)

什么是强化学习？

强化学习并不是某一种特定的算法，而是一类算法的统称。

如果用来做对比的话，他跟监督学习，无监督学习是类似的，是一种统称的学习方式。

强化学习算法的思路非常简单，以游戏为例，如果在游戏中采取某种策略可以取得较高的得分，那么就进一步「强化」这种策略，以期继续取得较好的结果。这种策略与日常生活中的各种「绩效奖励」非常类似。我们平时也常常用这样的策略来提高自己的游戏水平。

在 Flappy bird 这个游戏中，我们需要简单的点击操作来控制小鸟，躲过各种水管，飞的越远越好，因为飞的越远就能获得更高的积分奖励。

这就是一个典型的强化学习场景：

机器有一个明确的小鸟角色——代理
需要控制小鸟飞的更远——目标
整个游戏过程中需要躲避各种水管——环境
躲避水管的方法是让小鸟用力飞一下——行动
飞的越远，就会获得越多的积分——奖励

强化学习和监督学习、无监督学习最大的不同就是不需要大量的“数据喂养”。

而是通过自己不停的尝试来学会某些技能。

强化学习的应用场景

强化学习目前还不够成熟，应用场景也比较局限。最大的应用场景就是游戏了。

游戏

2016年：AlphaGo Master 击败李世石，使用强化学习的 AlphaGo Zero 仅花了40天时间，就击败了自己的前辈 AlphaGo Master。

2019年1月25日：AlphaStar 在《星际争霸2》中以 10：1 击败了人类顶级职业玩家

2019年4月13日：OpenAI 在《Dota2》的比赛中战胜了人类世界冠军。

机器人

机器人很像强化学习里的「代理」，在机器人领域，强化学习也可以发挥巨大的作用。

其他

强化学习在推荐系统，对话系统，教育培训，广告，金融等领域也有一些应用：

强化学习的主流算法

免模型学习（Model-Free） vs 有模型学习（Model-Based）

在介绍详细算法之前，我们先来了解一下强化学习算法的2大分类。这2个分类的重要差异是：智能体是否能完整了解或学习到所在环境的模型

有模型学习（Model-Based）对环境有提前的认知，可以提前考虑规划，但是缺点是如果模型跟真实世界不一致，那么在实际使用场景下会表现的不好。

免模型学习（Model-Free）放弃了模型学习，在效率上不如前者，但是这种方式更加容易实现，也容易在真实场景下调整到很好的状态。所以免模型学习方法更受欢迎，得到更加广泛的开发和测试。

除了免模型学习和有模型学习的分类外，强化学习还有其他几种分类方式：

基于概率 VS 基于价值
回合更新 VS 单步更新
在线学习 VS 离线学习

强化学习(reinforcement learning)

又称再励学习、评价学习，是一种重要的机器学习方法，在智能控制机器人及分析预测等领域有许多应用。

但在传统的机器学习分类中没有提到过强化学习，而在连接主义学习中，把学习算法分为三种类型，

非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习。

强化学习（RL）是机器学习的一个领域，涉及软件代理如何在环境中采取行动以最大化一些累积奖励的概念。该问题由于其一般性，在许多其他学科中得到研究，如博弈论，控制理论，运筹学，信息论，基于仿真的优化，多智能体系统，群智能，统计和遗传算法。。在运筹学和控制文献中，强化学习被称为近似动态规划或神经动态规划。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/932513.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

yum命令安装程序

yum命令安装程序

Ubuntu图系统的安装命令： top命令： df -h查看磁盘占用信息网络状态监控环境变量和￥符号的用法： 上传下载命令： 压缩解压常见：的压缩格式 tar tar解压：

阅读更多...

汤普森采样(Thompson sampling)理论支持

汤普森采样(Thompson sampling)理论支持

目录一、UCB与TS算法数学原理（1）Upper Confidence Bounds 数学原理（2）Thompson sampling 数学原理1、TS 基本数据原理1. beta 分布2. 共轭分布与共轭先验3. 采样的编程实现 2、TS 算法流程(1) TS算法基础版本二、UCB与TS算法的优…

阅读更多...

深度学习2.神经网络、机器学习、人工智能

深度学习2.神经网络、机器学习、人工智能

目录深度学习、神经网络、机器学习、人工智能的关系大白话解释深度学习传统机器学习 VS 深度学习深度学习的优缺点 4种典型的深度学习算法卷积神经网络 – CNN 循环神经网络 – RNN 生成对抗网络 – GANs 深度强化学习 – RL 总结深度学习深度学习、神经网络…

阅读更多...

ModaHub魔搭社区：WinPin经营大脑助手

ModaHub魔搭社区：WinPin经营大脑助手

产品介绍智慧经营助手：企业专属的“数据工程师”“BI分析师” WinPlan决策系统算力阿里云腾讯云 AWS亚马逊框架业务数据基座 WinPlan垂直大模型模型分析模型预测模型决策模型应用精准预测

阅读更多...

微信视频号下载，个人在用的好使工具，就一个可执行文件，打开直接用

微信视频号下载，个人在用的好使工具，就一个可执行文件，打开直接用

比其它一些工具好使，目前个人在用的好使工具，就一个可执行文件，打开直接用： 先监听（安装一下证书）（图1）打开视频号左侧选择地址，点“复制链接”（图2&#xf…

阅读更多...

二叉树链式结构的实现

二叉树链式结构的实现

文章目录 1.前置说明 2.二叉树的遍历文章内容 1.前置说明学习二叉树的基本操作前，需先要创建一棵二叉树，然后才能学习其相关的基本操作。由于现在我们对于二叉树的了解还处于初级阶段，所以我们手动创建一棵简单的二叉树，以便…

阅读更多...

文本编辑器Vim常用操作和技巧

文本编辑器Vim常用操作和技巧

文章目录 1. Vim常用操作1.1 Vim简介1.2 Vim工作模式1.3 插入命令1.4 定位命令1.5 删除命令1.6 复制和剪切命令1.7 替换和取消命令1.8 搜索和搜索替换命令1.9 保存和退出命令 2. Vim使用技巧 1. Vim常用操作 1.1 Vim简介 Vim是一个功能强大的全屏幕文本编辑器，是L…

阅读更多...

Java—实现多线程程序 | 入门

Java—实现多线程程序 | 入门

目录一、前言二、基本概念进程线程三、Java多线程实现 java.lang.Thread类获取线程名字及对象获取main进程名 Thread currentThread() 四、线程优先级设置优先级一、前言前期入门学习的代码中，全部都是单线的程序，也就是从头到尾…

阅读更多...

Windows商店引入SUSE Linux Enterprise Server和openSUSE Leap

Windows商店引入SUSE Linux Enterprise Server和openSUSE Leap

在上个月的Build 2017开发者大会上，微软宣布将SUSE，Ubuntu和Fedora引入Windows 商店，反应出微软对开放源码社区的更多承诺。该公司去年以铂金会员身份加入Linux基金会。现在，微软针对内测者的Windows商店已经开始提供部分Linux发…

阅读更多...

JavaScript——为什么静态方法不能调用非静态方法

JavaScript——为什么静态方法不能调用非静态方法

个人简介 👀个人主页： 前端杂货铺 🙋‍♂️学习方向： 主攻前端方向，正逐渐往全干发展 📃个人状态： 研发工程师，现效力于中国工业软件事业 🚀人生格言： 积跬步…

阅读更多...

C++中的const成员变量和成员函数

C++中的const成员变量和成员函数

在类中，如果你不希望某些数据被修改，可以使用const关键字加以限定。const 可以用来修饰成员变量和成员函数。 const成员变量 const 成员变量的用法和普通 const 变量的用法相似，只需要在声明时加上 const 关键字。初始化 const 成员变量只有…

阅读更多...

VUE笔记（六）vue路由

VUE笔记（六）vue路由

一、路由的简介 1、实现生活中的路由路由：路由其实就是一个key-value对应关系路由器：用于管理多个路由关系的设备被称为路由器 2、前端的路由目前使用的前端项目都是单页面的应用（SPA），一个项目中只有一个html页…

阅读更多...

网络学生用品商店系统设计与实现(论文+源码)_kaic

网络学生用品商店系统设计与实现(论文+源码)_kaic

摘　要随着互联网的发展，人们的生活发生了巨大的变化，给人们的生活、工作等方面带来了相当大的提高，电子化成为了节约成本、调高效率的代名词。电子商务是利用微电脑技术和网络通讯技术进行的商务活动，买卖双方通过网络所进行各…

阅读更多...

亚马逊云科技云技能孵化营初识机器学习

亚马逊云科技云技能孵化营初识机器学习

目录前言一、课程介绍二、什么是机器学习三、机器学习算法进阶过程四、亚马逊云科技能给我们什么总结前言近期参加了“亚马逊云科技云技能孵化营”，该孵化营的亚马逊云科技培训与认证团队为开发者准备了云从业者的精要知识及入门课程，帮助…

阅读更多...

python 面试题--3(15题)

python 面试题--3(15题)

目录 Python中的生成器是什么？如何创建一个生成器？ 解释Python中的递归函数及其使用场景。 Python中的迭代器和可迭代对象有什么区别？ 什么是Python中的模块和包？它们有什么区别？ 如何在Python中处理异常&#xf…

阅读更多...

提升团队效率！探索多款热门一站式团队协作工具

提升团队效率！探索多款热门一站式团队协作工具

“常见的几种团队协作工具有：Zoho Projects、Slack、Microsoft Teams、Asana、Trello等。” 团队协作已经成为了企业、组织和个人工作的重要组成部分。为了提高工作效率和协同能力，各种团队协作工具应运而生。本文将介绍团队协作工具的功能以及常见的几种…

阅读更多...

E. Nastya and Potions - 记忆化搜索

E. Nastya and Potions - 记忆化搜索

分析： dfs永远都需要记忆化搜索，也算是优化技巧吧，首先不知道哪种方法更加好，本质就是找每种材料的最小费用，能通过几种费用更少的材料代替就可以将费用优化成更小，这也就需要dfs来找最小费用，但…

阅读更多...

vue 实现word文档页面内预览docx-preview 和 vue-office

vue 实现word文档页面内预览docx-preview 和 vue-office

1.先下载引入 npm i docx-preview --save import { renderAsync } from docx-preview;2.使用 fetch(url) .then((response) > {let docData response.blob(); //将文件转换成bolb形式//选择要渲染的元素let childRef document.getElementsByClassName("childRef&qu…

阅读更多...

单片机学习-蜂鸣器如何发出声音

单片机学习-蜂鸣器如何发出声音

硬件电路软件编写 ①发出声音 #include "reg52.h" typedef unsigned int u16; // 重新定义类型 typedef unsigned char u8; // 重新定义类型sbit BEEP P2^5; //定义 P2第五个管教为BEEP // 延时函数 void delay_time(u16 times) {while(times--); } vo…

阅读更多...

从探索到明确，比特币与美股等传统资产相关性如何？

从探索到明确，比特币与美股等传统资产相关性如何？

早期阶段，比特币经历了一段摸索和模仿的时期，这是因为当比特币刚刚出现时，比特币的价值和用途在这一阶段并不明确，人们对其性质和潜力还不太了解。然而，随着时间的推移，比特币去中心化、固定供应上限等特点…

阅读更多...

推荐文章

最新文章