深度强化学习（一）常识性普及

深度强化学习（一）常识性普及

news2025/3/12 10:33:57

文章目录

- 机器学习、强化学习、深度学习的侧重点
- 强化学习的简介
- - 强化学习的主要特征
  - 强化学习和机器学习的关系
  - 强化学习的发展历史
- 深度强化学习

一些参考的资料：
蘑菇书：https://datawhalechina.github.io/easy-rl/#/chapter1/chapter1
源代码：https://github.com/datawhalechina/easy-rl/releases/tag/v.1.0.3

机器学习、强化学习、深度学习的侧重点

机器学习（Machine learning）是一种通过让计算机从大量的数据中学习模式和规律，从而能够自动进行任务和做出决策的技术。机器学习是人工智能的分支，旨在是计算机能够在经验中学习和改进，而不需要明确的编程。机器学习可以分为监督学习、无监督学习、半监督学习和强化学习。
强化学习（Reinforcement Learning）是机器学习的一种，强化学习通过将智能体置于环境之中，让智能体和环境进行交互学习，通过环境的反馈（正向或者负向），从而调整决策，在不断的交互之中找到最优的解，强化学习追求长期回报的最大化。
深度学习（Deep Learning）也是一种机器学习的方法，通过构建和训练多层神经网络来模拟人脑的神经网络结构，从而实现对大量复杂的数据的自动学习和特征提取。

强化学习的简介

强化学习（Reinforcement Learning）注重让参与者（Agent）在与环境的互动中进行目标导向型学习。参与者可以根据当前所处的环境（State）以及某一个行动策略（policy）来选择一个行动（Action）来与环境进行一系列的互动。
有一些互动可以立即从环境中获取奖励（Reward），并且改变环境的状态，甚至可以改变后续的奖励；但是有一些互动可能会存在延迟。并且这些奖励有正向的也有负向的。
参与者可以根据环境的反馈来学习怎么最大化长期回报（Return），并且提取一个最优的策略，达到强化学习任务目标。

强化学习的主要特征

不断的试错学习
通过试错来与环境进行交互，并且根据环境的反馈来增强或者抑制行动，试错包括利用和探索的过程
- 利用是根据历史的经验进行学习，来选择执行能获得的最大收益的动作
- 探索就是尝试之前没有执行过的动作，期望获得超乎当前的总体收益
- 短期来讲，利用可以使得某一步的预期回报最大化
- 长远来讲，探索可以产生更大的长期回报
- 强化学习的挑战是在利用和探索之中找到平衡
强化学习追求长期回报的最大化(目标)，（长期回报是指从当前时刻（状态）到最终时刻（状态）得到的总奖励期望）

强化学习和机器学习的关系

机器学习包括强化学习、监督与无监督学习
强化学习和监督学习无监督学习一样都是从历史数据中进行学习，并且对未来做出预测的过程，三者都符合机器学习的定义

在这里插入图片描述

强化学习的发展历史

试错学习：从环境中获取结果的驱动力，控制环境朝着期望的目标前进。
最优控制：给定的约束条件下，寻求一个控制，使得给定系统的某一个指标达到最优
时序差分法

深度强化学习

深度学习将强化的决策能力和深度学习的感知能力结合，改进了传统强化学习难以应对大且连续行动和样本空间的问题。
深度强化学习将神经网络融入到强化学习的体系中，使参与者能在环境中学习可能的最佳行动，以实现其目标。它也将函数逼近（Function Approximation）和目标优化结合起来，将状态-动作对映射到期望的奖励，并以此作为行动的评估反馈，通过迭代，学习最佳策略。

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1039182.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Pycharm2023版修改镜像源

Pycharm2023版修改镜像源

步骤1 步骤2 国内常见镜像源阿里云 http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/豆瓣(douban) http://pypi.douban.com/simple/清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/中国科学技术大学 http://pypi.mirrors.…

阅读更多...

微软云服务宕机超24小时企业关键业务如何避免被“拖累”

微软云服务宕机超24小时企业关键业务如何避免被“拖累”

提起“宕机”这个词，估计大多数企业管理层，技术人员都不会陌生。8月，微软的公有云服务以及Office365等软件，因为澳大利亚的极端天气，备用方案未能及时响应，导致澳洲用户出现了超过24小时的云服务“暂停”。…

阅读更多...

C++ - 双指针_盛水最多的容器 - 快乐数 - 三数之和

C++ - 双指针_盛水最多的容器 - 快乐数 - 三数之和

盛水最多的容器 11. 盛最多水的容器 - 力扣（LeetCode） 给定一个长度为 n 的整数数组 height 。有 n 条垂线，第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。找出其中的两条线，使得它们与 x 轴共同构成的容器可以容纳最多的…

阅读更多...

基于云的虚拟桌面基础架构的优势有哪些？

基于云的虚拟桌面基础架构的优势有哪些？

基于云的虚拟桌面基础架构 （VDI） OpenText™ Exceed TurboX™ （ETX） 长期以来一直是虚拟化在 Linux 主机上运行的图形要求苛刻的软件的黄金标准。ETX 最新版本（12.5）增加了许多Microsoft Windows功能&…

阅读更多...

Android Studio 的aapt2.exe在哪个目录下

Android Studio 的aapt2.exe在哪个目录下

一般在：C:\Users\admin\AppData\Local\Android\Sdk\build-tools\30.0.2（不一定是30.0.2，这个得看你的版本） 怎么找： 1.打开Android studio

阅读更多...

表格内日期比较计算

表格内日期比较计算

需求：在表格中新增数据，计算开始日期中最早的和结束日期中最晚的，回显到下方。 <el-formref"formRef":model"ruleForm":rules"rules"style"margin-top: 20px;"label-position"top">…

阅读更多...

rar格式转换zip格式，如何做？

rar格式转换zip格式，如何做？

平时大家压缩文件时对压缩包格式可能没有什么要求，但是，可能因为工作需要，我们要将压缩包格式进行转换，那么我们如何将rar格式转换为其他格式呢？方法如下： 工具：WinRAR 打开WinRAR&#xff0c…

阅读更多...

GaussDB数据库SQL系列-定义重载函数

GaussDB数据库SQL系列-定义重载函数

目录一、前言二、函数重载的定义三、GaussDB创建自定义重载函数的事项说明四、GaussDB数据库中的自定义重载函数示例示例一：创建package属性重载函数，根据不同的SQL条件获取生成视图示例二：创建package属性重载函数，根…

阅读更多...

windows下实现mysql8的主从复制

windows下实现mysql8的主从复制

1、下载mysql8的安装包 MySQL :: Download MySQL Community Server 2、放到指定目录进行解压，更改名称为mysql-8.1.0-winx64-master,并复制一份作为从数据库 3、在bin目录下创建一个my.ini文件添加如下内容 [mysqld] basedir"D:/soft/mysql/mysql-8.1.0-win…

阅读更多...

【技能树笔记】网络篇——练习题解析（三）

【技能树笔记】网络篇——练习题解析（三）

目录前言一、网络层的功能 1.1 网络层的功能 1.2 网络层PDU 1.3 网络层功能二、IP协议的特点 2.1 网络层的功能 2.2 IP协议特点 2.3 IP协议三、IPv4地址的分类和计算 3.1 IP地址的组成 3.2 IP地址的分类1 3.2 IP地址的分类2 3.3 IP地址的分类3 3.4 IP地址的…

阅读更多...

用例图学习

用例图学习

用例图是什么用例图（Use Case Diagram）是UML（统一建模语言）中的一种行为图，用于描述系统的功能和用户（或其他外部实体）与系统之间的交互。用例图是一种高级图，通常用于捕捉系统的需…

阅读更多...

管理多个项目的主要挑战与应对方法

管理多个项目的主要挑战与应对方法

在当今快节奏的商业环境中，企业越来越多地需要同时承担多个项目。有效管理多个项目已成为企业寻求优化资源、提高效率和最大化项目成果的一项关键技能。同时管理多个项目的挑战对于管理多个项目的人来说，最大的挑战是由于时间压力而无法匹配“工作质…

阅读更多...

02 MIT线性代数-矩阵消元 Elimination with matrices

02 MIT线性代数-矩阵消元 Elimination with matrices

一, 消元法 Method of Elimination 消元法是计算机软件求解线形方程组所用的最常见的方法。任何情况下，只要是矩阵A可逆，均可以通过消元法求得Axb的解 eg: 我们将矩阵左上角的1称之为“主元一”（the first pivot），第…

阅读更多...

【Xilinx】基于MPSoC的OpenAMP实现（一）

【Xilinx】基于MPSoC的OpenAMP实现（一）

【Xilinx】基于MPSoC的OpenAMP实现（一） 一、开发环境1、开发思路2、下载官方bsp包二、编译Linux1、配置petalinux环境变量2、创建工程3、进入目录4、设置缓存目录（重点：可离线编译，加快编译速度）5、配置u-…

阅读更多...

浏览器截图扩展增加快捷键

浏览器截图扩展增加快捷键

Tabshot – 下载 🦊 Firefox 扩展（zh-CN） 最近一个用户找到我，想要这个浏览器扩展有一个快捷键截图功能。我找了一下，发现火狐扩展的确支持快捷键研究源码 about:support 配置文件夹，打开文件夹。附…

阅读更多...

MATLAB APP纯小白入门两数相加

MATLAB APP纯小白入门两数相加

万事开头难，最怕第一次。使用matlab APP 实现两数求和，如下图所示，c a b，输入数字后，按 “” 就计算。步骤拖拽三个 Edit Field(Numeric) 过来，并且双击名字分别改为 a,b,c。注意修改名字后右边会有点变…

阅读更多...

第6讲：v-for使用

第6讲：v-for使用

目录 1.循环遍历 2.v-for遍历整形变量（99乘法表） 3.v-for遍历普通数组 4.v-for遍历数组对象 1.循环遍历 v-for指令基于一个数组渲染一个列表，它和JavaScript的遍历语法相似： v-for”item in list” list 是一个数组， i…

阅读更多...

文件审计及文件完整性监控

文件审计及文件完整性监控

什么是文件审核对文件服务器中发生的所有事件的检查称为文件审核。这包括监视文件访问，其中包含谁访问了什么文件、何时以及从何处访问的详细信息;对访问最多和修改的文件的分析;成功和失败的文件访问尝试;等等。文件服务器审核过程的主要目标是跟踪在配置的服务器…

阅读更多...

复习Day03：数组part03:76 . 最小覆盖子串、438. 找到z字符串z中所有字母异位词

复习Day03：数组part03:76 . 最小覆盖子串、438. 找到z字符串z中所有字母异位词

之前的blog链接：https://blog.csdn.net/weixin_43303286/article/details/131700482?spm1001.2014.3001.5501 我用的方法是在leetcode再过一遍例题，明显会的就复制粘贴，之前没写出来就重写，然后从拓展题目中找题目来写。辅以Lab…

阅读更多...

PY32F003F18之窗口看门狗

PY32F003F18之窗口看门狗

一、PY32F003F18窗口看门狗特点： 即使窗口看门狗被禁止，窗口看门狗的"递减计数器"也会继续递减计数。二、窗口看门狗复位的条件： 1、将"控制寄存器WWDG_CR"中的WDGA1,激活"窗口看门狗计数器等于0x3F"时,则产…

阅读更多...

推荐文章

最新文章