【ML】强化学习(Reinforcement Learning)及其拆解

news2025/1/14 1:13:28

【ML】强化学习(Reinforcement Learning)

    • 1. RL Outline 强化学习(Reinforcement Learning)概述
      • 1.1 RL的基本框架
    • 2. RL 引入:从这个小游戏开始
    • 3. Policy Gradient 方法
    • 4. Actor-Critic 方法
    • 5. [奖励塑形(Reward Shaping)](https://www.bilibili.com/video/BV1Wv411h7kN?p=117&spm_id_from=pageDriver&vd_source=0ad81bc7001a125d9e2c7ebf1e07d502)
    • 6. No Reward: Learning from Demonstration

1. RL Outline 强化学习(Reinforcement Learning)概述

What is RL? (Three steps in ML)
Policy Gradient
Actor-Critic
Reward Shaping
No Reward: Learning from Demonstration

强化学习(Reinforcement Learning, RL)是机器学习(Machine Learning, ML)中的一个重要范式,它与监督学习和无监督学习并列。RL的核心在于通过智能体(agent)与环境的交互,智能体通过观察环境状态并采取行动,以最大化累积奖励(cumulative reward)为目标进行学习。

1.1 RL的基本框架

强化学习(RL)概述及其关键技术

强化学习(Reinforcement Learning, RL)是机器学习的一个分支,它关注如何让代理(agent)通过与环境互动,学习做出决策以最大化累积奖励的过程。在典型的强化学习框架下,代理会根据观察到的状态选择动作,并接收到一个反馈信号——奖励,以此来指导其未来的行动选择。强化学习通常被分为三个关键步骤:状态观测、动作选择和奖励接收。

三步骤详解

  1. 状态观测:代理观测当前环境的状态。
  2. 动作选择:基于当前状态,代理决定采取的动作。
  3. 奖励接收:代理执行动作后,从环境中获得正向或负向的奖励。

关键技术

1)Policy Gradient 方法

  • 定义:策略梯度是一种直接优化策略函数的参数化方法。这种方法通过梯度上升的方式调整策略函数的参数,以期望最大化策略函数所对应的长期回报。
  • 公式:对于离散动作空间,策略梯度可以通过以下公式表示
    Δ θ = α ∑ t ∇ θ log ⁡ π ( a t ∣ s t , θ ) R ( t ) \Delta \theta = \alpha \sum_t \nabla_\theta \log \pi(a_t|s_t,\theta) R(t) Δθ=αtθlogπ(atst,θ)R(t)
    其中 ( \theta ) 是策略参数,( \alpha ) 是学习率,( R(t) ) 是从时间步 ( t ) 开始的累计奖励。

2)Actor-Critic 方法

  • 定义:Actor-Critic 方法结合了策略梯度和值迭代的思想,其中Actor负责决策(选择动作),Critic负责评估决策的好坏(计算动作价值)。
  • 原理:Actor更新策略以增加有利动作的概率,Critic评估动作并指导Actor的更新方向。

3)奖励塑形(Reward Shaping)

  • 定义:奖励塑形是一种技术,它通过修改原始奖励函数来加速学习过程。
  • 目的:通过添加额外的奖励(如局部奖励)以引导代理更快地学习目标行为。

4)No Reward: Learning from Demonstration

  • 定义:在没有即时奖励的情况下,通过模仿专家演示来学习最优策略。

  • 应用场景:当直接获得即时奖励较为困难时采用此方法。

  • 强化学习:是一种通过与环境互动学习决策的过程,其核心在于通过观察、动作选择以及奖励接收来不断优化代理的行为策略。

  • 关键技术:包括策略梯度(直接优化策略)、Actor-Critic(结合策略优化与值估计)、奖励塑形(调整奖励函数)和Learning from Demonstration(无直接奖励情况下的学习)。

综上所述,强化学习是通过与环境的交互学习如何做出最佳决策的一种方法,上述提到的技术在这一过程中扮演着重要角色。

2. RL 引入:从这个小游戏开始

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3. Policy Gradient 方法

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

4. Actor-Critic 方法

在这里插入图片描述

5. 奖励塑形(Reward Shaping)

6. No Reward: Learning from Demonstration

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2035011.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

(第二十六天)

上午 1、web01与web02服务器搭建 ip:10.0.0.11 systemctl stop filewalld systemctl disable firewalld setenforce 0 vim /etc/selinux/config SELINUX disabled yum -y install nginx echo "web----------01" > /usr/share/nginx/html/index.h…

力扣热题100_二叉树_230_二叉搜索树中第K小的元素

文章目录 题目链接解题思路解题代码 题目链接 230. 二叉搜索树中第K小的元素 给定一个二叉搜索树的根节点 root ,和一个整数 k ,请你设计一个算法查找其中第 k 小的元素(从 1 开始计数)。 示例 1: 输入&#xff1a…

图论:欧拉路

欧拉路是什么 什么?你对这个名字感到很陌生?再看看是图论的内容,感觉是不是很难?其实一点也不难,这就是生活中的一笔画问题,也就是不重复的经过每一条边并可以访问所有的点,先看看这个图&#…

Python字符串格式化方法输出到控制台

python打印是这样的,我希望resource_id能够对齐输出: 3种格式化方法 %格式化 >>> pi3.141592653589793 >>> e2.718281828459045 >>> print("pi%.2f e%.3f" % (pi, e) ) pi3.14 e2.718“”.format()格式化 >…

操作系统(线程管理-通过条件变量实现消费者与生产者模型)

生产者与消费者模型 生产者:生产数据的线程,这类的线程负责从用户端、客户端接收数据,然后把数据Push到存储中介。 消费者:负责消耗数据的线程,对生产者线程生产的数据进行(判断、筛选、使用、响应、存储&…

x264 编码器 SSIM 算法源码分析

SSIM SSIM(Structural Similarity Index)是一种用于衡量两幅图像之间视觉相似度的指标。它不仅考虑了图像的亮度、对比度和饱和度,还考虑了图像的结构信息。SSIM的值介于-1到1之间,值越接近1表示两幅图像越相似。 SSIM是基于以下三个方面来计算的: 亮度(Luminance):比…

【Hot100】LeetCode—560. 和为 K 的子数组

目录 1- 思路前缀和 2- 实现⭐560. 和为 K 的子数组——题解思路 3- ACM 实现 原题链接:560. 和为 K 的子数组 1- 思路 前缀和 ① 借助 HashMap 存储前缀和:Key 为对应的前缀和,Value 为对应的出现次数 hm 初始化放入 (0,1) 代表和为 0 的情…

linux--chrony时间同步以及局域网同步

文章目录 注意Chrony介绍Chrony 支持的系统与联系方式Chrony Git 仓库环境准备服务端确认是否安装chrony如果没有安装,那就执行以下命令进行安装配置文件/etc/chrony.conf命令参数讲解基本用法选项命令系统时钟命令时间源命令NTP 访问命令执行命令参考 客户端确认是…

Java中等题-乘积最大子数组(力扣)

给你一个整数数组 nums ,请你找出数组中乘积最大的非空连续 子数组 (该子数组中至少包含一个数字),并返回该子数组所对应的乘积。 测试用例的答案是一个 32-位 整数。 示例 1: 输入: nums [2,3,-2,4] 输出: 6 解释: 子数组 […

Telemark电源TT-6E-BEAM SOURCE操作手侧含电路图接线

Telemark电源TT-6E-BEAM SOURCE操作手侧含电路图接线

详解LVS-dr模式

什么是LVS-dr模式 图解 在LVS-DR模式下,负载均衡器(也称为调度器)接收来自客户端的请求,并根据预设的调度算法将请求转发给后端的真实服务器(也称为RS)。真实服务器处理完请求后,直接将响应返回…

Jetpack Compose实战教程(六)

Jetpack Compose实战教程(六) 第六章 没有了margin,如何区分外边距?内边距? 文章目录 Jetpack Compose实战教程(六)一、前言二、本章目标三、开始编码3.1 特殊情况下的margin3.2 使用padding设…

基于Springboot+netty 的IM聊天室弹幕

代码地址 仓库地址 聊天室 创建springboot项目 因为我的NettyServer 是8080 所以我把服务端口改为了8081 引入netty 依赖 <dependency><groupId>io.netty</groupId><artifactId>netty-all</artifactId><version>4.1.92.Final</versi…

Prometheus+Grafana保姆笔记(1)——Prometheus+Grafana的安装

Prometheus Grafana 的组合在微服务项目中可以完成许多DevOps任务&#xff0c;它们共同提供了强大的监控和可视化功能。 我们陆续介绍Prometheus Grafana 的相关用法。 首先介绍PrometheusGrafana的安装。 安装 Prometheus Prometheus 是GO写的&#xff0c;并不依赖于 Ja…

【深度学习】注意力机制(Transformer)

注意力机制 1.基础概念 1.1 查询、键和值 在人类的注意力方式中&#xff0c;有自主性的与非自主性的注意力提示两种解释方式。所谓自主性注意力提示&#xff0c;就是人本身主动想要关注到的某样东西&#xff1b;非自主性提示则是基于环境中物体的突出性和易见性&#xff0c;…

8.13面试题目

美团商业分析实习生 一、8个球有一个重一点&#xff0c;最少称几次找出 2次 8个球中有一个重一点&#xff0c;最少称2次能找出来。 具体称重步骤如下&#xff1a; 第一次称重&#xff1a;将8个球分成三组&#xff0c;分别为3个球、3个球和2个球。将两组各3个球放在天平的两端…

【搜索二维矩阵】python刷题记录

R4-二分查找专题 直接二维变一维&#xff0c;然后二分查找就可以了 class Solution:def searchMatrix(self, matrix: List[List[int]], target: int) -> bool:nums[i for row in matrix for i in row]def binfind(the,target):low,high0,len(the)-1while low<high:mid(l…

猫罐头挑选指南!猫咪肥胖有什么危害?健康主食罐挑选攻略!

今天有位铲屎官带着一只17斤的布偶来我们医院。猫猫三岁了&#xff0c;绝育两年&#xff0c;现在因为太胖了&#xff0c;舔毛都不太方便。铲屎官说它平时不太爱动。我给体检后发现甘油三酯高&#xff0c;其他都正常&#xff0c;但必须开始减肥了&#xff0c;猫咪太胖可不好。 一…

江协科技STM32学习笔记

第01章 STM32简介及开发环境搭建 1.1 STM32简介 1.1.1 STM32F103C8T6 系列&#xff1a;主流系列STM32F1 内核&#xff1a;ARM Cortex-M3 主频&#xff1a;72MHz RAM&#xff1a;20K&#xff08;SRAM&#xff09; ROM&#xff1a;64K&#xff08;Flash&#xff09; 供电…

开学季好物分享!全能抗打运动耳机!

大家好&#xff01;开学季来临&#xff0c;在学校的时候&#xff0c;一些运动和体育项目是在所难免的&#xff0c;但是在运动过程中肯定是枯燥无味的&#xff0c;所以这时候就需要一款合适的运动耳机陪伴我们。作为一名对运动耳机有较高要求的学生&#xff0c;我最近发现了一款…