学习笔记--强化学习(1)

news2025/1/12 2:50:56

参考:https://blog.csdn.net/koulongxin123/article/details/122676149

1.什么是强化学习?

   (1)定义

       基于环境的反馈而行动,通过不断与环境的交互、试错,最终完成特定目的或者使得整体行动收益最大化(是一种通过与环境交互,学习最优的状态到行动的映射关系(即在某个状态下,采取所有行为的概率分布),以会的最大累计期望回报的学习方法)。强化学习不需要训练数据的label,但是它需要每一步行动环境给予的反馈,是奖励还是惩罚。反馈可以量化,基于反馈不断调整训练对象的行为。

(2)特点:

  1. 没有监督者,只有量化奖励信号
  2. 反馈延迟,只有进行到最后才知道当下的动作是好是坏
  3. 强化学习属于顺序决策,根据时间一步步决策行动,训练数据不符合独立同分布条件
  4. 每一步行动影响下一步状态,以及奖励

2.强化学习框架:智能体-环境

(1)智能体:强化学习系统

         可以感知环境的状态(State),并根据反馈的奖励(Reward)学习选择一个合适的动作(Action),来最大化长期总收益。对于推荐系统,智能体为推荐系统本身,它包括基于深度学习的推荐模型、探索(explore )策略,以及相关的数据存储(memory )。

智能体的组成

强化学习的智能体可能有一个或多个如下的组成成分:

策略函数(policy function):把输入的状态变成行为

价值函数(value function):对当前状态进行评估(对后续收益的影响)

简直函数是未来奖励的一个预测,用来评估状态的好坏(折扣因子:希望尽可能在短的时间里面得到尽可能多的奖励)

模型(model):表现智能体对环境的理解

类型

  1. 基于价值的智能体(value-based agent)

显示的学习价值函数,隐式的学习策略。它维护一个价值表格或价值函数,并以此选取价值最大的动作。(常用算法:Q-Learning   、Sarsa

A.基于策略的智能体(policy-based agent)

直接学习策略。当学习好环境以后,在每个状态都会得到一个最佳行为。(常用算法:策略梯度算法)

B.有模型智能体(model-based agent)

根据环境经验,对环境进行建模构建一个虚拟世界,同时在虚拟世界和现实世界学习。

要求:能对环境建模。即能预测下一步的状态和奖励

C.免模型智能体(model-free agent)

不对环境进行建模,直接与真实环境交互来学习最优策略。

目前,大部分深度强化学习都采用免模型学习。

(2)环境:与智能体交互的外部

环境会接收智能体执行的一系列动作,对这一系列动作进行评价并转换为一种可量化的信号反馈给智能体。

  1. 动作:智能体的行为表征
  2. 动作空间:(在给定的环境中,有效动作的集合)

分类:

(1)离散动作空间(discrete action space):智能体的动作数量是有限的

(2)连续动作空间(continuos action space):在连续空间中,动作是实值的向量

  1. 状态:智能体从环境获取的信息
  2. 奖励

      奖励信号定义了强化学习问题的目标,在每个时间步骤内,环境向强化学习发出的标量值即为奖励,它能定义智能体表现好坏,类似人类感受到快乐或是痛苦。因此我们可以体会到奖励信号是影响策略的主要因素。我们将奖励的特点总结为以下三点:

  1. 奖励是一个标量的反馈信号
  2. 它能表征在某一步智能体的表现如何
  3. 智能体的任务就是使得一个时段内积累的总奖励值最大

   3.策略:智能体根据状态进行下一步动作的函数

  • 定义

是一个函数,把输入的状态变成行为。

  • 分类

随机性策略(stochastic policy)

π函数π ( a∣s ) = P ( A t = a∣S t = s ) ,表示在状态s下输出动作为a的概率。然后通过采样得到一个动作。

确定性策略(deterministic policy)

采取最有可能的动作,即a ∗= arg maxa π ( a∣s )

问题:比较随机性策略和确定性策略的优缺点

强化学习一般使用随机性策略,因为

  1. 随机性能更好的探索环境
  2. 随机性策略的动作具有多样性(不是唯一确定的)
  3. 确定性策略对相同环境做出相同的动作,这会导致很容易被预测
  1. 状态转移概率:智能体做出动作后进入下一状态的概率

3.学习与规划

A.学习(learning)

由于环境初始时是未知的,智能体需要不断与环境交互,逐渐改进策略

B.规划(planning)

获得学习好的模型后,智能体不需要实时与环境交互就能知道未来环境。可以根据当前状态,根据模型寻找最优策略。

C.解决思路

先学习环境如何工作,建立模型。再利用模型进行规划。

4.探索和利用

探索:通过试错来理解采取的某个行为能否得到好的奖励。

利用:直接采取已知的可以得到很好奖励的行为。

(探索:看某个行为的奖励,利用:选取已知可以取得最好奖励的行为)

探索和利用窘境(exploration-exploitation dilemma):探索(即估计摇臂的优劣)和利用(即选择当前最优摇臂) 这两者是矛盾的,因为尝试次数(即总投币数)有限,加强了一方则会自然削弱另一方

                    

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1524265.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

echarts实践总结(常用一):柱状图(特点:渐变色、点击缩放、左右滑动、悬浮展示样式)

目录 第一章 echarts基本使用 第二章 echarts实践——柱状图 效果展示 第一章 echarts基本使用 Echarts常用配置项(详细入门)_echarts配置项手册-CSDN博客 第二章 echarts实践——柱状图 最近接到这么一个需求,需要画页面,然后有这么几个echarts的图需…

asp.net 作业星软件系统

asp.net 作业星软件系统 用户功能:分教师和家长(学生) 注册登录:登录部分是用户名密码,以及教师和家长(学生)的勾选; 注册包括用户名密码确认密码再次确认密码(与上方输入的密码比对)身份班级设置找回账号的问题和答案…

【计算机网络】什么是http?

​ 目录 前言 1. 什么是HTTP协议? 2. 为什么使用HTTP协议? 3. HTTP协议通信过程 4. 什么是url? 5. HTTP报文 5.1 请求报文 5.2 响应报文 6. HTTP请求方式 7. HTTP头部字段 8. HTTP状态码 9. 连接管理 长连接与短连接 管线化连接…

养鸡厂用这个开源监控方案,应该很棒

软件介绍 WVP-PRO是基于GB/T 28181-2016标准的流媒体平台,依托于优秀的开源流媒体服务 ZLMediaKit 提供全面且丰富的功能。该软件允许用户将 IPC 摄像头接入平台,支持28181、rtsp、rtmp、flv等协议,可实现视频流发送到其他平台,广…

记日志打印引起接口慢问题排查

其他系统调用本接口,其他系统反馈接口慢,查看接口用时0.07s,但仔细观察日志发现接口确实慢了用时5.978s; 日志写入NAS盘,非本地写入肯定会有一定的延时,看日志打印策略是同步滚动打印,改成异步打…

软件实例,餐厅酒水寄存管理系统软件,酒水寄存登记表软件操作教程

软件实例,餐厅酒水寄存管理系统软件,酒水寄存登记表软件操作教程 一、前言 以下软件操作以 佳易王酒水寄存管理系统软件V16.0为例说明 件文件下载可以点击最下方官网卡片——软件下载——试用版软件下载 1、酒水寄存管理系统软件可以管理多个品类的物…

[NOIP1998 提高组] 拼数

[NOIP1998 提高组] 拼数 题目描述 设有 n n n 个正整数 a 1 … a n a_1 \dots a_n a1​…an​,将它们联接成一排,相邻数字首尾相接,组成一个最大的整数。 输入格式 第一行有一个整数,表示数字个数 n n n。 第二行有 n n …

小白DB补全计划Day1-LeetCode:SQL基本操作select

前言:找工作(主人)的任务罢了 链接:1757. 可回收且低脂的产品 - 力扣(LeetCode) 584. 寻找用户推荐人 - 力扣(LeetCode) 来源:LeetCode 对DB篇的SQL章不太知道怎么写…

8.Python从入门到精通—Python 字符串,转义字符,字符串运算符

8.Python从入门到精通—Python 字符串,转义字符,字符串运算符 Python 字符串创建字符串访问字符串中的字符字符串切片字符串操作符字符串方法 Python 转义字符Python字符串运算符 Python 字符串 在 Python 中,字符串是一种基本数据类型,用于表示文本数据…

深度学习pytorch——Tensor维度变换(持续更新)

view()打平函数 需要注意的是打平之后的tensor是需要有物理意义的,根据需要进行打平,并且打平后总体的大小是不发生改变的。 并且一定要谨记打平会导致维度的丢失,造成数据污染,如果想要恢复到原来的数据形式,是需要…

【全面了解自然语言处理三大特征提取器】RNN(LSTM)、transformer(注意力机制)、CNN

目录 一 、RNN1.RNN单个cell的结构2.RNN工作原理3.RNN优缺点 二、LSTM1.LSTM单个cell的结构2. LSTM工作原理 三、transformer1 Encoder(1)position encoding(2)multi-head-attention(3)add&norm 残差链…

A Workload‑Adaptive Streaming Partitioner for Distributed Graph Stores(2021)

用于分布式图存储的工作负载自适应流分区器 对象:动态流式大图 划分方式:混合割 方法:增量重划分 考虑了图查询算法,基于动态工作负载 考虑了双动态:工作负载动态;图拓扑结构动态 缺点:分配新顶…

C语言基础之输入输出

前言 本次博客会是最有料的博客了,这其中的问题尤其是scanf函数对新手很不友好 我们本次 1会讲解其他的一些输入输出函数,分析他们的优劣点 2本次的参考资料来自于 c primer plus 1scanf函数详解 首先大家了解过scanf的功能吗 1大家已经学到这里了,肯定知道,scanf是从输…

Java Swing游戏开发学习11

内容来自RyiSnow视频讲解 这一节讲的是游戏状态GameState 游戏状态这里是,游戏所处的各种状态,比如游戏中、已暂停、与NPC对话中、与怪物Monster战斗中等等。在不同的状态中,游戏的交互也是不同的,比如按Enter键在游戏中状态&…

第三篇 - 概述- IAB受众和技术标准 - IAB视频广告标准《数字视频和有线电视广告格式指南》

第三篇 - 概述- IAB受众和技术标准​​​​​​​ - 我为什么要翻译介绍美国人工智能科技公司IAB技术标准系列(2) 本文目录 一、IAB技术实验室简介 二、概述及IAB受众 三、资源- IAB倡导的相关视频广告技术标准 四、案例分享-介绍一家数字化营销服务…

每日OJ题_简单多问题dp⑧_力扣188. 买卖股票的最佳时机 IV

目录 力扣188. 买卖股票的最佳时机 IV 状态机分析 解析代码 力扣188. 买卖股票的最佳时机 IV 188. 买卖股票的最佳时机 IV 难度 困难 给你一个整数数组 prices 和一个整数 k ,其中 prices[i] 是某支给定的股票在第 i 天的价格。 设计一个算法来计算你所能获取…

基于springboot+mybatis调用MySQL存储过程

前言: 很多公司一般不使用JAVA写存储过程,因为写法较为复杂,不方便后期维护。 不排除一些公司项目会使用。 如果索引优化已经达到很好的性能,不建议使用。以下示例供学习参考: demo源码:https://gitee.com…

Mysql的行级锁

MySQL 中锁定粒度最小的一种锁,是 针对索引字段加的锁 ,只针对当前操作的行记录进行加锁。 行级锁能大大减少数据库操作的冲突。其加锁粒度最小,并发度高,但加锁的开销也最大,加锁慢,会出现死锁。行级锁和存…

idea 的基本配置

一、安装目录介绍 其中:bin 目录下: 二、配置信息目录结构 这是 IDEA 的各种配置的保存目录。这个设置目录有一个特性,就是你删除掉整个目录之后,重新启动 IntelliJ IDEA 会再自动帮你生成一个全新的默认配置,所以很多…

还看YOLOv8,YOLOv9呢,烂怂卷积有啥好看的?教你利用多模态大模型做目标检测!

文章大纲 大模型业态与idea 来源可行性探索现有成果国内多模态APP 探索利用现有平台进行快速开发 MVP参考文献大模型业态与idea 来源 有一次我在单位汇报的时候,大领导问:深度学习先在还这么落后嘛?每次解决一个问题还要重新训练一个模型࿱