机器学习:增强式学习Reinforcement learning

news2024/11/25 12:39:49

在这里插入图片描述

  • 收集有标签数据比较困难的时候
  • 同时也不知道什么答案是比较好的时候
  • 可以考虑使用强化学习
  • 通过互动,机器可以自己知道什么结果是好的,什么结果是坏的

Outline

在这里插入图片描述

什么是RL

在这里插入图片描述

  • Action就是一个function
  • Environment就是告诉这个Action是好的还是坏的

例子 Space invader

在这里插入图片描述

  • 只能左移动,右移动,开火
  • 任务就是杀死外星人
  • 奖励就是分数
  • 终止:杀死所有的外星人,或者自己被外星人杀死
    在这里插入图片描述
  • 找到一个function使得得分总和最大

例子:Play Go

在这里插入图片描述
在这里插入图片描述

  • 下围棋的score只有在游戏结束的时候才有分数,+1, -1, 0
  • 中间时刻是没有得分的

RL和ML关系

在这里插入图片描述

Step1: 未知数的Function

在这里插入图片描述

  • 在RL中,未知数的Function就是Action
  • 输入是网络观察到的
  • 输出是每个动作的反馈
  • 分数就是激励,基于分数去有概率的随机性采取对应的行动,增加多样性

Step2:定义Loss

在这里插入图片描述
在这里插入图片描述

  • 把所有的reward进行累加作为最终分数
  • Loss就是要最大虾该总和分数

Step3:优化器

在这里插入图片描述

  • 给定的随机行为,有随机的反应
  • 如何找到一组参数去使得分数越大越好
  • 类比于GAN,但是Reward和env不能当作是network,是一个黑盒子

Policy Gradient

在这里插入图片描述
如何控制你的action
在这里插入图片描述

  • 希望采用的模型,可以类比一个分类器
  • 希望不采用什么动作的模型,可以使用上面取反
    在这里插入图片描述
  • 使得e1越小越好,使得e2越大越好

收集一些训练数据
在这里插入图片描述
但不一定是只有两种情况,不是二分类问题,可以采用不同的数字表示不同程度的期待
在这里插入图片描述

定义A

版本1

随机的Action得到结果,然后进行评价正负
在这里插入图片描述

  • 该版本不是一个好的版本
  • 短视近利的Action,没有长远规划
  • 每个动作都影响后续的动作
  • 奖励延迟,需要牺牲短期利益获得长远利益
    在这里插入图片描述

版本2

在这里插入图片描述

  • 把每个动作之后的分数都加起来作为该动作的分数

版本3

在这里插入图片描述

  • 相邻的动作影响更大一点,越远的距离的动作影响越小

版本4

在这里插入图片描述

  • 需要对分数进行标准化,减掉一个baseline b,使得分数有正有负

Policy Gradient

在这里插入图片描述

  • 收集资料是在epoch循环中
    在这里插入图片描述
    在这里插入图片描述
  • 每次Update之后需要重新收集资料
  • RL训练非常耗时
    同一种行为对于不同的s是好坏是不一样的,是一个连续的。
    在这里插入图片描述
    在这里插入图片描述
  • off-policy可以不用在更新前收集资料了,只需要收集一次
    在这里插入图片描述
    在这里插入图片描述
  • 增加随机性,尝试不同的action

PPO

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1321261.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023年度IT168技术卓越奖名单:亚信安慧AntDB数据库

信创卓越贡献奖:湖南亚信安慧科技有限公司 一句话点评:亚信安慧的核心交易数据库AntDB具有应用时间久(15年)、运行节点多(2000)、数据规模大(PB级)、产品稳定可靠(500项目…

L1-050:倒数第N个字符串

题目描述 给定一个完全由小写英文字母组成的字符串等差递增序列,该序列中的每个字符串的长度固定为 L,从 L 个 a 开始,以 1 为步长递增。例如当 L 为 3 时,序列为 { aaa, aab, aac, ..., aaz, aba, abb, ..., abz, ..., zzz }。这…

Spring Cloud + Vue前后端分离-第6章 通用代码生成器开发

Spring Cloud Vue前后端分离-第6章 通用代码生成器开发 6-1 代码生成器原理介绍 1.增加generator模块,用于代码生成 2.集成freemarker 通用代码生成器开发 FreeMarker 是一款模版引擎,通过模板生成文件,包括html页面,excel …

【经典LeetCode算法题目专栏分类】【第5期】贪心算法:分发饼干、跳跃游戏、模拟行走机器人

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能AI、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 分发饼干 class Solutio…

万兆网络之线路测速

网络测速有很多种方式,建议使用开源的iperf搭建测试 官方:iperf3(技术网站一般不被和谐,有部分可能被污染) Windows下载后解压即可运行 小技巧:如果你用的笔记本只有一个C盘,最好将免安装的软…

Zotero插件安装、问题、bug大全(随时更新)

Zotero插件安装、问题、bug大全(随时更新) 1. 插件安装2. 茉莉花(Jasminum)插件使用tips及可能遇到的问题2.1 更新2.2 未找到PDFtk Server的可执行文件 问题解决方法 3. Zotero Sci-hub插件相关问题3.1 Zotero Sci-hub插件有时抓取…

iOS问题记录 - iOS 17通过NSUserDefaults设置UserAgent无效

文章目录 前言开发环境问题描述问题分析解决方案最后 前言 最近维护一个老项目时遇到的问题。说起这老项目我就有点头疼,一个快十年前的项目,这么说你可能不觉得有什么,但是你想想Swift也才发布不到十年(2014年6月发布&#xff0…

DS排序--快速排序

Description 给出一个数据序列,使用快速排序算法进行从小到大的排序 排序方式:以区间第一个数字为枢轴记录 输出方式:每一步区间排序,都输出整个数组 –程序要求– 若使用C只能include一个头文件iostream;若使用C…

深度学习笔记_7经典网络模型LSTM解决FashionMNIST分类问题

1、 调用模型库,定义参数,做数据预处理 import numpy as np import torch from torchvision.datasets import FashionMNIST import torchvision.transforms as transforms from torch.utils.data import DataLoader import torch.nn.functional as F im…

2000年AMC8数学竞赛中英文真题典型考题、考点分析和答案解析

今天是2023年12月19日,距离2024年的AMC8正式考试倒计时一个月。 从战争中学习战争最有效。前几天,六分成长分析了2023年、2022年、2020、2019、2018、2017的AMC8真题的典型考题、考点和详细答案解析。 今天我们不再从2016年分析,来看看更早…

pytorch文本分类(三)模型框架(DNNtextCNN)

pytorch文本分类(三)模型框架(DNN&textCNN) 原任务链接 目录 pytorch文本分类(三)模型框架(DNN&textCNN)1. 背景知识深度学习 2. DNN2.1 从感知器到神经网络2.2 DNN的基本…

避坑指南:uni-forms表单在uni-app中的实践经验

​🌈个人主页:前端青山 🔥系列专栏:uni-app篇 🔖人终将被年少不可得之物困其一生 依旧青山,本期给大家带来JavaScript篇专栏内容:uni-app中forms表单的避坑指南篇 该篇章已被前端圈子收录,点此处进入即可查看更多优质内…

Pytorch nn.Linear()的基本用法与原理详解及全连接层简介

主要引用参考: https://blog.csdn.net/zhaohongfei_358/article/details/122797190 https://blog.csdn.net/weixin_43135178/article/details/118735850 nn.Linear的基本定义 nn.Linear定义一个神经网络的线性层,方法签名如下: torch.nn.Li…

AT32F403如何扩大SRAM

配置方法 使用雅特力的ICP 进行配置(可在官网下载) (1)当连接上芯片后,点击设备操作->选择字节 (2)选择224KB SRAM (3)然后点击应用到设备,(可以点击从设备加载,来看当前的配置) (4)打开keil5魔术棒图标 ,将Target中的IRAM1第二个选项从0x10000改为0x3800。…

虚拟电厂 能源物联新方向

今年有多热?据上海市气象局官微消息,5月29日13时09分,徐家汇站气温达36.1℃,打破了百年来的当地5月份气温*高纪录。不仅如此,北京、四川、江西、湖南、广东、广西等地也频频发布高温预警。 伴随着居民用电急剧攀升&am…

4.1 媒资管理模块 - Nacos与Gateway搭建

文章目录 媒资管理模块 - 媒资项目搭建一、需求分析1.1 介绍1.2 数据模型1.3 分析网关 二、 搭建Nacos2.1 服务发现中心2.2.1 Maven2.2.2 配置Nacos 2.2 配置中心2.2.1 介绍2.2.2 Maven 坐标2.2.3 配置 content-api 工程2.2.4 配置 content-service 工程2.2.5 配置 system-api …

基础算法(5):滑动窗口

1.何为滑动窗口? 滑动窗口其实也是一种算法,主要有两类:一类是固定窗口,一类是可变窗口。固定的窗口只需要一个变量记录,而可变窗口需要两个变量。 2.固定窗口 就像上面这个图一样。两个相邻的长度为4的红色窗口&…

HTML---CSS美化网页元素

文章目录 前言一、pandas是什么&#xff1f;二、使用步骤 1.引入库2.读入数据总结 一.div 标签&#xff1a; <div>是HTML中的一个常用标签&#xff0c;用于定义HTML文档中的一个区块&#xff08;或一个容器&#xff09;。它可以包含其他HTML元素&#xff0c;如文本、图像…

探秘 AJAX:让网页变得更智能的异步技术(上)

&#x1f90d; 前端开发工程师&#xff08;主业&#xff09;、技术博主&#xff08;副业&#xff09;、已过CET6 &#x1f368; 阿珊和她的猫_CSDN个人主页 &#x1f560; 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 &#x1f35a; 蓝桥云课签约作者、已在蓝桥云…

如何编写好的测试用例?

对于软件测试工程师来说&#xff0c;设计测试用例和提交缺陷报告是最基本的职业技能。是非常重要的部分。一个好的测试用例能够指示测试人员如何对软件进行测试。在这篇文章中&#xff0c;我们将介绍测试用例设计常用的几种方法&#xff0c;以及如何编写高效的测试用例。 一、…