[强化学习]学习路线和关键词拾零

news2024/11/13 11:31:44

强化学习学习方法和路线

学习路线

先从基础教材开始,构建RL的知识框架,熟悉关键名词和公式推导,扩展到Model-Free的Value-Based和Policy-Based方法,同时参考github的代码练习。接下来精读几篇经典论文,如DQN,PPO等。然后泛读论文,如摘要和总结,选择感兴趣的领域,如Model-Based,HRL等。整理自己的论文阅读列表和总结。同时还可以参考网上的视频资源,如周博磊,李宏毅等。然后找到最新的研究进展,复现并创新。同时关注每年顶会Paper.

学习路线

基础算法:Sutton《强化学习》,Q Learning,DQN,PG,AC,DDPG,TRPO,PPO,TD3
Model-Based:AVP,AlphaGO,Dreamer
HRL:Options,UVFA,VIMIM,HER,DIAYN,DADS
Distributed:A3C,Ape-X,NGU,Agent57RL相关顶会:ICLR,ICML,NeuIPS等

概述

强化学习的想法主要来自于人们对学习本质的思考:人类是通过与环境交互来学习的。所以强化学习做了如下假设,一个理性的智能体(Agent),可以通过动作(action)与环境(Environment)互动,环境的变化使得智能体进入到新的状态(state),从环境中获得回报(Rewrad),根据回报累积的反馈,来优化自己的行动策略(Policy)。
在这里插入图片描述

目录页,讲一下一共分了几部分:
我来讲前两部分,韬哥讲后三部分
发展历史和理论基础.

第一部分 发展历史
P4:

  1. 介绍一下 深度学习的三个范式,
  2. 介绍下其工作原理:
    人类是通过与环境交互来学习的,所以RL是
    一个智能体(人),通过动作作用于环境,同时从环境中获得反馈(这个反馈就是回报Reward),并且更新自己的状态(其实我对状态一直理解不到位,我的认识是,自己做完上一个动作后的现状).根据回报的积累,来优化自己的策略(Policy)
    强化学习的目标就是获取最优的Policy
    这个范范的解释很干,后面会有一个例子说明.
    P5. 思想形成的三来源
    01 带过去,
    02 时序差分学习,
    时序差分学习(Temporal Difference Learning,简称TD Learning)是一种基于反馈的强化学习方法,TD Learning通过不断地从实际环境中尝试并获得即时奖励来进行学习。

在TD Learning中,智能体会根据当前状态及采取的行动所获得的即时奖励值,更新对该状态下价值函数的估计值。具体而言,时序差分学习将当前估计值和下一个状态的真实奖励加上折扣因子相结合,以此更新当前状态的估计值。这样的做法可以让智能体逐步探索最优策略,同时也可以将之前的经验融入到新的学习中。

时序差分学习算法既可以用于解决无模型问题(Model-Free),又可以用于解决有模型问题(Model-Based)。在无模型问题中,TD Learning通常使用Q−Learning等算法求解动作价值函数;在有模型问题中,TD Learning通常使用动态规划等算法求解状态价值函数或动作价值函数。由于TD Learning算法简单易用、收敛速度快且对数据量大小不敏感,因此在许多应用领域中都得到了广泛的应用。

03 最优控制问题
在MDP 马尔科夫决策过程引入的动态规划DP,使得马尔科夫决策成为强化学习的普遍形式.
在这里插入图片描述

p6页现代强化学习的形成
价值函数。 Q-Learning,是动作的价值.
名词解释:
Q−Learning 值函数的无模型强化学习算法,
智能体根据当前状态采取某个动作所获得的即时奖励及下一个状态的价值估计值,更新该状态下的动作价值函数。—也就带到后后面的贝尔曼方程(Bellman Equation)
在这里插入图片描述
其中,
在这里插入图片描述

通过不断更新动作价值函数,Q-Learning可以寻找最优策略并在环境中进行探索。虽然Q-Learning算法相对简单易用,但其存在收敛慢、容易陷入局部最优等缺点,因此在实际应用中需要根据具体问题选择合适的算法。

P07 照着念
chatGPT是一个生成式网络.
用到了强化学习的一个模块HFRL模块,用来给输出结果评分用的,让训练变得合理.
(Hugging Face Reinforcement Learning)模块是基于 Hugging Face 提供的 Transformers 框架和 OpenAI Gym 环境构建的强化学习框架,旨在提供一个简单易用的接口,使得用户可以方便地使用 Transformer 模型来解决各种强化学习问题。
重点介绍一下 ALphaGo 和ChatGpt

第二部分基础理论
p09 马尔科夫决策过程

在这里插入图片描述

第二张第一页儿马尔科夫那一页儿有俩图儿,左面儿那个是一个状态转移矩阵,然后它的就是基于下面儿那个易拉罐儿回收那个机器人儿那个例子,总结出这个表格儿。然后右面儿那个图儿是它的那个,用把把它表示成图儿的方法儿画出来了,其实它俩是一个东西,然后这个你到时候儿,你意思就是它从某一个状态转移到某一个下一个状态,它的概率是多少?比如说是α或杯β,它就是那个表儿,然后它通过这个表儿,它就可以用动态规划的方法儿去算一下,它用用一个什么策略,能让这个就是机器人儿一直能获得最高的收益,就是它收益就是那个R。是和而为的,反正反正就**尽量不不获得那个负三那个收益就是没电了。

P10 照着念

在这里插入图片描述
他这个收益和回报是俩不同的词,收益就是计时的返那个就是那个奖励值,他是re包儿的那个词,然后回报呢,是把他那个收益走,就是执行了一串动一串的动作,收到了得到一堆收益。完了,把他们按那个就是这个公式加起来,那个总和叫回报,那回报的英文就是return。

P11 评估指标
评估指标儿,π sita s, s是状态输入 sita是权重参数, π是动作分配的概率, 输出是动作的概率, 表达的意思是在给定状态下,经由策略函数,输出动作对应的概率分布,在动态概率里面采用,才出来的,就是使用的动作.

V π S 是 基于π的策略下,期望回报是多少, Return,
Q π S
他的意思就是给出一个状态,然后给出一堆动作对应的概率分别多少,然后他在里面儿这个概率分布里采样儿,那采出来动作呢,就是他最后那个升体用的动作,然后那个V派S呢,那个派就是上边儿那个派。就是他在基于这个策略下呢,他算一下这个GT,就是那个整个儿啊,他这个进行一连串动作以后,平均回报就是期望回报是多少,然后Q呢,就是把那个V改一下,给他加了一个a。就在这个状态下,采用这个动作,后面儿的一堆收,收到的回报是多少,就这意思。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/448229.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Node内置模块 【压缩zlib模块】

文章目录 🌟前言🌟zlib模块🌟关于gzip与deflate🌟使用zlib🌟压缩与解压缩🌟案例:压缩🌟案例:解压缩 🌟服务端gzip压缩🌟HTTP配置🌟HTT…

Android Binder图文详解和驱动源码分析

文章目录 前言一、跨进程通讯的过程1. AIDL客户端代码2. AIDL服务端代码3. 通信过程a. 发送请求时序图b. 接收请求时序图 二、Binder一次拷贝1. 发送给Binder驱动的数据2. 一次拷贝示意图 三、Binder驱动源码1. 相关数据结构2. 阅读Binder驱动源码 参考 前言 最近在学习Binder…

Jupyter Notebook的安装与使用

Jupyter Notebook Jupyter Notebook介绍Jupyter Notebook使用安装启动创建文件编写代码和文本常用命令配置文件 Anaconda Jupyter Notebook介绍 Jupyter Notebook是一个基于Web的交互式计算环境,可以让用户以文档形式记录代码、数据分析结果和说明文本,并…

认识ThinkPHP框架

认识ThinkPHP框架 前言一、MVC框架体系二、 ThinkPHP框架文件夹结构三. ThinkPHP下载和基本配置四. ThinkPHP其他东西 前言 ThinkPHP框架是一款非常优秀的PHP框架,是完全由中国人发明的框架 一、MVC框架体系 ThinkPHP框架由MVC框架体系构成,MVC的解释如下…

ubuntu下安装配置grpc

目录 1.准备环境 2.安装protobuf 3.安装cares库 3.安装grpc-1.17.x 1.准备环境 sudo apt-get install pkg-config sudo apt-get install autoconf automake libtool make g unzip sudo apt-get install libgflags-dev libgtest-dev sudo apt-get install clang libc-dev 如…

linux中的vim编辑器

Vim是一款强大的文本编辑器,可以在终端中使用。它有很多优点,比如快速、高效、灵活等,但同时也有一些难以掌握的操作。在本篇博客中,我们将详细介绍Vim的各种功能,以及如何使用它来提高的编辑效率。 1.基本模式 Vim具…

Unity之ShaderGraph入门

前言 随着Unity版本的不断升级,URP(可编程渲染管线)也越来越普及了。不管是从效果还是性能,都是吊打老版的build-in-shader。所以无论如何我们都要开始 拥抱URP,升级Unity的时候到了。 引擎版本 我这里选择了Unity …

01_Linux操作系统

第一章:Linux操作系统 阶段内容说明: Linux命令:软件测试第一个任务,一般都要进行环境搭建,一部分环境搭建内容是在服务器上实现的,跟服务器交互需要使用Linux命令(因为服务器没有图形化界面&a…

Atlassian Confluence CVE-2022-26134 RCE漏洞

Atlassian Confluence CVE-2022-26134 RCE漏洞 Atlassian Confluence CVE-2022-26134 RCE漏洞 漏洞简介 远程攻击者在未经身份验证的情况下,可构造OGNL表达式进行注入,实现在Confluence Server或Data Center上执行任意代码. 漏洞影响范围 Confluence …

代码优化- 基本概念

思考一个问题:我们可以再抽象语法树上做编译优化吗? 答案是否定的,如果在抽象语法树上做编译优化的话,程序员所写的可能包含错误的代码,可能就被删除了,比如,对下面的程序做不可达代码删除优化…

Hadoop笔记整理

Hadoop 一. 引言 1.1 什么是大数据 大数据:(Big Data):数据量级很大的应用处理。TB级 ,日数据增长GB级 K -- M---- G ---- T ----PB ---- EB ---ZB 1024通过对海量数据进行分析,挖掘,进而发现数据内在的规律,从而为企业或者…

【数据结构】超详细讲解:算术表达式转化为后缀表达式、前缀表达式、表达式树的构建

作者:努力学习的大一在校计算机专业学生,热爱学习和创作。目前在学习和分享:算法、数据结构、Java等相关知识。博主主页: 是瑶瑶子啦所属专栏: 【数据结构】:该专栏专注于数据结构知识,持续更新&#xff0c…

Praat脚本-037 | 批量把标注TextGrid生成韵律文本

目录 引题方案一方案二方案三获取脚本关注版权说明 引题 Praat是一种非常出色、轻便、开源免费的标注工具,它的最主要用途是标注,即对语音信号中的一些特征、信息进行标注,保存为TextGrid文件,这个TextGrid文件实质 上就是一种文…

chatGPT写文章-为什么chatGPT写的文章是原创

用chatGPT写文章会重复吗 ChatGPT在生成文本时会优先从先前的训练数据中学习到的文本中选取片段,并根据先前的内容和上下文来生成新的文本。因此,从理论上来说,在相同的输入条件下,每次使用ChatGPT生成文本都可能会产生不同的输出…

Web前端-Vue2.0框架学习

Web前端-Vue框架学习 1. 前端工程化与Webpack1.1 隔行变色的demo实现1.2 webpack的基本使用1.3 webpac插件1.3.1 webpack-dev-server插件1.3.2 html-webpack-plugin 1.4 webpack中的loader(加载器)1.4.1 css-loader1.4.2 less-loader1.4.3 url-loader &a…

【动态规划】经典问题第四组,背包问题运用(分割等和子集,最后一块石头的重量 II)

前言 小亭子正在努力的学习编程,接下来将开启算法的学习~~ 分享的文章都是学习的笔记和感悟,如有不妥之处希望大佬们批评指正~~ 同时如果本文对你有帮助的话,烦请收藏点赞关注支持一波, 感激不尽~~ 刷题专栏在这里~~ 深入理解动态规划建议关注…

各省份非金融类对外直接投资存量(2003-2020年)

中国各省份在非金融类对外直接投资方面呈现出不同的趋势和特点。截至2021年底,中国全国非金融类对外直接投资存量达到2.9万亿美元,其中,广东、江苏、山东、北京和上海是投资存量排名前五的省份。这五个省份的非金融类对外直接投资存量占全国总…

想想都脊背一凉,细思极恐,大家提早醒悟

一位程序员说了一件很可怕的事: 辛辛苦苦写了几年代码,做了些业务,在一片祥和中有了点成就感。然而回头一看,80%是没啥用的,甚至没法写到简历上,让人脊背一凉! 有人说,这…

Linux网桥简介、入门与配置

开始之前先得介绍一下什么是网桥,这里我们假设大家已经知道了物理的交换机是工作在链路层的。交换机的主要任务是在链路层查找转发表(mac地址与端口对应关系表),按照数据帧的目标mac地址,转发数据帧到相应的端口。那么…

半导体存储电路

半导体存储电路 SR锁存器和触发器寄存器存储器存储器分类RAMSRAMDRAM ROMMROMPROMEPROMEEPROMFLASH原理发现者应用工作原理存储单元 磁盘硬盘机械硬盘(HDD)固态硬盘(SSD) SR锁存器和触发器 SR锁存器用于记忆1位二进制信号&#x…