动手学强化学习-记录

动手学强化学习-记录

news2025/4/21 15:42:29

3.5 蒙特卡洛方法

统计每一个状态s出现的总次数和总回报，用大数定律，总回报/总次数≈状态s的期望回报

第4章动态规划算法

策略迭代中的策略评估使用贝尔曼期望方程来得到一个策略的状态价值函数,这是一个动态规划的过程;而价值迭代直接使用贝尔曼最优方程来进行动态规划,得到最终的最优状态价值函数。

基于动态规划的这两种强化学习算法要求事先知道环境的状态转移函数和奖励函数，也就是需要知道整个马尔可夫决策过程。在这样一个白盒环境中，不需要通过智能体和环境的大量交互来学习，可以直接用动态规划求解状态价值函数。但是现实中的白盒环境很少，这也是动态规划算法的局限之处，我们无法将其运用到很多实际场景中。

动态规划不是使用的时序差分思想，计算每一个状态S的最大Q作为下一个动作，当误差最大的那个状态S的误差小于阙值时停止。因为要计算所有状态 s 下的所有 Q(s,a)价值，所以需要对全部状态迭代多次完成收敛

策略迭代是策略评估和策略提升不断循环交替,直至最后得到最优策略的过程

1. 策略评估

2. 策略提升

如果只在策略评估中进行一轮价值更新,然后直接根据更新后的价值进行策略提升, 这样是否可以呢?答案是肯定的,这其实就是本节将要讲解的价值迭代算法,它可以被认为是一种策略评估只进行了一轮更新的策略迭代算法。

价值迭代

1. 如果只在策略评估中进行一轮价值更新,然后直接根据更新后的价值进行策略提升, 这样是否可以呢?答案是肯定的,这其实就是本节将要讲解的价值迭代算法,它可以被认为是一种策略评估只进行了一轮更新的策略迭代算法

5.3 Sarsa算法

Q_table记录每一个表格位置的所有动作价值，初始值都等于0

根据公式计算Q(S,a)，状态和动作必须配对，更新Q是更新的Q(S,a)，不同Q(S,a)对应迭代公式中不同动作a的值

5.4 多步Sarsa算法

多步时序差分的意思是使用n步的奖励，然后使用之后状态的价值估计

当前在s，当采集够n步(s,a,r,s',a')时，计算一次当前s的Q_table

5.5 Q-learning 算法

用S‘最大Q的动作a所在状态作为目标值，取未来状态的最大Q值，不依赖当前策略的动作选择

后面计算的时候取所有动作中的maxQ作为目标target，而Sarsa是(s,a)匹配的

Sarsa和Q-learing区别

Sarsa更保守而Q-learing更激进，因为前者会考虑不利动作的风险，而后者只盲目选择最大Q的动作，不考虑会以epsilon概率选择其他动作的风险，在悬崖漫步问题中，Q-learing绕远会降低收益，而紧靠悬崖走收益最大，而Sarsa会考虑到掉进悬崖的风险。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2314728.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

阿里云操作系统控制台评测：国产AI+运维一站式运维管理平台

阿里云操作系统控制台评测：国产AI+运维一站式运维管理平台

阿里云操作系统控制台评测：国产AI运维一站式运维管理平台引言随着云计算技术的飞速发展，企业在云端的运维管理面临更高的要求。阿里云操作系统控制台作为一款集运维管理、智能助手和系统诊断等多功能于一体的工具，正逐步成为企业高效管理…

阅读更多...

C++中的const与类型转换艺术

C++中的const与类型转换艺术

目录强制转换 static_cast const_cast reinterpret_cast dynamic_cast const关键字修饰内置类型* 修饰指针类型* 类比数组指针指针数组函数指针指针函数强制转换 C语言中的强制转换在C代码中依然可以使用，这种C风格的转换格式非常简单 TYPE a …

阅读更多...

特辣的海藻！10

特辣的海藻！10

基础知识点 1.清除换行符 scan.nextInt()要加scan.nextLine()清楚换行符。 2.Map.Entry<K, V> Map.Entry是Map接口的嵌套接口，表示一个键值对（Key-Value） 常用方法： entry.getKey()：获取键 …

阅读更多...

sqli-lab靶场学习（八）——Less26-28

sqli-lab靶场学习（八）——Less26-28

前言 25关已经出现了初步的一些关键字过滤，通过双写可以绕过。后面的关卡，我们会遇到更多关键字过滤，需要各种技巧绕过。 Less26 第26关写了会过滤空格和注释符。有很多的答案，会用%a0替代空格，但据说这是sqli-labs部…

阅读更多...

双指针算法专题之——复写零

双指针算法专题之——复写零

文章目录题目介绍思路分析异地复写优化为就地复写 AC代码题目介绍链接: 1089. 复写零思路分析那么这道题我们依然可以使用双指针算法来解决异地复写先不考虑题目的要求，直接就地在原数组上修改，可能不太好想，我们这里可以先在一个…

阅读更多...

python-leetcode-子数组最大平均数 I

python-leetcode-子数组最大平均数 I

643. 子数组最大平均数 I - 力扣（LeetCode） 可以使用滑动窗口（Sliding Window）的方法来解决这个问题。具体步骤如下： 先计算数组 nums 中前 k 个元素的和 sum_k，作为初始窗口的和。然后滑动窗口&#xff0…

阅读更多...

【度的数量——数位DP】

【度的数量——数位DP】

题目分析数位DP可以解决“区间内满足某种性质的数的个数”的问题通常按照数位分支，形成一颗数位树最左分支的值由上界值决定，右分支可以直接计算权重有可能最左分支会有一个权重代码 #include <bits/stdc.h> using namespace std;cons…

阅读更多...

搭建阿里云专有网络VPC

搭建阿里云专有网络VPC

目录一、概述二、专有网络vpc 2.1 vpc基本信息 2.2 vpc资源管理 2.3 vpc网段管理三、交换机四、NAT网关 4.1 绑定弹性公网IP 4.2 NAT网关信息 4.3 绑定的弹性公网IP 4.4 DNAT 4.5 SNAT 五、弹性公网IP 六、访问控制ACL（绑定交换机） 6…

阅读更多...

windows系统，pycharm运行.sh文件

windows系统，pycharm运行.sh文件

博主亲身试验过，流程简单，可用。需要pycharm ，git。注意需要Git Bash.exe ，也就是Git Bash的应用程序，而不是快捷方式。需要把这个应用程序的路径复制一下。可以通过右键，复制文件地址的方式。接着在…

阅读更多...

论文调研 | 一些开源的AI代码生成模型调研及总结【更新于250313】

论文调研 | 一些开源的AI代码生成模型调研及总结【更新于250313】

本文主要介绍主流代码生成模型，总结了基于代码生成的大语言模型，按照时间顺序排列。在了解代码大语言模型之前，需要了解代码相关子任务代码生成文本生成代码(Text to code):根据自然语言描述生成代码重构代码（Refactoring …

阅读更多...

Unity Timeline 扩展

Unity Timeline 扩展

这里认为大家已经会timeline的基本使用了，只介绍怎么自定义扩展。第一步.自定义Track 首先要自定义一条轨道。剪辑是要在轨道里跑的，系统自带的轨道我们加不了自定义剪辑，得新建自己用的。这个很简单。 [TrackClipType(typeof(TransformTw…

阅读更多...

qt介绍信号槽一

qt介绍信号槽一

信号和槽时qt框架中事件处理的一种机制，qt是基于窗口框架的程序，基于窗口框架额程序都是基于事件的，本质信号对应的就是一个事件，槽对应事件处理的动作。信号槽机制类似于设计模式力的观察者模式。观察者模式就是我一直观察是否有…

阅读更多...

【linux】解决 Linux 系统中 root 用户无法打开图形界面问题

【linux】解决 Linux 系统中 root 用户无法打开图形界面问题

【linux】解决 Linux 系统中 root 用户无法打开图形界面问题问题描述： 在 Linux 系统中，当我们远程SSH尝试以 root 用户身份运行需要图形界面的应用程序时，可能会遇到以下错误信息： MoTTY X11 proxy: Unsupported authorisati…

阅读更多...

【开源项目-爬虫】Firecrawl

【开源项目-爬虫】Firecrawl

看到其他项目引用了这个项目 Firecrawl 用免费额度试了一下，这个项目和之前的 https://r.jina.ai/ 很像（类似的还有 https://www.scrapingbee.com/？），将爬取到的网页转换为 markdown 格式，这样大语言模型用…

阅读更多...

【已解决】电脑空间告急？我的 Ollama、Docker Desktop软件卸载清理全记录

【已解决】电脑空间告急？我的 Ollama、Docker Desktop软件卸载清理全记录

一、卸载 Ollama、Windows SDK 和 Docker Desktop的原因最近电脑总提示空间不足，前段时间想本地部署大模型而安装的 Ollama、多个 Windows SDK 以及暂时用不到的 Docker Desktop 占用了不少空间。果断动手卸载，现在把过程整理成博客，分享给同…

阅读更多...

便利店商品推荐数字大屏：基于python和streamlit

便利店商品推荐数字大屏：基于python和streamlit

基于python和streamlit实现的便利店商品推荐大屏，针对选择困难症消费者。 import streamlit as st import pandas as pd import numpy as np import altair as alt from datetime import datetime, timedelta import time# 模拟数据生成 def generate_data():np.ra…

阅读更多...

OpenAI智能体初探：使用 OpenAI Responses API 在 PDF 中实现检索增强生成（RAG）

OpenAI智能体初探：使用 OpenAI Responses API 在 PDF 中实现检索增强生成（RAG）

大家好，我是大 F，深耕AI算法十余年，互联网大厂技术岗。知行合一，不写水文，喜欢可关注，分享AI算法干货、技术心得。欢迎关注《大模型理论和实战》、《DeepSeek技术解析和实战》，一起探索技术的无限可能！引子在信息爆炸的时代，从大量 PDF 文档中快速准确地检索信息…

阅读更多...

【实战-解决方案】Webpack 打包后很多js方法报错：not defined

【实战-解决方案】Webpack 打包后很多js方法报错：not defined

问题分析在不打包的情况下，方法（如 checkLoginStatus、filterSites、initProgressBar 等）可以正常运行，而经过 Webpack 打包后报 is not defined 错误，通常有以下几个可能的原因： 全局变量丢失在 Webpac…

阅读更多...

【大模型基础_毛玉仁】2.3 基于 Encoder-only 架构的大语言模型

【大模型基础_毛玉仁】2.3 基于 Encoder-only 架构的大语言模型

更多内容：XiaoJ的知识星球目录 2.3 基于Encoder-only 架构的大语言模型2.3.1 Encoder-only 架构2.3.2 BERT 语言模型1）BERT 模型结构2）BERT 预训练方式3）BERT 下游任务 2.3.3 BERT 衍生语言模型1）RoBERTa 语言模型2&a…

阅读更多...

链表所有节点值的和

链表所有节点值的和

class Node:# 节点类，每个节点包含数据(data)和指向下一个节点的引用(next)def __init__(self, data):self.data data # 存储节点的数据self.next None # 指向下一个节点，默认值为None，表示没有下一个节点class LinkedList:# 链表类&…

阅读更多...

推荐文章

最新文章