强化学习笔记6——异同策略、AC、等其他模型总结

强化学习笔记6——异同策略、AC、等其他模型总结

news2025/4/21 18:37:35

在这里插入图片描述

异步两种方法：1：经验回放 2：数据动作非同时产生

举例QLearning为什么是异策略？
生成动作时e的概率从Q表选，1-e概况随机。更新策略时，贪心策略选择Q_max作为动作。

策略优化两种主要方法：基于梯度下降和基于值函数

在这里插入图片描述
Policy Gradient主要缺点：不稳定（坏策略迭代导致越来越坏），都是on-policy的始终都是一种策略采样和更新效率低。
###########################################################################
Policy Gradient主要优化目标：（笔记5里有讲）
在这里插入图片描述
这里对比A3C 改进版的优化目标

在这里插入图片描述

############################################################################

AC,A2C,A3C 参考

在这里插入图片描述

这里注意Critic网络和Actor网络的更新：
对于Actor网络的策略梯度更新，使用Glearning策略梯度定理根据当前的策略计算更新梯度
对于Critic网络的值函数更新，我们可以使用TD误差来计算当前状态值和下一时刻状态值之间的误差

在这里插入图片描述

A2C使用优势函数代替Critic网络中的原始回报Gt，可以作为衡量选取动作值和所有动作平均值好坏的指标。

在这里插入图片描述

A3C中，有一个全局网络（global network）和多个工作智能体（worker）

global network和worker里面都是A2C
worker和环境交互计算梯度不更新，传给globalNet。
globalNet不和环境交互，收集所有worker传来的梯度一起更新，然后将参数copy给worker。
在这里插入图片描述

在这里插入图片描述

==

总结：AC更新 actor使用策略梯度下降更新

在这里插入图片描述

Critic使用一下6选1都可以更新

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2294619.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Linux提权--passwd提权

Linux提权--passwd提权

passwd 命令用于更改用户密码。在 Linux 系统中，普通用户可以通过 passwd 更改自己的密码，但如果攻击者能够以某种方式执行 passwd 命令更改 root 用户的密码，他们就能获取 root 权限。 1.常见的 passwd 提权方法 SUID 设置&#xff1…

阅读更多...

一、本地部署安装 DeepSeek 并训练本地知识库，并调用对话框进行问答

一、本地部署安装 DeepSeek 并训练本地知识库，并调用对话框进行问答

本地部署安装 DeepSeek 1、硬件环境操作系统：Windows10 内存：16G 显卡：NIVIDIA GeForce RTX 2060 6G 2、安装步骤 （1）安装 Ollama 访问Ollama 官网，点击 “Download for Windows” 下载安装程序。下载…

阅读更多...

海思的一站式集成环境Hispark Studio更新了

海思的一站式集成环境Hispark Studio更新了

HiSpark Studio是海思提供的面向智能设备开发者提供一站式集成开发环境，支持代码编辑、编译、烧录和调试等功能。我以前在评测星闪芯片的时候用过，当时写了篇博客：【星闪开发连载】WS63E开发板Windows环境的构建_hispark studio-CSDN博客。那…

阅读更多...

unity学习29：摄像机camera相关skybox 和 Render Texture测试效果

unity学习29：摄像机camera相关skybox 和 Render Texture测试效果

目录 1 摄像机 1.1 每个Scene里都自带一个摄像机 camera 1.2 可以创建多个camera 1.3 下面先看backgroundtype: 2 backgroundtype: 天空盒 skybox 2.1 清除标志,清除：天空盒自选天空盒 2.2 window /Asset Store 2.3 导入skybox 3 backgroundtype: 纯色…

阅读更多...

【Elasticsearch】Geo-distance聚合

【Elasticsearch】Geo-distance聚合

geo_distance聚合的形状是圆形。它基于一个中心点（origin）和一系列距离范围来计算每个文档与中心点的距离，并将文档分配到相应的距离范围内。这种聚合方式本质上是以中心点为圆心，以指定的距离范围为半径的圆形区域来划分数据。为…

阅读更多...

音频进阶学习十二——Z变换

音频进阶学习十二——Z变换

文章目录前言一、Z变换1.Z变换的作用2.Z变换公式3.Z的状态表示1） r 1 r1 r12） 0 < r < 1 0<r<1 0<r<13） r > 1 r>1 r>1 4.关于Z的解释二、收敛域1.收敛域的定义2.收敛域的表示方式3.ROC的分析1）当 …

阅读更多...

easyxor

easyxor

easyxor 一、查壳无壳，64位二、IDA分析 1.main 2.查看key与r(shifee提取) 三、脚本 r [0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, 0x01, …

阅读更多...

通过多层混合MTL结构提升股票市场预测的准确性，R²最高为0.98

通过多层混合MTL结构提升股票市场预测的准确性，R²最高为0.98

“Boosting the Accuracy of Stock Market Prediction via Multi-Layer Hybrid MTL Structure” 论文地址：https://arxiv.org/pdf/2501.09760 摘要本研究引入了一种创新的多层次混合多任务学习架构，致力于提升股市预测的效能。此架构融…

阅读更多...

日本游戏机市场5年来首次陷入萎缩；特斯拉招人推进人形机器人量产；任天堂专利显示Switch2手柄可用作鼠标...| 游戏智眼日报

日本游戏机市场5年来首次陷入萎缩；特斯拉招人推进人形机器人量产；任天堂专利显示Switch2手柄可用作鼠标...| 游戏智眼日报

美团成立“算法顾问委员会” 美团宣布，近日，由外部专家学者组成的算法顾问委员会成立，为美团改进算法提供常态化咨询和指导。每个季度美团将举办算法恳谈会，持续邀请骑手、商家、用户、专家学者和媒体代表等共同参加。美团表示&a…

阅读更多...

114-机器学习分类算法

114-机器学习分类算法

1、内容简介略 matlab simulink 114-机器学习分类算法可以交流、咨询、答疑 2、内容说明略 Elong_6.24。ROCAUC confusion newdata Unbalanced_LR.car 3、仿真分析略 4、参考论文略

阅读更多...

【论文阅读】On the Security of “VOSA“

【论文阅读】On the Security of “VOSA“

On the Security of Verifiable and Oblivious Secure Aggregation for Privacy-Preserving Federated Learning -- 关于隐私保护联邦中可验证与遗忘的安全聚合的安全性论文来源摘要Introduction回顾 VOSA 方案对VOSA不可伪造性的攻击对于类型 I 的攻击对于类型 II 的攻击论文…

阅读更多...

储能系统-系统架构

储能系统-系统架构

已更新系列文章包括104、61850、modbus 、单片机等，欢迎关注 IEC61850实现方案和测试-1-CSDN博客快速了解104协议-CSDN博客 104调试工具2_104协议调试工具-CSDN博客 1 电池储能系统（BESS） 架构电池储能系统主要包括、电池、pcs、本地控制…

阅读更多...

ip属地是手机号还是手机位置？一文理清

ip属地是手机号还是手机位置？一文理清

在数字化和网络化的今天，IP属地这一概念逐渐成为了人们关注的焦点。特别是在社交媒体和在线平台上，IP属地的显示往往让人联想到用户的地理位置。然而，关于IP属地到底与手机号还是手机位置有关，却存在着不少误解和混淆。本文将深入…

阅读更多...

迅为RK3568开发板篇OpenHarmony实操HDF驱动控制LED-编写应用APP

迅为RK3568开发板篇OpenHarmony实操HDF驱动控制LED-编写应用APP

在应用代码中我们实现如下功能： 当应用程序启动后会获取命令行参数。如果命令行没有参数，LED 灯将循环闪烁；如果命令行带有参数，则根据传输的参数控制 LED 灯的开启或关闭。通过 HdfIoServiceBind 绑定 LED灯的 HDF 服务&#xff…

阅读更多...

【Elasticsearch】terms聚合误差问题

【Elasticsearch】terms聚合误差问题

Elasticsearch中的聚合查询在某些情况下确实可能存在误差，尤其是在处理分布式数据和大量唯一值时。这种误差主要来源于以下几个方面： 1.分片数据的局部性 Elasticsearch的索引通常被分成多个分片，每个分片独立地计算聚合结果。由于数据在分…

阅读更多...

JavaScript的 switch 方法

JavaScript的 switch 方法

• 1. 浅说JavaScript的 switch 方法 • 1.1. 语法 • 1.2. 关键点 • 1.3. 示例 • 1.4. 注意事项 1. 浅说JavaScript的 switch 方法在JavaScript中，switch 语句是一种多分支选择结构，用于根据不同的条件执行不同的代码块。它提供了一种比多个…

阅读更多...

Mac本地部署DeekSeek-R1下载太慢怎么办？

Mac本地部署DeekSeek-R1下载太慢怎么办？

Ubuntu 24 本地安装DeekSeek-R1 在命令行先安装ollama curl -fsSL https://ollama.com/install.sh | sh 下载太慢，使用讯雷，mac版下载链接 https://ollama.com/download/Ollama-darwin.zip 进入网站 deepseek-r1:8b，看内存大小4G就8B模型 …

阅读更多...

[Java基础]函数式编程

[Java基础]函数式编程

Lambda函数 JDK8新增的语法形式, 使用Lambda函数替代某些匿名内部类对象，从而让程序代码更简洁，可读性更好。基本使用 lambda表达式只能简化函数式接口的匿名内部类写法 // 1.定义抽象类 abstract class Animal {public abstract void crt(); }publi…

阅读更多...

Linux 零拷贝技术

Linux 零拷贝技术

一、传统做法，经历“四次拷贝” 数据 1.读取到内核缓冲区 2.拷贝到用户缓冲区 3.写入到内核缓冲区 4.拷贝到网卡使用 DMA，减少2次拷贝，还剩2次拷贝 DMA 负责硬盘到内核缓冲区和内核到网卡的传输。 CPU 仍需处理内核和用户缓冲区之间的数据…

阅读更多...

【完整版】DeepSeek-R1大模型学习笔记（架构、训练、Infra）

【完整版】DeepSeek-R1大模型学习笔记（架构、训练、Infra）

文章目录 0 DeepSeek系列总览1 模型架构设计基本参数专家混合模型（MoE）[DeepSeek-V2提出, DeepSeek-V3改良]多头潜在注意力（MLA）[DeepSeek-V2提出]多token预测（MTP）[DeepSeek-V3提出] 2 DeepSeek-R1-Zero及…

阅读更多...

推荐文章

最新文章