24/8/17算法笔记 AC算法

news2024/12/28 2:53:53

AC算法通常指的是Actor-Critic(演员-评论家)算法,它是强化学习中的一种算法框架,用于解决代理(agent)在环境中的决策问题。Actor-Critic方法结合了价值估计和策略优化,通常比纯粹的价值迭代或策略迭代方法具有更高的学习效率。

以下是AC算法的一些关键概念:

  1. Actor(演员):Actor负责生成动作,即在给定状态下选择一个动作。在深度学习中,Actor通常由一个神经网络实现,该网络根据当前状态输出一个动作或动作的概率分布。

  2. Critic(评论家):Critic负责评估Actor所采取的动作或策略的好坏。它通过估计从当前状态开始,遵循当前策略所能获得的预期回报来工作。Critic通常由一个价值函数或优势函数(advantage function)实现。

  3. 联合学习:在AC算法中,Actor和Critic是联合学习的。Actor生成动作,Critic评估这些动作,并提供反馈给Actor以改进其策略。

  4. 策略梯度:AC算法通常使用策略梯度方法来优化策略。这意味着Actor的参数通过梯度上升来更新,以增加长期回报的预期值。

  5. 优势函数:在某些AC算法中,如ACER(Actor-Critic with Experience Replay),使用优势函数来减少方差并提高学习稳定性。

  6. 经验回放:一些AC算法,如ACER,使用经验回放来提高数据效率,允许从单个经验中进行多次学习。

  7. 目标网络:为了增加训练过程的稳定性,AC算法可能会使用目标网络(target network),这是Actor或Critic网络的慢速更新副本。

  8. 探索:AC算法需要平衡探索和利用。Actor网络生成的动作不仅要考虑最大化回报,还要鼓励探索新的动作。

AC算法的常见变体包括:

  • A2C(Advantage Actor-Critic):引入优势函数来指导学习过程。
  • A3C(Asynchronous Advantage Actor-Critic):使用异步更新和多个并行工作者来提高学习效率。
  • ACER(Actor-Critic with Experience Replay):结合了经验回放和目标网络来提高稳定性和效率。

AC算法广泛应用于各种强化学习任务,包括游戏、机器人控制和自然语言处理等领域。

import gym
from matplotlib import pyplot as plt
%matplotlib inline
#创建环境
env = gym.make('CartPole-v1')
env.reset()

#打印游戏
def show():
    plt.imshow(env.render(mode='rgb_array'))
    plt.show()

网络模型

import torch

#定义模型
model = torch.nn.Sequential(
    torch.nn.Linear(4,128),
    torch.nn.ReLU(),
    torch.nn.Linear(128,2),
    torch.nn.Softmax(dim=1),
)
model_td = torch.nn.Sequential(
    torch.nn.Linear(4,128),
    torch.nn.ReLU(),
    torch.nn.Linear(128,1),
)
model(torch.randn(2,4)),model_td(torch.randn(2,4))

import random

#得到一个动作
def get_action(state):
    state = torch.FloatTensor(state).reshape(1,4)
    prob = model(state)
    
    #根据概率选择一个动作
    action = random.choice(range(2),weights= prob[0].tolist(),k=1)[0]
    
    return action

获取数据

def get_data():
    states=[]
    rewards=[]
    actions = []
    next_state = []
    overs = []
    #初始化游戏
    state = env.reset()
    
    #玩到游戏结束为止
    over = False
    while not over:
        #根据当前状态得到一个动作
        action = get_action(state)
        
        #执行动作
        next_state,reward,over,_ = env.step(action)
        
        #记录数据样本
        states.append(state)
        rewards.append(reward)
        actions.append(action)
        next_states.append(next_state)
        overs.append(over)
        
        #更新状态,在世下一个动作
        state = next_state
        
    states = torch.FloatTensor(states).reshape(-1,4)
    rewards = torch.FloatTensor(rewards).reshape(-1,1)
    actions = torch.LongTensor(actions).reshape(-1,1)
    next_states = torch.FloatTensor(next_states).reshape(-1,4)
    overs = torch.LongTensor(overs).reshaoe(-1,1)
    
    return states,rewards,actions,next_states,overs

测试函数

from IPython import display

def test(play):
    #初始化游戏
    state = env.reset()
    
    #记录反馈值的和,这个值越大越好
    reward_sum= 0
    
    #玩到游戏结束为止
    over =False
    while not over:
        #根据当前状态得到一个动作
        action = get_action(state)
        
        #执行动作,得到反馈
        staet,reward,over,_=env.step(action)
        reward_sum+=reward
        
        #打印动画
        if play and random.random()<0.2:
            display.clear_output(wait=True)
            show()
    return  reward_sum

训练函数

def train():
    optimizer = torch.optim.Adan(model.parameters(),lr =1e-3)
    optimizer_td = torch.optim.Adam(model_td.parameters(),lr=1e-2)
    loss_fn = torch.nn.MSELoss()
    
    #玩N局游戏,每局训练一次
    for i in range(1000):
        #玩一局游戏,得到数据
        states,rewards,actions,next_states,overs = get_data()
        
        #计算values 和targets
        values= model_td(states)
        
        targets = model_td(next_states)*0.98
        targets = (1-overs)
        targets+=rewards
        
        #时序差分误差
        delta = (targets-values).detach()
        #重新计算对应动作的概率
        probs = model(states)
        probs = probs.gather(dim=1,index=actions)
        
        #根据策略梯度算法的导函数实现
        #只是把公式中的reward_sum替换为了时序差分的误差
        loss = (-probs.log()*delta).mean()
        
        #时序差分的loss就是简单的value和target求mse loss即可
        loss_td = loss_fn(values,targets.detach())
        
        optimizer.zero_grad()   #作用是清除(重置)模型参数的梯度
        loss.backward()       #反向传播计算梯度的标准方法
        optimizer.step()     #更新模型的参数
         
        optimizer_td.zero_grad()  
        loss_td.backward()       
        optimizer_td.step()  
        
        if i %100 ==0:
            test_result = sum([test(play=False)for _ in range(10)])/10
            print(i,test_result)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2049228.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Nginx 配置文件中 location、proxy_pass最后的斜杠/作用

1.搭建一个简单的sprigbootthymeleaf项目 写个controller RequestMapping("/login") public String toLogin() {return "login"; } 写一个login.html页面 <!DOCTYPE html> <html xmlns:th"http://www.thymeleaf.org"> <head&…

瑞吉外卖后续笔记

Git学习 下载地址 Githttps://git-scm.com/ 常用的git代码托管服务 git常用命令 Git 全局设置: git config --global user.name "刘某人" git config --global user.email "邮箱号" 查看配置 git config --list git add 文件名 添加到暂冲区 git a…

SpringBoot--05--整合WebSocket,实现全双工通信

文章目录 为什么需要websocket项目中使用websocket导入maven坐标编写配置类server代码前端代码和http请求URL区别 为什么需要websocket 传统的HTTP协议是单向通信的&#xff0c;支持客户端向服务器发送请求&#xff0c;服务器接收请求。但是服务器有时也要向客户端发送请求。 …

万能视频播放器PotPlayer

软件介绍 PotPlayer播放器是一款全能 多媒体 影音播放器,堪称Windows平台最强大的本地 视频播放器. PotPlayer最新版拥有强劲播放引擎加速,支持DXVA,CUDA,QuickSync,多媒体播放器支持蓝光3D,其内置强大的编码器及滤镜/分离器。 支持自定义添加解码器,对字幕的支持非常优秀,能…

基于CST的特征模天线设计

前言&#xff1a; 特征模理论是在矩量法基础上发展而来的适用于各种电磁辐射和散射问题分析的理论&#xff0c;它有效综合了这两类方法的长处且克服了它们的不足&#xff0c;不仅可以通过明确的物理含义来直观深刻地揭示天线的工作原理&#xff0c;而且能求解任意辐射结构的复…

谷粒商城实战笔记-193~194-商城业务-多线程-线程池

文章目录 一&#xff0c;193-商城业务-异步-异步复习1. 继承Thread类2. 实现Runnable接口3. 实现Callable接口结合FutureTask4. 使用线程池 二&#xff0c;194-商城业务-异步-线程池详解1&#xff0c;线程池七大参数2&#xff0c;面试题3&#xff0c;Executors能创建的4中线程池…

个人经历分享如何用Python日入1K+,分享兼职网站和渠道!

大部分人主要通过接私活赚钱。我第一次接单是朋友介绍的&#xff0c;当时刚学Python&#xff0c;为一家公司爬数据&#xff0c;赚了一千多。从那之后逐渐熟练&#xff0c;常在假期接一些数据处理的单&#xff0c;很多时候兼职收入是主业收入的2~3倍。 附上我前两年的兼职接单记…

黑马头条vue2.0项目实战(十一)——功能优化(组件缓存、响应拦截器、路由跳转与权限管理)

1. 组件缓存 1.1 介绍 先来看一个问题&#xff1f; 从首页切换到我的&#xff0c;再从我的回到首页&#xff0c;我们发现首页重新渲染原来的状态没有了。 首先&#xff0c;这是正常的状态&#xff0c;并非问题&#xff0c;路由在切换的时候会销毁切出去的页面组件&#xff…

【vue讲解:vue3介绍、setup、ref、reactive、监听属性、生命周期、toRef、setup写法】

1 vue3介绍 # Vue3的变化-vue3完全兼容vue2---》但是vue3不建议用vue2的写法-拥抱TypeScript-之前咱们用的JavaScript---》ts完全兼容js- 组合式API和配置项APIvue2 是配置项apivue3 组合式api# vue4必须要用2 vue3项目创建和启动 # 创建vue3项目-vue-cli 官方不太建议用了…

【Java学习】方法的引用

所属专栏&#xff1a;Java学习 &#x1f341;1. 方法引用 方法的引用&#xff1a;把已经存在的方法拿来使用&#xff0c;当作函数式接口中抽象方法的方法体 " :: "是方法引用符 方法引用时需要注意&#xff1a; 1. 需要有函数式接口 2. 被引用的方法必须存在 3. …

4款专业高效的Win10 录屏工具大揭秘!

Win10 系统里面一般都有自带的录屏工具&#xff0c;用截图工具就可以实现录屏。但是呢&#xff0c;这个工具只适合录制一些简短的小片段。如果想要更多功能的录屏&#xff0c;还是需要使用到第三方的录屏工具&#xff0c;这次&#xff0c;我就跟大家分享4款专业的录屏软件。 1、…

拟南芥中基因家族序列的提取

1.拟南芥基因组数据的下载 phytozome 是一个收录植物基因组数据的网站&#xff0c;数据整理比较规范&#xff0c;已 经提供了去除可变剪切的 cds 和 protein 序列文件。只有 gff3 文件需要 过滤处理 2. 对拟南芥的注释文件gff3文件进行ID处理&#xff0c;最终得到以下4个文件 …

深度解析:.secret勒索病毒如何加密你的数据并勒索赎金

引言&#xff1a; 在当今这个数字化、信息化的时代&#xff0c;网络安全已成为一个不容忽视的重要议题。随着互联网的普及和技术的飞速发展&#xff0c;我们的生活、工作乃至整个社会的运转都越来越依赖于各种计算机系统和网络。然而&#xff0c;这种高度依赖也为我们带来了前…

硬件面试经典 100 题(51~70 题)

51、请列举您知道的覆铜板厂家。 生益、建滔。 52、示波器铭牌一般都会标识两个参数&#xff0c;比如泰克 TDS1002B 示波器标识的 60MHz 和 1GS/s&#xff0c;请解释这两个参数的含义。 60MHz 是指示波器的带宽&#xff0c;即正常可以测量 60MHz 频率以下的信号。 1GS/s 是指示…

鲲鹏920s 32核处理器linpack性能调优

1、BIOS参数调优 BIOS选项 设置值 Power Policy Performance Stream Write Mode Allocate share LLC CPU Prefetching Configuration Enabled Custom Refresh Rate 64ms Die Interleaving Disabled NUMA Enable SSBS Support Disabled 2、benchmark参数调优 主…

vue项目将px转成其他单位,如rem、cqw,postcss-pxtorem的使用

安装插件 新建配置文件.postcssrc.js // module.exports { // "plugins": { // "postcss-pxtorem": { // rootValue: 1,//必须和rem的初始值一致 // propList: [*], // // selectorBlackList: [ // // ant…

计算函数(c语言)

1.描述 //小乐乐学会了自定义函数&#xff0c;BoBo老师给他出了个问题&#xff0c;根据以下公式计算m的值。 // //其中 max3函数为计算三个数的最大值&#xff0c;如&#xff1a; max3(1, 2, 3) 返回结果为3。 //输入描述&#xff1a; //一行&#xff0c;输入三个整数&#xff…

3的幂计算

给定一个整数&#xff0c;写一个函数来判断它是否是 3 的幂次方。如果是&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 整数 n 是 3 的幂次方需满足&#xff1a;存在整数 x 使得 n 3x。 示例 1&#xff1a; 输入&#xff1a;n 27 输出&#xff1a;tru…

SpringCloud天机学堂:学习计划与进度(四)

SpringCloud天机学堂&#xff1a;学习计划与进度&#xff08;四&#xff09; 文章目录 SpringCloud天机学堂&#xff1a;学习计划与进度&#xff08;四&#xff09;1、业务接口统计2、实现接口2.1、查询学习记录2.2、提交学习记录2.3、创建学习计划2.4、查询学习计划进度 1、业…

从零掌握keepalived合集

文章目录 keepalived简介keepalived部署keepalived基础设置主配置文件修改独立子配置文件实现实现日志分离 企业应用实例抢占式与非抢占式抢占式非抢占式 VIP单波配置消息通知脚本配置 实现IPVS高可用keepalivedlvs实现keepaliveshaproxy实现 keepalived简介 keepalived基于VR…