李宏毅机器学习2023HW12—Reinforcement Learning强化学习

news2025/1/23 12:12:24

文章目录

  • Task
  • Baseline
    • Simple
    • Medium Baseline—Policy Gradient
    • Strong Baseline——Actor-Critic
    • Boss Baseline—Mask

Task

实现深度强化学习方法:

  • Policy Gradient
  • Actor-Critic

环境:月球着陆器

Baseline

Simple

定义优势函数(Advantage function)为执行完action之后直到结束每一步的reward累加,即:
A 1 = R 1 = r 1 + r 2 + . . . . + r T , A 2 = R 2 = r 2 + r 3 + . . . + r T , . . . A T = R T = r T A_1=R_1=r_1+r_2+....+r_T,\\ A_2=R_2=r_2+r_3+...+r_T,\\ ...\\ A_T=R_T=r_T A1=R1=r1+r2+....+rT,A2=R2=r2+r3+...+rT,...AT=RT=rT
其中, R R R为动作状态值函数, r i r_i ri为执行完动作 a i a_i ai得到的reward

for episode in range(EPISODE_PER_BATCH):

        state = env.reset()
        total_reward, total_step = 0, 0
        seq_rewards = []
        while True:

            action, log_prob = agent.sample(state) # at, log(at|st)
            next_state, reward, done, _ = env.step(action)

            log_probs.append(log_prob) # [log(a1|s1), log(a2|s2), ...., log(at|st)]
            # seq_rewards.append(reward)
            state = next_state
            total_reward += reward
            total_step += 1
            rewards.append(reward) # change here
  
            if done:
                final_rewards.append(reward)
                total_rewards.append(total_reward)

                break

Medium Baseline—Policy Gradient

第二个版本的cumulated reward,把离a1比较近的的reward给比较大的权重,比较远的给比较小的权重,如下:
A 1 = R 1 = r 1 + γ r 2 + . . . . + γ T − 1 r T , A 2 = R 2 = r 2 + γ r 3 + . . . + γ T − 2 r T , . . . A T = R T = r T A_1=R_1=r_1+\gamma r_2+....+\gamma ^{T-1} r_T,\\ A_2=R_2=r_2+\gamma r_3+...+\gamma ^{T-2} r_T,\\ ...\\ A_T=R_T=r_T A1=R1=r1+γr2+....+γT1rT,A2=R2=r2+γr3+...+γT2rT,...AT=RT=rT
在这里插入图片描述

# Take a state input and generate a probability distribution of an action through a series of Fully Connected Layers
class PolicyGradientNetwork(nn.Module):

    def __init__(self):
        super().__init__()
        self.fc1 = nn.Linear(8, 16)
        self.fc2 = nn.Linear(16, 16)
        self.fc3 = nn.Linear(16, 4)

    def forward(self, state):
        hid = torch.tanh(self.fc1(state))
        hid = torch.tanh(hid)
        return F.softmax(self.fc3(hid), dim=-1)
      while True:
            action, log_prob = agent.sample(state) # at, log(at|st)
            next_state, reward, done, _ = env.step(action)

            log_probs.append(log_prob) # [log(a1|s1), log(a2|s2), ...., log(at|st)]
            seq_rewards.append(reward) # r1, r2, ...., rt
            state = next_state
            total_reward += reward
            total_step += 1 # total_step in each episode is different
            # rewards.append(reward) # change here
            # ! IMPORTANT !
            # Current reward implementation: immediate reward,  given action_list : a1, a2, a3 ......
            #                                                         rewards :     r1, r2 ,r3 ......
            # medium:change "rewards" to accumulative decaying reward, given action_list : a1,                           a2,                           a3, ......
            #                                                           rewards :           r1+0.99*r2+0.99^2*r3+......, r2+0.99*r3+0.99^2*r4+...... ,  r3+0.99*r4+0.99^2*r5+ ......
    
            if done: # done is return by environment, true means current episode is done
                final_rewards.append(reward) # final step reward
                total_rewards.append(total_reward) # total reward of this episode
                # calculate accumulative decaying reward
                discounted_rewards = []
                R = 0
                for r in reversed(seq_rewards):
                  R = r + rate * R
                  discounted_rewards.insert(0, R)

                rewards.extend(discounted_rewards)
                break

Strong Baseline——Actor-Critic

在这里插入图片描述Actor-Critic 算法中,ActorCritic 的损失函数主要基于策略梯度方法(用于更新 Actor 网络)以及价值函数(用于更新 Critic 网络)。这两部分的损失分别由策略的 Advantage 估计和状态价值的误差构成。

Actor 网络的目标是通过 策略梯度(Policy Gradient) 方法,最大化预期的累计奖励 $ \mathbb{E} [R] $。为此,损失函数通常为负的 log 概率乘以 Advantage(优势函数),该优势函数描述了当前策略执行动作的好坏程度。
L Actor = − E π [ log ⁡ ( π ( a ∣ s ) ) ⋅ A ( s , a ) ] L_{\text{Actor}} = -\mathbb{E}_{\pi} [\log(\pi(a|s)) \cdot A(s, a)] LActor=Eπ[log(π(as))A(s,a)]

其中:

  • log ⁡ ( π ( a ∣ s ) ) \log(\pi(a|s)) log(π(as)) :是状态 ( s ) 下选择动作 ( a ) 的 log 概率。
  • $ A(s, a) :是 ∗ ∗ A d v a n t a g e ∗ ∗ ,代表实际收益与 C r i t i c 估计的差距,定义为: :是 **Advantage**,代表实际收益与 Critic 估计的差距,定义为: :是Advantage,代表实际收益与Critic估计的差距,定义为:A(s, a) = r + \gamma V(s)_{t+1} - V(s)_t$
    其中:
    • r r r :当前动作的即时奖励。
    • $\gamma $:折扣因子,用于考虑未来奖励的权重。
    • V ( s ) t + 1 V(s)_{t+1} V(s)t+1:下一个状态的价值估计。
    • $V(s)_t $:当前状态的价值估计。

因此,Actor 损失函数的整体公式为:
L Actor = − ∑ i = 1 T log ⁡ ( π ( a ∣ s ) ) ⋅ A ( s , a ) = − ∑ i = 1 T log ⁡ ( π ( a ∣ s ) ) ⋅ ( r + γ V ( s ′ ) − V ( s ) ) L_{\text{Actor}} =-\sum{ ^T _{i=1}} \log(\pi(a|s)) \cdot A(s,a)= -\sum { ^T _{i=1}}\log(\pi(a|s)) \cdot (r + \gamma V(s') - V(s)) LActor=i=1Tlog(π(as))A(s,a)=i=1Tlog(π(as))(r+γV(s)V(s))

2. Critic 损失公式

Critic 网络的目标是尽可能精确地估计状态的价值 ($ V(s) $),所以我们使用 价值误差 作为 Critic 损失。常用的损失函数是 均方误差(Mean Squared Error, MSE) 或者 平滑 L1 损失

Critic 的损失函数可以写为:
L Critic = E [ ( V ( s ) t − ( r + γ V ( s ) t + 1 ) ) 2 ] L_{\text{Critic}} = \mathbb{E} \left[ \left( V(s)_t - \left( r + \gamma V(s)_{t+1} \right) \right)^2 \right] LCritic=E[(V(s)t(r+γV(s)t+1))2]

也就是说,Critic 通过最小化 ( V ( s ) t V(s)_t V(s)t) 和 ( r + γ V ( s ) t + 1 r + \gamma V(s)_{t+1} r+γV(s)t+1 ) 之间的误差,来提高状态价值的估计。

在使用 平滑 L1 损失 的情况下,公式为: L Critic = smooth_l1_loss ( V ( s ) t , r + γ V ( s ) t + 1 ) L_{\text{Critic}} = \text{smooth\_l1\_loss}(V(s)_t, r + \gamma V(s)_{t+1}) LCritic=smooth_l1_loss(V(s)t,r+γV(s)t+1).平滑 L1 损失 比均方误差对异常值更具鲁棒性。

from torch.optim.lr_scheduler import StepLR
class ActorCritic(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc = nn.Sequential(
            nn.Linear(8, 16),
            nn.Tanh(),
            nn.Linear(16, 16),
            nn.Tanh()
        )

        self.actor = nn.Linear(16, 4)
        self.critic = nn.Linear(16, 1)

        self.values = []
        self.optimizer = optim.SGD(self.parameters(), lr=0.001)

    def forward(self, state):
        hid = self.fc(state)
        self.values.append(self.critic(hid).squeeze(-1))
        return F.softmax(self.actor(hid), dim=-1)

    def learn(self, log_probs, rewards):
        values = torch.stack(self.values)
        loss = (-log_probs * (rewards - values.detach())).sum() + F.smooth_l1_loss(values, rewards)
        self.optimizer.zero_grad()
        loss.backward()
        self.optimizer.step()

        self.values = []

    def sample(self, state):
        action_prob = self(torch.FloatTensor(state))
        action_dist = Categorical(action_prob)
        action = action_dist.sample()
        log_prob = action_dist.log_prob(action)
        return action.item(), log_prob
        

Boss Baseline—Mask

Mask 蒙版(Mask) 和 Rate(折扣因子) 解释**

  • Mask

mask 是一个 蒙版向量,用于过滤掉无效的或不需要考虑的状态值或奖励。这通常在处理 序列数据 或者 部分状态无效的任务 时很有用。例如,在某些环境中,某些时间步的奖励可能不可用,或这些时间步不需要计入学习。

通过 mask,我们可以有选择性地忽略某些状态或动作:
A ( s , a ) = r + γ ⋅ mask ⋅ V ( s ) t + 1 − V ( s ) + t A(s, a) = r + \gamma \cdot \text{mask} \cdot V(s)_{t+1} - V(s)+t A(s,a)=r+γmaskV(s)t+1V(s)+t

  • Rate (折扣因子 ( γ \gamma γ ))

rate 也就是折扣因子 ( γ \gamma γ ),用于对未来奖励进行折现。它的作用是 平衡即时奖励与长期奖励。折扣因子 ( γ \gamma γ ) 的取值范围通常在 ( $[0, 1] $),当 ( γ = 0 \gamma = 0 γ=0 ) 时,表示完全只关注即时奖励;当 ($ \gamma \to 1 $) 时,表示对长期奖励的重视程度增加。

因此,完整的 Advantage 函数(带有蒙版和折扣因子的形式)是:
A ( s , a ) = r + γ ⋅ mask ⋅ V ( s ) t + 1 − V ( s ) t A(s, a) = r + \gamma \cdot \text{mask} \cdot V(s)_{t+1} - V(s)_t A(s,a)=r+γmaskV(s)t+1V(s)t

完整的损失函数公式()

  1. Actor 损失公式:
    L Actor = − ∑ i = 1 T log ⁡ ( π ( a ∣ s ) ) ⋅ ( r + γ ⋅ mask ⋅ V ( s ) t + 1 − V ( s ) t ) L_{\text{Actor}} = -\sum{ ^T _{i=1}} \log(\pi(a|s)) \cdot \left( r + \gamma \cdot \text{mask} \cdot V(s)_{t+1} - V(s)_t \right) LActor=i=1Tlog(π(as))(r+γmaskV(s)t+1V(s)t)

  2. Critic 损失公式:
    L Critic = smooth_l1_loss ( V ( s ) t , r + γ ⋅ mask ⋅ V ( s ) t + 1 ) L_{\text{Critic}} = \text{smooth\_l1\_loss}\left( V(s)_t, r + \gamma \cdot \text{mask} \cdot V(s)_{t+1} \right) LCritic=smooth_l1_loss(V(s)t,r+γmaskV(s)t+1)

from torch.optim.lr_scheduler import StepLR
class ActorCritic(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc = nn.Sequential(
            nn.Linear(8, 16),
            nn.Tanh(),
            nn.Linear(16, 16),
            nn.Tanh()
        )
        
        self.actor = nn.Linear(16, 4)
        self.critic = nn.Linear(16, 1)
        
        self.values = []
        self.optimizer = optim.SGD(self.parameters(), lr=0.001)
        self.scheduler = optim.lr_scheduler.CyclicLR(self.optimizer, 
                                                     base_lr=2e-4, max_lr=2e-3, 
                                                     step_size_up=10, mode='triangular2')
        
    def forward(self, state):
        hid = self.fc(state)
        self.values.append(self.critic(hid).squeeze(-1))
        return F.softmax(self.actor(hid), dim=-1)
    
    def learn(self, log_probs, rewards, mask, rate):
        values = torch.stack(self.values)
        advantage = rewards + rate* mask * torch.cat([values[1:], torch.zeros(1)]) - values
        loss = (-log_probs * (advantage.detach())).sum() + \
               F.smooth_l1_loss(advantage, torch.zeros(len(advantage)))
        self.optimizer.zero_grad()
        loss.backward()
        self.optimizer.step()
        self.scheduler.step()
        
        self.values = []
        
    def sample(self, state):
        action_prob = self(torch.FloatTensor(state))
        action_dist = Categorical(action_prob)
        action = action_dist.sample()
        log_prob = action_dist.log_prob(action)
        return action.item(), log_prob

while True:

            action, log_prob = agent.sample(state) # at, log(at|st)
            next_state, reward, done, _ = env.step(action)

            log_probs.append(log_prob) # [log(a1|s1), log(a2|s2), ...., log(at|st)]
            seq_rewards.append(reward)
            state = next_state
            total_reward += reward
            total_step += 1
            if done:
                final_rewards.append(reward)
                total_rewards.append(total_reward)
                rewards += seq_rewards
                mask += [1]*len(seq_rewards)
                mask[-1] = 0
                break

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2153088.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

传统到AI 大数据分析的演变,颠覆智慧水电的未来?

传统到AI 大数据分析的演变,颠覆智慧水电的未来? 前言传统到AI 大数据分析的演变 前言 水电作为一种重要的能源形式,一直在我们的生活中扮演着至关重要的角色。而如今,随着科技的飞速发展,智慧水电和 AI 大数据应用的…

服务器安全,你必须知道的六个知识点

服务器安全 如今没有什么是安全的。各种系统安全漏洞的数量呈爆炸式增长。令人担忧的主要原因之一是服务器安全性。 接下来,就如何提升服务器安全,写几点见解。 虽然很多企业在服务器的安全性方面做了足够多,但是,黑客仍然能够…

Java项目实战II基于Java+Spring Boot+MySQL的卓越导师双选系统设计与实现(源码+数据库+文档)

目录 一、前言 二、技术介绍 三、系统实现 四、论文参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发,CSDN平台Java领域新星创作者 一、前言 在当今高等教育环境中,师生之间的有效沟通与匹配对于促进学生发展、提升教学质量至关重要…

蓝桥杯—STM32G431RBT6(ADC数模转换,从原理到应用)

一、什么是ADC? ADC(Analog-to-Digital Converter)即模数转换器。它是一种将模拟信号转换为数字信号的电子器件。在电子系统中,ADC 起着至关重要的作用,它能将连续变化的模拟量(如电压、电流等)…

openstack中的rabbitmq

基本概念 基础介绍 exchange:用于分发信息,有direct、fanout、topic、headers; binding:exchange、queue之间的虚拟连接,由一个或者多个routing key组成; queues:用来暂存消息,供…

【工具】Windows|两款开源桌面窗口管理小工具Deskpins和WindowTop

总结 Deskpins 功能单一,拖到窗口上窗口就可以置顶并且标记钉子标签,大小 104 KB,开源位置:https://github.com/thewhitegrizzli/DeskPins/releases WindowTop 功能完善全面强大,包括透明度、置顶、选区置顶等一系列功…

API安全推荐厂商瑞数信息入选IDC《中国数据安全技术发展路线图》

近日,全球领先的IT研究与咨询公司IDC发布报告《IDC TechScape:中国数据安全技术发展路线图,2024》。瑞数信息凭借其卓越的技术实力和广泛的行业应用,被IDC评选为“增量型”技术曲线API安全的推荐厂商。 IDC指出,数据安…

Python 如何调用讯飞星火大模型API

1 讯飞星火简介 讯飞星火是科大讯飞推出的一款先进的人工智能大模型,它具备强大的语言理解和知识问答能力,能够在多种场景中提供智能化服务。2024年6月27日,科大讯飞发布了讯飞星火大模型V4.0版本,全面对标GPT-4 Turbo。现有的模…

【JavaScript】LeetCode:41-45

文章目录 41 排序链表42 合并k个升序链表43 LRU缓存44 二叉树的中序遍历45 二叉树的最大深度 41 排序链表 递归 归并排序找到链表中心点,从中心点将链表一分为二。奇数个节点找中心点,偶数个节点找中心左边的点作为中心点。快慢指针找中心点&#xff0c…

thinkPHP 8.0.4 安装

windows 上安装最新版 thinkPHP8.0.4 下载phpStudy V8.1:小皮面板安装Composer2.x,Composer是PHP的一个依赖管理工具,主要功能包括依赖管理、版本控制、自动加载、扩展开发以及集成其他工具。安装 php8.0.2 4. 网站-管理-compose&#xff0c…

基于SpringBoot+Vue的图书管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏:Java精选实战项目…

使用k8s搭建mariadb+nginx+wordpress

前期准备 1.启动docker进程 2.拉取三个镜像 mariadb:latest wordpress:latest nginx:alpine 3.保存三个镜像 docker save -o wordpress.tar wordpress:latest 4.上传到其他的节点主机 scp wordpress.tar root 192.168.118.88:~ 5.切换到node01和node02两个节点上 ctr…

哪款骨传导耳机值得入手?五款精选好口碑骨传导耳机分享~

不知不觉中,耳机已成为我们生活中不可或缺的电子单品。无论是早晨出门、通勤、工作,甚至入睡,耳机几乎随时相伴。尽管大家都知道长期佩戴耳机会对听力产生影响,但骨传导耳机的出现为我们提供了更安全、卫生的选择,它们…

sql中的union与union all区别

sql中的union与union all区别 1、 区别2、效率3、使用建议 💖The Begin💖点点关注,收藏不迷路💖 1、 区别 union: 功能:合并多个查询结果集,并自动去除重复行。特点:结果集中不包含重…

从一个文本文件中挑选出符合条件的内容行

某天,张三得到一个需求,将如下格式的文本文件中的文件名开头的内容行提取出来,存入一个新的文本文件。 ok 0 文件名:1_zoukaige.mp3 index:10 文件名:2_dahan.mp3 index:20 文件名:3_kuai.mp3 index:30 文件…

Windows上创建批处理.bat文件并且注册为开机自启(Python-web微服务)

1. winodws桌面点击创建文本文件 (文件名称.txt) 2. 将如下代码写入txt文件中 echo off if "%1""h" goto begin start mshta vbscript:createobject("wscript.shell").run("""%~nx0"" h"…

马踏棋盘c++

马踏棋盘c 题目回溯问题模型特征模型 代码 题目 马踏棋盘算法,即骑士周游问题。将马放在国际象棋的 88 棋盘的某个方格中,马按走棋规则(马走日字)进行移动。每个方格只进入一次,走遍棋盘上全部 64 个方格。 回溯问题模型 特征 解组织成树…

JavaWeb初阶 day1

目录 tomcat目录结构 tomcat:web服务器软件 项目部署的方式 直接将项目放到webapps下 配置conf/server.xml文件 在conf\Catalina\localhost创建任意名称的xml文件。在文件中编写 静态项目和动态项目 Servlet Servlet执行原理 Servlet方法(生命周期&#x…

数字化转型的理论框架对比:从多维视角指导企业成功变革对比DPBOKIT4ITCOBITTOGAF

数字化转型的多维框架解析 在数字化时代,企业如何有效实现数字化转型已成为其生存和发展的关键问题。然而,市场上关于数字化管理的各种框架和理论并存,企业需要根据自身的需求选择最适合的指导路径。本文将通过对几个核心理论框架的对比&…

亿发工单系统:让任务风平浪静

在现代企业的日常运营中,工单管理系统已经成为必不可少的工具,无论是生产制造、IT运维,还是客服支持,工单系统的存在都是为了高效处理任务、跟踪进展、分配资源。然而,现实中的工单管理,往往不是“风平浪静…