07、基于LunarLander登陆器的强化学习案例(含PYTHON工程)

news2025/1/11 15:01:22

07、基于LunarLander登陆器的强化学习(含PYTHON工程)

开始学习机器学习啦,已经把吴恩达的课全部刷完了,现在开始熟悉一下复现代码。全部工程可从最上方链接下载。

基于TENSORFLOW2.10

0、实践背景

gym的LunarLander是一个用于强化学习的经典环境。在这个环境中,智能体(agent)需要控制一个航天器在月球表面上着陆。航天器的动作包括向上推进、不进行任何操作、向左推进或向右推进。环境的状态包括航天器的位置、速度、方向、是否接触到地面或月球上空等。

智能体的任务是在一定的时间内通过选择正确的动作使航天器安全着陆,并且尽可能地消耗较少的燃料。如果航天器着陆时速度过快或者与地面碰撞,任务就会失败。智能体需要通过不断地尝试和学习来选择最优的动作序列,以完成这个任务。

下面是训练的结果:
在这里插入图片描述

1、实现原理

1.1 强化学习

强化学习实现原理主要包括以下几个方面:

智能体与环境交互:强化学习中的智能体(agent)通过与环境不断地进行交互,学习一个从环境到动作的映射,学习的目标就是使累计回报最大化。
试错学习:强化学习是一种试错学习,智能体需要在各种状态(环境)下尝试所有可以选择的动作,通过环境给出的反馈(即奖励)来判断动作的优劣,最终获得环境和最优动作的映射关系(即策略)。
奖励函数与策略更新:强化学习算法的核心在于定义奖励函数,并通过不断迭代来更新策略,从而实现最优化的决策。
状态获取:智能体需要通过传感器等手段获取当前环境的状态信息,如图像、声音等。

1.2 软更新

软更新(Soft Updates)技术是一种在强化学习中常用的技术,特别是在Q-learning算法中。该技术的主要目的是提高学习过程的稳定性。

在强化学习中,我们通常有一个主要的网络(如Q-network)来学习并更新其权重。然而,如果我们直接使用这个网络来估计Q值并选择动作,同时也在每个步骤中更新其权重,这可能会导致学习过程的不稳定。因为网络权重的连续变化会导致Q值的波动,从而使得学习策略变得不一致。

为了解决这个问题,软更新技术被引入。其基本思想是创建一个额外的网络,通常被称为目标网络(Target Network),该网络的结构与主要网络相同,但其权重的更新是缓慢的,即它不会在每个步骤中都进行更新。相反,目标网络的权重会在主要网络经过一定数量的步骤或达到一定的条件后才进行更新。这通常是通过将主要网络的权重与目标网络的权重进行某种形式的平均来实现的。

由于目标网络的权重更新是缓慢的,因此它提供的Q值估计更为稳定。这有助于使学习过程更加稳定,因为即使主要网络的权重发生显著变化,目标网络的权重也只会有较小的变化,从而减少了Q值的波动:

1.3 贪婪策略

训练时,每一步并不完全采用最优行为,有一定可能尝试新的动作:

def get_action(q_values, epsilon=0):
    if random.random() > epsilon:
        return np.argmax(q_values.numpy()[0])
    else:
        return random.choice(np.arange(4))

2、强化学习实现步骤

2.1、导入相关机器学习使用的包
# 导入时间处理库  
import time  
# 从collections模块导入双端队列和命名元组  
from collections import deque, namedtuple  
# 导入用于开发和比较强化学习算法的库  
import gym  
# 导入数值计算库,以np作为别名  
import numpy as np  
# 导入Python图像处理库中的Image模块  
import PIL.Image  
# 导入机器学习框架  
import tensorflow as tf  
# 导入自定义的Lunar Lander工具库  
import Lunar_Lander_utils  
# 从Keras库导入顺序模型类  
from keras import Sequential  
# 从Keras层模块导入全连接层和输入层类  
from keras.layers import Dense, Input  
# 从Keras损失模块导入均方误差损失函数  
from keras.losses import MSE  
# 从Keras优化器模块导入Adam优化器  
from keras.optimizers import Adam
2.2、LunarLander登陆器环境加载

在gym库中的使用指导可以参考:LunarLander

我们关注的是可以从这个交互接口中得到什么和控制什么,对于此处的登陆器,我们关注可以得到它的哪些状态和对其进行那些操作
在这里插入图片描述
依据官方手册,存在四种可用的离散动作:不执行任何操作、启动左方向引擎、启动主引擎、启动右方向引擎。能够得到的状态是一个8维向量,包括着陆器在x和y方向上的坐标、x和y方向上的线速度、角度、角速度,以及两个布尔值,表示每个着陆腿是否与地面接触。

# 使用gym库创建一个名为'LunarLander-v2'的环境,并设置渲染模式为'rgb_array'  
# 'rgb_array'模式返回一个numpy数组,表示环境的RGB图像  
env = gym.make('LunarLander-v2', render_mode='rgb_array')  
  
# 重置环境到初始状态,并返回初始状态  
env.reset()  
  
# 使用PIL库(Python Imaging Library)从环境的渲染数组创建一个图像  
PIL.Image.fromarray(env.render())  
  
# 获取观测空间(状态)的尺寸,这是一个8维向量  
state_size = env.observation_space.shape  
  
# 获取动作空间的数量,这表示有多少种可能的离散动作可以选择  
num_actions = env.action_space.n  
  
# 打印状态空间和动作空间的信息  
print('State Shape:', state_size)  
print('Number of actions:', num_actions)  
2.3、创建神经网络结构-使用软更新
# 创建一个名为Q-Network的神经网络  
q_network = Sequential([
    Input(shape=state_size),  # 输入层,形状由state_size定义  
    Dense(units=128, activation='relu'),  # 全连接层,128个单元,使用ReLU激活函数  
    Dense(units=128, activation='relu'),  # 全连接层,128个单元,使用ReLU激活函数  
    Dense(units=num_actions, activation='linear'),  # 输出层,单元数由num_actions定义,使用线性激活函数  
])

# 这里是软更新的网络(Target Q-Network)  
target_q_network = Sequential([
    Input(shape=state_size),  # 输入层,形状由state_size定义  
    Dense(units=128, activation='relu'),  # 全连接层,128个单元,使用ReLU激活函数  
    Dense(units=128, activation='relu'),  # 全连接层,128个单元,使用ReLU激活函数  
    Dense(units=num_actions, activation='linear'),  # 输出层,单元数由num_actions定义,使用线性激活函数  
])

2.4、强化学习的误差计算与梯度下降

首先是误差计算的函数,这边的Q-learning算法类似于一种迭代算法,
在这里插入图片描述
这就好像我们在高中学习的数组题目中,已经知道了an和an+1的关系式,去求解详细的an的表达式。此处误差计算的代码如下(值得注意的是,下一步的回报Q(s’,a’)是使用Target Q-Network计算的,而当前步的是使用Q-Network网络计算的):

def compute_loss(experiences, gamma, q_network, target_q_network):  
    """  
    计算损失函数。  
  
    参数:  
      experiences: 一个包含["state", "action", "reward", "next_state", "done"]的namedtuples的元组  
      gamma: (浮点数) 折扣因子。  
      q_network: (tf.keras.Sequential) 用于预测q_values的Keras模型  
      target_q_network: (tf.keras.Sequential) 用于预测目标的Keras模型  
  
    返回:  
      loss: (TensorFlow Tensor(shape=(0,), dtype=int32)) y目标与Q(s,a)值之间的均方误差。  
    """  
  
    # 解压经验元组的小批量数据  
    states, actions, rewards, next_states, done_vals = experiences  
  
    # 计算最大的Q^(s,a),reduce_max用于求最大值  
    max_qsa = tf.reduce_max(target_q_network(next_states), axis=-1)  
  
    # 如果回合结束,设置y = R,否则设置y = R + γ max Q^(s,a)。  
    y_targets = rewards + (gamma * max_qsa * (1 - done_vals))  
  
    # 获取q_values  
    q_values = q_network(states)  
    q_values = tf.gather_nd(q_values, tf.stack([tf.range(q_values.shape[0]),  
                                                tf.cast(actions, tf.int32)], axis=1))  
  
    # 计算损失  
    loss = MSE(y_targets, q_values)  
  
    return loss

学习算法的定义如下所示,使用了软更新技术:


def agent_learn(experiences, gamma):
    """  
    更新Q网络的权重。  

    参数:  
      experiences: 一个包含["state", "action", "reward", "next_state", "done"]的namedtuples的元组  
      gamma: (浮点数) 折扣因子。  

    """
    # 使用tf.GradientTape()来计算损失相对于权重的梯度  
    with tf.GradientTape() as tape:
        # 调用compute_loss函数计算损失  
        loss = compute_loss(experiences, gamma, q_network, target_q_network)

        # 使用GradientTape计算损失相对于q_network的可训练变量的梯度  
    gradients = tape.gradient(loss, q_network.trainable_variables)

    # 使用优化器应用梯度,从而更新q_network的权重  
    optimizer.apply_gradients(zip(gradients, q_network.trainable_variables))

    # 使用软更新技术将q_network的权重更新至target_q_network  
    Lunar_Lander_utils.update_target_network(q_network, target_q_network)

Lunar_Lander_utils.update_target_network(q_network, target_q_network)是软更新的关键所在:

def update_target_network(q_network, target_q_network):
    for target_weights, q_net_weights in zip(target_q_network.weights, q_network.weights):
        target_weights.assign(TAU * q_net_weights + (1.0 - TAU) * target_weights)
2.5、强化学习的训练过程

在这里插入图片描述

# 重置环境至初始状态并获得初始状态  
state,_ = env.reset()  
total_points = 0  
  
# 这里进行一次模拟,最多运行max_num_timesteps个时间步  
for t in range(max_num_timesteps):  
    # 从当前状态S使用ε-贪婪策略选择一个动作A  
    # 从元组中提取NumPy数组  
    # (注:这部分代码被注释掉了,所以下面的state_array并不会实际运行)  
    # if state[0].shape == ():  
    #     state_array = state  
    # else:  
    #     state_array = state[0]  
    # 将state_array转换为NumPy数组  
    state_qn = np.expand_dims(state, axis=0)  
    # 得到每个动作的回报数值,是一个1x4的数组,分别表示4个action的回报  
    q_values = q_network(state_qn)  
    # 此处实行贪婪策略,从当前最优action和随机action中选择  
    action = Lunar_Lander_utils.get_action(q_values, epsilon)  
  
    # 执行上述动作后得到的新状态、奖励、是否完成等信息  
    next_state, reward, done, _, _ = env.step(action)  
  
    # 将经验元组(S,A,R,S')存储在记忆缓冲区中  
    # 使用memory存储历史数据  
    memory_buffer.append(experience(state, action, reward, next_state, done))  
  
    # 只在特定的时间步进行更新  
    update = Lunar_Lander_utils.check_update_conditions(t, NUM_STEPS_FOR_UPDATE, memory_buffer)  
  
    if update:  
        # 从D中随机抽取小批量的经验元组(S,A,R,S')  
        # 只随机取MINIBATCH_SIZE个数据进行一次训练  
        experiences = Lunar_Lander_utils.get_experiences(memory_buffer)  
  
        # 设置y目标,执行梯度下降步骤,并更新网络权重  
        agent_learn(experiences, GAMMA)  
  
    state = next_state.copy()  
    total_points += reward  
  
    if done:  
        break  
  
# 将本次总得分添加到历史得分中  
total_point_history.append(total_points)  
# 计算最近num_p_av次得分的平均值  
av_latest_points = np.mean(total_point_history[-num_p_av:])  
  
# 更新ε值  
epsilon = Lunar_Lander_utils.get_new_eps(epsilon)

3、LunarLander文件解释

Lunar_Lander.py:运行此文件进行训练
lunar_lander_model.h5:Lunar_Lander.py训练得到的模型文件
Lunar_Lander_test.py:此文件调用h5模型并运行模拟器,将数据打包成视频格式,视频位于Lunar_Lander_videos文件夹
Lunar_Lander_utils.py:函数库

注意:运行Lunar_Lander_test.py出现长时间(大于20s)无返回0的情况,需要重新运行。这是因为LunarLander一直悬浮在空中了(相当于直升机了)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1282123.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

无需服务器,无需魔法,拥有一个微信机器人就是这么简单

前情提要 还没看过的朋友可以看一下上一篇文章《拥有一个微信机器人总共需要几步?》在这篇文章里,我们提到,创建微信机器人需要一个大前提--你得有一台服务器。现在,不再需要了!没错,上一篇提到的Serverles…

Python爬虫:使用Scrapy框架进行高效爬取

Python爬虫可使用的架构有很多,对于我而言,经常使用Scrapy异步处理框架Twisted,其实意思很明确,Scrapy可以实现多并发处理任务,同一时间将可以处理多个请求并且大大提高工作效率。 Scrapy是一个强大且高效的Python爬虫…

文章阅读——Scaffolding protein functional sites using deep learning

1.最终幻想: 无中生有的蛋白质从头设计 零.导读 近几年,蛋白质结构预测领域连续取得重大突破。首先是【AlphaFold】,在可以充分利用共进化信息结合深度神经网络生成空间约束条件并降低相空间的搜索,极大地帮助了蛋白质的结构建模&#xff0…

扁平按钮样式

上图 代码&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>扁平按钮</title><style>body {margin: 0;padding: 0;height: 100vh;display: flex;justify-content: center;ali…

改造python3中的http.server为简单的文件上传下载服务

改造 修改python3中的http.server.SimpleHTTPRequestHandler&#xff0c;实现简单的文件上传下载服务 simple_http_file_server.py&#xff1a; # !/usr/bin/env python3import datetime import email import html import http.server import io import mimetypes import os …

OpenCV-python:图像像素类型转换与归一化

目录 1.图像像素类型转换 2. 图像像素转换适用情形 3.图像归一化 4.归一化方法支持 5.归一化函数 6.知识笔记 1.图像像素类型转换 图像像素类型转换是指将图像的像素值从一种类型转换为另一种类型。常见的像素类型包括无符号整数类型&#xff08;如8位无符号整数、16位无符…

树_左叶子之和

//给定二叉树的根节点 root &#xff0c;返回所有左叶子之和。 // // // // 示例 1&#xff1a; // // // // //输入: root [3,9,20,null,null,15,7] //输出: 24 //解释: 在这个二叉树中&#xff0c;有两个左叶子&#xff0c;分别是 9 和 15&#xff0c;所以返回 24 //…

彩色成像的基础和应用 原理 Principles(一)

下面我将不定期尽可能出一系列&#xff08;我觉的非常好&#xff09;翻译的文章来解释颜色这们学科。【下图为此次翻译的书籍封面】 Introduction: 颜色是一种与光的物理学&#xff0c;物质的化学&#xff0c;物体的几何特性以及人…

电脑回收站还原的文件在哪里找到?如何找回回收站还原的文件

电脑回收站是一种非常有用的功能&#xff0c;可以帮助我们恢复无意中删除的文件。然而&#xff0c;许多人可能不清楚还原的文件在哪里可以找到。本文将为您带来详细解答&#xff0c;并帮助您找回回收站还原的文件。 电脑回收站还原的文件在哪里找到 当我们使用电脑的回收站功…

微信小程序开发平台系统源码 附带完整的搭建教程

随着移动互联网的快速发展&#xff0c;微信小程序作为一种新型的应用形态&#xff0c;凭借其轻量化、易用性等特点&#xff0c;逐渐成为了移动开发领域的新宠。 以下是部分代码示例&#xff1a; 系统特色功能一览&#xff1a; 1.完善的开发工具&#xff1a;本系统提供了一整套…

设计一个在裸机下使用的简单软件定时器(3):功能测试

0 前言 在RTOS中&#xff0c;我们经常用到软件定时器来为我们处理一些对于实时性要求不高的定时任务。在裸机开发中&#xff0c;我们可能也有很多需要定时执行的任务&#xff0c;为了优雅地执行这些定时任务&#xff0c;本文设计一个在裸机下使用的简单软件定时器&#xff0c;…

java基础之HashSet详解

HashSet详解 HashSet是基于HashMap实现的一个单列存储的集合类&#xff0c;将所有的数据存在HashMap的key值中&#xff0c;而value全部使用一个Object对象存储 继承关系 public class HashSet<E> extends AbstractSet<E> implements Set<E>, Cloneable…

Unity | 渡鸦避难所-1 | 修复资源导入后呈现洋红色(Built-in 转 URP)

1 前言 Unity 编辑器导入 Asset Store 的资源包后&#xff0c;在预览和使用时&#xff0c;发现对象显示为洋红色 以小狐狸为例&#xff0c;打开资源包中的场景&#xff0c;可以看到小狐狸和地板均显示为洋红色 这是因为 Asset Store 中的资源包大部分是针对内置渲染管线项目制…

Python代码部署的三种加密方案,其中一种你肯定不知道

文章目录 前言一、代码混淆二、代码打包三、代码编译3.1 pyarmor快速使用3.2 pyarmor进阶使用关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包项目源码合集①Python工具包②Python实战案例③Python小游戏源码五、…

tNavigator 23.2 x64

Rock Flow Dynamics&#xff08;RFD&#xff09;很高兴地宣布发布我们旗舰产品tNavigator的最新版本。版本 23.2 现在可供用户使用。 tNavigator长期以来一直被认为是油藏工程师和地质学家的强大工具&#xff0c;可为复杂的油藏行为提供准确的建模和模拟。最新版本为所有模块带…

uni-app 微信小程序之整合colorui

1. 介绍 ColorUI uni-app版本支持多端&#xff0c;兼容性经过近上万使用者测试、反馈、改进&#xff0c;目前已非常稳定&#xff01; 说白了&#xff0c;就是uni-app版本的 tailwindcss&#xff0c;只是uni-app版本更适合使用 colorui 2. 开始 下载源码解压获得 /Colorui-U…

钉钉提交审批意见,并上传附件接口集成

一&#xff1a;适配器 DingtalkApprovalFilesExecute 参考方案链接&#xff1a;轻易云数据集成平台 二&#xff1a;请求接口。配置参数 接口文档&#xff1a;使用了新旧接口 服务端API发起带有附件的审批流并下载附件 - 钉钉开放平台 接口&#xff1a;topapi/processinsta…

mac 配置hosts

hosts 目录 /etc/hosts 配置方式 ip 域名 保存退出后运行&#xff1a;(清楚dns缓存) sudo killall -HUP mDNSResponder

(C++)和为s的两个数字--双指针算法

个人主页&#xff1a;Lei宝啊 愿所有美好如期而遇 和为S的两个数字_牛客题霸_牛客网输入一个升序数组 array 和一个数字S&#xff0c;在数组中查找两个数&#xff0c;使得他们的和正好是S&#xff0c;如果。题目来自【牛客题霸】https://www.nowcoder.com/practice/390da4f7a…

网工学习9-STP配置

如图 1 所示&#xff0c;当前网络中存在环路&#xff0c; SwitchA 、SwitchB 、SwitchC 和 SwitchD 都运行 STP&#xff0c;通过 彼此交互信息发现网络中的环路&#xff0c;并有选择的对某个端口进行阻塞&#xff0c;最终将环形网络结构修剪成无 环路的树形网络结构&#xff…