强化学习,快速入门与基于python实现一个简单例子(可直接运行)

news2024/11/19 19:20:56

文章目录

  • 一、什么是“强化学习”
  • 二、强化学习包括的组成部分
  • 二、Q-Learning算法
  • 三、迷宫-强化学习-Q-Learning算法的实现
      • 全部代码(复制可用)
      • 可用状态空间
      • 检查是否超出边界
      • epsilon 的含义
      • 更新方程
  • 总结


一、什么是“强化学习”

本文要记录的大概内容:

强化学习是一种机器学习方法,旨在让智能体通过与环境的交互学习如何做出最优决策以最大化累积奖励。在强化学习中,智能体通过尝试不同的行动并观察环境的反馈(奖励或惩罚)来学习。它不依赖于预先标记的训练数据,而是通过与环境的实时交互进行学习。

强化学习的核心概念包括以下几个要素:

智能体(Agent):执行动作并与环境进行交互的学习主体。
环境(Environment):智能体所处的外部环境,它对智能体的动作做出反应,并提供奖励或惩罚信号。
状态(State):在特定时间点,环境所处的情境或配置,用于描述环境的特征。
动作(Action):智能体在某个状态下可以执行的操作或决策。
奖励(Reward):环境根据智能体的动作提供的反馈信号,用于评估动作的好坏。
策略(Policy):智能体采取行动的方式或决策规则,它映射状态到动作的选择。
价值函数(Value Function):评估在特定状态下采取特定动作的长期价值或预期回报。
Q值(Q-Value):表示在给定状态下采取特定动作的预期回报值。

强化学习的目标是通过学习最优策略或价值函数来使智能体能够在不同的状态下做出最佳决策,以最大化累积奖励。学习过程通常使用基于迭代的方法,例如Q-learning、SARSA、深度强化学习等。强化学习在许多领域具有广泛的应用,包括自动驾驶、机器人控制、游戏智能以及优化和决策问题等。


以下是本篇文章正文内容

二、强化学习包括的组成部分

当涉及到设计一个完整的强化学习过程时,需要考虑多个方面,包括环境、代理程序、奖励函数、状态空间、动作空间等。为了提供一个简单而完整的示例,下面以设计一个基于强化学习的迷宫求解问题为例进行分析:

环境 Environment:

我们选择一个简单的方格迷宫作为环境。迷宫由多个方格组成,其中包括起点和终点。
迷宫中可能存在障碍物,代表着无法通过的区域。
环境会提供代理程序当前的状态信息,并接受代理程序的动作。

代理程序 Agent:

代理程序就是智能体,就是我们所设计算法
我们设计一个简单的代理程序,它会根据当前的状态选择一个动作。
代理程序将使用强化学习算法来学习如何在迷宫中移动,以找到终点。
在这个示例中,我们将使用Q-learning算法作为强化学习算法。

状态空间 state_space:

状态空间定义了代理程序可能处于的不同状态。在迷宫中,状态可以表示为当前的位置坐标。
动作空间定义了代理程序可以执行的不同动作。

动作空间 action_space:

在迷宫中,可选的动作可以是上、下、左、右四个方向的移动。

奖励函数 reward:

我们定义奖励函数来指导代理程序的学习过程。
当代理程序达到终点时,奖励为正值,表示取得了成功。
当代理程序遇到障碍物时,奖励为负值,表示不可行的移动。
其他情况下,奖励为零。

这是一个基本的强化学习过程的设计示例。要使其运行,需要实现Q-learning算法和迷宫环境的交互逻辑,并根据定义的状态空间、动作空间和奖励函数进行训练和学习,下面介绍Q-Learning算法。

二、Q-Learning算法

Q-Learning(Q学习)是一种强化学习算法,用于解决马尔可夫决策过程(MDP)。它是一种无模型算法,意味着它不需要显式地了解环境动态。Q-Learning的目标是学习一个最优的动作值函数,称为Q函数,它表示在给定状态下采取特定动作的预期累积奖励。Q-Learning的主要目标是学习一个能够最大化累积奖励的策略。

注意: 传统的Q-Learning算法不涉及深度学习的知识

以下是Q-Learning算法的详细步骤:

  1. 初始化:对所有状态(s)和动作(a),使用任意值初始化Q函数,记作Q(s, a)。通常,Q函数以表格或矩阵的形式表示。

  2. 探索与利用:选择在当前状态下执行的动作。在探索与利用之间存在一个权衡。初期通常会更多地进行探索,以便探索不同的状态和动作,随着学习的进行逐渐增加利用已知的高价值动作。

  3. 执行动作:根据选择的动作,与环境进行交互,观察下一个状态(s’)和获得的即时奖励(r)。

  4. 更新Q函数:使用Q-Learning更新Q函数的值。根据观察到的即时奖励和下一个状态的最大Q值,更新当前状态和动作的Q值。更新公式为:Q(s, a) = (1 - α) * Q(s, a) + α * (r + γ * max(Q(s’, a’))),其中α是学习率(控制新信息的重要性),γ是折扣因子(控制未来奖励的重要性)。

  5. 转移到下一个状态:将当前状态更新为下一个状态,继续执行步骤2-4,直到达到终止状态或达到指定的停止条件。

  6. 收敛:通过不断地与环境交互和更新Q函数,最终Q函数会收敛到最优的动作值函数,表示了在每个状态下采取最佳动作的预期累积奖励。

Q-Learning算法的核心思想是基于试错学习,通过与环境的交互不断优化动作策略,以获得最大的累积奖励。通过迭代更新Q函数,Q-Learning能够学习到最优的策略,从而在复杂的环境中实现自主决策。

三、迷宫-强化学习-Q-Learning算法的实现

全部代码(复制可用)

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import joblib

# 定义迷宫环境
class MazeEnvironment:
    def __init__(self):
        self.grid = np.array([
            [0, 0, 0, 0, 0],
            [0, -1, -1, -1, 0],
            [0, 0, 0, 0, 0],
            [0, -1, -1, -1, 1],
            [0, 0, 0, 0, 0]
        ])  # 0表示可通过的空格,-1表示障碍物,1表示目标

        self.state_space = np.argwhere(self.grid == 0).tolist()  # 可用的状态空间
        self.victory = np.argwhere(self.grid == 1).tolist()
        self.state_space.extend(self.victory)  # # 最终可用的状态空间
        self.action_space = ['up', 'down', 'left', 'right']  # 动作空间
        self.num_states = len(self.state_space)
        self.num_actions = len(self.action_space)
        self.current_state = None

    def reset(self):
        self.current_state = [0, 0]  # 设置起始状态
        return self.current_state

    def step(self, action):
        if action == 'up':
            next_state = [self.current_state[0] - 1, self.current_state[1]]
        elif action == 'down':
            next_state = [self.current_state[0] + 1, self.current_state[1]]
        elif action == 'left':
            next_state = [self.current_state[0], self.current_state[1] - 1]
        elif action == 'right':
            next_state = [self.current_state[0], self.current_state[1] + 1]

        # 检查下一个状态是否合法
        if (
            next_state[0] < 0
            or next_state[0] >= self.grid.shape[0]
            or next_state[1] < 0
            or next_state[1] >= self.grid.shape[1]
            or self.grid[tuple(next_state)] == -1
        ):
            next_state = self.current_state

        # 判断是否到达目标状态
        done = (self.grid[tuple(next_state)] == 1)

        self.current_state = next_state
        return next_state, int(done)

# 定义强化学习代理程序
class QAgent:
    def __init__(self, state_space, action_space):
        self.state_space = state_space
        self.action_space = action_space
        self.num_states = len(state_space)
        self.num_actions = len(action_space)
        self.q_table = np.zeros((self.num_states, self.num_actions))

    def choose_action(self, state, epsilon=0.1):
        if np.random.uniform(0, 1) < epsilon:
            action = np.random.choice(self.action_space)
        else:
            state_idx = self.state_space.index(state)
            q_values = self.q_table[state_idx]
            max_q = np.max(q_values)
            max_indices = np.where(q_values == max_q)[0]
            action_idx = np.random.choice(max_indices)
            action = self.action_space[action_idx]

        return action

    def update_q_table(self, state, action, next_state, reward, learning_rate, discount_factor):
        state_idx = self.state_space.index(state)
        next_state_idx = self.state_space.index(next_state)
        q_value = self.q_table[state_idx, self.action_space.index(action)]
        max_q = np.max(self.q_table[next_state_idx])
        new_q = q_value + learning_rate * (reward + discount_factor * max_q - q_value)
        self.q_table[state_idx, self.action_space.index(action)] = new_q

# 训练强化学习代理程序
def train_agent(agent, environment, num_episodes, learning_rate, discount_factor, epsilon):
    for episode in range(num_episodes):
        state = environment.reset()
        done = False

        while not done:
            action = agent.choose_action(state, epsilon)

            next_state, reward = environment.step(action)

            # 更新 Q 值表
            agent.update_q_table(state, action, next_state, reward, learning_rate, discount_factor)
            state = next_state  # 更新当前状态为下一个状态

            if reward == 1:  # 到达目标状态,结束当前回合
                done = True

    joblib.dump(agent, './Agent.agt') # 保存智能体

# 创建迷宫环境实例
maze_env = MazeEnvironment()

# 创建强化学习代理实例
agent = QAgent(maze_env.state_space, maze_env.action_space)

# 训练强化学习代理
num_episodes = 1000
learning_rate = 0.1
discount_factor = 0.9
epsilon = 0.1  # 在强化学习中,ε(epsilon)通常用于控制智能体在选择动作时的探索与利用的平衡。

train_agent(agent, maze_env, num_episodes, learning_rate, discount_factor, epsilon)

可用状态空间

self.state_space = np.argwhere(self.grid == 0).tolist()
在这里插入图片描述

检查是否超出边界

在这里插入图片描述

epsilon 的含义

在强化学习中,ε(epsilon)通常用于控制智能体在选择动作时的探索与利用的平衡。

ε-greedy策略是一种常见的动作选择策略,其中ε表示以随机动作进行探索的概率,而1-ε表示以具有最高Q值的动作进行利用的概率。

具体含义如下:

当随机数小于ε时,智能体会随机选择一个动作,以便在尚未探索或不确定的状态下进行探索。这有助于发现新的、可能更好的动作。
当随机数大于或等于ε时,智能体会选择具有最高Q值的动作,以利用已经学到的知识和经验。
ε的取值范围通常为0到1之间,根据具体问题和需求进行调整。较小的ε值会更倾向于利用已知的最优动作,而较大的ε值会更倾向于探索未知的动作。

需要注意的是

在训练初期,智能体通常会更多地进行探索,因此ε的初始值可能会较高,随着训练的进行逐渐减小,以便智能体更多地进行利用。

示例:

假设ε的值为0.2,即以20%的概率进行随机动作选择,80%的概率进行利用。
在某个状态下,智能体根据ε-greedy策略进行动作选择:

如果随机数小于0.2,智能体会以20%的概率随机选择一个动作进行探索。
如果随机数大于等于0.2,智能体会以80%的概率选择具有最高Q值的动作进行利用。
通过调整ε的值,可以在探索与利用之间找到适当的平衡,以使智能体能够有效地学习和提高性能。

更新方程

new_q = q_value + learning_rate * (reward + discount_factor * max_q - q_value)
self.q_table[state_idx, self.action_space.index(action)] = new_q

这行代码使用贝尔曼方程更新当前状态和动作对应的Q值。贝尔曼方程表示当前状态和动作的Q值等于当前收益加上折扣因子乘以下一个状态的最大Q值,再减去当前状态和动作的Q值。学习率乘以这个差值,控制了新Q值的更新速度。最后,将更新后的Q值存储回Q表中,以便在后续的训练中使用。

总结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1252355.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python自动化测试——自动化基本技术原理

&#x1f4e2;专注于分享软件测试干货内容&#xff0c;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff01;&#x1f4e2;交流讨论&#xff1a;欢迎加入我们一起学习&#xff01;&#x1f4e2;资源分享&#xff1a;耗时200小时精选的「软件测试」资…

【教学类-06-11】20231125(55格版)X-Y之间“除法÷题”(以1-9乘法口诀表倒推)(随机抽取和正序抽取)

图片展示 &#xff08;随机打乱排序&#xff09; 正序&#xff08;每张都一样&#xff09; 背景需求&#xff1a; 前面三篇写到了随机加法、随机减法、随机乘法&#xff0c;既然做了三套&#xff0c;怎么能不试试最后一款“除法”呢 模仿乘法版本&#xff0c;制作打乱版和正…

【手写实现一个简单版的Dubbo,深刻理解RPC框架的底层实现原理】

手写实现一个简单版的Dubbo&#xff0c;深刻理解RPC框架的底层实现原理 RPC框架简介了解Dubbo的实现原理服务暴露服务引入服务调用 手写实现一个简单版的Dubbo服务暴露ServiceBeanProxyFactory#getInvokerProtocol#exportRegistryProtocol#export 服务引入RegistryProto#referD…

3、点亮一个LED

新建工程 project—>New uVision Project LED介绍 中文名&#xff1a;发光二极管 外文名&#xff1a;Light Emitting Diode 简称&#xff1a;LED 用途&#xff1a;照明、广告灯、指引灯 电路图分析 进制的转换 生成下载文件&#xff1a; 代码 //导包 #inclu…

Keil5个性化设置及常用快捷键

Keil5个性化设置及常用快捷键 1.概述 这篇文章是Keil工具介绍的第三篇文章&#xff0c;主要介绍下Keil5优化配置&#xff0c;以及工作中常用的快捷键提高开发效率。 第一篇&#xff1a;《安装嵌入式单片机开发环境Keil5MDK以及整合C51开发环境》https://blog.csdn.net/m0_380…

leetcode刷题详解——买卖股票的最佳时机含手续费

1. 题目链接&#xff1a;714. 买卖股票的最佳时机含手续费 2. 题目描述&#xff1a; 给定一个整数数组 prices&#xff0c;其中 prices[i]表示第 i 天的股票价格 &#xff1b;整数 fee 代表了交易股票的手续费用。 你可以无限次地完成交易&#xff0c;但是你每笔交易都需要付手…

PostgreSQL 分区表插入数据及报错:子表明明存在却报不存在以及column “xxx“ does not exist 解决方法

PostgreSQL 分区表插入数据及报错&#xff1a;子表明明存在却报不存在以及column “xxx“ does not exist 解决方法 问题1. 分区表需要先创建子表在插入&#xff0c;创建子表立马插入后可能会报错子表不存在&#xff1b;解决&#xff1a; 创建子表及索引后&#xff0c;sleep10毫…

动态规划经典例题leetcode思路代码详解

目录 动态规划基础篇例题 leetcode70题.爬楼梯 leetcode746题.使用最小花费爬楼梯 leetcode198题.打家劫舍 leetcode62题.不同路径 leetcode64题.最小路径和 leetcode63题.63不同路径II 动态规划基础篇例题 这一篇的例题解答是严格按照我上一篇写的动态规划三部曲做的&…

中职组网络安全-linux渗透测试-Server2203(环境+解析)

任务环境说明&#xff1a; 服务器场景&#xff1a;Server2203&#xff08;关闭链接&#xff09; 用户名&#xff1a;hacker 密码&#xff1a;123456 1.使用渗透机对服务器信息收集&#xff0c;并将服务器中SSH服务端口号作为flag提交&#xff1b; FLAG:2232 2. 使用渗透机对…

chrome 调试之 - 给微软小冰看病(无论给小冰发送什么内容都只回复“我已经开始升级啦,期待一下吧!”)

微软 Bing 搜索推出了小冰AI智能聊天模块&#xff0c;具体启用方式是用edge或chrome浏览器打开链接 cn.bing.com 后在输入框搜索任意内容&#xff0c;待搜索结果页面加载完并稍等片刻&#xff0c;页面右侧就会出现一个躲在滚动条后面的小萝莉&#xff0c;抚摸...不&#xff0c;…

音频——S/PDIF

文章目录 BMC 编码字帧(sub-frame)格式帧(frame)格式参考S/PDIF 是 SONY 和 Philips 公司共同规定的数字信号传输规范,其实就是在 AES/EBU 上进行改动的家用版本。IEC60958 的标准规范囊括了以上两个规范。spdif 采用了双相符号编码(BMC),是将时钟信号和数据信号混合在一起…

python:傅里叶分析,傅里叶变换 FFT

使用python进行傅里叶分析&#xff0c;傅里叶变换 FFT 的一些关键概念的引入&#xff1a; 1.1.离散傅里叶变换&#xff08;DFT&#xff09; 离散傅里叶变换(discrete Fourier transform) 傅里叶分析方法是信号分析的最基本方法&#xff0c;傅里叶变换是傅里叶分析的核心&…

数据库设计规范(收藏)

本文的目的是提出针对Oracle数据库的设计规范&#xff0c;使利用Oracle数据库进行设计开发的系统严格遵守本规范的相关约定&#xff0c;建立统一规范、稳定、优化的数据模型。 参照以下原则进行数据库设计&#xff1a; 方便业务功能实现、业务功能扩展&#xff1b;方便设计开发…

爪语言 之 如何处理Java异常?

以小我融入大我,青春献给祖国 目录 1.异常的概念与体系 1.1异常的概念 1.2 异常的体系 1.3 异常的分类 2. 异常的处理 2.1 防御式编程 2.2异常的抛出 2.3 异常的捕获 2.3.1 异常声明throws 2.3.2 try-catch捕获并处理 2.3.3 finally 2.4 异常的处理流程总结 3. 自定…

Jmeter性能综合实战——签到及批量签到

提取性能测试的三个方面&#xff1a;核心、高频、基础功能 签 到 请 求 步 骤 1、准备工作&#xff1a; 签到线程组 n HTTP请求默认值 n HTTP cookie 管理器 n 首页访问请求 n 登录请求 n 查看结果树 n 调试取样器 l HTTP代理服务器 &#xff08;1&#xff09;创建线…

h5小游戏--2048

2048 经典2048小游戏&#xff0c;基于JS、Html5改写版 效果预览 点我下载源代码 下载代码解压后&#xff0c;双击index.html即可开始本游戏。 Game Rule 游戏规则 以下为游戏默认规则&#xff0c;若需要修改规则请修改代码。 移动箭头键来移动方块&#xff0c;当两个相同数…

一定要会用selenium的等待,三种等待方式解读

​很多人问&#xff0c;这个下拉框定位不到、那个弹出框定位不到…各种定位不到&#xff0c;其实大多数情况下就是两种问题&#xff1a; 有frame 没有加等待 殊不知&#xff0c;你的代码运行速度是什么量级的&#xff0c;而浏览器加载渲染速度又是什么量级的&#xff0c;就好…

【cf 158 c】

给你一个整数数组 a1,a2,…,an ( )。在一次操作中&#xff0c;你可以选择一个整数 x ( )&#xff0c;并用 ⌊⌋ 替换 ai ( ⌊y⌋ 表示将 y 舍入为最接近的整数)。 来替换从 1 到 n 的所有 i。请注意&#xff0c;每次操作都会影响数组中的所有元素。打印使数组中所有元素相等所…

SparkSQL之Optimized LogicalPlan生成过程

经过Analyzer的处理&#xff0c;Unresolved LogicalPlan已经解析成为Analyzed LogicalPlan。Analyzed LogicalPlan中自底向上节点分别对应Relation、Subquery、Filter和Project算子。   Analyzed LogicalPlan基本上是根据Unresolved LogicalPlan一对一转换过来的&#xff0c;…

小白也能看得懂的Jmeter性能测试中服务端资源监控技术

操作步骤&#xff1a; 1、安装插件管理器 插件管理器的作用&#xff1a;可以提供扩展插件的在线安装升级和卸载。因为我们需要在线安装监控插件&#xff0c;首先我们就要先安装插件管理器。 插件管理器的下载地址&#xff1a;https://jmeter-plugins.org/install/Install/ 如…