强化学习与深度强化学习:深入解析与代码实现

news2024/10/19 0:54:44

个人主页:chian-ocean

文章专栏

强化学习与深度强化学习:深入解析与代码实现

强化学习(Reinforcement Learning, RL)是一种机器学习方法,通过智能体(agent)与环境(environment)之间的互动来学习策略,以便在未来的行动中获得最大化的累计奖励。相比监督学习和无监督学习,强化学习的目标更为明确——学习如何采取行动以实现最大化的回报。这种学习方式在无人驾驶、游戏AI、机器人等领域都取得了巨大的成功。近年来,结合深度学习技术的深度强化学习(Deep Reinforcement Learning, DRL)进一步提升了强化学习在高维感知环境中的表现。
在这里插入图片描述

目录

  1. 强化学习基础
    • 强化学习的基本概念
    • 马尔可夫决策过程
  2. 经典强化学习算法
    • Q学习
    • SARSA
  3. 深度强化学习的崛起
    • DQN:深度Q网络
    • Actor-Critic方法
  4. 代码实现
    • Q学习的代码实现
    • 深度Q网络(DQN)实现
  5. 强化学习的应用与挑战
  6. 总结与展望

强化学习基础

强化学习的基本概念

强化学习是一种通过试错学习如何在环境中行动的方法。以下是强化学习中的几个核心概念:

  • 环境(Environment):智能体所处的世界,它能够接收智能体的行为并给予反馈。
  • 状态(State, s):环境在某一时刻的表示。
  • 动作(Action, a):智能体可以在某一状态下执行的行为。
  • 奖励(Reward, r):智能体在执行某一动作后所获得的反馈,用于衡量该动作的好坏。
  • 策略(Policy, π):指导智能体在每个状态下应采取的行动的规则。

在强化学习中,智能体的目标是找到一个最优策略,使得在与环境交互的过程中获得的累计奖励最大化。

马尔可夫决策过程

强化学习通常可以被建模为马尔可夫决策过程(Markov Decision Process, MDP)。MDP定义了一个五元组 ( S , A , P , R , γ ) (S, A, P, R, \gamma) (S,A,P,R,γ)

  • S:状态空间。
  • A:动作空间。
  • P:状态转移概率 P ( s ′ ∣ s , a ) P(s'|s, a) P(ss,a),表示在状态 s s s执行动作 a a a后转移到状态 s ′ s' s的概率。
  • R:奖励函数 R ( s , a ) R(s, a) R(s,a),表示在状态 s s s执行动作 a a a后的即时奖励。
  • γ \gamma γ:折扣因子,用于度量未来奖励的重要性, 0 ≤ γ ≤ 1 0 \leq \gamma \leq 1 0γ1

在MDP中,下一状态只依赖于当前状态和动作,与之前的状态无关,这就是马尔可夫性质。

经典强化学习算法

Q学习

Q学习(Q-learning)是一种值迭代算法,通过估计每个状态-动作对的价值函数 Q ( s , a ) Q(s, a) Q(s,a),来指导智能体采取行动。Q值表示在状态 s s s执行动作 a a a后期望的累计奖励。

Q值的更新公式如下:

Q ( s , a ) ← Q ( s , a ) + α ( r + γ max ⁡ a ′ Q ( s ′ , a ′ ) − Q ( s , a ) ) Q(s, a) \leftarrow Q(s, a) + \alpha \big( r + \gamma \max_{a'} Q(s', a') - Q(s, a) \big) Q(s,a)Q(s,a)+α(r+γamaxQ(s,a)Q(s,a))

其中:

  • α \alpha α 是学习率,用于控制新旧信息之间的平衡。
  • r r r 是当前执行动作后得到的即时奖励。
  • γ \gamma γ 是折扣因子。

通过不断地与环境交互,智能体可以不断改进 Q Q Q值,从而找到最优策略。

SARSA

SARSA(State-Action-Reward-State-Action)是另一种基于价值的强化学习算法,类似于Q学习。不同之处在于SARSA使用的是行为策略来更新Q值。更新公式为:

Q ( s , a ) ← Q ( s , a ) + α ( r + γ Q ( s ′ , a ′ ) − Q ( s , a ) ) Q(s, a) \leftarrow Q(s, a) + \alpha \big( r + \gamma Q(s', a') - Q(s, a) \big) Q(s,a)Q(s,a)+α(r+γQ(s,a)Q(s,a))

SARSA与Q学习的区别在于,Q学习使用的是贪婪策略,而SARSA使用的是智能体实际采取的策略来进行更新。

深度强化学习的崛起

随着深度学习的发展,强化学习在高维环境中的应用也得到了极大提升。深度强化学习结合了神经网络的强大感知能力,使得智能体可以处理图像、文本等复杂输入。

DQN:深度Q网络

DQN(Deep Q Network)是由DeepMind提出的一个结合深度学习与Q学习的算法。DQN使用神经网络来近似状态-动作值函数 Q ( s , a ) Q(s, a) Q(s,a),并通过经验回放(experience replay)和固定Q目标网络(target network)来稳定训练过程。

DQN的核心思想是:

  1. 神经网络近似Q函数:使用深度神经网络来预测 Q ( s , a ) Q(s, a) Q(s,a),处理高维状态输入(如图像)。
  2. 经验回放:将经验存储在回放缓冲区中,随机采样小批量经验来打破数据的相关性,从而提升模型的泛化性。
  3. 目标网络:使用一个目标网络来生成Q目标,定期更新,以稳定训练过程。

Actor-Critic方法

Actor-Critic是一种结合策略优化和价值评估的强化学习方法。Actor负责产生动作,Critic负责评价动作的好坏。Actor-Critic结合了策略梯度值函数逼近,在解决高维、连续动作空间问题上表现优异。

代码实现

在本节中,我们将实现一些基础的强化学习算法,帮助大家理解这些方法的实际运作。

Q学习的代码实现

我们首先从Q学习开始,这里我们会用Python来实现一个简单的迷宫问题。

import numpy as np
import matplotlib.pyplot as plt

# 定义迷宫环境
class MazeEnv:
    def __init__(self, n_states=6, reward_position=5):
        self.n_states = n_states  # 状态数目
        self.reward_position = reward_position  # 奖励位置
        self.state = 0  # 初始化状态

    def reset(self):
        self.state = 0
        return self.state

    def step(self, action):
        if action == 1:  # 向右
            next_state = min(self.state + 1, self.n_states - 1)
        else:  # 向左
            next_state = max(self.state - 1, 0)

        reward = 1 if next_state == self.reward_position else 0
        done = next_state == self.reward_position

        self.state = next_state
        return next_state, reward, done

# Q学习算法实现
def q_learning(env, num_episodes=100, alpha=0.1, gamma=0.9, epsilon=0.1):
    n_states = env.n_states
    n_actions = 2  # 向左、向右
    Q = np.zeros((n_states, n_actions))

    for episode in range(num_episodes):
        state = env.reset()
        done = False

        while not done:
            # 探索或利用
            if np.random.uniform(0, 1) < epsilon:
                action = np.random.choice(n_actions)  # 探索
            else:
                action = np.argmax(Q[state, :])  # 利用

            next_state, reward, done = env.step(action)
            best_next_action = np.argmax(Q[next_state, :])

            # Q值更新
            Q[state, action] += alpha * (reward + gamma * Q[next_state, best_next_action] - Q[state, action])
            state = next_state

    return Q

# 执行Q学习
env = MazeEnv()
Q = q_learning(env)
print("Q-table:")
print(Q)

深度Q网络(DQN)实现

接下来,我们实现一个简单的DQN,以便让智能体在一个类似CartPole的环境中学习如何平衡杆。

import torch
import torch.nn as nn
import torch.optim as optim
import random
import numpy as np
from collections import deque
import gym

# DQN的神经网络定义
class DQN(nn.Module):
    def __init__(self, state_size, action_size):
        super(DQN, self).__init__()
        self.fc1 = nn.Linear(state_size, 24)
        self.fc2 = nn.Linear(24, 24)
        self.fc3 = nn.Linear(24, action_size)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        return self.fc3(x)

# 训练DQN的函数
def train_dqn(env, num_episodes=1000, gamma=0.99, epsilon=1.0, epsilon_decay=0.995, epsilon_min=0.01, batch_size=64):
    state_size = env.observation_space.shape[0]
    action_size = env.action_space.n
    dqn = DQN(state_size, action_size)
    target_dqn = DQN(state_size, action_size)
    target_dqn.load_state_dict(dqn.state_dict())
    target_dqn.eval()

    optimizer = optim.Adam(dqn.parameters(), lr=0.001)
    memory = deque(maxlen=2000)

    for episode in range(num_episodes):
        state = env.reset()
        state = np.reshape(state, [1, state_size])
        done = False
        total_reward = 0

        while not done:
            if np.random.rand() <= epsilon:
                action = random.choice(range(action_size))
            else:
                with torch.no_grad():
                    action = torch.argmax(dqn(torch.FloatTensor(state))).item()

            next_state, reward, done, _ = env.step(action)
            next_state = np.reshape(next_state, [1, state_size])
            memory.append((state, action, reward, next_state, done))
            state = next_state
            total_reward += reward

            if len(memory) > batch_size:
                batch = random.sample(memory, batch_size)
                states, actions, rewards, next_states, dones = zip(*batch)

                states = torch.FloatTensor(np.vstack(states))
                actions = torch.LongTensor(actions).view(-1, 1)
                rewards = torch.FloatTensor(rewards)
                next_states = torch.FloatTensor(np.vstack(next_states))
                dones = torch.FloatTensor(dones)

                q_values = dqn(states).gather(1, actions)
                with torch.no_grad():
                    next_q_values = target_dqn(next_states).max(1)[0]
                target_q_values = rewards + gamma * next_q_values * (1 - dones)

                loss = nn.MSELoss()(q_values.squeeze(), target_q_values)
                optimizer.zero_grad()
                loss.backward()
                optimizer.step()

        epsilon = max(epsilon_min, epsilon * epsilon_decay)

        if episode % 10 == 0:
            target_dqn.load_state_dict(dqn.state_dict())
            print(f"Episode {episode}, Total Reward: {total_reward}, Epsilon: {epsilon}")

# 执行DQN训练
env = gym.make('CartPole-v1')
train_dqn(env)

强化学习的应用与挑战

强化学习在许多领域取得了显著进展,如AlphaGo在围棋中的突破、自动驾驶、以及机器人自动化操作。然而,强化学习也面临一些挑战:

  • 样本效率低:许多强化学习算法需要大量的交互样本,导致训练成本高昂。
  • 探索-利用困境:如何平衡探索新策略与利用已有策略之间的关系,是强化学习中一个经典问题。
  • 高维状态与动作空间:随着环境的复杂性增加,状态和动作空间的维度可能变得非常高,带来计算和存储的挑战。

总结与展望

本文详细介绍了强化学习和深度强化学习的核心概念、经典算法以及它们的代码实现。强化学习是一个富有挑战性但充满潜力的领域,结合深度学习后,其应用前景更加广阔。随着硬件性能和算法的不断发展,强化学习有望在更多领域中取得突破。希望通过本文,读者能够深入理解强化学习的原理和实践技巧,并能在自己的项目中灵活应用这些知识。

如果你对强化学习有更多的兴趣,建议进一步研究基于策略的强化学习(如PPO、TRPO)以及多智能体强化学习等方向,以更全面地掌握这个领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2218122.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】Linux常见指令及权限理解

1.ls指令 语法 &#xff1a; ls [ 选项 ][ 目录或文件 ] 功能 &#xff1a;对于目录&#xff0c;该命令列出该目录下的所有子目录与文件。对于文件&#xff0c;将列出文件名以及其他信息。 常用选项&#xff1a; -a 列出目录下的所有文件&#xff0c;包括以 . 开头的隐含文…

无人机视角下火灾检测数据集 共12736张 标注文件为YOLO适用的txt格式。已划分为训练集、验证集、测试集。类别:Fire yolov5-v10通用

无人机视角下火灾检测数据集 共12736张 标注文件为YOLO适用的txt格式。已划分为训练集、验证集、测试集。类别&#xff1a;Fire yolov5-v10通用 无人机视角下火灾检测数据集 共12736张 标注文件为YOLO适用的txt格式。已划分为训练集、验证集、测试集。类别&#xff1a;Fire yol…

【Vue】Vue3.0(十)toRefs()和toRef()的区别及使用示例

上篇文章&#xff1a;Vue】Vue&#xff08;九&#xff09;OptionsAPI与CompositionAPI的区别 &#x1f3e1;作者主页&#xff1a;点击&#xff01; &#x1f916;Vue专栏&#xff1a;点击&#xff01; ⏰️创作时间&#xff1a;2024年10月15日11点13分 文章目录 toRefs()和toRe…

基于朴素贝叶斯的中文垃圾短信分类(含ui界面)

完整代码如下 基于朴素贝叶斯的中文垃圾短信分类、垃圾邮件分类。 可用于机器学习课程设计等。 import warnings warnings.filterwarnings(ignore) import os os.environ["HDF5_USE_FILE_LOCKING"] "FALSE" import pandas as pd import numpy as np fro…

LeetCode1004.最大连续1的个数

题目链接&#xff1a;1004. 最大连续1的个数 III - 力扣&#xff08;LeetCode&#xff09; 1.常规解法&#xff08;会超时&#xff09; 遍历数组&#xff0c;当元素是1时个数加一&#xff0c;当元素是0时且已有的0的个数不超过题目限制时&#xff0c;个数加一&#xff0c;若上…

重生之我爱上了k8s!

内容不全&#xff0c;待补充中...... 目录 一、k8s的部署 1.1.集群环境初始化 1.1.1.所有主机禁用swap 1.1.2.安装k8s部署工具 1.1.2.所有节点安装cri-docker 1.1.3.在master节点拉取K8S所需镜像 1.1.4.集群初始化 1.1.5.其他两台主机加入集群 1.1.6.安装flannel网络…

微积分复习笔记 Calculus Volume 1 - 2.5 Precise Definition of a Limit

2.5 The Precise Definition of a Limit - Calculus Volume 1 | OpenStax

Python基础——类与对象

类与对象的理解&#xff1a; 在程序中我们将类看作是设计图纸&#xff0c;对象则是根据这个图纸生产的产品。面向对象编程就是使用对象编程&#xff0c;在类中我们定义成员属性和方法。 来看下面这个例子&#xff0c;创建student类&#xff0c;定义对象并对属性赋值。 class S…

Golang | Leetcode Golang题解之第480题滑动窗口中位数

题目&#xff1a; 题解&#xff1a; type hp struct {sort.IntSlicesize int } func (h *hp) Push(v interface{}) { h.IntSlice append(h.IntSlice, v.(int)) } func (h *hp) Pop() interface{} { a : h.IntSlice; v : a[len(a)-1]; h.IntSlice a[:len(a)-1]; return v }…

十大云手机排行榜:哪个云手机更好用?

近些年&#xff0c;市场上涌现出许多云手机产品&#xff0c;不同产品适合的应用场景也各不相同。在选用云手机之前&#xff0c;企业和个人用户需要了解它们的功能、特点以及适用的场景。本文将对当前主流的云手机进行对比&#xff0c;帮助大家挑选出最适合的云手机产品。 1. 红…

200Kg大载重多旋无人机价格高昂技术分析

200Kg大载重多旋无人机作为一种高度专业化的航空工具&#xff0c;其价格相较于普通无人机显著较高&#xff0c;这主要是由于其在技术设计和生产过程中所需的高要求所致。以下是对其价格高昂的技术分析&#xff1a; 一、高性能材料与结构设计 1. 高强度轻量化材料&#xff1a;…

KafKa 集群【docker compose】

文章目录 主机准备部署编辑 docker-compose.ymlcontrollerbroker生成cluster_id 一篇完整的 docker-compose.yml 文件查看集群状态使用 kafka-ui 查看拉取 kafka-ui添加集群查看集群状态 使用命令行查看 配置讲解controllerbroker 主机准备 IPcontroller idbroker id192.168.1…

FreeRTOS的队列管理

“队列”提供了一种任务到任务、任务到中断和中断到任务的通信机制。 队列特性 数据存储 队列可以容纳有限数量的固定大小的数据项。队列可以容纳的最大项目数称为其“长度”。每个数据项的长度和大小都是在创建队列时设置的。 队列通常用作先进先出&#xff08;FIFO&#xf…

游戏逆向基础-跳出游戏线程发包

附加游戏后下断点 bp ws2_32.send send函数断下后&#xff0c;可以看到数据地址每次都一样 可以说明这个游戏是线程发包&#xff0c;所以直接在数据窗口中转到这个地址&#xff0c;然后对这个地址下硬件写入断点。 下了硬件写入断点后可以一层一层往上面跟&#xff0c;确定写…

RHCE--at,crontab例行性工作

一&#xff1a;安装at &#xff08;1&#xff09;配置yum仓库&#xff1a;以配置网络源举例&#xff1a; 先在/etc/yum.repos.d/ 目录下创建一个以.repo结尾的文件 vim /etc/yum.repos.d/aliyun.repo 写入可以在阿里云镜像站查找appstream和baseos的地址阿里巴巴开源镜像站…

tensorflow案例2--猴痘病识别,一道激活函数的bug

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 文章目录 1、bug2、模型构建1、数据处理1、导入库2、查看数据目录3、加载数据4、数据展示 2、内存优化3、模型构建4、模型训练1、超参数设置2、模型训练 5、结…

通过前端UI界面创建VUE项目

通过前端UI界面创建VUE项目&#xff0c;是比较方面的一种方式&#xff0c;下面我们详细分析一下流程&#xff1a; 1、找到合适目录 右键鼠标&#xff0c;点击在终端打开 2、开始创建 输入 vue ui 浏览器弹出页面 3、点击Create项目 显示已有文件列表&#xff0c;另外可以点击…

Docker部署一款小巧又强大的的自托管网站监控工具Uptime Kuma

文章目录 前言1.关于Uptime Kuma2.安装Docker3.本地部署Uptime Kuma4.使用Uptime Kuma5.cpolar内网穿透工具安装6.创建远程连接公网地址7.固定Uptime Kuma公网地址 &#x1f4a1; 推荐 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#…

CVE-2024-36971漏洞修复----Debian 10.13 内核升级

CVE-2024-36971漏洞修复---Debian 10.13 内核升级 1. 下载内核2. 安装依赖包3. 二进制安装3.1 上传3.2 解压3.3 修改配置文件3.4 编译3.5 安装内核及模块 4. 重启服务器并确认升级成功 1. 下载内核 到kernel.org下载新版的Kernel 由于开发那边不想让Kernel跨大版本,所以就升级…

【优选算法】——双指针(上篇)!

&#x1f308;个人主页&#xff1a;秋风起&#xff0c;再归来~&#x1f525;系列专栏&#xff1a;C刷题算法总结&#x1f516;克心守己&#xff0c;律己则安 目录 前言&#xff1a;双指针 1. 移动零&#xff08;easy&#xff09; 2. 复写零&#xff08;easy&#xff09; 3…