【机器学习】探究Q-Learning通过学习最优策略来解决AI序列决策问题

news2024/12/23 18:26:30

꒰˃͈꒵˂͈꒱ write in front ꒰˃͈꒵˂͈꒱
ʕ̯•͡˔•̯᷅ʔ大家好,我是xiaoxie.希望你看完之后,有不足之处请多多谅解,让我们一起共同进步૮₍❀ᴗ͈ . ᴗ͈ აxiaoxieʕ̯•͡˔•̯᷅ʔ—CSDN博客
本文由xiaoxieʕ̯•͡˔•̯᷅ʔ 原创 CSDN 如需转载还请通知˶⍤⃝˶
个人主页:xiaoxieʕ̯•͡˔•̯᷅ʔ—CSDN博客

系列专栏:机器学习系列专栏
我的目标:"团团等我💪( ◡̀_◡́ ҂)" 

( ⸝⸝⸝›ᴥ‹⸝⸝⸝ )欢迎各位→点赞👍 + 收藏⭐️ + 留言📝​+关注(互三必回)! 

目录

 一.AI序列决策问题

1.序列决策问题的特点:

2.解决序列决策问题的AI方法:

3.序列决策问题的应用场景:

二.Q-Learning算法通过学习最优策略

1. 初始化

2. 探索与利用

3. 更新规则

4. 收敛与最优策略

5. 离线与在线学习

6. 应用

三.通过经典的“冰湖”问题来解析Q-Learning算法

环境设置

Q表初始化 

算法流程 

 简化版Python代码


 一.AI序列决策问题

AI序列决策问题是指在人工智能领域中,智能体需要在一个序列的环境中做出一系列决策,以达到某个目标或最大化某种累积奖励的问题。这类问题通常涉及到强化学习,其中智能体通过与环境的交互来学习最优的行为策略。

1.序列决策问题的特点:

  1. 时间维度:决策不是一次性的,而是需要在一系列时间步骤中进行。每个决策都会影响后续的状态和可能的决策。

  2. 状态变化:智能体的每个决策都会使环境从一个状态转移到另一个状态。状态可以是环境的描述,如游戏的当前分数、机器人的位置等。

  3. 奖励反馈:智能体在每个时间步骤做出决策后,环境会提供一个奖励(或惩罚),这是对智能体决策好坏的反馈。

  4. 长期目标:智能体的目标通常是长期的,比如最大化累积奖励、达到最终的胜利状态或完成任务。

  5. 不确定性:智能体在做出决策时可能无法完全了解环境的全部特性,因此需要在不确定性中做出最优的选择。

2.解决序列决策问题的AI方法:

  1. 强化学习:通过智能体与环境的交互来学习最优策略。智能体通过尝试不同的行动并接收环境的奖励或惩罚来学习。

  2. 动态规划:一种基于模型的优化方法,通过预测未来的状态和奖励来计算当前行动的价值。

  3. 蒙特卡洛方法:通过随机模拟来估计行动的价值,适用于难以精确建模的环境。

  4. 时序差分学习:结合了动态规划和蒙特卡洛方法的特点,通过学习状态和行动之间的差异来更新价值估计。

  5. 深度学习:使用深度神经网络来近似复杂的价值函数或策略函数,尤其在状态空间高维且连续时表现出色。

3.序列决策问题的应用场景:

  • 游戏AI:如棋类游戏、电子游戏等,智能体需要通过一系列行动来赢得比赛。
  • 机器人控制:机器人需要根据环境的变化做出连续的移动和操作决策。
  • 自动驾驶汽车:汽车需要根据路况和交通规则做出连续的驾驶决策。
  • 资源管理:如电网管理、网络带宽分配等,需要根据实时数据做出一系列调度决策。

AI序列决策问题是人工智能中一个非常重要且活跃的研究领域,它不仅挑战着智能体在复杂环境中的学习能力,也推动了AI技术在多个领域的应用和发展。

二.Q-Learning算法通过学习最优策略

Q-Learning算法是一种强化学习方法,它专注于学习一个名为Q函数的值表,该值表估计了在给定状态下采取特定行动所能获得的长期回报。Q-Learning的目标是找到一个最优策略,即在每个状态下选择能够最大化长期回报的行动。这个过程可以分为以下几个关键步骤:

1. 初始化

在开始学习之前,Q函数的初始值通常被设置为零。这意味着在没有任何经验的情况下,对于任何给定的状态和行动组合,其预期的长期回报都被假定为零。

2. 探索与利用

智能体在环境中执行行动时,需要在探索新行动和利用已知最优行动之间做出权衡。探索是指尝试新的行动以发现更有价值的策略;利用是指基于当前知识选择最佳的已知行动。Q学习算法通常使用ε-greedy策略或其他方法来平衡探索和利用。

3. 更新规则

Q-Learning 的核心是其更新规则,Q-Learning的迭代公式是著名的贝尔曼方程:,该规则根据以下公式来更新Q值: 

上式左端的Q(s,a)是状态s下动作a的新Q值;右边的Q(s,a)是原来的Q值;R是执行动作a后得到的奖励;maxQ(s,a,)是下一状态 S', 下,所有的动作 a', 中最大的Q值;参数0≤α≤1,0≤ϒ≤1。

常用其简化形式,取 α=1,方程为

 

  • Q(s,a) 是当前状态-行动对的Q值。
  • α 是学习率,控制新信息覆盖旧信息的速度。
  • R 是收到的即时奖励。
  • γ 是折扣因子,它决定了未来奖励的当前价值。
  • 's′ 是行动后的新状态。
  • maxα′​Q(s′,a′) 是新状态下所有可能行动的最大Q值。 

这个更新规则的目的是根据即时奖励和新状态下的最佳预期回报来调整当前状态-行动对的Q值。

Q值更新方法:

随机选一个初始状态 s

看当前状态 s 可以转到哪?随机选一个 s',得到奖励 R

再看新状态 s',可以转到哪?求出这些状态的最大的Q值(状态没变,还是 s',)

代入公式计算,并更新 Q(s,a),此时当前位置变成了s'

如果s',已是目标状态,则本片段迭代结束;否则从s',开始,重复上面操作,直至s',到达目标状态,即完成了一个迭代片段。如下图。

 

 这里奖励矩阵的作用是,查看各个状态可以直接转移到其它哪些状态。Q值矩阵表示的是,各个状态及动作的Q值。

4. 收敛与最优策略

随着智能体不断地与环境交互并更新Q值,Q函数会逐渐收敛到最优Q函数。最优Q函数提供了在每个状态下采取哪个行动可以最大化长期回报的确切信息。一旦Q函数收敛,智能体可以简单地选择具有最高Q值的行动来执行,这样的策略被称为贪婪策略,它对应于最优策略。

5. 离线与在线学习

Q-Learning可以在线进行,即智能体在实际探索环境的同时更新Q值;也可以离线进行,即智能体从一个已经收集的经验数据集(称为回放缓冲区)中学习。离线学习有助于打破数据之间的时间相关性,提高学习的稳定性。

6. 应用

Q-Learning算法已经被成功应用于多种领域,包括游戏、机器人控制、资源管理等。它能够处理离散状态和行动空间的问题,并且在某些情况下,它能够学习到非常复杂的策略。

总结来说,在实际应用中,一旦智能体学习到了最优策略,它就可以在环境中执行该策略来完成任务或游戏。例如,在游戏AI中,智能体可以使用最优策略来赢得比赛;在机器人控制中,智能体可以使用最优策略来高效地导航和执行任务。Q-Learning能够解决AI中的序列决策问题,使智能体能够在复杂的环境中做出最优的决策。这种方法不需要预先知道环境的全部动态,也不需要大量的标记数据,因此它非常适合于那些难以直接建模的复杂问题。

三.通过经典的“冰湖”问题来解析Q-Learning算法

                                   

“冰湖”问题是一个格子世界,智能体(通常表示为小人)从起点开始,目标是到达终点(通常标记为G)。在这个过程中,小人需要避开冰洞(标记为H),并且必须面对不可控的滑动。每次小人尝试移动时,有1/3的概率会滑动到相邻的非目标格子,这增加了问题的难度。

环境设置

  • 状态(State):每个格子代表一个状态。
  • 行动(Action):智能体可以选择向上、向下、向左或向右移动。
  • 奖励(Reward):除了到达目标位置获得正奖励外,每次移动通常没有奖励。掉入冰洞会得到负奖励。
  • 折扣因子(Gamma):用于计算未来奖励的当前价值。

Q表初始化 

Q表是一个二维数组,其行数等于状态数量,列数等于行动数量。所有Q值最初被初始化为零,表示智能体对环境一无所知。

在这个图示中,s1sn 表示不同的状态,每个状态对应四个可能的行动(上、下、左、右)。每个单元格的值初始化为零。随着智能体与环境的交互,这些值将根据Q学习算法的更新规则逐渐改变,以反映在特定状态下采取特定行动的预期累积奖励。 

注意:

这个图示是一个简化的版本,实际的Q表可能会更大,并且状态和行动的数量将根据具体的问题环境而定。此外,实际的Q表可能不会以这种二维表格的形式直观展示,而是作为一个多维数组在计算机程序中进行管理和更新。

算法流程 

  1. 导入必要的库并创建环境。
  2. 初始化Q表和其他超参数,如学习率(Learning Rate)、折扣因子(Gamma)、探索率(Epsilon)等。
  3. 对于每一回合(Episode)的训练:
    • 重置环境并获取初始状态。
    • 在状态下选择行动,可以是随机选择(探索)或基于当前Q表选择最大Q值的行动(利用)。
    • 执行行动并观察新状态和奖励。
    • 如果达到终止条件(如掉入冰洞或到达目标),则结束该回合。
    • 更新Q表:  Q(s,a)←Q(s,a)+α[r+γmaxα′​Q(s′,a′)−Q(s,a)]
    • 根据需要调整探索率(Epsilon)。
    • 随着训练的进行,逐渐减少探索率,以便智能体更多地利用已学到的知识。
    • 训练完成后,使用训练好的Q表来指导智能体行动。

 简化版Python代码

这个例子使用了gym库,它是一个常用的强化学习环境集合

import numpy as np
import gym

# 初始化环境
env = gym.make('FrozenLake-v1')
env.seed(0)

# 初始化Q表
action_space_size = env.action_space.n
state_space_size = env.observation_space.n
Q = np.zeros((state_space_size, action_space_size))

# 设置超参数
learning_rate = 0.8
discount_factor = 0.95
num_episodes = 5000
epsilon = 1.0  # 初始探索率
min_epsilon = 0.01  # 最小探索率
decay_rate = 0.005  # 探索率衰减率

for episode in range(num_episodes):
    state = env.reset()
    total_reward = 0
    done = False
    
    while not done:
        # 选择行动
        if np.random.rand() < epsilon:
            action = env.action_space.sample()
        else:
            action = np.argmax(Q[state, :])
        
        # 执行行动并获取新状态和奖励
        new_state, reward, done, _ = env.step(action)
        total_reward += reward
        
        # 更新Q表
        if done:
            next_state = None
            max_future_Q = 0
        else:
            next_state = new_state
            max_future_Q = np.max(Q[next_state, :])
        
        old_Q = Q[state, action]
        Q[state, action] = (1 - learning_rate) * old_Q + learning_rate * (reward + discount_factor * max_future_Q)
        
        state = new_state
        epsilon = min_epsilon + (epsilon - min_epsilon) * np.exp(-decay_rate * episode)
    
    print(f'Episode {episode}: Total reward = {total_reward}')

# 完成训练后,使用Q表来玩冰湖游戏
env.reset()
state = env.reset()
done = False
while not done:
    action = np.argmax(Q[state, :])
    env.step(action)
    state = env.unwrapped.observation  # 获取下一状态
    env.render()  # 可视化环境

 注意:这只是一个简化的例子,实际的强化学习算法实现可能会更加复杂,并且需要对特定问题进行调整。此外,为了达到更好的性能,可能需要调整超参数、使用更复杂的函数近似方法(如深度学习模型),或者采用其他高级技术。在实际应用中,还需要对算法进行调优和测试,以确保其在特定任务上的有效性和稳定性。

 感谢你的阅读,祝你一天愉快!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1601680.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

学会 Python 后可以做什么副业?

近年来&#xff0c;Python凭借其简洁易入门的特点受到越来越多人群的青睐。 当然这不仅仅是针对程序员来说&#xff0c;对于一些学生、职场人士也是如此。 Python为什么会大受欢迎呢&#xff1f;因为Python还被大家称为“胶水语言&#xff0c;它适用于网站、桌面应用开发、[自…

蓝牙耳机哪个牌子好用?力荐五款实力超群机型,快收藏!

​随着蓝牙耳机的普及&#xff0c;越来越多的年轻人开始追求这种无线的便利。市场上品牌众多&#xff0c;款式多样&#xff0c;选择起来确实让人眼花缭乱。我整理了一份蓝牙耳机品牌排行榜前十名&#xff0c;希望能为你提供一些参考&#xff0c;帮助你找到心仪的耳机。 一、如何…

C语言堆区内存管理

一、C语言编译的内存分配 二、堆区空间的分配 1、malloc函数 功能&#xff1a;从堆区分配内存 #include <stdlib.h> void *malloc(unsigned int size)//size 分配内存的字节数2、free函数 功能&#xff1a;释放内存 #include <stdlib.h> void free(void *ptr)…

L2-045 堆宝塔 - java

L2-045 堆宝塔 Java (javac) 时间限制 500 ms 内存限制 256 MB 其他编译器 时间限制 400 ms 内存限制 64 MB 栈限制 8192 KB 题目描述&#xff1a; 堆宝塔游戏是让小朋友根据抓到的彩虹圈的直径大小&#xff0c;按照从大到小的顺序堆起宝塔。但彩虹圈不一定是按照直径的大小顺…

Java NIO,高效操作I/O流的必备技能

Java IO在工作中其实不常用到&#xff0c;更别提NIO了。但NIO却是高效操作I/O流的必备技能&#xff0c;如顶级开源项目Kafka、Netty、RocketMQ等都采用了NIO技术&#xff0c;NIO也是大多数面试官必考的体系知识。虽然骨头有点难啃&#xff0c;但还是要慢慢消耗知识、学以致用哈…

Spring核心容器总结

2.2 核心容器总结 2.2.1 容器相关 BeanFactory是IoC容器的顶层接口&#xff0c;初始化BeanFactory对象时&#xff0c;加载的bean延迟加载 ApplicationContext接口是Spring容器的核心接口&#xff0c;初始化时bean立即加载 ApplicationContext接口提供基础的bean操作相关方法…

CTFHUB-技能树-Web前置技能-文件上传(无验证,JS前端验证,前端验证)

CTFHUB-技能树-Web前置技能-文件上传&#xff08;无验证&#xff0c;JS前端验证&#xff0c;前端验证—.htaccess&#xff09; 文章目录 CTFHUB-技能树-Web前置技能-文件上传&#xff08;无验证&#xff0c;JS前端验证&#xff0c;前端验证—.htaccess&#xff09;文件上传无验…

基于 LSTM 模型的古诗词自动生成算法实现及系统实现

近年来&#xff0c;研究者在利用循环神经网络&#xff08;Recurrent Neural Network&#xff0c;RNN&#xff09;进行古诗自动生成方面取得了显著的效果。但 RNN 存在梯度问题&#xff0c;导致处理时间跨度较长的序列时 RNN 并不具备长期记忆存储功能。随后&#xff0c;出现的基…

(十一)C++自制植物大战僵尸游戏客户端更新实现

植物大战僵尸游戏开发教程专栏地址http://t.csdnimg.cn/cFP3z 更新检查 游戏启动后会下载服务器中的版本号然后与本地版本号进行对比&#xff0c;如果本地版本号小于服务器版本号就会弹出更新提示。让用户选择是否更新客户端。 在弹出的更新对话框中有显示最新版本更新的内容…

全球化背景下的海外社媒营销战略:趋势洞察与策略调整

随着全球化的不断深入&#xff0c;企业在海外市场的竞争愈发激烈。在这一背景下&#xff0c;海外社交媒体平台成为了企业品牌推广和营销的重要渠道。本文Nox聚星将和大家探讨全球化背景下&#xff0c;企业如何利用海外社交媒体平台进行品牌推广和营销&#xff0c;并分析企业如何…

Git分布式版本控制系统——在IDEA中使用Git(一)

一、在IDEA中配置Git 本质上还是使用的本地安装的Git软件&#xff0c;所以需要在IDEA中配置Git 打开IDEA的设置页面&#xff0c;按照下图操作 二、在IDEA中使用Git获取仓库 1、本地初始化仓库 2、从远程仓库克隆 方法一&#xff1a; 方法二&#xff1a; 三、.gitignore文件…

#陶晶驰串口屏使用

1.陶晶驰串口屏输入要连接的wifi信息实现 &#xff08;1&#xff09;选择文本控件 &#xff08;2&#xff09;给文本控件配置输入键盘&#xff0c;id代表用户名&#xff0c;password代表wifi密码&#xff08;注意wifi的频段需要为2.4GHz&#xff09; &#xff08;3&#xff0…

k8s之etcd

1.特点&#xff1a; etcd 是云原生架构中重要的基础组件。有如下特点&#xff1a; 简单&#xff1a;安装配置简单&#xff0c;而且提供了 HTTP API 进行交互&#xff0c;使用也很简单键值对存储&#xff1a;将数据存储在分层组织的目录中&#xff0c;如同在标准文件系统中监…

RAG (Retrieval Augmented Generation) 结合 LlamaIndex、Elasticsearch 和 Mistral

作者&#xff1a;Srikanth Manvi 在这篇文章中&#xff0c;我们将讨论如何使用 RAG 技术&#xff08;检索增强生成&#xff09;和 Elasticsearch 作为向量数据库来实现问答体验。我们将使用 LlamaIndex 和本地运行的 Mistral LLM。 在开始之前&#xff0c;我们将先了解一些术…

性能工具之emqtt-bench BenchMark 测试示例

文章目录 一、前言二、典型压测场景三、机器准备四、典型压测场景1、并发连接2、消息吞吐量测试2.1 1 对 1&#xff08;示例&#xff09;2.2 多对1&#xff08;示例&#xff09;2.3 1对多&#xff08;示例&#xff09; 五、遇到的问题client(): EXIT for {shutdown,eaddrnotava…

OpenStack镜像管理与制作

一、OpenStack镜像服务 1、什么是镜像 镜像通常是指一系列文件或一个磁盘驱动器的精确副本。虚拟机所使用的虚拟磁盘&#xff0c;实际上是一种特殊格式的镜像文件。云环境下尤其需要镜像。镜像就是一个模板&#xff0c;类似于VMware的虚拟机模板&#xff0c;其预先安装基本的…

五步教你正确申请免费SSL证书

在当今数字化时代&#xff0c;保护网站数据安全和提升用户信任至关重要&#xff0c;而实现这一目标的有效途径之一便是为网站部署SSL&#xff08;Secure Sockets Layer&#xff09;证书。SSL证书能够加密网站与用户之间的通信&#xff0c;确保敏感信息不被第三方窃取。幸运的是…

1.8.5 卷积神经网络近年来在结构设计上的主要发展和变迁——Inception-v4 和 Inception-ResNet

1.8.5 卷积神经网络近年来在结构设计上的主要发展和变迁——Inception-v4 和 Inception-ResNet 前情回顾&#xff1a; 1.8.1 卷积神经网络近年来在结构设计上的主要发展和变迁——AlexNet 1.8.2 卷积神经网络近年来在结构设计上的主要发展和变迁——VGGNet 1.8.3 卷积神经网络近…

一篇安装配置ubuntu22.04(步骤详细,配置成功)

一篇配置ubuntu22.04(步骤详细&#xff0c;配置成功) 官网下载相应的镜像 vitualbox安装ubuntu 新建虚拟机 第一步 第二步 第三步、按需分配内存、处理器个数、磁盘大小 第四步、一直下一步直至完成 配置虚拟机网络 第一步、先停止虚拟机 第二步、设置虚拟机网络 正常启…

浅谈Java JVM

Java虚拟机&#xff08;Java Virtual Machine&#xff0c;简称JVM&#xff09;是Java语言的核心组成部分&#xff0c;它是一个抽象的计算机&#xff0c;负责执行Java字节码指令。JVM是Java平台无关性的基石&#xff0c;它为Java代码提供了一个标准的运行环境&#xff0c;使Java…