飞机大战ai通过dqn实现

飞机大战ai通过dqn实现

news2025/4/6 17:06:09

借鉴

飞机大战源码 github
王者荣耀ai训练(试了一下，发现电脑带不动，就改了一点，训练其他游戏)

源码

通过网盘分享的文件：PlaneWar (2).zip
[链接]（https://pan.baidu.com/s/1N4OorR7b36Zml8MadGmI6g?pwd=1234）提取码: 1234

dqn的介绍(ai回复)

深度Q网络（DQN）：
DQN是一种结合了深度学习和Q学习的强化学习算法。它使用深度神经网络来估计状态-动作值函数（Q值）。
在代码中，self.policy_net和self.target_net分别是策略网络和目标网络，它们都是深度神经网络。
经验回放（Experience Replay）：
经验回放是一种常用的技术，用于打破数据之间的相关性，提高训练的稳定性和泛化能力。
在代码中，transitions是从经验池中随机抽取的一批经验，这些经验被用来训练网络。
目标网络（Target Network）：

目标网络用于稳定训练过程，通过定期将策略网络的参数复制到目标网络，减少训练过程中的不稳定性和噪声。
在代码中，self.target_net是目标网络，每隔self.target_update步，将self.policy_net的参数复制到self.target_net。
策略梯度（Policy Gradient）：

策略梯度是一种强化学习算法，通过最大化期望回报来更新策略。
在代码中，通过计算当前状态-动作值和期望状态-动作值之间的差异（即损失），然后使用反向传播和优化器来更新策略网络。
梯度下降（Gradient Descent）：

梯度下降是一种优化算法，用于最小化损失函数。
在代码中，使用PyTorch的优化器（如self.optimizer）来执行梯度下降，更新策略网络的参数。
Epsilon-Greedy 策略：

Epsilon-Greedy策略是一种探索与利用的平衡策略，通过以一定概率随机选择动作，以探索未知状态，同时以一定概率选择当前最优动作，以利用已知信息。
在代码中，self.epsilon控制了探索的概率，如果self.epsilon大于self.epsilon_min，则将其乘以self.epsilon_decay，以逐渐减少探索的概率。
损失函数（Loss Function）：

损失函数用于衡量预测值和真实值之间的差异，常见的损失函数包括均方误差（MSE）和交叉熵损失（Cross-Entropy Loss）。
在代码中，使用均方误差损失函数（self.criterion）来计算当前状态-动作值和期望状态-动作值之间的差异。

实现过程

1.决定目标飞机大战

画风好看下载即用

2.缝缝补补

“小”问题

内存泄漏

存储大量信息的部分代码几乎没动，就缩小了动作空间。依然是截图并作为状态传给网络。结果爆了
1.用了多种办法检测，还是找不到原因。
2.第二天突然灵机一动，觉得很可能是太多全局变量了。大刀阔斧的改了一早上，无效…
3.怀疑到了新加的游戏上面，添加了对象池(出了各种bug!!!)

最后实在没办法了，只能将该着训练下去。因此，不能一直训练，会报错，没有内存放模型

效果

个人觉得有点玄学，一个模型上一局得了60分，下一局直接成不死战神了

可惜，由于不死，最后内存不足，报错，只能关机重启。没有保持到战神!真是成也不死，败也不死了。

吸取了这个惨痛教训，我特意设计成不仅每局自动保存最高分的模型，还会在训练一定步数后对比当前分数与最高分的，如果更高，则保存当前模型，再也不怕“不死战神”的惨剧上演了！可以根据电脑情况决定保存步数的大小。

训练挺快的，因为游戏难度不算太高。可是就出了一个厉害的战神，后面的最高才166分！
如果有什么建议，欢迎提出

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2210154.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

$6.将扩散模型与其他生成模型的关联(2)$

6.将扩散模型与其他生成模型的关联(2)

1.归一化流与扩散模型自一化流(Normalizing Flow)是生成模型，通过将易于处理的分布进行变换以队对高维数据进行建模。归一化流可以将简单的概率分布转化为极其复杂的分布，并用于强化学习、变分推理等领域。现有的归一化流是基于变量替换公式构…

阅读更多...

GS-LRM: Large Reconstruction Modelfor 3D Gaussian Splatting 论文解读

GS-LRM: Large Reconstruction Modelfor 3D Gaussian Splatting 论文解读

目录一、概述二、相关工作 1、多视图的三维重建 2、前馈重建三、LRM 1、编码器 2、解码器 3、NeRF渲染四、GS-LRM 1、输入处理 2、Transformer 3、损失函数五、实验六、局限一、概述该论文提出了一种利用稀疏输入图像高效预测3D高斯原语的方法&#xff…

阅读更多...

数据结构-5.6.二叉树的先,中,后序遍历

数据结构-5.6.二叉树的先,中,后序遍历

一.遍历： 二.二叉树的遍历：利用了递归操作 1.简介： 二叉树的先序遍历，中序遍历，后序遍历都是以根结点遍历顺序为准的，如先序遍历就先遍历根结点 2.实例： 例一： 例二： …

阅读更多...

【LeetCode】动态规划—188. 买卖股票的最佳时机 IV（附完整Python/C++代码）

【LeetCode】动态规划—188. 买卖股票的最佳时机 IV（附完整Python/C++代码）

动态规划—188. 买卖股票的最佳时机 IV 题目描述前言基本思路1. 问题定义交易规则： 2. 理解问题和递推关系两种情况：状态定义：状态转移方程：初始条件： 3. 解决方法动态规划方法特殊情况：当 k 大于等于 pric…

阅读更多...

【最新华为OD机试E卷-支持在线评测】构成正方形的数量(100分)多语言题解-(Python/C/JavaScript/Java/Cpp)

【最新华为OD机试E卷-支持在线评测】构成正方形的数量(100分)多语言题解-(Python/C/JavaScript/Java/Cpp)

🍭 大家好这里是春秋招笔试突围，一枚热爱算法的程序员 💻 ACM金牌🏅️团队｜大厂实习经历｜多年算法竞赛经历 ✨ 本系列打算持续跟新华为OD-E/D卷的多语言AC题解 🧩 大部分包含 Python / C / Javascript / Java / Cpp 多语言代码 👏 感谢大家的订阅➕ 和喜欢�…

阅读更多...

（全网独家）面试要懂运维真实案例：HDFS重新平衡(HDFS Balancer)没触发问题排查

（全网独家）面试要懂运维真实案例：HDFS重新平衡(HDFS Balancer)没触发问题排查

在面试时，面试官为了考察面试者是否真的有经验，经常会问运维集群时遇到什么问题，解决具体流程。下面是自己遇到HDFS Balancer没执行，花了半天时间进行排查，全网独家的案例和解决方案。目录使用CDH自带重新平衡操作…

阅读更多...

数据结构 ——— 顺序表oj题：最长公共前缀

数据结构 ——— 顺序表oj题：最长公共前缀

目录题目要求代码实现题目要求编写一个函数来查找字符串数组中的最长公共前缀，如果不存在公共前缀，返回空字符串 "" 代码实现代码演示： void CommonPrefix(char** strs, int strsSize, char* returnStr) {char* first_r…

阅读更多...

利用session机制造测试账号，无需前端也可以测试后端接口

利用session机制造测试账号，无需前端也可以测试后端接口

适用场景：我们在测试的时候经常会遇到前端还没有开发完毕，后端已经结束开发了，但是后端的有些接口是需要特定的账号身份调用才会生效，此时因为前端未开发完毕，所以我们不能通过web页面进行登录，那么如何解决…

阅读更多...

【Python Django + Vue】酒店在线预订系统：用技术说话！

【Python Django + Vue】酒店在线预订系统：用技术说话！

🎓 作者：计算机毕设小月哥 | 软件开发专家 🖥️ 简介：8年计算机软件程序开发经验。精通Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等技术栈。 🛠️ 专业服务 🛠️ 需求定制化开发源码提…

阅读更多...

Parallels Desktop意外退出，Parallels Desktop安装软件很卡闪退怎么办？

Parallels Desktop意外退出，Parallels Desktop安装软件很卡闪退怎么办？

Parallels Desktop是目前很优秀的虚拟机软件，操作简单，兼容性强而且安装也非常方便，备受苹果用户的喜爱和满意。然而，部分用户在使用Parallels Desktop的时候，会遇到意外退出或终端关机的情况，这不仅会影响…

阅读更多...

VS2017 编译 SQLite3 动态库

VS2017 编译 SQLite3 动态库

首先官方下载源码： Tags sqlite/sqlite (github.com) 1.安装 VS2017 community edition 2.打开VS2017命令行工具 3.安装TCL 开发库，推荐 TCL 9.0 先下载源码： Tcl/Tk 9.0 使用vs2017编译tcl&

阅读更多...

CRC码计算原理：按位讲解计算过程

CRC码计算原理：按位讲解计算过程

CRC8 这里先以CRC8来说明CRC的计算过程 1、CRC8在线计算器通过CRC在线计算器可以看见CRC8的特征多项式：x8x2x1，初始值为0000’0000。 CRC计算的核心是：反转异或移位（此处的CRC8没有涉及反转，见后面CRC16&#xff0…

阅读更多...

基于Langchain框架下Prompt工程调教大模型(LLM)[输入输出接口、提示词模板与例子选择器的协同应用

基于Langchain框架下Prompt工程调教大模型(LLM)[输入输出接口、提示词模板与例子选择器的协同应用

大家好，我是微学AI，今天给大家介绍一下基于Langchain框架下Prompt工程调教大模型(LLM)[输入输出接口、提示词模板与例子选择器的协同应用。本文深入探讨了Langchain框架下的Prompt工程在调教LLM（大语言模型）方面的应用&#xff0c…

阅读更多...

C++入门基础知识110—【关于C++嵌套 if 语句】

C++入门基础知识110—【关于C++嵌套 if 语句】

成长路上不孤单😊😊😊😊😊😊 【14后😊///C爱好者😊///持续分享所学😊///如有需要欢迎收藏转发///😊】今日分享关于C 嵌套 if 语句的相关内容！ …

阅读更多...

全院级、流程化的医院安全不良事件管理系统源码——等级医院评审工作的辅助工具

全院级、流程化的医院安全不良事件管理系统源码——等级医院评审工作的辅助工具

前言： 冰山理论”指出“每件严重不良事件背后可能隐藏着10件轻微的不良事件”“存在30件未造成伤害的差错可能存在600件引发意外的异常事件”没有一件不良事件应该被忽视！ 一项研究也指出95%医生曾目睹错误的发生，61%的医务人员认为医疗错误…

阅读更多...

WebGL 小白入门学习

WebGL 小白入门学习

1. WebGL是什么？ WebGL（Web Graphics Library）是一种JavaScript API，它允许你在不需要安装任何额外插件的情况下，直接在浏览器中渲染高性能的2D和3D图形。WebGL利用了用户的图形处理单元（GPU）来…

阅读更多...

Unity 3d 鼠标设置的问题——隐藏/显示鼠标、锁定/解锁/限制鼠标、自定义鼠标形状

Unity 3d 鼠标设置的问题——隐藏/显示鼠标、锁定/解锁/限制鼠标、自定义鼠标形状

在unity开发的过程中，我们常常会遇到一些问题，有时会发现鼠标不见了，有时发现鼠标在屏幕中心不能动，有时又想有图片自己定义一个鼠标形状。本文将对这些问题逐一进行探讨。一、设置鼠标的可见性使用语句： Cursor.vis…

阅读更多...

网络初识基本概念总结

网络初识基本概念总结

网络发展背景经历了单机阶段 -> 局域网阶段 -> 广域网阶段 -> 移动互联网阶段 (简单介绍一下) 其他一些小概念局域网LAN: 是把一些设备通过交换机 / 路由器连接, 形成的私有网络广域网WAN: 是把更多的局域网相互连接起来,当规模足够大时形成广域网交换机和路由器…

阅读更多...

Rhymes AI发布首款开源多模态AI模型Aria 性能超越GPT-4o mini等多家知名AI模型

Rhymes AI发布首款开源多模态AI模型Aria 性能超越GPT-4o mini等多家知名AI模型

最近，日本东京的初创公司 Rhymes AI 推出了他们的首款人工智能模型 ——Aria。该公司自称，Aria 是全球首个开源的多模态混合专家（MoE）模型。这个模型不仅具有处理多种输入模态的能力，还声称在能力上与一些知名的商业模…

阅读更多...

大一高等数学速成指南

大一高等数学速成指南

大一高等数学速成指南高等数学作为大学理工科学生的基础课程，对于许多新生来说，既是挑战也是机遇。本文将为你提供一个高效的学习指南，帮助你快速掌握高等数学的核心内容。 1. 理解课程大纲首先，你需要了解高等数学的课程大纲…

阅读更多...

推荐文章

最新文章