基于Gym Anytrading 的强化学习简单实例

news2024/12/23 22:43:07

近年来强化学习(RL)在算法交易领域受到了极大的关注。强化学习算法从经验中学习并基于奖励优化行动使其非常适合交易机器人。在这篇文章,我们将简单介绍如何使用Gym Anytrading环境和GME (GameStop Corp.)交易数据集构建一个基于强化学习的交易机器人。

强化学习是机器学习的一个子领域,涉及代理学习与环境交互以实现特定目标。代理在环境中采取行动,接收奖励形式的反馈,并学会随着时间的推移最大化累积奖励。代理的目标是发现一个将状态映射到行动的最优策略,从而导致最好的可能结果。

Gym Anytrading

Gym Anytrading是一个建立在OpenAI Gym之上的开源库,它提供了一系列金融交易环境。它允许我们模拟各种交易场景,并使用RL算法测试不同的交易策略。

安装依赖

将使用的主要库是TensorFlow, stable-baselines3和Gym Anytrading。运行以下代码来安装所需的依赖项:

 !pip install tensorflow 
 !pip install stable_baselines3 
 !pip install gym
 !pip install gym-anytrading 
 !pip install tensorflow-gpu

导入库

导入必要的库和设置环境开始:

 # Gym stuff
 import gym
 import gym_anytrading
 
 # Stable baselines - RL stuff
 from stable_baselines3.common.vec_env import DummyVecEnv
 from stable_baselines3 import A2C
 
 # Processing libraries
 import numpy as np
 import pandas as pd
 from matplotlib import pyplot as plt

加载GME交易数据

将使用GameStop Corp. (GME)的历史交易数据作为示例。我们假设您拥有CSV格式的GME交易数据,没有的话可以通过搜索引擎找到下载地址。

加载GME交易数据并为Gym Anytrading环境做准备:

 # Load GME trading data
 df = pd.read_csv('gmedata.csv')
 
 # Convert data to datetime type
 df['Date'] = pd.to_datetime(df['Date'])
 df.dtypes
 
 # Set Date as the index
 df.set_index('Date', inplace=True)
 df.head()

通过Gym创建交易环境

下一步就是使用Gym Anytrading创建交易环境。环境将代表GME交易数据,我们的代理将通过购买、出售和持有股票等行为与环境进行交互。

 # Create the environment
 env = gym.make('stocks-v0', df=df, frame_bound=(5, 100), window_size=5)
 
 # View environment features
 env.signal_features
 
 # View environment prices
 env.prices

探索环境

在继续构建RL模型之前,可以先对环境可视化了解其特征。

 # Explore the environment
 env.action_space
 
 state = env.reset()
 while True:
     action = env.action_space.sample()
     n_state, reward, done, info = env.step(action)
     if done:
         print("info", info)
         break
 
 plt.figure(figsize=(15, 6))
 plt.cla()
 env.render_all()
 plt.show()

该图显示了GME交易数据的一部分,以及Gym Anytrading环境生成的买入和卖出信号。

构建强化学习模型

我们将使用stable-baselines3库构建RL模型。我们将使用A2C(Advantage Actor-Critic)算法

 # Creating our dummy vectorizing environment
 env_maker = lambda: gym.make('stocks-v0', df=df, frame_bound=(5, 100), window_size=5)
 env = DummyVecEnv([env_maker])
 
 # Initializing and training the A2C model
 model = A2C('MlpPolicy', env, verbose=1)
 model.learn(total_timesteps=1000000)

评估模型

在训练模型之后,可以评估它在GME交易数据的不同部分上的表现。

 # Create a new environment for evaluation
 env = gym.make('stocks-v0', df=df, frame_bound=(90, 110), window_size=5)
 obs = env.reset()
 while True:
     obs = obs[np.newaxis, ...]
     action, _states = model.predict(obs)
     obs, rewards, done, info = env.step(action)
     if done:
         print("info", info)
         break
 
 plt.figure(figsize=(15, 6))
 plt.cla()
 env.render_all()
 plt.show()

总结

在这篇文章中,我们介绍了如何使用Gym Anytrading环境和stable-baselines3库来构建一个基于强化学习的交易机器人。本文只是一个起点,构建一个成功的交易机器人需要仔细考虑各种因素并不断改进。

https://avoid.overfit.cn/post/77466ba1f1d34ccca01aa4096c0cf8d7

作者:Kabila MD Musa

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/783415.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Java从0到1学习】05 Java 数组

1. 数组概述 需求:现在需要统计某公司员工的工资情况,例如计算平均工资、找到最高工资等。假设该公司有80名员工,用前面所学的知识,程序首先需要声明80个变量来分别记住每位员工的工资,然后在进行操作,这样…

MySQL一些知识

六、MySQL命令参数 七、远程登录 use mysql 八、SQL语句和常见的SQL操作 九、数据库和表的创建及插入 指定字段名称,按照表的字段名称顺序写: 指定字段名称: 字段名称可以不全部指定:

SpringBoot(三)

文章目录 前言一.日志的作用二.日志的使用2.1 自定义日志打印三.日志的级别3.1 日志级别的作用3.2 日志级别的分类和使用 四.⽇志持久化 前言 日志在应用程序中扮演着至关重要的角色,它是软件开发、运维和故障排查中不可或缺的工具。无论是大型企业级应用还是小型个…

node插件的安装、HTTP协议

接口测试与UI测试(功能测试,UI的自动化测试)有什么区别? 1、接口测试更多测试的是客户端与后端之间的交互 2、接口测试也是可以完全的测试产品功能测试场景 UI测试: 1、页面的交互 2、页面的各种提示信息的验证 …

C#栈、List结构的简单搭建

1、栈是一种先进后出的结构&#xff0c;如图&#xff1a; 我们用代码&#xff0c;简单实现一下&#xff1a; public class StackTest<T>{private T[] stack { get; set; }public int length { get; set; }public StackTest(){length 0;stack new T[length];}public vo…

[JVM]String str1 = new String(“yhz“)和 String str2 = “yhz“ 的区别

文章目录 0、前情1、相同之处2、不同之处3、解释前情 0、前情 为什么str1 str2 就返回true&#xff0c;而str1str3 就返回false&#xff1f;先看内存图解释 1、相同之处 String str1new String(“yhz”)和String str2“yhz”&#xff0c;都会先去字符串常量池中查看是否已经存…

Helm KinD kubectl krew Istio急速安装

本篇更新网上许多安装失效的工具&#xff0c;如krew和KinD。 本篇测试使用时间为2023/7/20&#xff0c;基本都为最新版本或最新稳定版本。 前置 Helm 是 Kubernetes 的一个包管理工具&#xff0c;用于简化 Kubernetes 应用的部署和管理。Helm 使用名为 "chart" 的打…

QDialog的两种显示方式

QDialog的两种显示方式 模态显示非模态显示 QDialog不能嵌入到其他窗口中显示&#xff08;无论继承与否&#xff09; 模态显示 d->exec(); 阻塞程序的执行 非模态显示 d->show(); 不阻塞程序

A--玉米大炮--2022河南萌新联赛第(三)场:河南大学

输入 3 3 1 1 2 2 3 3 输出 0 说明 开始时,小蓝控制所有大炮立即发射炮弹,僵王博士受到 666 点伤害,直接被击溃。 示例2 输入 2 20 5 1 5 3 输出 2 说明 开始时,小蓝控制所有大炮立即发射炮弹,僵王博士受到 101010 点伤害, 一秒后一号大炮装填完毕,小蓝控制其攻击僵王…

力扣 -- 152. 乘积最大子数组

一、题目&#xff1a; 题目链接&#xff1a;152. 乘积最大子数组 - 力扣&#xff08;LeetCode&#xff09; 二、解题步骤 下面是用动态规划的思想解决这道题的过程&#xff0c;相信各位小伙伴都能看懂并且掌握这道经典的动规题目滴。 三、参考代码&#xff1a; class Solut…

分布式数据库 Join 查询设计与实现浅析

目录 前言&#xff1a; ①Mysql 分库分表 Join 查询场景 sharding-jdbc Code Insight SQL 路由策略 ②Elasticsearch Join 查询场景 elasticsearch-sql Code Insight ③More Than Join Join 算法 Elasticsearch Nested 类型 前言&#xff1a; 分布式数据库 Join 查…

Unity 2D 针对单个物体的空气墙(能指定物体的碰撞器)

笔者也是废了九牛二虎之力才发现这个API并选择一种相对效率高还简单的实现方法 克服了同层级空气墙的问题 这样可以实现只跟列表里的物体能发生碰撞 在使用之前请确保&#xff1a;空气墙 原本 可以与列表指定的物体发生碰撞 然后本脚本会自动取消列表外的全部碰撞&#xff…

使用spark进行hbase的bulkload

使用spark进行hbase的bulkload 一、 背景 HBase 是一个面向列&#xff0c;schemaless&#xff0c;高吞吐&#xff0c;高可靠可水平扩展的 NoSQL 数据库&#xff0c;用户可以通过 HBase client 提供的 put get 等 api 实现在数据的实时读写。在过去的几年里&#xff0c;HBase …

C++面向对象程序设计-基础入门(超详细)

目录 一、c概述 二、初识c 1、第一个c程序 2、c面向对象的三大特性&#xff08;重要&#xff09; 三、作用域运算符&#xff1a;&#xff1a; 1、使用关键字namespace创建一个命名空间 2、命名空间只能定义在全局 3、 命名空间嵌套 4、随时将新的成员加入命名空间 5、命…

uni-app : 监听路由变化

在App.vue中 在 onLaunch中,利用拦截器监听 navigateTo等, 切记要在 invoke回调函数中查看, 要是再 success回调函数中,都路由完成了,还看啥? onLaunch(){ uni.addInterceptor(navigateTo, { //监听跳转invoke(e) {console.log(******** invoke-navigateTo ********, e.url)}…

AI工具集:【stablefoundation】satblediffusion官方免费实验机器人

stablefoundation是satble diffusion官方免费实验机器人,与midjourney一样在discord上操作 视频教程 https://v.douyin.com/ibgQTU7/ 图文教程 1、打开网址: https://stabledigest.substack.com/ 2、点击discord 3、加入stable foundation 4、点击找到机器人频道&#xf…

Linux —— 环境变量

环境变量&#xff08;environment variables&#xff09;&#xff0c;一般指在操作系统中用来指定操作系统运行环境的一些参数&#xff1b;如在编写的C/C代码链接时&#xff0c;所链接的动态、静态库的位置&#xff0c;就是通过相关环境变量帮助编译器进行查找的&#xff1b;环…

Stephen Wolfram:一次只添加一个词

It’s Just Adding One Word at a Time 一次只添加一个词 That ChatGPT can automatically generate something that reads even superficially like human-written text is remarkable, and unexpected. But how does it do it? And why does it work? My purpose here is t…

PID输出反馈回路调控算法原理

本文章学习研究PID闭环回路控制算法&#xff0c;介绍帮助大家理解这个算法&#xff0c;希望看后觉得有用就三连支持一下。 目录 认识PID: PID算法知识理论学习&#xff1a; 首先看PID原理的框图&#xff1a; 一、比例算法P&#xff1a; 二、积分算法I&#xff1a; 三、微…

new Vue () 中的 render 函数与 templete 模板

首先新建一个空的 Vue 项目&#xff0c;我们会在 main.js 文件中发现如下代码 import Vue from vue import App from ./App.vue// 关闭vue的生产提示 Vue.config.productionTip falsenew Vue({render: h > h(App), }).$mount(#app) $mount(#app) &#xff1a;可以参考之前…