python pandas处理股票量化数据:笔记2

news2024/11/26 9:36:41

有一个同学用我的推荐链接注册了tushare社区帐号https://tushare.pro/register?reg=671815,现在有了170分积分。目前使用数据的频率受限制。不过可以在调试期间通过python控制台获取数据,将数据保存在本地以后使用不用高频率访问tushare数据接口,访问频率限制影响不大。

>>> data = pro.stock_basic(fields='ts_code,symbol,name,area,industry,list_date,market,is_hs,list_status,exchange,delist_date,curr_type')

>>> type(data)
<class 'pandas.core.frame.DataFrame'>
>>> data
        ts_code  symbol     name  area  ... list_status list_date delist_date is_hs
0     000001.SZ  000001     平安银行    深圳  ...           L  19910403        None     S
1     000002.SZ  000002      万科A    深圳  ...           L  19910129        None     S
2     000004.SZ  000004     国华网安    深圳  ...           L  19910114        None     N
3     000006.SZ  000006     深振业A    深圳  ...           L  19920427        None     S
4     000007.SZ  000007    *ST全新    深圳  ...           L  19920413        None     N
...         ...     ...      ...   ...  ...         ...       ...         ...   ...
5360  873726.BJ  873726     卓兆点胶    江苏  ...           L  20231019        None     N
5361  873806.BJ  873806      云星宇    北京  ...           L  20240111        None     N
5362  873833.BJ  873833     美心翼申    重庆  ...           L  20231108        None     N
5363  920002.BJ  920002     万达轴承  None  ...           L  20240530        None     N
5364  689009.SH  689009  九号公司-WD    北京  ...           L  20201029        None  None

[5365 rows x 12 columns]
>>> data.info
<bound method DataFrame.info of         ts_code  symbol     name  area  ... list_status list_date delist_date is_hs
0     000001.SZ  000001     平安银行    深圳  ...           L  19910403        None     S
1     000002.SZ  000002      万科A    深圳  ...           L  19910129        None     S
2     000004.SZ  000004     国华网安    深圳  ...           L  19910114        None     N
3     000006.SZ  000006     深振业A    深圳  ...           L  19920427        None     S
4     000007.SZ  000007    *ST全新    深圳  ...           L  19920413        None     N
...         ...     ...      ...   ...  ...         ...       ...         ...   ...
5360  873726.BJ  873726     卓兆点胶    江苏  ...           L  20231019        None     N
5361  873806.BJ  873806      云星宇    北京  ...           L  20240111        None     N
5362  873833.BJ  873833     美心翼申    重庆  ...           L  20231108        None     N
5363  920002.BJ  920002     万达轴承  None  ...           L  20240530        None     N
5364  689009.SH  689009  九号公司-WD    北京  ...           L  20201029        None  None

[5365 rows x 12 columns]>
>>> data.describe()
          ts_code  symbol  name  area  ... list_status list_date delist_date is_hs
count        5365    5365  5365  5358  ...        5365      5365           0  5364
unique       5365    5365  5364    32  ...           1      2727           0     3
top     000001.SZ  000001  三维股份    浙江  ...           L  20200727         NaN     N
freq            1       1     2   706  ...        5365        31         NaN  2481

[4 rows x 12 columns]
>>> data.index
RangeIndex(start=0, stop=5365, step=1)
>>> data.columns
Index(['ts_code', 'symbol', 'name', 'area', 'industry', 'market', 'exchange',
       'curr_type', 'list_status', 'list_date', 'delist_date', 'is_hs'],
      dtype='object')
>>> data.shape
(5365, 12)
>>> data.shape[0]
5365
>>> data.shape[1]
12
>>> data.values
array([['000001.SZ', '000001', '平安银行', ..., '19910403', None, 'S'],
       ['000002.SZ', '000002', '万科A', ..., '19910129', None, 'S'],
       ['000004.SZ', '000004', '国华网安', ..., '19910114', None, 'N'],
       ...,
       ['873833.BJ', '873833', '美心翼申', ..., '20231108', None, 'N'],
       ['920002.BJ', '920002', '万达轴承', ..., '20240530', None, 'N'],
       ['689009.SH', '689009', '九号公司-WD', ..., '20201029', None, None]],
      dtype=object)
>>> 
>>> print(data.dtypes)
ts_code        object
symbol         object
name           object
area           object
industry       object
market         object
exchange       object
curr_type      object
list_status    object
list_date      object
delist_date    object
is_hs          object
dtype: object
>>> 

1、DataFrame操作

tushare pro接口返回的数据类型<class 'pandas.core.frame.DataFrame'>

>>> type(data)
<class 'pandas.core.frame.DataFrame'>

从上面可以看到data = pro.stock_basic(fields='ts_code,symbol,name,area,industry,list_date,market,is_hs,list_status,exchange,delist_date,curr_type')返回的数据是[5365 rows x 12 columns]

pandas.DataFrame.info

打印一个DataFrame的简要介绍(index范围、columns的dtype、非空值的数量和内存的使用情况):

DataFrame.info(verbose=None, buf=None, max_cols=None, memory_usage=None, show_counts=None)[source]

verbose(adj 冗长的): bool, optional,决定是否打印完整的摘要, 如果为False,那么会省略一部分
buf: writable buffer, defaults to sys.stdout,,决定将输出发送到哪里,默认情况下, 输出打印到sys.stdout
max_cols: int, optional 从“详细输出”转换为“缩减输出”,如果DataFrame的列数超过max_cols,则缩减输出。
memory_usage: bool, str, optional 决定是否应显示DataFrame元素(包括索引)的总内存使用情况,默认情况下为True。True始终显示内存使用情况;False永远不会显示内存使用情况。
show_counts: bool, optional,是否显示非空值的数量,值为True始终显示计数,而值为False则不显示计数

>>> data.info(verbose=True)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5365 entries, 0 to 5364
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   ts_code      5365 non-null   object
 1   symbol       5365 non-null   object
 2   name         5365 non-null   object
 3   area         5358 non-null   object
 4   industry     5358 non-null   object
 5   market       5365 non-null   object
 6   exchange     5365 non-null   object
 7   curr_type    5365 non-null   object
 8   list_status  5365 non-null   object
 9   list_date    5365 non-null   object
 10  delist_date  0 non-null      object
 11  is_hs        5364 non-null   object
dtypes: object(12)
memory usage: 251.5+ KB
>>> data.info(verbose=False)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5365 entries, 0 to 5364
Columns: 12 entries, ts_code to is_hs
dtypes: object(12)
memory usage: 251.5+ KB
>>> 

>>> print(data.tail())
        ts_code  symbol     name  area  ... list_status list_date delist_date is_hs
5360  873726.BJ  873726     卓兆点胶    江苏  ...           L  20231019        None     N
5361  873806.BJ  873806      云星宇    北京  ...           L  20240111        None     N
5362  873833.BJ  873833     美心翼申    重庆  ...           L  20231108        None     N
5363  920002.BJ  920002     万达轴承  None  ...           L  20240530        None     N
5364  689009.SH  689009  九号公司-WD    北京  ...           L  20201029        None  None

[5 rows x 12 columns]
>>> print(data.head())
     ts_code  symbol   name area  ... list_status list_date delist_date is_hs
0  000001.SZ  000001   平安银行   深圳  ...           L  19910403        None     S
1  000002.SZ  000002    万科A   深圳  ...           L  19910129        None     S
2  000004.SZ  000004   国华网安   深圳  ...           L  19910114        None     N
3  000006.SZ  000006   深振业A   深圳  ...           L  19920427        None     S
4  000007.SZ  000007  *ST全新   深圳  ...           L  19920413        None     N

[5 rows x 12 columns]
>>> 

# 获得DataFrame行索引信息

data.index

# 获得DataFrame列索引信息

data.columns

# 获得DataFrame的size

data.shape

# 获得DataFrame的行数

data.shape[0]

# 获得DataFrame的 列数

data.shape[1]

# 获得DataFrame中的值

data.values

# 获得DataFrame中列值数据类型

data.dtypes

Pandas describe() 

Pandas describe()用于查看一些基本的统计详细信息,例如每列的均值、标准差、最大值、最小值和众数

>>> data.describe()
          ts_code  symbol  name  area  ... list_status list_date delist_date is_hs
count        5365    5365  5365  5358  ...        5365      5365           0  5364
unique       5365    5365  5364    32  ...           1      2727           0     3
top     000001.SZ  000001  三维股份    浙江  ...           L  20200727         NaN     N
freq            1       1     2   706  ...        5365        31         NaN  2481

[4 rows x 12 columns]

>>> type(data.describe())
<class 'pandas.core.frame.DataFrame'>
>>> 

describe()的输出也是DataFrame

>>> import pandas as pd
>>> import pdb
>>> 
dict_data={"X":list("abcdef"),"Y":list("defghi"),"Z":list("ghijkl")}
df=pd.DataFrame.from_dict(dict_data)
df.index=["A","B","C","D","E","F"]

>>> df
   X  Y  Z
A  a  d  g
B  b  e  h
C  c  f  i
D  d  g  j
E  e  h  k
F  f  i  l
>>> df.describe()
        X  Y  Z
count   6  6  6
unique  6  6  6
top     a  d  g
freq    1  1  1
>>> 
>>> type(df.describe())
<class 'pandas.core.frame.DataFrame'>
>>> 
>>> # A 行 X 列数据,必须两个数据都输入,否则报错
print(df.at["A","X"]) 
# 第二 行 第二 列数据,序号从0开始
print(df.iat[2,2]) 
a
i
>>>
>>> # 指定行名和列名的方式,和at的用法相同
print(df.loc["A","X"],"\n","*"*20)
 
# 可以完整切片,这是 at 做不到的
print(df.loc[:,"X"],"\n","*"*20)
 
# 可以从某一行开始切片
print(df.loc["B":,"X"],"\n","*"*20)
 
# 可以只切某一列
print(df.loc["B",:],"\n","*"*20)
 
# 和指定上一条代码效果是一样的
print(df.loc["B"],"\n","*"*20)
a 
 ********************
A    a
B    b
C    c
D    d
E    e
F    f
Name: X, dtype: object 
 ********************
B    b
C    c
D    d
E    e
F    f
Name: X, dtype: object 
 ********************
X    b
Y    e
Z    h
Name: B, dtype: object 
 ********************
X    b
Y    e
Z    h
Name: B, dtype: object 
 ********************
>>> 
>>> # 指定行号和列号的方式,和 loc 的用法相同
print(df.iloc[0,0],"\n","*"*20)
 
# 可以完整切片
print(df.iloc[:,0],"\n","*"*20)
 
# 可以从某一行开始切片
print(df.iloc[1:,0],"\n","*"*20)
 
# 可以只切某一列
print(df.iloc[1,:],"\n","*"*20)
 
# 和指定上一条代码效果是一样的
print(df.iloc[1],"\n","*"*20)
a 
 ********************
A    a
B    b
C    c
D    d
E    e
F    f
Name: X, dtype: object 
 ********************
B    b
C    c
D    d
E    e
F    f
Name: X, dtype: object 
 ********************
X    b
Y    e
Z    h
Name: B, dtype: object 
 ********************
X    b
Y    e
Z    h
Name: B, dtype: object 
 ********************
>>>

DataFrame索引数据 

at 函数:通过行名和列名来取值

loc函数主要通过 行标签 索引行数据

iloc函数主要通过行号、索引行数据

导出数据

dataframe可以使用to_csv方法方便地导出到csv文件中,如果数据中含有中文,一般encoding指定为”utf-8″,否则导出时程序会因为不能识别相应的字符串而抛出异常,index指定为False表示不用导出dataframe的index数据。

>>> data.to_csv("C:\\Users\\Downloads\\stock.csv", index=False)
>>> data.to_csv("C:\\Users\\Downloads\\stock_indx.csv", index=True)

index为False和True时区别如下

从文件读取数据到pandas

pandas在读取csv文件是通过read_csv这个函数读取 

base_data = pd.read_csv("C:\\Users\\Downloads\\stock.csv")

base_data1 = pd.read_csv("C:\\Users\\Downloads\\stock_idx.csv") #比上一个文件多一列

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1826134.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024年6个恢复删除数据的方法,看这篇就够了~

在数字化飞速发展的今天&#xff0c;数据已成为我们生活中不可或缺的组成部分&#xff0c;它记录着我们的记忆、创意和辛勤付出。然而&#xff0c;生活总是充满意外&#xff0c;我们可能会遭遇数据意外删除或丢失的困境。在这种关键时刻&#xff0c;如何高效、准确地恢复数据就…

Linxu开机出现 Generating “/run/initramfs/rdsosreport.txt“解决方案

Linxu开机出现 Generating "/run/initramfs/rdsosreport.txt"解决方案 解决&#xff1a; 一、找这个-root结尾的文件也不一样。 大家可以用ls /dev/mapper查看到自己装的镜像对应的以-root结尾的文件是哪个。 二、所以我们运行的是&#xff1a;xfs_repair /dev/map…

【DPDK学习路径】二、DPDK简介

DPDK(Data Plane Development Kit)是一个框架&#xff0c;用于快速报文处理。 在linux内核提供的报文处理模型中&#xff0c;接收报文的处理路径为&#xff1a;首先由网卡硬件接收&#xff0c;产生硬中断&#xff0c;触发网卡驱动程序注册的中断函数处理&#xff0c;之后产生软…

【吊打面试官系列-Mysql面试题】优化数据库的方法?

大家好&#xff0c;我是锋哥。今天分享关于 【优化数据库的方法&#xff1f;】面试题&#xff0c;希望对大家有帮助&#xff1b; 优化数据库的方法&#xff1f; 1、选取最适用的字段属性&#xff0c;尽可能减少定义字段宽度&#xff0c;尽量把字段设置 NOTNULL&#xff0c; 例…

【Android面试八股文】你能描述一下JVM中的类加载过程吗?

文章目录 一、Java类的生命周期二、JVM类加载过程1. 加载(Loading)2. 链接(Linking)a. 验证(Verification)b. 准备(Preparation)b.1 准备阶段的初始值b.2 用户定义的初值b.3 常量的初始化c. 解析(Resolution)3. 初始化(Initialization)3.1 什么是 `<clinit>`…

嵌入式系统中常用的参数存储方法

一、有哪些参数需要管理? 在智能硬件产品中,一般有三类数据需要存储并管理: 1. 系统设置数据 系统设置数据是指产品自身正常工作所依赖的一些参数。 这类数据的特点:只能在生产过程中修改,出厂后用户无权限修改。 比如:产品 SN、产品密钥/token/license、传感器校准值…

我与Python的一夜情

期末突击看这篇才够味&#xff01; 环境搭建 首先就是相关工具的安装&#xff0c;直接搜就好&#xff0c;但是还是贴个网址吧&#xff1a; Welcome to Python.orghttps://www.python.org/ 然后就是根据自己的系统选择咯&#xff1a; 谁能闲来无事送我个mac玩玩 Windows的一…

Spring 整合 MyBatis 底层源码解析

大家好&#xff0c;我是柳岸花开。今天我们要讲的是 Spring 整合 MyBatis 的底层源码解析。希望大家能更深入理解 Spring 和 MyBatis 的整合原理&#xff0c;并应用到实际项目中。 由很多框架都需要和Spring进行整合&#xff0c;而整合的核心思想就是把其他框架所产生的对象放到…

学习cel-go了解一下通用表达语言评估是什么

文章目录 1. 前言2. cel-go2.1 cel-go关键概念Applications(应用)Compilation(编译)Expressions(表达式)Environment环境解析表达式的三个阶段 3. cel-go的使用4. cel-go使用5. 说明6. 小结7. 参考 1. 前言 最近因为在项目里面实现的一个使用和||来组合获取字段值的功能有点儿…

有监督学习——支持向量机、朴素贝叶斯分类

1. 支持向量机 支持向量机&#xff08;Support Vector Machine, SVM&#xff09;最初被用来解决线性问题&#xff0c;加入核函数后能够解决非线性问题。主要优点是能适应小样本数量 高维度特征的数据集&#xff0c;甚至是特征维度数高于训练样本数的情况。 先介绍几个概念&am…

王思聪日本街头在被偶遇

王思聪日本街头再被偶遇&#xff0c;甜蜜约会日常成网友热议焦点近日&#xff0c;有网友在日本街头再次偶遇了“国民老公”王思聪&#xff0c;这次他不仅携带着一位美丽的女友&#xff0c;还展现出了两人之间亲密无间的互动&#xff0c;让不少网友感叹&#xff1a;这真的是每天…

【MySQL】E-R图-关系数据模型-3NF--精讲+练习(巨全面)

一.知识储备 E-R图 E-R图&#xff0c;即实体-关系图&#xff08;Entity-Relationship Diagram&#xff09;&#xff0c;是数据库建模的一种工具&#xff0c;用于表示实体类型、属性以及它们之间的关系。 在E-R图中&#xff0c;实体用矩形表示&#xff0c;属性用椭圆表示&…

Java SSTI服务端模版注入漏洞原理与利用

文章目录 前言Velocity基础语法基础示例命令执行 靶场实践漏洞代码漏洞验证检测工具 FreeMarker基础示例漏洞示例CMS案例 Thymeleaf基础示例漏洞示例安全方案 总结 前言 SSTI&#xff08;Server Side Template Injection&#xff09;全称服务端模板注入漏洞&#xff0c;在 Jav…

Swift开发——元组

Swift语言的数据类型包括整型、浮点型、字符串、布尔型、数组、元组、集合和字典等,本文将详细介绍元组。 01、元组 严格意义上,元组不属于数据类型,而属于数据结构。元组将一些变量或常量或字面量组织成一个有序的序列,索引号从0开始,用圆括号“()”括起来,各个元素间用…

笔记100:使用 OSQP-Eigen 对 MPC 进行求解的方法与代码

1. 前言&#xff1a; 我们在对系统进行建模的时候&#xff0c;为了减少计算量&#xff0c;一般都将系统简化为线性的&#xff0c;系统如果有约束&#xff0c;也是将约束简化为线性的&#xff1b; 因此本篇博客只针对两种常见系统模型的 MPC 问题进行求解&#xff1a; 线性系统…

【ARM-Linux篇】智能家居语音模块配置

1. pin脚配置&#xff1a; 2. 命令词自定义基本信息&#xff1a; 3. 命令词自定控制详情: • 测试&#xff1a;串口模块可先通过串口助手验证每个指令的准确性&#xff0c; 然后运行wiringOP中的serialTest程序(需把/dev/ttyS2改成/dev/ttyS5) 然后语音接收到指令后(比如喊你好…

如何在 Postman 中进行 HTTPS 请求

https 请求是一种安全的网络通信方式&#xff0c;它使用 SSL/TLS 协议来加密数据和验证身份。在 postman 中发起 https 请求的步骤如下。 Postman 发起 https 请求 1、打开 postman 应用程序&#xff0c;点击左上角的“”号按钮&#xff0c;创建一个新的请求。 2、在请求标签…

MB-iSTFT-VITS 模型论文思路与实验分享:基于VITS架构优化的轻量级文本转语音模型

参考文献&#xff1a; [1] Kawamura M, Shirahata Y, Yamamoto R, et al. Lightweight and high-fidelity end-to-end text-to-speech with multi-band generation and inverse short-time fourier transform[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics…

万能破题方法包(3)暴力破解法

一、前言 暴力破解法是指通过尝试所有可能的密码组合来破解密码 1.1、概念 暴力破解法是一种通过尝试所有可能的密码组合来破解密码的方法。它基于暴力的方式&#xff0c;不依赖于任何密码漏洞或特殊技巧&#xff0c;而是通过穷举所有可能性来找到正确的密码。 1.2、解决步骤 …

华为数通题库HCIP-821——最新最全(带答案解析)

单选1、下面是一台路由器的输出信息&#xff0c;关于这段信息描述正确的是 A目的网段1.1.1.0/24所携带的团体属性值是no—export表明该路由条目不能通告给任何BGP邻居 B目的网段5.1.1.0/24所携带的团体属性值是no—advertise表明该路由条目不能被通告给任何其他的BGP对等体 C…