Pandas数据导出
1、导出Excel:
- 举例:
- 代码:df.to_excel(‘./data/text_01.xlsx’, sheet_name=‘订单明细’, index=False)
- 解释:将df数据导入到相对路径为’./data/text_01.xlsx’的文件中,其中数据表名称为’订单明细’,去除之前的索引
2、导出CSV:
- 举例:
- 代码:df.to_csv(‘export_02.csv’, encoding=‘utf_8_sig’, index=False)
- 解释:类似上面的导出excel
3、导出Txt:
- 举例:
- 代码:df.to_csv(‘export_03.txt’, sep=‘\t’, encoding=‘utf_8_sig’, index=False)
- 解释:类似上面的导出excel,sep='\t’表示用制表符分隔数据,encoding='utf_8_sig’表示编码格式
4、导出Json:
- 举例:
- 代码:df.to_json(‘export_04.json’, orient=‘split’, force_ascii=False)
- 解释:类似上面的导出excel,orient是json中存放数据的形式有很多{‘split’, ‘records’, ‘index’, ‘columns’, ‘values’, ‘table’},force_ascii设置为False,则force_ascii编码就会失效,否则默认force_ascii编码的话,中文就会被加密,显示不出来。
4、导出到数据库:
- 说明:本质就是模拟了一个sql添加表的过程
- 注意:要导入到数据库中要保证有对应的两个python库,没有的话在对应环境中执行下面语句装一下:
- pip install sqlalchemy
- pip install pymysql
- 举例:
日期数据处理
1、日期解析
-
日期解析举例:
-
日期组合举例:
-
提取日期举例:注意dt表示时间类型,类似于字符串的str,在dt中集合了时间处理的相关方法
-
日期切片:
-
重采样举例:
- 说明:重采样相当于按照日期分组聚合,重采样的前提是把日期对应的列先设为索引
- 按年统计:
- 按季度统计:
- 按月统计:
-
OHLC函数:一般股市用的比较多
样本采样
1、sample函数
tb = pd.DataFrame(
data=[['貂蝉', 4],
['西施', 3],
['王昭君', 2],
['杨玉环', 1]],
columns=['贵妃', '权重'])
# n:抽样数量
# frac:抽样比例,如果设置抽样比例就不用设置n,抽样比例为0.5,表示从所有样本中抽出1/2
# replace:是否重复抽样,默认否
# weights:抽样权重,选取数据中某一列作为抽样权重,权重大的抽样概率高
# random_state:随机种子
# axis:指定轴,一半不设定,就按照默认的抽行数据