pandas作为爬虫中最重要的包之一,我们要想学好爬虫,就必须要深入了解pandas
直接上代码
import pandas as pd
import numpy as np
data = pd.DataFrame(np.arange(16).reshape((4,4)),
index=['a','b','c','d'],
#如果不写列索引默认为0,1,2,3
columns=['a','b','c','d'])
print(data)
#drop()删除索引以及对应的数据
# new_df = data.drop('a',axis=0)
# print(new_df)
#
# new_df = data.drop('d',axis=1)
# print(new_df)
#loc与iloc的对比
#loc是轴标签
#iloc整数索引
print('使用loc取的是行索引的名称')
print(data.loc['b'])
print('使用iloc取的是行索引的下标')
print(data.iloc[1])
#排序
#DataFrame 可以根据任意一个轴的索引进行排序
frame = pd.DataFrame(
#shape可以查看数组的结构
#reshape可以改变数组的结构
np.arange(8).reshape((2,4)),
#行索引
index = ['three','one'],
#列索引
columns=['c','d','a','b']
)
print(frame)
#对行排序
print(frame.sort_index(axis=0))
#对列排序
#ascending默认值为True,相当与从小到大排序
#修改为False则从大到小排序
print(frame.sort_index(axis=1,ascending=False))
# 按值排序并且对列排序
#by='a'指定对列a排序
print(frame.sort_values(by='a',ascending=False))