1、定义
什么是Pandas:Pandas是Python中用于数据分析和挖掘的基础模块,它提供了丰富的功能和方法,使用 Pandas 包可以完成数据读入、数据清洗、数据准备、图表呈现等内容,使普通的非数据专业人员也能够处理和分析大型数据集,展示数据之间的关联关系。
2、特点:
1、pandas模块是在numpy的基础上构建的,速度快(层算法都用 Cython优化过)、有大量直接操作每个元素的函数;
2、常常和Matplotlib,seaborn,statsmodels,scikit-learn等包一起使用;
3、相比于numpy,pandas更擅长处理表格型(Tabular data)数据,表格中每列数据类型可以不一致,numpy数组规定数据类型需要一致;
4、主要有两种数据结构:一维Series(类似numpy.ndarray)带行标签,二维DataFrame(类似二位表格),同时带行标签和列标签;
关于pandas的使用可以在这里搜索,点击戳:https://pandas.pydata.org/pandas-docs/stable/reference/index.html 。
3、安装:
和其他的模块一样使用简单的命令,既可以安装到内存,
pip install pandas
在pandas中,有两种数据类型,分别是Series对象、DataFrame对象,这可以是Python的外置数据类型,需要操作和方法都是基于此两种类型的基础之上。
4、Series对象创建
Series:可以认为是一维数组,和Numpy中的一维array类似。,是由一组数据(各种 NumPy 数据类型)以及一组与之相关的索引组成。
可以由一组数据产生简单的 Series 对象,用值列表生成 Series ,而Pandas 默认自动生成整数索引,也可以指定索引值。
在Series(含下面的DataFrame对象)中存在两个属性 values 和index,values:是Series对象的,是原始数据。index:对应了Series对象的索引对象,可以来定位values的具体值。
创建一个Series一维数组,索引为缺省值。
函数:
pd.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
data:python中的字典、可迭代对象、numpy.ndarry或者标量值
index:可选项,默认为列表[0, ..., len(data) - 1],可以自己传入
dtype:可选项,设置数据类型
可以通过指定数据集和索引集来创建serise数据类型。
举例:
datadf=pd.Series([10,20,30,40,50,60])
datadf
输出:
0 10
1 20
2 30
3 40
4 50
5 60
dtype: int64
索引取元素值:
print(datadf[2:4])
print(datadf[2])
输出:
2 30
3 40
dtype: int64
30
取出全部索引和值域:
datadf.index
输出:RangeIndex(start=0, stop=6, step=1)
datadf.values
输出:array([10, 20, 30, 40, 50, 60], dtype=int64)
建立表,指定索引值
datadf=pd.Series([10,20,30,40,50,60],index=['a','b','c','d','f','g'])
datadf
输出:a 10
b 20
c 30
d 40
f 50
g 60
dtype: int64
print(datadf['c'])
输出:30
pandas.Series类似于numpy.ndarry的性能,可以查看数据类型(dtype)、形状(shape)、维度(ndim)、元素个数(size)、索引、切片、布尔过滤等。
本部分介绍了python语言的pandas模块的定义、特点概念以及一维表格series的调创建和初步元素的访问,为深入学习数据框打下基础。
欢迎点赞、收藏和关注。--------现在码字太难了。