- df.head()/tail() 查看头/尾5条数据;
- df.info 查看表格简明概要;
- df.dtypes 查看字段数据类型;
- df.index 查看表格索引;
- df.columns 查看表格列名;
- df.values 以array形式返回指定数据的取值;
- list(dt.groupby("字段A")) groupby会把数据框按指定的字段分成几个小块,转化成列表,即可输出各部分的模块展示;
- groupby的聚合函数:
函数名 说明 count 分组中非NA值的数量 sum 非NA值的和 mean 非NA值的平均值 median 非NA值的算术中位数 std、var 无偏(分母为n-1)标准差和方差 min、max 非NA值的最小值和最大值 prod 非NA值的积 first、last 第一个或最后一个非NA值 - groupby的参数:
by:mapping, function, str, or iterable。 用于确定groupby的组。如果by是一个函数,那么会调用对象索引的每个值。如果传递了一个dict或Series,则将使用Series或dict的值来确定组。一个str或者一个strs列表可以通过自己的列传递给group。 axis:轴,int值,默认为0 level:如果axis是一个MultiIndex(分层),则按特定的级别分组。int值,默认为None as_index:对于聚合输出,返回带有组标签的对象作为索引。as_index=False实际上是“SQL风格”分组输出,boolean值,默认为True。 sort:排序。关闭此功能以获得更好的性能。boolean值,默认True。 group_keys:当调用apply时,添加group key来索引来识别片断。boolean值,默认True。 squeeze:尽可能减少返回类型的维度,否则返回一致的类型。boolean值,默认False。
-
dt.groupby(['版本','级别level','星期','时段'],as_index=False)['供应量'].count(),则可以显示excel数据透视表的功效
- dt.columns=['','','']统一赋值重命名,或者使用rename对指定列进行修改
dt.rename(columns={'供需指数':'SDI均值'},inplace=True)
- 删除满足条件的行:drop删除一行的时候比较方便
fx1.drop(fx1[fx1['版本']=='进阶版LTO试听课'].index,inplace=True)
fx1=fx1.loc[(fx1['版本']!='进阶版LTO试听课'),:]
&表示并集,|表示或集,~表示与列出的条件相反,:表示希望保留所有列
- 删除满足条件的行后,重置索引:drop删除原索引,inplace替换原文件
fx1.reset_index(drop=True,inplace=True)
- 色阶配置:
import seaborn as sns # cmp=sns.light_palette('pink',as_cmap=True) # cmp=sns.color_palette('Pastel1_r',as_cmap=True) # cmp=sns.color_palette('Pastel2',as_cmap=True) cmp=sns.color_palette('Spectral',as_cmap=True) therm=df.iloc[:,:].style.background_gradient(cmap=cmp)
为excel表格配置色阶,可以用iloc选择对哪些区域生效,用pd.ExcelWriter进行保存即可
- 条件格式常用: