FacetGrid与调色盘(参看语雀)
前言:有针对性的,选择不同的分析方式去整合数据,描述统计学:
- 对比分析:同期对比,环境对比等。
- 分类分析:字段分为哪些类别,每个类别出现了多少次,哪个类别的权重是最大的。哪个类别是可以忽略的。哪个类别是干扰项。
- 分布分析:例如身高,年龄,体重只要量足够大,就趋近于一个正态分布,要找到一种数据分布的规律。看有没有已经成型的模型帮助我们了解掌握这个数据他出现的概率。如果数据有偏态分布,例如左偏,那我们对于数据的填充,对空值的选择或填充都不同。
- 相关性分析:两个字段的相关性,例如:同一个楼盘,一个房子越大,房价越高。得出房子的面积跟他的价格呈现正相关的关系。
相关系数:协方差矩阵。例如特征较多如5个特征与5个特征之间两两之间的相关性,那么会得到一个协方差矩阵。
辅助我们了解数据最常用方法,通常将数据进行可视化来完成。
05-1Seaborn介绍
Seaborn介绍
Seaborn 是一个基于 matplotlib(根据图表画图) 且数据结构与 pandas 统一的统计图制作库(根据某列就可以画图)。他提前已经定义好了一套自己的风格。然后也封装了一系列的方便(不灵活&#x