本篇的思维导图:
探索性数据分析:数据的检验
数据检索,则是对数据深层次的探索或挖掘,用于验证数据是否服从某种假设,这部分内容将以数据的正态性检验、卡方检验和t检验为例,结合Python讲解具体的使用方法。
正态性检验
统计学中的很多模型或检验都需要数据满足正态分布的假设前提,例如线性回归模型中假设残差项服从正态分布(其实质就是要求因变量y服从正态分布),两样本之间的t检验或多样本之间的方差分析均要求样本服从正态分布。所以,在碰到这些模型或检验时就需要验证样本是否服从正态分布,关于正态分布的检验通常有两类方法,一类是定性的图形法(如直方图、PP图或QQ图);另一类是定量的统计法(如Shapiro检验、K-S检验等)。
直方图法
基于直方图既可以得到数据的集中趋势,也可以直观地发现数据的分布特征。本节将在直方图的基础上添加核密度曲线(