箱形图,也叫盒须图,盒式图,boxplot。有95%的把握猜中你现在已经不太确定,这图中有几条线?每条线代表什么意思?中间的那条线代表的究竟是算数平均数还是中位数,还是众数?
再问的深点,箱形图存在的意义为何?之于数据分析的实践意义在哪里?
接下来,带你从概念开始,一步步剖析箱形图以及背后的故事。
1.什么是箱形图?
箱图的发明者John Tukey。Tukey先生1915年出生于美国麻省的新贝德福德。他22岁的时候在布朗大学获得了硕士学位,之后又在普林斯顿大学拿到了化学博士。有趣的是,他并没有直接开始让他青史留名的统计学工作,而是在二战期间进入了火控研究室,在那里,大量武器相关的研究最终都转而需要先解决统计学问题。从此,Tukey改变了自己的人生方向,一代统计学大师即将出现。
箱形图最大的优点就是不受异常值的影响,可以以一种相对稳定的方式描述数据的离散分布情况。默念两遍,箱形图不受异常值的影响,这很重要。
为了更形象的说明,我们先画个图,看图说话。使用工具RStudio,假设有数据集合num = c(1,6,2,7,4,2,3,3,8,25,30),直接通过boxplot(num)画图,如下:
首先从外观上感知这是个什么东东。奥,中间是个矩形块,可以把它想象成一个盒子。盒子里面有一条线,外面有两个形似T的东西。哦,最外面还有两个空心的圆圈,这