散点图可以让一大堆令人困惑的散乱数据变得通俗易懂,并能让你从这些庞杂数据中发现一些表面上看不到的关系,数据量越大,从散点图的分布中越能看出来一些规律。
什么是散点图
在直角坐标系中,用两组数据构成多个坐标点,这些点的分布图就是散点图,根据点的分布及大致趋势,判断两个变量之间是否存在某种关系。
制作散点图
在编制散点图时,至少要有两组数据,分别放在X轴和Y轴上,下面利用身高和体重的数据,看看在PowerBI中散点图是如何生成的。
创建散点图的时候,如果只是把字段拖进X轴和Y轴,你会发现只出来了一个点,因为这个时候,PowerBI默认把这两个字段的数据进行聚合运算了,所以需要另外一个不含重复值的字段放到“详细信息”中,告诉PowerBI每个数据记录均显示为一个点,不要进行聚合,这个字段可以简单使用行号或索引,如果原始数据没有这个字段,可以回到查询编辑器中添加“索引列”。
这个散点图只有身高和体重两个变量,根据这些点的分布,明显可以看到二者之间存在正相关的关系,身高越高,体重越重,符合我们的日常认知。
增加一个变量
在这个散点图中,我们还可以增加一个变量,比如把性别考虑进去。把字段[性别]放到“图例”中,
在男性和女性的数据点分布上,存在明显的分布趋势,除了少部分的离散数据点,男性的身高体重数据明显在女性之上,也和常识相符。
添加趋势线
在散点图的分布中发现存在一定的趋势,需要画个趋势线,PowerBI中也可轻松做到,
默认是所有数据点的走向线,在【合并系列】中选择“关”,就出现了分类的数据走向线,在这个散点图中,女性和男性身高体重的变化关系分别画出了走向线:
从这两条走向线还可以发现个很有意思的规律,女性斜率高于男性,同样的体重差,女性的身高增加的更多,表示女性身高对体重更为敏感,也就是说,女人更注重身材,不同的体重就是对应不同的身高。
最后要注意的是,利用散点图我们可以发现两组数据存在一定的相关关系,但不要因此就认为二者有因果关系,后者更难以证实。