多级聚合
如何使用查询生成器对多个部分提出问题。
许多分析问题只需四个步骤即可回答:
- 连接需要的表得到需要的信息。
- 过滤数据使其仅包含期望的记录。
- 分组和聚合这些数据,创造你所需要的价值。
- 可视化结果,方便直观的理解数据告诉了你什么。
不过,查询并不一定要到此为止:Metabase允许您一步一步地添加更多的过滤器和计算更多的摘要。为了了解这是如何工作的,让我们跟踪分析人员可能要经历的步骤,同时探究每种类别的商品每周售出多少。
我们首先统计示例数据库每周有关的销售信息,通过Orders
表中的产品和类别Products
表
,所以我们通过匹配Product ID来连接这些。目前我们想知道所有的产品类别,所以我们不需要过滤这些数据,但是我们需要对它进行分组和汇总,以便按类别计算每周的总数(图1)。
我们可以把结果想象成时间序列用折线图来获得我们以前没有的洞察力(图2)。
但是,让我们进一步添加另一个过滤器之后从数据中取出小部件的摘要步骤。当我们返回到笔记本编辑器并单击添加筛选器按钮在编辑器的底部,它显示了三列在汇总数据中:Created At
, Category
和Count
点击几下,我们就可以创建一个过滤器,删除类别为widget的行(图3)。
如果我们保存过滤器并可视化数据,我们将得到一个结果表。如果从可视化设置中选择折线图,那么图表现在只显示我们感兴趣的三个产品类别的线(图4)。
现在假设我们想知道这三类产品的平均每周销售量。我们已经按类别计算了每周销售额,所以我们要做的就是返回到笔记本编辑器,单击汇总按钮,选择Average,然后告诉Metabase我们要平均Count
分组依据Category
(图5)。
我们的可视化现在正是我们想要的:每周平均售出的dooickey、gadget和gizmo的数量(图6)。
生成此表的完整问题如图7所示:
还有其他方法可以计算这个结果:例如,我们可以在计算第一个摘要之前过滤掉小部件(大多数分析师认为这是一个最佳实践,因为在早期减小数据集的大小可以提高性能)。重要的一课是,我们可以一步一步地构建洞察力,因为每个答案都指向一个新问题,而Metabase允许我们在操作发生时逐个添加操作。我们不必事先计划好所有事情:如果我们发现我们总是从相同的操作开始,我们可以单独保存这些操作,如本文所述SQL代码片段与保存的问题与视图.