问题1 什么是数据模型?
数据模型反映在数据库中就是一张表,该表把他分开来看有以下关注的点。
(1)主键:表明该表主要的分析对象,比如我们的分析对象是订单、是商品、是门店,那么主键就是订单id,商品id,门店id等
(2)颗粒度:数据的颗粒度是指数据的 “粗细”,也就是我们看数据的视野的大小,或者说格局的大小。反应表中一行数据所代表的细节程度,简单理解就是该行数据反应了什么样的业务,具体到哪种细节程度。也是我们进行分析、汇总、关联的最小单元。
例如一个电商公司,同样是看GMV,也就是总销售额,CEO关注的可能是今年总的GMV是多少,而业务老板关注的可能是每个月的GMV如何,具体到某个小团队,关注的点可能就是某些商品,每天的GMV如何了。数据颗粒度最常见的划分是时间
分析对象(主键)+ dt 共同构成了数据的颗粒度
例如:某个门店(对象)每月(时间)的GMV
(3)关系:构建实体与实体之间的关系,有一对一,一对多,多对多。比如门店与顾客之间的关系,属于1对多,一个门店有多个顾客来购买商品。
(4)行为指标:即指标、度量。用来描述该对象发生了什么事情。你如XX顾客在该门店近一个月购买了多少件商品。
本质是一种面向对象思想,对象里面有属性和方法,对象即实体,对应数据库中的表模型,对象由主键来确定,属性即表中的维度,方法即行为指标。
问题2:颗粒度与维度之间的区别?
维度:指看待事物不同的角度。可以理解为对象的属性,是对同一实体更细粒度的拆分。
比如我们小学的时候就学过 “横看成岭侧成峰“,说的就是从不同角度来看一座山,会得到不同的结论。在做数据分析时也是一样的。分析一个活动,或者一个策略对用户的吸引时,如果我们以新增用户数作为分析的指标,我们可以从以下几个维度进行拆分:
- 时间维度:拆分为天、月、季度、年
- 性别维度:男性、女性、未知
- 受教育程度:小学、中学、大学、研究生、博士、其他
通过维度的分解,我们可以看到每个部分的变动,和整体的变化趋势是否相同,是否存在不同,而哪些不同点往往会成为我们接下来分析的重点。
是不是会有同学发现,颗粒度和维度有一些相似,例如“时间”这个要素,在两个部分都出现了。那么颗粒度和维度的主要区别在哪呢?
颗粒度和维度的本质区别在于拆分的模式不同
颗粒度是一种纵向的拆分模式,按业务实体,业务过程进行纵向拆分,不同的颗粒度都代表着不同的聚合程度。
- 维度是一种横向拆分的模式。是在同一对象(实体)下进行的横向拆分,指的该对象的水平扩展能力,按不同维度展开分析。
- 比如实体对象X=A+B+C+D,对象X可以按照A,B,C,D四个维度进行拆分出来进行分析,而将所有的维度组合又可以形成X整体。对象Y=1+2+3+4,1,2,3,4属于实体Y的维度,而对象X,Y则属于不同的颗粒度。
问题3:什么是指标,指标的具体含义是什么?
指标定义:指标是对业务发展现状的描述和度量。作用:是对当前业务发展好坏的评价。本质上他是一种度量(mesuare《=》metric),是数据分析的基础。
指标意义:实际上是业务固化下来的产物,可以长期监控业务发展趋势,评价业务现状。指标是数据部门与业务部门沟通的桥梁和术语,数据最终的呈现结果即为指标,没有指标数据是没有灵魂的。
指标的作用是“度量”业务,可以从三个角度对指标进行拆解:
指标=维度+统计口径+业务目标。
维度:从什么角度去衡量问题。
统计口径:用什么方法去统计问题。
业务目标:目标是什么。
下面举两个例子。订单量是指统计周期内,用户完成支付的订单数量总和。从维度、统计口径、业务目标三个角度将订单数拆解。
订单量 = 统计周期内,用户完成支付的订单数量总和
维度:用户完成支付订单数量来衡量
统计口径:订单数量总和
业务目标:完成支付订单数。
指标分类:原子指标、派生指标、衍生指标。一般日常使用的即为派生指标,派生指标=原子性指标+时间段+修饰词,三者缺一不可。