概述
在公司数据建设过程中,经常会使用和提到指标和标签,但是很多小伙伴对于两者的区别确不能讲清楚。实际上标签与指标一样,是理解数据的两种方式,在赋能业务上,两者同样重要。接下来将结合自身的理解,从定义、应用场景、分类等多个方面进行总结。
定义
指标在定义上,主要是对数据的度量,而标签则主要是人为的对数据进行概括性描述。
指标的定义
现代管理学之父彼得·德鲁克提出用管理促进企业增长,他讲过一句非常经典的话:“如果你不能衡量,那么你就不能有效增长。”
那么如何去衡量呢?
基于统一的标准去衡量业务,这个统一的标准就是指标,将业务通过可量化、可拆解的形式进行描述,通常是数值型数据。
例如:以淘宝网为例,GMV销售额这个指标就是用来衡量交易金额
标签的定义
基于原始数据进行语义化加工,人为的对业务含义进行概括性描述,标签在数据结构中包含:标签名称及其值。标签往往具备高度概括、相互独立及可枚举的特点。通常在画像应用场景中出现,很形象的描述就是给用户打标签。
举例
借用一个例子如:对小白进行打标,说他是个“大胖子”,就同时概括了身高172cm和体重150斤,而“长得跟李逵似的”,更是把五官、身材、气质等特征都概括进来了。
指标:身高172cm,体重150斤
标签:大胖子
标签与指标的应用场景
对于指标的应用场景,常见的就是公司运营,如报表,主要用来做监测分析,是以业务为导向的。
对于标签的应用场景,更多的是画像应用,通过对实体(用户、商品、帖子、设备等)的标注、刻画、特征提取和分类来划分群体,以应用场景为导向的,跟随业务需求变动。
通常在实际使用中,标签数据的一部分来源就是基于指标进行加工产生的,也可以理解成标签数据是指标的业务化、语义化。
例如:
指标:用户最近30天活跃次数,来打标流失用户这个标签
指标:用户最近7天消费次数及金额,来打标高价值用户
所以,标签体系的建设是非常重要的,不但能丰富数据分析的素材,更能直接推动分析成果落地。
标签与指标的分类
指标的分类
指标的分类主要有加工逻辑分类、业务分类(主题域)、层级等几种,实际使用中常常也联合起来进行分类。
加工逻辑分类
原子指标:
用于统计业务活动中某一业务状况的数值,主要是用于明确业务的统计口径和计算逻辑。
例如,用户充值,原子指标为充值金额。
派生指标:由原子指标、修饰词、时间周期三大要素构成,用于统计目标指标在具体时间、维度、业务条件下的数值表现,反映某一业务活动的业务状况。例如,统计最近一天_用户的充值金额
衍生指标:基于原子指标组合构建的,例如,arpu人均充值金额 = 充值金额 / 充值用户数
业务分类
一般是对某一类业务的抽象组合,在数仓可以理解成主题域或业务域。
例如:充值、消费等归类于交易域,例如发帖、评论等归于社交域。
标签的分类
标签的分类主要有加工逻辑分类、重要程度等几种,实际使用中常常也联合起来进行分类。
基于加工方式的标签分类
基础(统计类)标签:
是最为基础和常见的标签,例如:性别、年龄、城市、星座、近7日活跃时长、近7日活跃天数、近7日活跃次数、历史累计充值金额、ltv1等
规则类标签:
该类标签基于用户行为及确定的规则产生。例如,对应用内“高价值用户”这一口径的定义为“历史累计消费金额≥1万元”。
算法标签:
标签通过算法的机器学习挖掘产生,用于对用户的某些属性或某些行为进行预测判断。例如,根据一个用户的行为习惯判断该用户是男性还是女性、根据一个用户的社交习惯判断其对某帖子及主播的偏好程度。该类标签需要通过算法挖掘产生。
在项目工程实践中,一般统计类和规则类的标签即可以满足应用需求,在开发中占有较大比例。机器学习挖掘类标签多用于预测场景,如判断用户性别、用户购买商品偏好、用户流失意向等。一般地,算法的机器学习标签开发周期较长,开发成本较高,因此其开发所占比例较小。
总结
上面就是对指标和标签的一些理解,简言之指标更客观,注重事实,而标签则是对数据的描述,标签也是同样重要的。因为除了精准以外,标签数据业务化,更接近于日常,更易理解。