数据指标与标签在数据分析中的关系与应用

news2024/11/25 2:27:16

导读:分享数据指标体系的文章很多,但讲数据标签的文章很少。实际上,标签和指标一样,是数据分析的左膀右臂,两者同样重要。实际上,很多人分析不深入,就是因为缺少对标签的应用。今天系统的讲解下。

一、 何为指标,何为标签,两者有何区别?

1、从内容上看:指标通常描述客观事实,标签往往存在人为划分。

指标是用来定义、评价和描述特定事物的一种标准或方式,多为数值型。比如:新增用户数、累计用户数、用户活跃率等是衡量用户发展情况的指标;月均收入、毛利率、净利率等是用来评价企业经营状况的指标。

标签是人为设定的,根据业务场景的需求,对目标对象运用一定的算法得到高度精炼的特征标识,标签是经过人为加工后的结果。比如客群标签可以分为长尾客户、高净值客户;产品标签有高风险和低风险。标签并不是一个客观的事实,而是由人为的定义和客观事实结合得到的数据标签。其核心的目的是划分不同的实体群组。

从二者之间的关系来说,指标和标签之间是可以相互转化的。指标可以从标签中转化,比如高净值客户的迁移率,其中高净值客户和长尾客户都是标签,但在标签的基础上增加一个迁徙率,就由标签转化为了指标。

同样标签也可以从指标转化得来,比如说银行中常用的数据标签:私行客户(AUM>=1000万),其中 AUM 就是数据指标,不同银行的标签设定可能是不同的。

2、从分类和场景上看:指标和标签的分类原则不同,使用的场景也不同。

1.指标分类一般来说指标常用的分类是相对固定的,会将指标分为原子指标、派生指标和衍生指标三类。

  • 原子指标:不叠加任何维度,仅是对业务事实的最基本描述,通常是一些整体指标,通过SQL直接统计出来的,比如客户数、项目数、成本支出数等等……
  • 派生指标:就是原子指标叠加一个或多个维度。广州在建的项目数是在建的项目数叠加地域维度;目前湛江停工的项目数,就是在建项目数加上地域维度和时间维度。
  • 衍生指标:很多时候仅仅叠加维度还不够,有时候我们还需要不同指标之间互相计算,最常见的就是求平均和占比,比如平均的项目标的、在建的项目和总项目的占比、回款额和合同额的占比……这就是衍生指标,即通过原子指标或派生指标互相加工而来。

2.标签分类标签可分为事实标签、规则标签和模型标签。

  • 事实标签是描述实体的客观事实,关注实体的属性特征,如一个部件是采购件还是非采购件,一名员工是男性还是女性等,标签来源于实体的属性,是客观和静态的;
  • 规则标签是对数据加工处理后的标签,是属性与度量结合的统计结果,如货物是否是超重货物,产品是否是热销产品等,标签是通过属性结合一些判断规则生成的,是相对客观和静态的;
  • 模型标签则是洞察业务价值导向的不同特征,是对于实体的评估和预测,如消费者的换机消费潜力是旺盛、普通还是低等,标签是通过属性结合算法生成的,是主观和动态的。

3.指标使用场景

指标通常拆解使用。比如一个较大的指标:客户数,可以拆解到不同维度上,并且加以限定词,比如手机银行客户数、七日内客户数的增量等,主要是用来监测和评价业务的效果。

4.标签使用场景

标签通常归纳使用,用来刻画某一个群体的特征,可以是客户也可以是产品,其核心是分类,给予不同类别不同的经营策略。

具体举例说明:指标体系通常会首先定义一个或几个北极星指标,比如银行常年使用AUM 作为北极星指标,将北极星指标拆解到现金/存款、投资理财或其他业务模块,同时用户也可以拆解为活跃用户和非活跃用户等。以此基础可以梳理出整体的指标框架,从而指导业务。在标签的使用场景上更多的偏向一线的营销场景,包括客户的经营、精准营销和资格判断等。通过不同客户的标签将其分成不同的类别,并进行不同的活动、资格或者产品的推送。也可以给产品打标签,用来标识产品适合哪类人群,在平安银行口袋 APP 这样的平台就做到了千人千面,每个人进去看到的具体内容是不一样的,这就是通过标签去筛选圈定的。

二、 指标体系相关概念

数据指标就是将大数据之“大”的精髓给提炼出来,展现每日观察数据的使用者最迫切想要看到的统计量。数据指标体系并不是第三方服务公司的专利,只要对埋点科学地进行数据采集,每个成型的互联网公司都可以自己搭建数据指标体系。

数据之大,很多时候人们并不知从哪里着手,甚至弄不清自己到底想要什么数据,这时候数据产品经理这一角色应运而生。数据产品经理既要完成数据体系设计,让原本无序或庞杂的数据变得“规矩”,又要根据业务场景的变化不断调整项目内容,推进项目进度,推进数据指标体系的建设与迭代。

数据指标体系的规划是平台型数据产品经理必备的能力,这也是数据产品经理有别于其他产品经理和数据分析师的方面。

《荀子》有云:“水能载舟,亦能覆舟。”在公司日常运营过程中,数据指标体系就像是水,孕育着生命,承载着万物。科学的数据指标体系能指引公司在正确的道路上不断前进,或者使平淡无常的业务焕发新生,而不合理的数据指标体系可能使得业务方无所适从。

1、什么是数据指标体系?

在了解什么是数据指标之前,我们思考一下为什么会出现指标,它是为了解决什么问题。人类及科学的发展是与时俱进的,早期为了使自然科学的实验及结果更具统一性及方便标准化衡量,一些标准化的专业指标应运而生。

随着人类社会的发展,社会科学也越来越需要统计学来进行事物的衡量,一系列统计学指标也逐步产生了。随着新信息技术的发展,数据指标逐步被大众认可为衡量目标的方法。

从社会科学角度看,指标是统计学的范畴,用于数据的描述性统计。指标是说明总体数量特征的概念及其数值的综合,故又称为综合指标。

在实际的统计工作和统计理论研究中,往往直接将说明总体数量特征的概念称为指标。传统的指标有国内生产总值(Gross Domestic Product,GDP)、国民生产总值(Gross National Product,GNP)、居民消费价格指数(Consumer Price Index,CPI)、沪深300指数等。

1. 什么是数据指标?

数据指标有别于传统意义上的统计指标,它是通过对数据进行分析得到的一个汇总结果,是将业务单元精分和量化后的度量值,使得业务目标可描述、可度量、可拆解。

数据指标需要对业务需求进行进一步抽象,通过埋点进行数据采集,设计一套计算规则,并通过BI和数据可视化呈现,最终能够解释用户行为变化及业务变化。常用的数据指标有PV、UV等。

本文提及的指标是衡量目标的方法,指标由维度汇总方式量度组成(见下图)。

指标的构成

  • 其中,维度是指从哪些角度衡量,是看待事物的视角与方向,决定了根据不同角度去衡量指标。
  • 汇总方式是指用哪些方法衡量,是统计汇总数据的方式。
  • 而量度主要是明确事物的具体目标是什么,是对一个物理量的测定,也用来明确数据的计量单位。

比如,播放总时长是指用户在一段时间内播放音频的时长总和(单位:分钟)。按照上述拆解,维度是指筛选的一段时间,汇总方式为计算了时间长度的总和,而量度就是统一的单位—分钟数。

这里,我们可以理解为指标是由这几个方面构成,相当于英文的构词法,前缀、后缀等共同形成了一个单词。

2. 什么是指标体系?

体系化的本质是将数据指标系统性地组织起来,具体会按照业务模型、按标准对指标不同的属性分类及分层。当然,不同的业务阶段、不同业务类型会有不同阶段的划分标准。

数据指标体系含有十分丰富的统计量,从宏观上看,它是一个相对全面的有机整体;从微观上看,每个数据指标都有其特定含义,反映了某一细节的客观事实。不同的数据指标定义不同,逻辑也不同,这些各种各样的统计量共同构成了数据指标体系,使其产生不可磨灭的价值。

总的来说,数据指标体系是对业务指标体系化的汇总,用来明确指标的口径、维度、指标取数逻辑等信息,并能快速获取到指标的相关信息。

2、数据指标体系的价值

数据指标体系是业务数据标准化的基础,其对指标进行了统一管理,体系化是为了方便统一修改、共享及维护。

宏观方面,数据指标体系建设是数据中台建设的重要一环,不仅符合“创新驱动”的意识,更是企业实现自身“数据驱动”发展的重要途径。

随着大数据和人工智能技术的发展,很多企业选择借助信息技术实现转型升级。在大数据时代早期,大部分数据并没有被充分地挖掘分析和利用。虽然数据规模非常大,但是却很难利用这些数据创造价值。而数据中台的提出及数据指标体系的构建,使得数据产生了实际价值。

有了数据指标,人们做决策时不再是按照经验“拍脑袋”,而是看看数据是怎样呈现的,能够及时基于数据进行战略调整及决策规划。

数据指标体系的价值主要体现在全面支持决策、指导业务运营、驱动用户增长,同时统一统计口径(如下图所示)。其中,作为压轴作用的统一统计口径对于数据指标体系而言具有战略意义。

数据指标体系的价值

在一个整体中,如果不能统一口径,那么一切分析及对比的参考价值就会显得无意义,各方也会陷入公说公有理,婆说婆有理的尴尬局面。由此说明,对于衡量整个公司的业务价值而言,建立一套统一标准的数据指标体系的作用不言而喻。

1. 全面支持决策

数据指标极具参考价值,公司的管理层为了更准确地进行战略决策,需要搭建完备的数据指标体系。一个相对全面的数据指标体系,可以让管理者对公司的发展从数据层面有一个比较客观的认知,而不是管中窥豹,这样在进行战略决策时,可以保持相对理性。

而对于新业务的洞察,也可以不断融入新的数据指标,丰富指标体系,灵活且全面地把握业务发展趋势,为未来的决策提供借鉴。

2. 指导业务运营

不懂数据的产品不是好运营,为了便捷地了解产品现状及业务效果,指标体系中会有很多拆解的细分指标,这些数据的变动反映的是用户对于运营情况的最新反馈,为运营的业务决策提供了数据支持。用户运营可以根据这些数据,了解用户的喜好,决定下一步的运营策略和活动开展。

例如,对于阅读行业来说,内容编辑会基于自己对内容的认知,将一组有共性特征的书籍组成一个书单推送给用户,那么指标体系中也会有相应的指标反映用户对这个书单的偏好。内容编辑就可以通过这些指标,了解用户的偏好,决定下一步是否要继续尝试这种类型的专题。

3. 驱动用户增长

最近最火的词莫过于用户增长,数据指标体系中的用户行为数据,可以让产品及运营人员对用户的行为路径和喜好模式有一个比较深入的理解。剖析用户的行为特征,助力用户价值的提升,让产品及运营更聚焦于产品细节的优化,更好地进行监测,提升用户留存及转化。

人们在分析和挖掘用户行为的过程中,也许会发现不少新的用户增长点。体系化的指标结合了用户的场景,且多个不同的指标和维度可以串联起来进行全局分析,解决了非体系化指标无法串联的痛点。

公司在深入进行数据分析后,可能会在原有业务中发现某个点潜藏着巨大商业价值,从而单独把这块业务重点推进,实现用户增长的二次腾飞。

4. 统一统计口径

从技术角度来看,数据中台是为了汇总与融合企业内的全部数据,甚至外部数据,打破数据隔阂,解决数据标准与口径不一致的问题。数据指标体系化有个好处是可以实现指标的统一管理,实现统一的统计口径,避免定义模糊和逻辑混乱,影响数据质量。

同时,完备的数据指标体系也可减少重复统计的问题,从而避免日志上报产生的数据冗余和重复分析产生的服务器资源浪费。

三、 标签体系相关概念

标签由标签和标签值组成,打在目标对象上,如图所示。

打标签示例

标签由互联网领域逐步推广到其他领域,打标签的对象也由用户、产品等扩展到渠道、营销活动等。

  • 在互联网领域,标签有助于实现精准营销、定向推送、提升用户差异化体验等;
  • 在行业领域,标签更多助力于战略分级、智能搜索、优化运营、精准营销、优化服务、智慧经营等。

标签分为事实标签、规则标签和模型标签,如图所示。

三种类型的标签

  • 事实标签是描述实体的客观事实,关注实体的属性特征,如一个部件是采购件还是非采购件,一名员工是男性还是女性等,标签来源于实体的属性,是客观和静态的;
  • 规则标签是对数据加工处理后的标签,是属性与度量结合的统计结果,如货物是否是超重货物,产品是否是热销产品等,标签是通过属性结合一些判断规则生成的,是相对客观和静态的;
  • 模型标签则是洞察业务价值导向的不同特征,是对于实体的评估和预测,如消费者的换机消费潜力是旺盛、普通还是低等,标签是通过属性结合算法生成的,是主观和动态的。

标签管理分为标签体系建设打标签1、标签体系建设

  1. 选定目标对象,根据业务需求确定标签所打的业务对象,业务对象范围参考公司发布的信息架构中的业务对象。
  2. 根据标签的复杂程度进行标签层级设计。
  3. 进行详细的标签和标签值设计,包括标签定义、适用范围、标签的生成逻辑等:
  • 事实标签应与业务对象中的属性和属性值保持一致,不允许新增和修改;
  • 规则标签按照业务部门的规则进行相关设计;
  • 模型标签根据算法模型生成。

2、打标签

1. 打标签数据存储结构

打标签是建立标签值与实例数据的关系,可以对一个业务对象、一个逻辑数据实体、一个物理表或一条记录打标签。

为了方便从“用户”视角查找、关联、消费标签,可增加用户表,将标签归属到该“用户”下,这里的“用户”是泛指,可以是具体的人,也可以是一个组织、一个部门、一个项目等。

2. 打标签的实现方法

  • 事实标签:根据标签值和属性允许值的关系由系统自动打标签。
  • 规则标签:设计打标签逻辑由系统自动打标签。
  • 模型标签:设计打标签算法模型由系统自动打标签。

总结:

本文首先区分了标签和指标两个概念的一些异同;后面分别介绍了指标和标签体系的一些相概念,指标体系的梳理及应用价值等,标签要根据实际的应用场景出发,建立体系化的标签。

免责声明:本文素材和观点均基于当前可获得的资料和作者的个人理解进行撰写。本文章及其中所涉及的内容仅供读者参考和交流之用,并不构成任何专业建议、投资意见或法律指导,如文中有涉及您的著作权或所有权问题,请及时联系我们修改或下架文章,谢谢~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2247026.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用Electron将vue2项目打包为桌面exe安装包

目录 一、下载electron模板项目 【electron-quick-start】​ 二、打开项目,安装所有依赖 三、在打exe包的时候报错是因为没有,需要检查并安装之后重新打包; 四、经过这么疯狂的一波操作之后,就可以打包出你想要的exe安装包&am…

MySQL基础大全(看这一篇足够!!!)

文章目录 前言一、初识MySQL1.1 数据库基础1.2 数据库技术构成1.2.1 数据库系统1.2.2 SQL语言1.2.3 数据库访问接口 1.3 什么是MySQL 二、数据库的基本操作2.1 数据库创建和删除2.2 数据库存储引擎2.2.1 MySQL存储引擎简介2.2.2 InnoDB存储引擎2.2.3 MyISAM存储引擎2.2.4 存储引…

Linux之NFS共享文件操作

一、注意点 以下操作使用root用户 代理端需要访问服务端的2049、111端口二、nfs下载 # 服务端和代理端都要安装 yum –y install rpcbind yum –y install nfs-utils三、配置共享目录-【服务端】 *修改/etc/exports文件,追加以下内容 /home/app_adm/test ip1(in…

C#学习笔记——窗口停靠控件WeifenLuo.WinFormsUI.Docking使用-腾讯云开发者社区-腾讯云

C#学习笔记——窗口停靠控件WeifenLuo.WinFormsUI.Docking使用-腾讯云开发者社区-腾讯云 C#学习笔记——窗口停靠控件WeifenLuo.WinFormsUI.Docking使用 发布于 2021-06-10 00:10:59 7.1K0 举报 文章被收录于专栏:c#学习笔记 一、介绍 DockPanelSuite是托管在…

杰发科技AC7840——EEP中RAM的配置

sample和手册中示例代码的sram区地址定义不一样 这个在RAM中使用没有限制,根据这个表格留下足够空间即可 比如需要4096字节的eep空间,可以把RAM的地址改成E000,即E000-EFFF,共4096bytes即可。

web-03

CSS回顾 选择器 标签选择器 标签{}ID选择器 标签中定义ID属性。 #ID值{}类选择器 标签中使用class属性 .类名{}关于DIV/span div任意的大小的长方形,大小css: width, height控制。—换行 span-- 一行内 CSS常用属性 width/height 宽度/高度 定义&…

CI配置项,IT服务的关键要素

随着现今数字经济的不断发展,逐渐成熟的IT 基础设施已不再是简单的竞争优势,而已成为企业生存和发展的基石。然而,仅仅拥有强大的基础设施是不够的。为了保障 IT 服务的平稳运行和持续交付,企业还需要重点关注 IT 服务的核心构建模…

ApiChain-编写迭代单测用例

项目地址:ApiChain 项目主页 写单测用例,就像画一幅有向不循环的图,图中的每个节点是这个单测用例的每一个步骤,连线代表着数据的流向,这幅图通常有一个或者多个起点,但通常只有一个终点。起点的数据来源于…

九、FOC原理详解

1、FOC简介 FOC(field-oriented control)为磁场定向控制,又称为矢量控制(vectorcontrol),是目前无刷直流电机(BLDC)和永磁同步电机(PMSM)高效控制的最佳选择…

企业OA管理系统:Spring Boot技术实现与案例研究

摘要 随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。本文介绍了企业OA管理系统的开发全过程。通过分析企业OA管理系统管理的不足,创建了一个计算机管理企业OA管理系统的方案。文章介绍了企业OA管理系统的系统分析部…

【tensorflow的安装步骤】

创建一个虚拟环境 conda create -n tensorflow python3.6激活虚拟环境 conda activate tensorflow使用镜像源下载 pip install tensorflow1.15.0 -i https://pypi.tuna.tsinghua.edu.cn/simple/特别特别重要的点!!! 别用WiFi或者校园网下…

网络安全-web架构-nginx配置

1. nginx访问: 访问的是index.html, 访问ip访问的资源就是在/usr/share/nginx/html中; 当nginx不认识,浏览器认识的话,浏览器会自动渲染。 当nginx认识,浏览器不认识的话,浏览器会把它加载成…

ES6 模块化语法

目录 ES6 模块化语法 分别暴露 统一暴露 ​编辑 默认暴露 ES6 模块化引入方式 ES6 模块化语法 模块功能主要由两个命令构成:export 和 import。 ⚫ export 命令用于规定模块的对外接口(哪些数据需要暴露,就在数据前面加上关键字即可…

基于Java Springboot高校洗浴管理系统

一、作品包含 源码数据库设计文档万字PPT全套环境和工具资源部署教程 二、项目技术 前端技术:Html、Css、Js、Vue、Element-ui 数据库:MySQL 后端技术:Java、Spring Boot、MyBatis 三、运行环境 开发工具:IDEA/eclipse 数据…

stm32如何接收舵机的控制信号(而不是控制舵机)

看到很多如何stm32用pwm信号控制舵机的文章,老生常谈了 我来写一个stm32接收pwm信号的例子 ,这个pwm信号是用来控制舵机的 背景: 我需要接收航模接收机的,用来控制舵机的pwm信号, 得到这个信号后,做其他事情. 初版代码 pwm.h#ifndef _pwm_H #define _pwm_H#include "s…

Postman之pm.test断言操作

系列文章目录 1.Postman之安装及汉化基本使用介绍 2.Postman之变量操作 3.Postman之数据提取 4.Postman之pm.test断言操作 5.Postman之newman Postman之pm.test断言操作 1.断言方法2.连接符3.条件判断符 用于验证请求的响应数据是否符合预期 1.断言方法 pm.test():…

MySQL面试题补

内连接和外连接的区别: ○1.功能和用法不同:内连接是连接两表都满足情况的数据;而外连接是以一边的表为主表,另一个表只显示匹配的行; ○2.用途:内连接一般是用于检索不同表需要根据共同的列值进行匹配的&a…

查看浏览器的请求头

爬虫时用到了请求头,虽然可以用网上公开的,但是还是想了解一下本机浏览器的。以 Edge 为例,其余浏览器通用。 打开浏览器任一网页,按F12打开DevTools;或鼠标右键,选择“检查”。首次打开界面应该显示在网页…

小R的二叉树探险 | 模拟

问题描述 在一个神奇的二叉树中,结构非常独特: 每层的节点值赋值方向是交替的,第一层从左到右,第二层从右到左,以此类推,且该二叉树有无穷多层。 小R对这个二叉树充满了好奇,她想知道&#xf…

蓝牙定位|三维空间情况下的仿真例程(四个蓝牙基站的情况,附源代码)MATLAB程序

这段代码通过RSSI信号强度实现了在三维空间中的蓝牙定位,展示了如何使用锚点位置和测量的信号强度来估计未知点的位置。代码涉及信号衰减模型、距离计算和最小二乘法估计等基本概念,并通过三维可视化展示了真实位置与估计位置的关系。 文章目录 蓝牙定位…