货拉拉0-1数据指标体系构建与应用

news2024/9/23 7:24:14

目录

一、背景

二、指标体系搭建

2.1 指标设计

2.2 指标体系搭建

2.3 指标维度拆解

三、指标标准化建设

四、指标元数据管理

五、指标应用&未来规划


   原文大佬介绍的这篇指标体系构建有借鉴意义,现摘抄下来用作沉淀学习。如有侵权请告知~

一、背景

    指标体系是指一系列维度、有组织以及结构的指标集合。构建指标体系是为了公司业务目标落地做辅助决策,以及监控业务运行的稳定性情况等。 具体从业务,技术及产品这三个视角来阐述指标体系构建中的痛点:

1. 业务视角:

  • 可信任性:业务口径不一致,导致指标数据不一致,影响到业务部门对数据的信任感;
  • 可理解性:业务术语不一致,导致不同人对业务的理解不一致,从而导致数据存在略微的差异,增加沟通成本;
  • 可衡量性:指标与业务的真实相关程度,能否准确衡量业务的变化,指导目标的达成;
  • 可追溯性:随着业务的发展,业务以及数据口径的变更,历史较难回溯;

2. 技术视角

  • 数据稳定性:数据的产出是否稳定及时;
  • 数据质量:数据是否准确,完整,一致。

3. 产品视角

  • 可访问性:数据是否易于访问;
  • 合规性:使用是否安全合规,如何防止数据泄露的风险等。

二、指标体系搭建

2.1 指标设计

针对上述痛点,我们从以下三个方面去解决:

  • 解决业务痛点:在指标设计时首先选取核心业务成体系化的来搭建指标体系,并将整个建设流程标准化;
  • 解决技术痛点:将数据研发流程规范化,把握好数据模型的业务扩展性及ETL的性能问题,并做好数据链路及质量监控;
  • 解决产品痛点:将建设的元数据产品化,数据的使用做到服务化。

    对于建设范围:先聚焦核心业务,快速将核心业务的指标体系搭建出来并落地应用,然后再迭代优化切忌刻意地追求指标的业务覆盖面,避免导致需求范围过大,实现周期太长,导致指标的应用落地严重延期。整个核心构建过程如上图中所示,目标是围绕赋能业务去设计指标。

2.2 指标体系搭建

   下面以货拉拉为例,简单介绍指标体系搭建的思路(例子与实际业务不一定相符,仅供参考):

  • 首先会制定业务的主要目标,然后依据参与人的业务轨迹梳理核心的业务过程;
  • 然后拆解负责各个核心业务的相关部门的具体目标,接着业务部门依此制定落地的方案或策略;
  • 最后为了指导目标达成,再梳理各业务具体的衡量指标。

2.3 指标维度拆解

 上图中列出了指标及维度拆解中的一些经典原则及常用数据模型。这里强调两点:

  • 遵循MECE原则,尤其是在底层数据模型的设计过程中,最好将维度和指标拆解地互斥且不交叉,这样有利于保证上层应用层维度及指标组合的灵活性,同时也有利于提升复用率、降低整体的计算及研发成本;具体的拆分方法参考如上图所示,二(多)分法、流程法等。
  • 需要深入理解各核心业务场景的常用数据分析模型(比如上图中 AARRR 等模型),结合自己公司的业务特点,选取合适的业务数据模型来搭建部门内部的指标体系。

三、指标标准化建设

指标体系建设的标准化流程可以参考以上流程图,重点强调的内容有以下两点:

  • 数据需求准入评审:为了解决业务口径描述不一致,业务口径转换为数据口径的质量问题,一定要成立一个指标评审组织,至少由业务方,数据分析人员,数仓研发人员这三部分组成,此项工作人力投入价值最大,直接影响后续研发的效率、交付质量以及是否返工修复数据口径等工作量。
  • 数据研发的标准化:为了数据模型设计工作的高质量开展,需要梳理好数据口径:核心工作内容是数据的维度及指标梳理,落地为指标维度矩阵,再进一步拆解到事实层(DWD)的维度及原子指标,这样可以更加准确得评估后续数据研发的工作量。

   指标体系建设过程中数据研发的工作重点:依据数仓的架构主要集中在汇总层各业务主题域的指标维度事实表的建设落地,其次是集市层,面向业务的多账期、跨业务主题域、衍生指标的建设工作等。

四、指标元数据管理

指标建设完成后,则需要进行指标元数据管理,主要有四部分内容:

  • 首先管理好指标建设流程;前期可以先采用 SOP 等文档落地,后续再产品化;
  • 其次管理好数据模型,包括偏向技术的物理模型和偏向业务的逻辑模型;
  • 然后管理好指标及维度的元数据信息,包括业务数据域、业务口径、数据口径、血缘关系等;
  • 最后将数据封装成服务,并将业务应用方的使用和调用信息登记管理起来,以便后期的服务稳定性分级管理及指标体系建设的业务收益回收等。

对于指标元数据管理方面,介绍以下三个相关定义:

  • 数据需求=时间+维度+指标

  • 指标=时间+修饰词+原子指标

  • 维度=通用维度+个性化的业务维度

 因此对应的具体管理内容主要是如上图所示的三部分元数据的管理,修饰词管理、指标管理和维度管理。

五、指标应用&未来规划

    对于指标体系的主要应用场景包括:业务报表和看板、特定的业务数据产品等,另外实际已落地的新场景是:结合 AI 大模型通过自然语言快速取数,具体框架如上图所示。

   具体应用场景功能设计上,对于衍生指标,即基础指标的四则运算、派生及衍生维度,关联父子维度,或者简单关联转化的维度,我们都是通过元数据配置来实现的,这样极大提高了数据应用的灵活性,并大大降低了数据及后端数据接口服务研发的成本,同时提高了需求响应的及时性。

    对于指标体系应用在未来的热门发展方向主要体现在通过自然语言快速取数、归因诊断及智能运营这三个方面:

  • 自然语言快速取数及简单可视化,在货拉拉已经接近落地,相关云厂商或者头部互联网公司也基本都有相关产品。这个场景的主要挑战是如何降低错误率,个人理解在这个场景中可以拒答,但是不能给出错误数据。
  •  诊断归因,则处于探索逐步落地阶段,前期主要先基于业务部门的分析经验来配置归因的逻辑来实现,后续再探索如何让大模型通过对行业业务的理解学习,结合数理统计分析算法来自主归因。
  • 智能运营场景,为了提高运营效率,进一步对 AI 大模型提出了更高的定制化能力要求。传统运营早已深入各行业公司的具体业务,主要是基于个人经验和历史沉淀的经验知识等,因此需要更深入理解行业及公司业务的运营知识。同时由于涉及到具体的运营策略及业务数据,对于这部分的数据安全性也是一个挑战。为了这个场景能更好地落地及推广,还要求相关产品能具备通用化且安全的行业知识学习及更新能力,并最好将大模型行业知识的学习流程产品化,降低大家的学习使用成本,在保证运营效果的同时,大大减少公司的运营人力投入成本。

参考文章:

从0到1,聊聊货拉拉如何搭建数据指标体系

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1616549.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

二叉搜索树及相关操作(图文详解)

1.概念 二叉搜索树又称二叉排序树,它或者是一棵空树,或者是具有以下性质的二叉树: 若它的左子树不为空,则左子树上所有节点的值都小于根节点的值 若它的右子树不为空,则右子树上所有节点的值都大于根节点的值 它的左右子树也分…

【面试经典 150 | 数组】整数转罗马数字

文章目录 写在前面Tag题目来源解题思路方法一:模拟 写在最后 写在前面 本专栏专注于分析与讲解【面试经典150】算法,两到三天更新一篇文章,欢迎催更…… 专栏内容以分析题目为主,并附带一些对于本题涉及到的数据结构等内容进行回顾…

c# 构造函数 静态构造函数 内联字段(即静态字段和实例字段) 父类构造函数 父类静态构造函数 父类内联字段 执行顺序

顺序如下: 1.子类的内联字段 2.子类的静态构造函数 3.父类的内联字段 4.父类的静态构造函数 5.父类的构造函数 6.子类的构造函数 7.子类的方法 public class A{public static string a1"A0";static A(){Console.WriteLine("父类内联字段:…

品深茶的创始人是谁?

据说,品深茶的创始人之前是一个程序员,他在软件行业工作十多年,由于常年熬夜加班再加上抽烟喝酒等不良习惯,导致在一次体检中被查出患上了肾癌,对他来说,期待的财务自由还没实现,身体就已经完蛋…

C++进阶复习

1 指针 作用&#xff1a;通过指针间接访问内存 1.内存编号是从0开始记录的&#xff0c;一般用十六进制数字表示。 2.可以利用指针变量保存地址。 1.1 指针变量的定义和使用 语法&#xff1a;数据类型 *变量名。如int *a; #include<iostream> using namespace std;int mai…

mininet+odl安装

安装环境 ubuntu-18.04.2-desktop-amd64 Java version: 1.8.0_362 Apache Maven 3.6.0 opendaylight: distribution-karaf-0.6.0-Carbon(csdn中应该是已有资源&#xff0c;不让上传) opendaylight的官网下载链接一直打开失败&#xff0c;我使用的是别人的Carbon版本。 在安…

汇编语言作业(三)

目录 一、实验目的 二、实验内容 三、实验步骤以及结果 1、阅读第4页ppt 第一个汇编程序 ex1.asm 并编写编译执行成功后&#xff0c;要求改写&#xff0c;使其输出字符ABC&#xff0c;如下图所示。 &#xff08;1&#xff09;编译产生目标文件 &#xff08;2&#xff09;…

Python-VBA函数之旅-hex函数

目录 一、hex函数常见的应用场景&#xff1a; 二、hex函数使用注意事项&#xff1a; 1、hex函数&#xff1a; 1-1、Python&#xff1a; 1-2、VBA&#xff1a; 2、推荐阅读&#xff1a; 个人主页&#xff1a;神奇夜光杯-CSDN博客 一、hex函数常见的应用场景&#xff1a;…

【STM32+HAL+Proteus】系列学习教程---串口USART(DMA 方式)定长,不定长收发。

实现目标 1、利用UART实现上位机PC与下位机开发板之间的数据通信 2、学会STM32CubeMX软件关于UART的DMA模式配置 3、具体目标&#xff1a;1、实现串口定长收发数据通信&#xff1b;2、串口不定长收发数据通信。 一、DMA简介 1、什么是DMA? DMA&#xff08;Direct Memory …

基于YOLOV5 的ROS2功能包——快速实现目标识别功能

项目链接&#xff1a; yolov5_ros2 运行结果如下&#xff1a;实时显示识别结果 一、下载功能包并运行 1. 安装依赖 首先&#xff0c;确保您已经更新了系统并且安装了必要的依赖。以下是一些安装步骤&#xff0c;其中$ROS_DISTRO 是您的ROS2发行版&#xff08;例如&#xff1…

交通工程绪论

一、交通工程 交通工程学定义交通工程学研究的内容交通工程学的产生与发展交通工程学在道路运输管理中的作用 1. 交通工程学定义 早在20世纪30年代&#xff0c;美国交通工程师协会(American Institute of Traffic Engineers)给交通工程学(Traffic Engineering)下了一个定义&a…

去雾笔记-Pixel Shuffle,逆Pixel Shuffle,棋盘效应,转置卷积

文章目录 1.Pixel Shuffle2.Inverse Pixel Shuffle3.棋盘效应4.转置卷积5.宽激活块6.PSPNet7.反射填充层&#xff08;Reflective Padding Layer&#xff09;8.tanh层 1.Pixel Shuffle Pixel Shuffle是一种用于图像超分辨率的技术&#xff0c;它通过重新排列图像的像素来增加图…

Django模型的属性与方法

本节介绍Django模型的属性和方法&#xff0c;以及如何重写之前定义的模型方法等内容。 3.5.1 模型属性 Django模型中最重要的属性就是Manager&#xff0c;它是Django模型和数据库查询操作之间的接口&#xff0c;并且被用作从数据库当中获取实例的途径。如果Django模型中没有…

python基础知识一(注释、变量以及类型、类型转换)

目录 注释&#xff1a; 注释分为两种&#xff1a; 注释的作用&#xff1a; 注释的使用原则&#xff1a; 编写一段代码&#xff0c;对比一下有无注释的区别&#xff0c;以冒泡排序为例 1. 无注释版&#xff1a; 感官上是不是有点不清晰&#xff1f; 2. 有注释版&#xff1…

绝地求生:【数据流】工资杯决赛,天霸161分夺得冠军,Aixleft战神37杀

数据制作&#xff0c;整理不易&#xff0c;求支持&#xff0c;点赞&#xff0c;收藏&#xff0c;充电哟&#xff01; 如有错误&#xff0c;请在评论区指出&#xff0c;感谢各位~ 积分&#xff1a; 战队数据&#xff1a; 排名前3&#xff1a;Tian(161) / NH(145) / PeRo(137) …

linux入门到精通-第十一章-进程间通信(无名管道)

目录 参考概念**进程通信的目的&#xff1a;**Linux 操作系统支持的主要进程间通信的通信机制: 无名管道概述pipe函数建立无名管道父子进程使用无名管道通信 管道读写特点设置非阻塞的方法查看管道缓冲区命令查看管道缓冲区函数 参考 视频教程 概念 进程是一个独立的资源分配…

Oracle进阶(2)——物化视图案例延伸以及序列、同义词

一、物化视图 物化视图&#xff08;Materialized View&#xff09;是 Oracle 数据库中的一个对象&#xff0c;它是一个预先计算和存储的查询结果集&#xff0c;类似于视图&#xff0c;但与视图不同的是&#xff0c;物化视图会将查询结果保存在物理存储中&#xff0c;而不是动态…

web前端学习笔记1

前端学习笔记 1. 走进HTML 1.1 什么是HTML 超文本标记语言(英语:HyperText Markup Language,简称:HTML)是一种用于创建网页的标准标记语言。您可以使用 HTML 来建立自己的 WEB 站点,HTML 运行在浏览器上,由浏览器来解析。HTML文档的后缀名 .html.htm以上两种后缀名没有区别…

给sample_gpt加上,路的选择

灵感 鲁迅说世界上本没有路走的人多了便有了路 如何将灵感转为数学表达 首先假设a到b点有3条路吧&#xff0c;假设你只能选择一条&#xff0c;那意思就是你在训练的时候&#xff0c;只要这条路的值增大别人就会减少。 那这个思思不就是&#xff0c;3条路的值加在一起有个约束…

VMP加壳工具最新 VMProtect Ultimate v3.8.4 Build1754

网盘下载 VMProtect 软件保护功能 支持的文件和格式 VMProtect 支持32位和64位可执行文件&#xff0c;动态加载库和驱动程序。这包括屏保、Active-X 组件、BPL 库和其他 PE 格式的文件。受保护的文件基本上可在任何版本的 Windows 系统上运行&#xff0c;甚至是较早的 Windows …