火山引擎 DataLeap:3 步打造“指标管理”体系,幸福里数据中心是这么做的

news2024/10/5 18:30:32

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

一家企业,为什么要搭建指标体系?

一句话总结来说,全面、合理的指标体系可以帮助企业统一目标,将业务环节量化,帮助策略执行落地、定位问题、调整方向。但指标体系建构并非易事,指标如何维护和更新、如何统一指标口径、指标如何能科学指导业务决策,是企业构建指标体系遇到的常见问题。

幸福里 APP 是抖音集团旗下集内容、社区、工具于一体的房产信息综合平台,致力于提供多样化房产资讯、定制找房需求。数据建设是幸福里数据 BP 的核心工作,其中指标建设与管理是其中重要一环。指标是量化分析和构建策略的基础,是业务决策重要依据之一,也是数据团队重要的数据资产,因此幸福里指标管理是团队关注的重点之一。

本篇文章将从业务背景、业务痛点、幸福里指标数据实践、效果收益四个方面,介绍幸福里如何通过火山引擎 DataLeap、DataWind 等数据产品,从 0-1 完成指标体系搭建,并获得显著收益。

一、业务背景

幸福里指标管理经历了两个阶段:

  • 第一个阶段:幸福里业务快速迭代,数据侧以响应需求,快速支持业务迭代为主,指标没有统一的规范,粗放式管理,缺少指标拆解标准以及分类标准,导致指标一词多义、重复开发、指标冗余,容易出现数据质量问题。

  • 第二个阶段:幸福里整体业务发展趋于稳定,精细化运营对数据提出了更大的挑战。当前,数据侧以解决数据效率和质量问题为优先,进一步加强体系化建设,制定指标建设规范。

幸福里指标体系建设和落地离不开数据工具的支持。一方面,幸福里需要将不同数据源的指标进行建模,形成数据集,以便满足可视化查询的需要;一方面,也需要统一的平台规范化指标管理流程,提升数据模型的复用性,保证核心指标口径一致,提高业务方使用体验的效果。

作为火山引擎数智平台旗下的产品,DataWind 支持业务线创建项目来存放数据集,支持对指标数据的可视化查询,而 DataLeap 具备一体化指标体系建设和管理的能力,提供指标命名及口径管理的工具, 支持导入多种数据源构建模型以及灵活选择指标构建方式,通过一个平台即可实现指标管理。

由此,DataLeap 和 DataWind 成为幸福里团队构建指标体系首选。

二、业务痛点

第一,线下文档维护指标体系,格式不统一、更新不及时、维护成本高

  • 早期幸福里指标字典主要通过线下文档人工维护,并没有专门人员统一负责指标的管理;

  • 指标维护碎片化,不同业务模块维护各自指标库,指标字典文档格式不统一;

  • 相关人员缺少维护动力,新增或修改指标不及时,指标信息共享局限,无法触达幸福里所有用户。

以上问题给相关人员造成指标应用与管理上的压力,因此幸福里需要一个统一管理指标的平台,解决指标管理上的痛点。

第二,缺少指标分类和管理规范

在幸福里业务快速迭代过程中,数据侧为追求需求的快速支持,缺少指标的拆解或分类规范,存在重复开发、指标杂乱、一词多义、一义多词的问题,同时指标口径也没有在接口或数据做好透传,导致下游使用方不了解指标加工细节,进而可能使得数据质量问题频发。

三、应用实践

为什么要引入火山引擎 DataLeap?

  1. 通过 DataLeap 实现指标建设流程线上化、规范化,完成指标命名、指标新增与变更流程;

  2. DataLeap 功能上更加全面和丰富,支持指标拆解、维度管理、词根管理等操作;

  3. 对业务侧使用更加友好,指标提需、口径变更进行流程化管理,可以串联起数据 BP、分析师和业务共同维护指标。

LOOK 数据中心实践:指标 100%覆盖

  • LOOK 是幸福里内部效率管理系统,除作业功能模块外,销售人员作业数据分析也是 LOOK 重要功能,通过数据及时监控内部员工作业效率,反馈核心大盘数据。该系统下新房数据整体通过 DataLeap 同步 DataWind 数据集方式提供数据服务。

步骤一:

提需流程  确定数据 BP 和业务团队指标开发合作机制,当前幸福里数据 BP 和业务团队合作模式如下:

  • 指标开发

数据 BP 需要进行业务指标和分析维度的拆分,对于指标需先考虑指标字典中是否存在(防止重复开发),如果不存在, 需要拆解为原子指标+时间周期+修饰词, 并落入到指标平台;根据实际应用场景采用 DataWind 数据集或数据接口输出指标。

  • 指标管理

由数据 BP 和 DA(或业务人员)共同维护。业务人员维护指标的业务口径并进行分类,业务定义将在 DataWind 看板或产品页面展示露出。

数据 BP 维护指标技术口径,进行指标模型关联,提供数据应用。通过 DataLeap 形成了数据 BP 和分析师协同管理指标的诉求,同时统一指标查询平台。

步骤二:指标录入与维护

幸福里以离线数仓主题划分数据域,同时将 DataLeap 词根管理功能进行应用,规范指标命名。针对需求涉及指标将指标拆解并划分合适的数据域,便于责任人统一管理。

指标拆解流程

指标拆解完成后,对原子指标、衍生指标和复合指标进行创建和技术口径维护,结合需求创建数据模型打通 DataWind 数据集和 mfs 数据服务。

DataLeap 的业务管理模块由数据分析师或产品进行维护,主要是管理指标的业务分类和定义业务口径。业务定义将在 DataWind 看板或产品页面展示露出。其中生产信息可以查看当前指标的模型应用,方面后续指标使用分析。

通过业务侧指标维护和指标的生产信息模块,便于业务侧查询和使用指标,同时对外展示便于各方理解。

词根管理

目前在录入指标过程中发现存在关键字定义不一致,一个中文名称有多个英文名称或者一个英文名称在不同业务线下有不同的中文含义。

为解决此类问题,幸福里对词根进行维护,录入指标之前先在词根管理的字段管理模块查看对应关键字是否已存在。

通过词根管理,将核心字段命名进行规范,避免命名不统一,解决了一词多义和一义多词的问题。

步骤三:指标应用 &口径透传

权限打通

同步 DataWind 数据集与数据授权,数据授权操作只需在 DataWind 数据集进行。

口径透传

DataLeap 同步 DataWind 数据集后,下游配置的数据看板可以将指标口径进行展示,也支持指标平台的跳转,便于下游使用方了解指标加工细节。

通过以上三个步骤,幸福里实现以下几个方面提升:

  • LOOK 数据模块整体通过指标平台提供指标服务,看板上查看看板涉及的指标的口径,降低 DA 口径同步的成本。

  • 通过 DataLeap 减少数据 BP 重复开发、一词多义的问题,对应指标有相应责任人进行开发和管理,提高指标整体复用度。

  • 观测数据时,用户可以通过指标平台了解每个展示指标的含义,整体提高数据的准确性。

  • 指标字典从线下文档迁移到 DataLeap,通过线上配置化管理,降低数据分析师维护成本。

  • 以前,数据集指标口径不清楚需要找数仓人员确认,再通过代码获取指标技术生产逻辑;现在,DataLeap 配置指标口径,支持在看板直接展示,节省解释指标口径的时间。

  • DataLeap 具备指标分组的能力,让指标更有层级性,方便查找和管理,提升效率。

四、效果收益:数据 oncall 解决超 40%

通过 DataLeap 指标平台,幸福里数据团队完成交易平台新房方向 p0 指标 100%覆盖,包括指标定义、模型配置、责任人等元信息维护。

DataLeap 指标平台和 DataWind 打通,便于使用方了解指标加工逻辑,通过 DataWind 看板对应按钮跳转 DataLeap 直接查看指标口径描述和绑定模型情况。

下面是目前幸福里在 DataLeap 的使用数据情况:

  • 从数据上看,幸福里当前总录入指标数 504 个,模型数 28 个,交易平台整体指标覆盖率 60%。模型建设路径偏向业务驱动;业务维护率为 60%,和 DA 形成了一定的联动; 还需进一步在业务侧加强推广,提升指标消费热度。

  • 业务使用上,支持指标口径在看板和线上页面展示透出,便于下游了解指标加工细节,数据口径反馈问题减少 40%。另外,指标平台作为幸福里各方查指标用指标的统一平台,提高指标查询和消费效率。

立即跳转火山引擎DataLeap了解更多

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/540052.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

1073. 负二进制数相加(leetcode,模拟,数学分析)-------------------c++实现

1073. 负二进制数相加(leetcode,模拟,数学分析)-------------------c实现 题目表述 给出基数为 -2 的两个数 arr1 和 arr2,返回两数相加的结果。 数字以 数组形式 给出:数组由若干 0 和 1 组成,按最高有效位到最低有…

Kubernetes1.26.3 高可用集群

Kubernetes1.26.3 高可用集群 0、服务器信息 服务器为腾讯云服务器(按需计费,按流量计费,并且将IP转换为弹性IP,使用结束可关机仅收取硬盘等固定资源费用) 服务器名称IP描述组件信息Kubernetes1124.223.218.159maste…

Matlab如何调用外部函数/工具包,如何将新函数加到默认函数库中

自从开始制作、分享工具包,我被问到最多的一个问题是: “XXX工具包怎么用?” 而我给出的回答通常是: “放在你代码文件夹,当函数调用。” 什么意思呢? 方法1 比如在名为“1”的文件夹中放着我们想要运…

TreeSet源码分析

概述 TreeSet ,基于 TreeSet 的 Set 实现类。在业务中,如果我们有排重 排序的需求,一般会考虑使用 TreeSet #TreeSet的继承关系 TreeSet的内部属性 m 的 key ,存储 HashSet 的每个 key 。 map 的 value ,因为 TreeSe…

DJ5-3 多路访问链路和协议

目录 一、网络链路 二、广播信道要解决问题 三、多路访问协议 1、基本介绍 2、多路访问协议的类型(3) 四、信道划分协议 1、时分多路访问 TDMA 2、频分多路访问 FDMA 3、码分多路访问 CDMA(略) 五、随机访问协议 1、纯…

基于AD96808 FMC 模块,支持8 路14-bit、500MSPS/1GSPS/1.25GSPSADC 采集功能

板卡概述 FMC-XM148 是一款基于VITA57.4 标准的JESD204B 接口FMC 子卡模块,该模块可以实现8 路14-bit、500MSPS/1GSPS/1.25GSPSADC 采集功能。该板卡ADC 器件采用ADI 公司的AD9680 芯片,全功率-3dB 模拟输入带宽可达2GHz。该ADC 与FPGA 的主机接口通过16 通道的高速…

ThingsBoard自定义分发节点duplicate to related

------------------------------------内容仅博主所有,订阅者请勿泄露,感谢--------------------- 1、概述 大家好,我又更新干货了,还是那句话,我绝不像某些博主“拿我格子衫”分享那些照抄官网翻译的东西来骗订阅,我觉得那是浪费时间,要搞就搞干货,今天给大家分享Th…

高端制造业国产化是未来高质量发展的必经之路

在当前全球经济的大背景下,高端制造业已成为各国竞争的焦点。中国作为世界第二大经济体,也在高端制造业领域发挥着越来越重要的作用。然而,我们必须清醒地认识到,目前我国高端制造业的发展还面临着一些困难和挑战,其中…

国产高性能DSP音频处理芯片的工作原理以及应用领域

DSP芯片是数字信号处理器的简称,它是一种专门用于数字信号处理的微处理器,它可以对数字信号进行高速运算和处理。DSP是一类嵌入式通用可编程微处理器,主要用于实现对信号的采集、识别、变换、增强、控制等算法处理,是各类嵌入式系…

ChatGPT 高效对话-学习使用提示语Prompts​

我们整理了一些可以帮助你学习如何使用ChatGPT的资源,包括吴恩达教授最新推出的官方ChatGPT提示词工程师课程的中文B站视频资源,一些插件、使用ChatGPT的标准范式等。 我们将这些所有的相关网址收录到 webhub123 ChatGPT 高效对话-学习使用提示语Promp…

【LeetCode】326. 3 的幂

326. 3 的幂&#xff08;简单&#xff09; 方法一&#xff1a;试除法 思路 我们可以先进行特殊点判断&#xff0c;n < 0 的数都不可能是 3 的幂次方。接着&#xff0c;当 n > 0 且 n 能被 3 整除 时&#xff0c;我们对其整除 3 &#xff0c;直到该条件不满足&#xff…

MyBatis之缓存机制

缓存即为存在内存中的临时数据.将用户经常查询的数据存放在缓存(内存)中,用户去查询数据就不用去每次去数据库中查询,而是去缓存中查询,从而提高了查询的效率,解决了高并发系统的性能问题.MyBatis提供了两种缓存机制&#xff1a;一级缓存&#xff08;本地&#xff09;和二级缓存…

thinkphp6 消息队列think-queue(完整版)

1.安装队列依赖 如果是在Linux上&#xff0c;进入thinkphp项目的think文件所在目录&#xff0c;执行安装命令 composer require topthink/think-queue 2.修改queue的配置文件&#xff0c;文件位置config/queue.php(安装成功后自动生成) <?php return [default >…

Python实现ACO蚁群优化算法优化循环神经网络回归模型(LSTM回归算法)项目实战

说明&#xff1a;这是一个机器学习实战项目&#xff08;附带数据代码文档视频讲解&#xff09;&#xff0c;如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 蚁群优化算法(Ant Colony Optimization, ACO)是一种源于大自然生物世界的新的仿生进化算法&#xff0c…

Layui layer 弹出层的使用【笔记】

Layui layer 弹出层的使用 首先&#xff0c;为了方便直接通过在线cdn引入对应的css和js <!-- 引入 layui.css --> <link href"//unpkg.com/layui2.8.0/dist/css/layui.css" rel"stylesheet"> <!-- 引入 layui.js --> <script src&…

来自非985211的普通本科的Android面试题分享【网络安全】

文中附有详细的面试真题目&#xff0c;文末有我当时刷的面试真题还有一些对我帮助良多的复习资料&#xff0c;特别有用&#xff0c;希望也可以帮大家顺利上岸&#xff0c;顺便攒攒人品&#xff01; 个人的基本情况 本人出生在一个普通家庭&#xff0c;自身学历很一般&#xff…

现在的00后,真是卷死了呀,辞职信已经写好了·····

都说00后躺平了&#xff0c;但是有一说一&#xff0c;该卷的还是卷。这不&#xff0c;三月份春招我们公司来了个00后&#xff0c;工作没两年&#xff0c;跳槽到我们公司起薪23K&#xff0c;都快接近我了。 后来才知道人家是个卷王&#xff0c;从早干到晚就差搬张床到工位睡觉了…

【taro react】---- 解决开发环境微信小程序由于主包体积过大不能预览问题

1. 开发环境代码包大小 注意:可以看到此时主包加分包将近 5MB,上传预览将会超出限制!!! 2. 预览结果 报错:代码包大小超过限制,主包资源近3MB,限制最大2MB!!! 3. 解决办法 使用webpack的压缩插件,在开发环境编译的时候进行压缩;进行分包处理,同时依赖也进行分包处…

冲刺618:新品变爆品,品牌如何提炼差异化卖点?

纵观2023年品牌生态&#xff0c;大牌强势、新锐崛起。618大促将至&#xff0c;当前市场营销内容同质化严重&#xff0c;如何占领用户心智&#xff0c;成为品牌营销的“考题”之一。千瓜&#xff5c;谦果营销 结合小红书品牌推广实操经验&#xff0c;沉淀总结品牌差异化卖点提炼…

OpenText Exceed TurboX 桌面虚拟化解决方案整合数据中心、提供高端图形显示

突出特点 2D 和 3D 图形应用程序的卓越性能远程访问&#xff1b; 全球团队的强大协作&#xff1b; 高级安全和集中管理&#xff1b; 从 MicrosoftWindows、Mac、Linux 或 iPad 远程访问。 企业正在寻求整合数据中心&#xff0c;达到减少 IT 支出并提高中央可管理性的目的。 同…