数仓建模:金字塔原理在数仓建模分析中的应用

news2024/12/29 13:51:14

目录

1 金字塔原理

1.1  金子塔原理基本原理

1.2 金字塔内部结构 

2 如何构建金字塔

2.1 金字塔塔尖构建

2.2 金字塔纵向层次构建

2.3 金字塔横向关系构建

2.3.1 归类分组

2.3.2 逻辑递进

2.4 小结 

3 金字塔原理应用

3.1 数仓建模

3.1.1 数仓建模分析方法-自上而下法

自上而下-基于数据需求分析

 自上而下-指标定义分析过程

 自上而下-指标需求转化流程

3.1.2 数仓建模自下而上法

自下而上-基于业务过程的分析

 自下而上-业务事实表建模

 

3.2 业务建模

 3.2.1 指标体系建设步骤——梳理量化指标

3.2.2 指标体系建设步骤——梳理量化指标(业务分级梳理)

3.2.3  指标体系建设步骤——梳理量化指标(自上而下)

3.2.4 指标体系建设步骤——梳理量化指标(自下而上) 

3.2.5 指标体系建设步骤——指标业务关联,建立使用方法

3.2.6 指标体系建设步骤——梳理指标体系的使用指南 

3.2.7 指标体系建设步骤——指标体系附件文档

4 小结 

~~END~~


1 金字塔原理

整体结构

1.1  金子塔原理基本原理

基本原则:结论先行,以上统下,归类分组、逻辑递进。

1.2 金字塔内部结构 

  1. 序言的结构:金字塔塔尖打磨,提炼中心思想,采用SCQA模型(背景、冲突、疑问、回答)
  2. 纵向关系:结论先行,以上统下(演绎推理+归纳推理),突出重点,层次分明。任何一个层次上的思想都必须是对下一个层次思想的概括,每一个下级层级都是对上一层级的解释说明,纵向体现了对中心思想的多维拆解与归因分析。
  3. 横向关系:归类分组(MECE法则)、逻辑递进(结构、程度、时间、演绎)。同一组中的内容之间存在着逻辑顺序及递进关系,每组中的思想必须同属于同一个逻辑范畴,每组中的思想必须按逻辑顺序组织。横向是分类让内容更有广度和深度。

2 如何构建金字塔

2.1 金字塔塔尖构建

2.2 金字塔纵向层次构建

(1)结论先行

(2) 以上统下

2.3 金字塔横向关系构建

2.3.1 归类分组

MECE原则

MECE就好比一把尺子,当你面临问题或你要表达一件事情以后,你的各归类组得是互相独立,完全穷尽的。

举例:

2.3.2 逻辑递进

原理

举例

(1)结构空间

(2)重要性

 

(3) 时间

2.4 小结 

自上而下法

基于金字塔顶点处的目标(结论、主题思想等),采用自上而下的方法,逐层对目标进行拆解和分析,每一层级都是对上一层级的解释说明。

自下而上法

从底层出发,尽可能列出达到目标的所有影响因子,找出各个因子之间的逻辑关系,并利用MECE原则进行归类分组,总结概括要点,提炼观点,并对观点进行补充完善思路。

思考逻辑

  1. 按照时间顺序将问题划分为不同的步骤,每一步单独处理,分而治之。(乘法原理)
  2. 按照空间结构将问题分类处理,采用MECE法则,保证思维逻辑的严谨、全面性。(加法原理)
  3. 按问题重要性进行排序,分组描述。

3 金字塔原理应用

3.1 数仓建模

3.1.1 数仓建模分析方法-自上而下法

基于数据需求和主题的分析

自上而下-基于数据需求分析

产业板块是苏宁控股集团下各产业集团和各业务、管理体系的抽象,据此确定数据的产业类别归属并覆盖各产业共享的数据。包括:零售、物流、金服、科技、体育、文创、置业、投资、易购(财务、人力、开发、行政、法务等)、控股集团总部、苏宁所有(指面向苏宁所有产业板块)、公共(指面向社会所有产业,如行政区划信息等)。

数据是依据企业的主要业务流程和功能框架而划分、对某一特定管理领域中的业务实体及操作进行封装,是对业务过程的进一步抽象、聚类和组合。

业务过程:指企业的业务活动事件,是一个不可拆分的行为事件。通俗地讲,业务过程就是企业活动过程中的事件,业务过程事件通常会伴随业务单据或事件日志的产生。

主题:是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象

主题域:通常是联系较为紧密的数据主题的集合。主题域的划分,是根据业务的应用和需要来划分的,是用来达到数据与业务紧耦合的目的

自上而下:

产业板块(客观业务板块)

基于业务事实和数据:数据域、业务过程;

基于数据需求和应用:主题、主题域

 自上而下-指标定义分析过程
  • 1. 基于业务板块划分数据域,数据域是抽象化的一系列相关业务过程的集合,稳定不变。
  • 2. 原子指标对应业务过程事实表(公共明细层DWD)的业务度量,原则上一个业务度量仅定义一个原子指标。
  • 3. 计算粒度、业务限定对应事实表的维度及业务环境条件。
  • 4. 派生指标必须继承原子指标进行构建。

 

指标定义:

数据域->业务过程+维度->度量->原子指标;

基于维度和属性的扩展:粒度、限定、周期;

DWD层公共明细层的每个模型,对应一个业务过程,其中的每个数值,对应一个原子指标。

 自上而下-指标需求转化流程

数据调研:是数据仓库建设的基石,分为业务调研、需求分析两个阶段。

业务调研:详细了解组织架构,角色分工,梳理信息流、业务数据框架,业务系统主要功能及产出数据,具体的业务数据需求以及已有的数据模块功能。

需求分析:根据业务调研内容,分析并明确业务过程,业务指标定义及粒度。明确明细层和汇总层的设计方案,以及公共模型和公共维度的设计方案等。

 主题域分析:主题域/场景/主题是从业务视角对指标的定位和归集,是业务运营分析思路的沉淀升华。根据数据调研内容,明确数据需求归属的主题域,明确业务过程范围主题划分

数据域分析:数据域通常基于业务情况进行纵向划分。需要明确相关业务环境及度量,对业务过程和维度进行抽象。业务过程可以是单个业务事件,或事物的状态,或一系列事件组成的业务流程。业务过程分析,包括确定事实明确粒度设计维度等。是原子级事实模型建设的前提和基础。

需求转化流程:

数据调研:主题域分析+数据域->指标+总线矩阵->汇总+明细->优化;

数仓总线矩阵:结合业务过程分析定义维度,确保维度的唯一性,明确维度的适用范围。同时基于数据域的划分,构建数仓总线矩阵,即“业务过程×公共维度” 矩阵。让业务过程度量与维度的关系更加清晰明确。数仓总线矩阵是指标设计和公共模型建设的指导标准。

指标分析:分为原子指标和派生指标。

原子指标基于业务过程+维度”构建,自带算法可解读的命名与业务过程的度量对应,反映业务事实度量的最基本情况。

派生指标:时间周期+计算粒度+业务限定+原子指标。派生指标的建立需要在了解数据需求后进行展开,而且必须在定义好原子指标之后。派生指标唯一归属于一个原子指标,继承原子指标的数据域。

公共明细模型:公共明细层定位为基于业务过程的最细粒度的事实宽表。对于事实粒度相同且同属于一个业务环节不同节点的业务过程可以进行合表处理,但不允许跨数据域。公共明细事实表的度量对应原子指标。相关维度和业务环境,可作为派生指标的业务限定

汇总应用模型:公共汇总层定位为构建命名规范、口径一致的派生指标(统计指标)的汇总宽表。为上层应用和产品指标提供公共粒度的汇总数据。公共汇总模型原则上不允许跨业务事实,必须与明细事实表保持一致,只是明细事实表的粗粒度汇总,作为派生指标的加速模型。

应用层定位以业务主题域或场景为驱动,面向业务指标需求的数据集市。数据主要来自公共汇总层,特殊定制化的数据,可来自公共明细层。应用层不允许进行业务逻辑的计算处理,必须下沉到公共明细层,同时不允许直接使用近源层数据,应积极推动公共层模型优化建设。

数仓优化:从整体考虑数仓模型的优化,如公共模型的提炼,维度属性的扩展,以及ETL逻辑的修正等。最大限度地实现模型继承和共享,以及计算存储资源的最小化。 

3.1.2 数仓建模自下而上法

自下而上-基于业务过程的分析

业务过程:一个业务流程通常可分解成多个相对独立的业务活动事件,称为业务过程。如销售业务中的“下单、支付、收货”等都是流程中的操作型活动事件,都是业务过程。

信息载体:业务过程事件会建立或获取性能度量,并通过信息系统中的“单据、日志”等形式,记录度量事实以及当时的业务环境 

维度模型:维度模型是业务过程信息记录的规范化的客观事实反映。每个维度模型的核心都是业务度量的集合,反映对业务过程的评价,并且通过维度来描述度量的环境。 

维度:维度通过“何人、什么、何地、何时、为什么、如何5W1H等要素描述相关业务过程事件的上下文环境。 

 分析方法采用5W1H分析法,对业务过程事件的度量和业务环境进行分析,最终转化成事实维度模型。

电商销售业务流程示意图:

 自下而上-业务事实表建模

 业务事实表(原子事实表,原子指标模型)的建设步骤:

 自下而上-业务事实表建模-分步操作

1.业务过程分析-明确业务

  • 5W1H分析法(Five Ws and one H),六何分析法,即:Who(谁),What(什么),Where(何地),When(何时), Why(为什么), How(如何)
  • 通过上述分析法可以更加快速准确地抓住业务的主体要素。
  • 分析方法同样适用于日志类事件分析。

2.业务事实分析-确定事实

  • 确定相关方、交易物、位置场所、业务时间、业务环境、业务事实,原子性和完整性。确保业务事实的单行实例与物理的业务过程事件实例具有一对一关系。
  • 业务事实分析时一般会进行信息合并,包括“主子表”的整合,复杂业务可能包含附加表信息的整合等。

3.事实模型分析-确定维度和度量

  • 依据维度建模方法,确定主体维度(业务主体)、时间维度、分析维度(域内维度)、业务限定以及事实度量。
  • 构建最细粒度的事实维度模型,完成主子表/附加表的合表处理。
  • 对照维度总线矩阵,进行一致性维度的重用和增补。

4.事实模型设计-维度模型优化

  • 事实模型中的维度进行设计和扩展,包括:维度分组、角色维度的设计(包含维度表的设计和完善),维度属性的添加、维度层次扁平化等。
  • 增补维度总线矩阵,完成和完善跨业务过程/主题的一致性维度设计,实现模型的一致性上卷和横向钻取能力。
  • 物理模型增加必要的信息,如:分区、ETL时间戳、批次/版本标识、记录有效标识等。

关键点:(最细粒度原子事实,包含全部事实,边界清晰)

1.业务过程分析要全面,不要遗漏任何事实或业务环境。

2.基于需求的原子模型建模,是不全面的,会导致模型经常修改,补数据或回溯数据等。

3.必要的维度属性扩展。

3.2 业务建模

基于金字塔原理,可以从企业战略目标(或业务目标)出发,构建企业数据指标体系,通过对各个层级的数据指标的波动情况进行监控,这样可以有效的评价业务过程的好坏,从而起到预警作用,可以促使业务对最终的目标更好的完成,达到降本增效的作用,当业务目标发生波动时(如同环比降低等),也可以通过自上而下的方式进行多维拆解,并找出问题的原因,进行归因分析。

 3.2.1 指标体系建设步骤——梳理量化指标

  通过自上而下的价值树分解(Top-down)与自下而上的经营分析指标梳理(Bottom-up)形成经营指标库 。

建体系:以核心目标为例,构建管理指标体系

3.2.2 指标体系建设步骤——梳理量化指标(业务分级梳理)

 自上而下:基于业务分级梳理指标

针对企业决策层和管理层,基于客户顶级视角以企业业务核心目标起点,根据业务模式和业务流程等。自上而下纵向深入理解业务,层层递进分级梳理关键业务实现指标量化。

企业级指标:和大的业务流程紧密联系,通常用于高层管理者对企业整体运营情况的监控关键的结果导向指标,直接和整个企业的业务目标关联。

业务板块指标:和公司业务目标和业务流程紧密联系,通常用于对公司运营情况的监控。可以向上汇总到企业级KPI

运营层指标:和各作业区的目标紧密联系,通常用于对生产流程和技术工艺的监控 。关注运营层面和具体的操作环节

3.2.3  指标体系建设步骤——梳理量化指标(自上而下)

自上而下演绎:运用价值树分解价值驱动因素,逐层进行指标的拆解,保障指标体系的完整性和可落地性。

价值树和价值驱动因素优先级排序相结合,可以帮助行方设计完整的指标体系,并保障在达到战略目标的同时,满足经营管理的需求。

明确战略指标:从整体战略目标出发,根据价值树框架,识别每一关键驱动因素的关键指标,找到
唯一关键指标。

价值树搭建:价值树将公司的总体战略分解为影响它的“关键因素”,即价值驱动因素。

价值驱动因素优先级:根据对公司战略的影响,对价值驱动因素进行排序。

 

从4个方面自上而下纵向深入理解业务,并基于4类业务事实,量化经营管理过程和结果,分级依次转化为对应的指标:

3.2.4 指标体系建设步骤——梳理量化指标(自下而上) 

 以梳理销售流程为起点,从四个角度分析关键项(卖给谁、卖什么、怎么卖、怎么服务),然后根据关键项获得关键过程,再分别对关键过程基于关注点的五大因素量化指标。

3.2.5 指标体系建设步骤——指标业务关联,建立使用方法

 以完成一个销售目标为核心指标,通过自上而下和自下而上结合的方式梳理量化指标,并把指标关联分级展示,得到了指标关联体系图。

3.2.6 指标体系建设步骤——梳理指标体系的使用指南 

3.2.7 指标体系建设步骤——指标体系附件文档

4 小结 

文章详细介绍了金字塔的原理及构建方法,并利用该原理及思维方法,详细阐述了数仓建模自上而下及自下而上的分析方法,以及业务建模中如何利用金字塔原理进行指标体系的构建。总之自上而下是对顶层目标的拆解及分层解释,每一个上次都是对下一层次的高度概括,每一个下一层次都是对上一个层次的解释说明,自下而上是对企业业务指标的梳理及思考总结,同时我们要将自上而下的决策链与从左至右的价值链相结合,构建数据分析的指标体系。从而将指标由决策层、管理层拆解至执行层,落到实处,做到纵向有深度,横向有广度。

注意:本文指标体系建设部分参考帆软指标体系建设文档V1.0 

~~END~~

如果您觉得本文还不错,对你有帮助,那么不妨可以关注一下我的数字化建设实践之路专栏,这里的内容会更精彩。

专栏 原价99,现在活动价59.9,按照阶梯式增长,还差5个人上升到69.9,最终恢复到原价。

专栏优势:

(1)一次收费持续更新。

(2)实战中总结的SQL技巧,帮助SQLBOY 在SQL语言上有质的飞越,无论你应对业务难题及面试都会游刃有余【全网唯一讲SQL实战技巧,方法独特

(3)实战中数仓建模技巧总结,让你认识不一样的数仓。【数据建模+业务建模,不一样的认知体系】(如果只懂数据建模而不懂业务建模,数仓体系认知是不全面的

(4)数字化建设当中遇到难题解决思路及问题思考。

我的 专栏具体链接如下:

数字化建设通关指南_莫叫石榴姐的博客-CSDN博客

https://blog.csdn.net/godlovedaniel/category_12706766.html?fromshare=blogcolumn&sharetype=blogcolumn&sharerId=12706766&sharerefer=PC&sharesource=godlovedaniel&sharefrom=from_link

部分内容截图如下: 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2221224.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OBOO鸥柏:液晶拼接大屏搭载节点盒分布式集中管控控制系统新技术

近年来,随着视频监控、会议系统及展示需求的快速增长,KVM分布式输入输出节点控制系统在各大行业中逐渐成为核心技术。OBOO鸥柏的液晶拼接大屏分布式输入输出节点控制系统(WControl),以其创新的技术和卓越的用户体验&am…

在线刷题系统测试报告

一、项目背景 1. 本项目是一个在线刷题系统,灵感来源于力扣和牛客等刷题平台,旨在锻炼自己的代码能力和剖析系统整体结构与各模块之间关系的能力。系统支持用户注册与登录,查看题目列表与题目详情,在线提交代码并提供反馈。 2. 该…

【命令操作】信创终端系统上timedatectl命令详解 _ 统信 _ 麒麟 _ 方德

原文链接:【命令操作】信创终端系统上timedatectl命令详解 | 统信 | 麒麟 | 方德 Hello,大家好啊!今天给大家带来一篇关于如何在信创终端系统上使用timedatectl命令的详细介绍。timedatectl 是Linux系统中非常实用的时间管理工具,…

JMeter模拟并发请求

PostMan不是严格意义上的并发请求工具,实际是串行的,如果需要测试后台接口并发时程序的准确性,建议采用JMeter工具。 案例:JMeter设置20个并发卖票请求,查看后台是否存在超卖的情况 方式一:一共10张票&…

大数据-177 Elasticsearch Query DSL - 聚合分析 指标聚合 桶聚合

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…

Excel重新踩坑3:条件格式;基本公式运算符;公式中的单元格引用方式;公式菜单栏其他有用的功能说明;

0、前言:以下内容是学习excel公式的基础内容。 1、需求:将表格特定区域中数值大小大于等于30,小于等于80的单元格,颜色填充为红色,大于80的,颜色填充为黄色。 新建规则之后也可以通过该功能清除规则。 2、基…

【JavaEE初阶】网络编程TCP协议实现回显服务器以及如何处理多个客户端的响应

前言 🌟🌟本期讲解关于TCP/UDP协议的原理理解~~~ 🌈感兴趣的小伙伴看一看小编主页:GGBondlctrl-CSDN博客 🔥 你的点赞就是小编不断更新的最大动力 🎆那么废话不多说…

【重学 MySQL】六十六、外键约束的使用

【重学 MySQL】六十六、外键约束的使用 外键约束的概念关键字主表和从表/父表和子表外键约束的创建条件外键约束的特点外键约束的创建方式外键约束的删除外键约束的约束等级外键约束的级联操作外键约束的示例外键约束的作用开发场景阿里开发规范 在MySQL中,外键约束…

免费开源的微信开发框架

近年来,随着人工智能技术的快速发展,聊天机器人在各个领域得到了广泛的应用。在社交媒体中,自动回复成为了一个流行的功能,让用户可以方便地与机器人进行互动。gewe框架,一个开源的微信聊天机器人框架,实现…

Android 10.0 Camera2 拍照镜像功能实现

1.前言 在10.0的系统rom定制化开发中,在进行camera2的相关拍照功能开发中,在某些时候会遇到拍照照片 左右镜像的问题,就是照片左半边和右半边是反的,所以就需要在拍照的时候保存图片的时候实现 左右镜像功能,接下来就来分析下拍照保存图片的流程 2.Camera2 拍照镜像功能实…

银行数字化转型导师坚鹏:2025年银行开门红8大思考

2025年银行开门红8大思考:与2024年相比有哪些新的变化与不同? 1. ‌员工:从认清现实到重塑信心‌ 经济下行周期开启,叠加外部不稳定、不确定因素增加,让很多员工不适应、不习惯,甚至产生躺平心态。2025年…

信息学奥赛复赛复习18-CSP-J2022-01解密-二分答案、二分找边界、二分时间复杂度、二分求最小

PDF文档回复:20241017 1 P8814 [CSP-J 2022] 解密 [题目描述] 给定一个正整数 k,有 k 次询问,每次给定三个正整数 ni,ei,di,求两个正整数 pi,qi,使 nipiqi、eidi(pi−1)(qi−1)1 [输入格式] 第一行一个正整数 k,表…

leetcode动态规划(十)-0-1背包理论基础(一维数组)

一维dp数组(滚动数组) leetcode中无纯0-1背包问题,可从卡码网上查看题目46.0-1背包问题 一维数组来源于二维数组,其本质是对一维数组进行压缩了,压缩后需要注意在进行背包容量循环的时候采用后序遍历,而不…

Linux系统基础-进程间通信(3)_模拟实现匿名管道

个人主页:C忠实粉丝 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝 原创 Linux系统基础-进程间通信(3)_模拟实现匿名和命名管道 收录于专栏[Linux学习] 本专栏旨在分享学习Linux的一点学习笔记,欢迎大家在评论区交流讨论&a…

强心剂!EEMD-MPE-KPCA-LSTM、EEMD-MPE-LSTM、EEMD-PE-LSTM故障识别、诊断

强心剂!EEMD-MPE-KPCA-LSTM、EEMD-MPE-LSTM、EEMD-PE-LSTM故障识别、诊断 目录 强心剂!EEMD-MPE-KPCA-LSTM、EEMD-MPE-LSTM、EEMD-PE-LSTM故障识别、诊断效果一览基本介绍程序设计参考资料 效果一览 基本介绍 EEMD-MPE-KPCA-LSTM(集合经验模态分解-多尺…

无人机电机损耗!

一、电机损耗类型 机械损耗: 主要由于电机的旋转部件(如转子、轴承等)在运转过程中产生的摩擦和磨损。 长时间运行或不当维护可能加剧这种损耗。 电气损耗: 包括电阻损耗、铁芯损耗和杂散损耗等。 这些损耗主要由电流通过电…

Golang | Leetcode Golang题解之第491题非递减子序列

题目: 题解: var (temp []intans [][]int )func findSubsequences(nums []int) [][]int {ans [][]int{}dfs(0, math.MinInt32, nums)return ans }func dfs(cur, last int, nums []int) {if cur len(nums) {if len(temp) > 2 {t : make([]int, len(…

未来AI的学习能力会达到怎样的水平?

​ 大家好,我是Shelly,一个专注于输出AI工具和科技前沿内容的AI应用教练,体验过300款以上的AI应用工具。关注科技及大模型领域对社会的影响10年。关注我一起驾驭AI工具,拥抱AI时代的到来。 AI工具集1:大厂AI工具【共2…

Leetcode—192. 统计词频【中等】(Shell)

2024每日刷题(188) Leetcode—192. 统计词频 实现代码 # Read from the file words.txt and output the word frequency list to stdout. cat words.txt | tr -s \n | sort | uniq -c | sort -nr | awk {print $2, $1}运行结果 之后我会持续更新&…