数据模型篇之阿里巴巴数据整合及管理体系

news2025/1/19 3:14:32

第9章 阿里巴巴整合及管理体系

  OneData的设计是为了建设统一的、规范化的数据接人层( ODS )和数据中间层( DWD和DWS ),通过数据服务和数据产品,完成服务于阿里巴巴的大数据系统建设 ,即数据公共层建设。提供标准化的( Standard )、共享的( Shared )、数据服务( Service )能力,降低数据互通成本,释放计算、存储、人力等资源,以消除业务和技术之痛。

1. OneData体系架构

在这里插入图片描述

  • 业务板块

由于阿里巴巴集团业务生态庞大,所以根据业务的属性划分出几个相对独立的业务板块,业务板块之间的指标或业务重叠性较小。如电商业务板块涵盖淘系、 B2B系和 AliExpess系等。

  • 规范定义

规范定义指以维度建模作为理论基础 构建总线矩阵,划分和定义数据域、业务过程、维度、度量 原子指标、修饰类型、修饰词、时间周期、派生指标

在这里插入图片描述

名词术语解释
数据域指面向业务分析,将业务过程或者维度进行抽象的集合。其中,业务过程可以概括为一 个个不可拆分的行为事件,在业务过程之下,可以定义指标;维度是指度数据域的环境,如买家下单事件,买家是维度。为保障整个体系的生命力,数据域是需要抽象提炼,并且长期维护和更新的,但不轻易变动。在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响地被包含进已有的数据域中和扩展新的数据域
业务过程指企业的业务活动事件,如下单、支付、退款都是业务过程。请注意,业务过程是一个不可拆分的行为事件,通俗地讲,业务过程就是企业活动中的事件
时间周期用来明确数据统计的时间范用或者时间点,如最近 30 天、自然周、截至当日等
修饰类型是对修饰词的一种抽象划分。修饰类型从属于某个业务域,如日志域的访问终端类型涵盖无线端、 PC端等修饰词
修饰词指除了统计维度以外指标的业务场景限定抽象。修饰词隶属于一种修饰类型,如在日志域的访问终端类型下,有修饰词 PC 端、无线端等
度量/原子指标原子指标和度自含义相同,基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名词 ,如支付金额
维度维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度也可以称为实体对象。维度属于一个数据域,如地理维度(其中包括国家、地区、省以及城市等级别的内容)、时间维度(其中包括年、季、月、周、日等级别的内容)
维度属性维度属性隶属于一个维度,如地理维度里面的国家名称、同家 ID 、省份名称等都属于维度属性
派生指标派生指标= 一个原子指标+多个修饰词(可选)+时间周期。可以理解为对原子指标业务统计范围的圈定。如原子指标:支付金额,最近1天海外买家支付金额则为派生指标(最近1天为时间周期,海外为修饰词,买家作为维度,而不作为修饰词)
  • 模型设计

(1)指导理论

维度建模理论:基于维度数据模型总线架构,构建一致性的维度和事实。

(2)模型层次
在这里插入图片描述

① 操作数据层(ODS)
功能:同步;结构化;累积历史、清洗
② 公共维度模型层(DM):明细数据层(DWD)+汇总数据层(DWS)
功能:组合相关和相似数据;公共指标统一加工;建立一致性维度
③ 应用数据层( DS )
功能:个性化指标加工;基于应用的数据组装

(3)基本原则

高内聚和低辑合
核心模型与扩展模型分离
公共处理逻辑下沉及单一
成本与性能平衡
数据可回滚
一致性
命名清晰、可理解

2.模型实施

  • 业界常用模型实施过程

(1)Kimball 模型实施过程

高层模型
详细模型
模型审查、再设计和验证
提交 ETL 设计和开发
参考:Ralph Kimball, The DataWarehouse Lifecycle Toolkit

(2)Inmon 模型实施过程

三个层次:
ERD (Entity Relationship Diagram ,实体关系图)层
DIS (Data Item Set 数据项集)层
物理层(Physical Model ,物理模型)
参考:Inmon, Building the Data Warehouse

(3)其他模型实施过程

业务建模,生成业务模型
领域建模,生成领域模型
逻辑建模,生成逻辑模型
物理建模,生成物理模型

  • OneData模型实施过程
    (1)指导方针

首先,在建设大数据数据仓库时,要进行充分的业务调研和需求分析。
其次,进行数据总体架构设计,主要根据数据域对数据进行划分;按照维度建模理论,构建总线矩阵、抽出业务过程和维度。
再次,对报表需求进行抽象整理出相关指标体系,使用 OneData 工具完成指标规范定义和模型设计。
最后,就是代码研发和运维。

(2)实施工作流
OneDatade的实施过程是一个高度迭代和动态的过程,一般采用螺旋式实施方法。
在这里插入图片描述

① 数据调研
业务调研
需求调研
②架构设计
数据域划分
构建总线矩阵
③ 规范定义
主要定义指标体系,包括原子指标、修饰词、时间周期和派生指标。
④ 模型设计
主要包括维度及属性的规范定义,维表、明细事实表和汇总事实表的模型设计。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/93293.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2022 年 11 月区块链操作系统的开发回顾

查看 Cartesi Machine、Cartesi Rollups 和 Noether 的更新正在寻找区块链操作系统组件的最新进展?你找对地方了!正如在我们的路线图文章中所描述的那样,我们一直在朝着定期且频繁的更新方向发展着,以便让我们的社区能够及时的了解…

微服务框架 SpringCloud微服务架构 多级缓存 46 JVM 进程缓存 46.1 导入商品案例【MySQL环境准备】

微服务框架 【SpringCloudRabbitMQDockerRedis搜索分布式,系统详解springcloud微服务技术栈课程|黑马程序员Java微服务】 多级缓存 文章目录微服务框架多级缓存46 JVM 进程缓存46.1 导入商品案例【MySQL环境准备】46.1.1 导入商品管理案例46 JVM 进程缓存 用于在T…

新冠疫情下免疫的重要性以及肠道菌群在其中的作用

今年是新冠病毒影响的第三年了,在病毒的影响下,我们的生活方式发生了很大的变化。近日,多地政府颁布了疫情防控的新政策,除了一些特殊场所,出入其他场所不用扫场所码了。 从一方面说,这样的情况方便了我们日…

DAP数据分析平台可视化组件开发

企业信息化建设会越来越完善,越来越体系化,当今数据时代背景下更加强调、重视数据的价值,以数据说话,通过数据为企业提升渠道转化率、改善企业产品、实现精准运营、有效运营,用数据来指引企业的发展。 组件使用是在DA…

第一章:Pytorch简介和其三大核心概念

文章目录一:什么是Pytorch二:Pytorch优势三:Pytorch三大核心概念(1)tensor(张量)(2)autograd(自动微分-变量)(3)nn.Module…

java计算机毕业设计基于安卓Android的校园安保巡查系统APP

项目介绍 校园安保巡查系统APP管理是校园安保巡查系统管理中对学生必不可少的一个部分。在人们校园安保巡查系统管理的整个过程中,校园安保巡查系统APP管理担负着最重要的角色。为满足如今日益复杂的管理需求,各类校园安保巡查系统APP管理程序也在不断改进。本课题所设计的校园…

精华推荐 |【Redis技术探索】「底层架构原理」帮你彻底搞定Sentinel的实现原理运作机制

👮‍每日一句 最美好的生活方式是和一群志同道合的人,一起奔跑在理想的路上,回头有一路的故事,低头有坚定的脚步,抬头有清晰的远方! 👮‍ Sentinel存在的意义 👮‍ Sentinel出现的前…

如何快速传输大文件,介绍大文件快速方法

现在,企业比以往任何时候都面临着一个重大挑战:需要一个快速共享文件的解决方案。但是,并非所有快速文件传输解决方案都以相同的速度传输文件。文件大小、端点位置、路径、设备、防火墙、网络系统和加密需求都会限制文件的传输速度。 什么是快…

[附源码]Python计算机毕业设计个人相册管理系统Django(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程 项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等…

Java中的String类

一、String类的体系图 简单解释:1、String类实现了Serializable接口,说明String类可以串行化,可以进行网络传输。2、String类实现了Comparable接口,说明String对象可以进行比较。 二、String类介绍 String类是lang包中的类&…

【LeetCode每日一题】——337.打家劫舍 III

文章目录一【题目类别】二【题目难度】三【题目编号】四【题目描述】五【题目示例】六【解题思路】七【题目提示】八【时间频度】九【代码实现】十【提交结果】一【题目类别】 树 二【题目难度】 中等 三【题目编号】 337.打家劫舍 III 四【题目描述】 小偷又发现了一个…

数据指标体系的建设思考(三)

一、数据指标体系搭建流程 01、如何搭建数据指标体系 ▶ “德勤”的数据指标体系方法论 首先,我们先来学习一下优秀的数据指标体系搭建方法论。数据指标体系搭建方法论有不少优秀的方案,大部分都大同小异,在这里我们来聊一下“德勤”推荐的…

论文投稿指南——中国(中文EI)期刊推荐(第7期)

🎄🎄 EI是国际知名三大检索系统之一,在学术界的知名度和认可度仅次于SCI! 【前言】 想发论文怎么办?手把手教你论文如何投稿!那么,首先要搞懂投稿目标——论文期刊。其中,中文期刊的…

Opencv(C++)笔记--形态学操作之开、闭操作、基本梯度计算、顶帽和黑帽操作

目录 1--开操作 2--闭操作 3--基本梯度计算 4--顶帽操作 5--黑帽操作 6--代码实例 1--开操作 ① 原理:先进行腐蚀操作,再进行膨胀操作; ② 作用:消除值高于邻近点的孤立点,达到去除图像中噪声的作用&#xff0…

Python零基础入门篇- Python的加密模块 - hashlib 与 base64

我们来学习一下 Python 中的加密模块,加密模块在工作中被广泛应用。比如数据的传入 不希望被捕获,通过把数据加密。这样即使被捕获也无法获取到数据的真实信息,今天我们就来学习一下关于加密的方法。 hashlib 模块 hashlib 模块的介绍 hashl…

SSH远程免密登录的两种方式

SSH远程免密登录的两种方式一、ssh远程登录操作1.先ping测试下看看网络是否通畅2.ssh 192.168.150.148二、ssh免密登录方式一1.生成公钥、私钥2.拷贝公钥到目标服务器3.测试ssh免密登录三、ssh免密登录方式二1.生成本机的公钥私钥2.打开本地公钥文件复制公钥信息3.将公钥存放到…

[虚幻引擎] UE4/5数字孪生 制作城市光束效果

一、模型导入 二、创建材质 创建材质曲线,为了能够更好的实现颜色的渐变过程,这里用了RGB三种颜色 三、创建蓝图BP_LightBeam 在构造函数中实现逻辑首先我们的思路是要制作数量不同的光束那么我们就要循环,循环的次数可根据你想要的数量来设…

BAT大厂都在用的Docker。学会这三招,面试、工作轻松hold住

上期我们以Jenkins为例,一边实战一边了解Docker的基础命令。这期,我们将带大家使用Docker搭建三个平时测试工作中非常有用的小工具。学会这三个实战之后,你就可以说对Docker不是浅尝即止在理论阶段,而是真正有一定了解&#xff0c…

Java学习笔记 --- MySQL-数据库

一、使用命令行窗口连接MySQL数据库 1、mysql -h 主机名 -P 端口 -u 用户名 -p密码 2、登录前,保证服务启动 示意图 二、数据库三层结构 1、所谓安装MySQL数据库,就是在主机安装一个数据库管理系统(DBMS),这个管理程…

Metal每日分享,纯色图片滤镜效果

本案例的目的是理解如何用Metal实现纯色图片效果滤镜,主要就是生成纯色图片; Demo HarbethDemo地址 实操代码 // 纯色滤镜 ImageView.image C7Color.purple.mt.colorImage(with: CGSize(width: 600, height: 600))效果对比图 不同参数下效果 purpl…