数据中台建设(七)——数据体系建设

news2025/1/22 18:00:27

数据体系建设在这里插入图片描述

数据中台是企业数据汇集地,但并不是简单的数据堆积,而是进行分层建模,数据体系建设最终呈现一套完整、规范、准确的数据。数据体系建设就是大数据中数据仓库建设。如下图:
在这里插入图片描述

  • 贴源数据层ODS(Operational Data Store):贴源层又称操作数据层,对各业务系统数据进行采集、汇集,尽可能保留原始业务流程数据,与业务系统基本保持一致,仅做简单整合、非结构化数据结构化处理,或者增加标识数据等,不做深度清洗加工。
  • 统一数仓层DW(Data Warehouse):数据仓库层又细分为很多层,大致为:明细数据层DWD(Data Warehouse Detail)和汇总数据层DWS(Data Warehouse Service),与传统数据仓库构建一样,对全历史业务过程数据进行建模存储。
  • 标签数据层TDM(Tag Data Model):面相对象建模,对跨业务板块、跨数据域的特定对象数据进行整合,把各个业务板块、各个业务过程中同一对象的数据打通,形成对象的全域标签体系,方便深度分析、挖掘、应用。
  • 应用数据层ADS(Application Data Store):本层也可以叫DM(Data Market)数据集市层,按照业务需要,从统一数仓层、标签数据层抽取数据,并面向业务提供特定数据,以满足业务及性能需求。
    以上数据体系建设过程中数据的读取也有严格的规范要求,按照规范,贴源数据层直接从业务系统或日志系统中获取数据。贴源数据层的数据只被统一数仓层使用,统一数仓层数据只被标签层和应用数据层使用,最终所有业务使用的数据均来自于标签层和应用层。
    在大数据数据仓库课程中我们详细学习了数据仓库的分层与构建,当时不涉及数据标签层,这里我们详细介绍数据标签层。

数据标签层

统一数仓中的数据时,按照数仓的维度规范建模,对业务数据按照主题域进行组织,但是同一个对象的各种指标信息分散在不同的数据域并且有不同的数据粒度。例如:

  • 用户数据,用户注册宽表信息中有用户注册渠道、性别、手机号码等信息。
  • 用户登录信息宽表中有用户连续登录天数、用户最后登录时间、用户累计在线时长等信息。
  • 用户订单信息宽表中有用户下单量、用户累计消费、用户最后下单金额等信息。

以上各种宽表中的各种信息涉及到了各个主题域,想要了解一个用户的全面信息,例如:了解用户手机号码、连续登录天数、累计消费金额信息,需要通过各种关联关系才能满足业务需要,数据使用成本高。而有时获取、分析用户的全面数据是多个业务的共同需求,例如:运营人员需要知道每个用户的年龄段、消费金额信息来制定营销活动,机器学习部门需要知道每个用户的年龄段、消费金额信息来训练模型等等。
在这里插入图片描述
那么在企业数据中台构建中,各个业务部门需要用到的这些共性数据(描述对象的全面数据)就可以通过标签数据层来满足,通过构建标签数据层可以做到企业精细化运营,例如:精准营销、精准推荐、用户画像、用户维护(针对用户群体进行研发用户偏好产品,吸引用户)等。注意:很多个业务部门经常共同使用到的指标就可以构建成标签数据。
标签数据层建设一方面让数据变的可阅读、易理解,方便业务使用,另一方面通过标签类目体系将标签组织排布,以一种适用性更好的组织方式来匹配未来变化的业务场景。

如何构建数据标签层

确定构建标签对象

进行标签建设首先要清楚对哪些对象建设标签,也就是明确对象,例如:对用户、对产品、订单等。经过对多个行业,多个标签体系建设来看可以把对象分为“人”,“物”,“关系”三大类。

  • “人”包括自然人、法人、消费者、消费者协会、电商企业等,表示可以主动发起行为的主体。
  • “物”包括物品、物体、仓库等,表示行为中被施于对象。
  • “关系”包括购物、运货、聊天、监管等,表示人物关系、人人关系、物物关系,包括行为关系、归属关系等。

明确了企业中对哪些对象进行构建标签就可以进行标签体系建设。企业中的对象非常多,不会对所有的对象都构建标签体系,企业需要什么对象的标签就构建什么对象的标签,常见构建标签体系的对象有客户、员工、用户、产品、设备等。一种对象标签体系的建设不会影响另外一种对象标签体系建设,可以同时对多个对象进行标签体系建设。

设计标签类目

企业业务需要使用的标签项一般都会非常之多,当标签项超过50个时,业务人员要使用或者查找标签变得非常麻烦,所以标签一旦多了之后,我们就需要设计标签类目,根目录就是前面提到到“人”、“物”、“关系”。根目录也叫一级目录,除了一级目录之外,按照所属关系还可以分为“二级目录”、“三级目录”,一般标签类目结构分为三级分层结构即可。
类目体系的层级构建尽量以用户最容易理解的方式进行展开,也可以根据各自业务来设计“一级目录”、“二级目录”、“三级目录”,这样可以方便数据开发者或者数据库管理员快速找到所需要的标签数据。
以下为标签类目设计示例:
在这里插入图片描述
以上表中对应的红色数字字符串可以存储在mysql关系型数据库中,如果企业数据标签量大,可以以每级别目录创建表,以K,V方式存储标签数据,存储目的主要是为了方便数据开发者或者数据库管理员快速找到所需要的标签数据,另外企业中如果构建了标签系统,也可以在标签系统中查询对应表进行级联展示。
以上表中对应的蓝色字体为在数据体系中标签层中对应的表名和每张表中对应的字段名称。标签表的建立可以和最后一级标签目录对应,也就是说最后一级标签目录对应一张标签表,当然这也不是固定死的,也可以非最后一级目录对应一张标签表,但是要避免一些标签表中标签字段过多,不均衡问题。这些标签字段对应的结果值都是从DWS层中进行跨主题域进行分析得到。
通常来说构建标签体系是指对象的标签类目+标签,标签体系设计的核心是标签类目设计(一级、二级、三级等目录),标签类目设计完成,整个标签体系的框架就有了,后面就是往每个叶类目下填充,通过数仓DWS层可以加载出来的标签,进而完成整个标签体系的建设。

标签表实现

设计好标签类目之后,对应的标签表中的数据就是通过查询数据体系中的DWS层的数据,这个过程中涉及到跨多张业务宽表、多主题域的查询,将多个表结果按照全局统一的ID进行融合(例如:用户ID,用户身份证ID,手机号等),根据获取各个宽表中的数据,进一步按照业务规则判断,找到相应标签对应的值,存入标签表中。实际上一般的标签表中除了有对应的标签值之外都还会有全局统一的ID,这样方便后期查询使用标签表中的数据,为业务方赋能,提供更多的数据价值。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2140124.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python的数据类型详解

python基础 认识python基本类型python的注释风格有三种(也可以说是两种)python的对齐方式python的多行语句折断字符串类型的“计算”列表的常见用法元组的常见用法集合set的常见用法字典的常见用法bytes类型python的输入输出python中的引用 认识python基…

基于环境音频和振动数据的人类活动识别

这篇论文的标题是《Recognition of human activities based on ambient audio and vibration data》,作者是 Marcel Koch 等人,发表在 IEEE Access 期刊上。论文提出了一种基于环境音频和振动数据的分布式多传感器系统,用于识别人类活动。以下…

窗口框架frame(HTML前端)

一.窗口框架 作用&#xff1a;将网页分割为多个HTML页面&#xff0c;即将窗口分为多个小窗口&#xff0c;每个小窗口可以显示不同的页面&#xff0c;但是在浏览器中是一个完整的页面 基本语法 <frameset cols"" row""></frameset><frame…

好的知识竞赛策划公司哪里去找

活动不管多大&#xff0c;都败在策划公司手中&#xff01;要找到好的策划公司&#xff0c;可以考虑以下几个途径&#xff1a; 1.搜索引擎&#xff1a; 通过搜索引擎&#xff0c;可以找到行业内有实力的优秀策划公司。尽管有些公司是打广告&#xff0c;那总比没钱打广告的公司…

Codes 开源研发项目管理平台——敏捷测试管理创新解决方案

前言 Codes 是国内首款重新定义 SaaS 模式的开源项目管理平台&#xff0c;支持云端认证、本地部署、全部功能开放&#xff0c;并且对30人以下团队免费。它通过整合迭代、看板、度量和自动化等功能&#xff0c;简化测试协同工作&#xff0c;使敏捷测试更易于实施。并提供低成本的…

C#与Python脚本使用共享内存通信

实现的功能&#xff1a; C#中读取一张图像&#xff0c;通过共享内存传给python脚本进行处理后将图像进行存储&#xff0c;C#读取处理过后的图像。 C#与python通信有好几种&#xff0c;为什么选择共享内存&#xff1f; 处理图像的速度需求是1秒钟处理5张以上&#xff0c;通过…

《中文Python穿云箭量化平台二次开发技术11》股票基本信息获取分析及应用示例【前十大股东占股比例提取及分析】

《中文Python穿云箭量化平台二次开发技术11》股票基本信息获取分析及应用示例【前十大股东占股比例提取及分析】 《中文Python穿云箭量化平台》是纯Python开发的量化平台&#xff0c;因此其中很多Python模块&#xff0c;我们可以自己设计新的量化工具&#xff0c;例如自己新的行…

1----安卓机型修复串码 开启端口 檫除基带 支持高通与MTK机型工具预览与操作解析

在玩机过程中。很多玩家会碰到各种各样的故障 。其中最多的就在于基带 串码类。由于目前的安卓机型必须修改或者写入串码等参数必须开启端口。而一些初级玩友不太了解开启参数端口的步骤。这个工具很简单的为安卓机型开启端口。并且操作相对简单。 此工具基本功能 1-----可以…

linux入门到实操-4 linux系统网络配置、连接测试、网络连接模式、修改静态IP、配置主机名

教程来源&#xff1a;B站视频BV1WY4y1H7d3 3天搞定Linux&#xff0c;1天搞定Shell&#xff0c;清华学神带你通关_哔哩哔哩_bilibili 整理汇总的课程内容笔记和课程资料&#xff08;包含课程同版本linux系统文件等内容&#xff09;&#xff0c;供大家学习交流下载&#xff1a;…

第15-03章:类的加载与ClassLoader的理解

3、类的加载与ClassLoader的理解 5.1.类加载(ClassLoad)的理解: a.类加载器的作用: 1.将class文件字节码内容加载到内存中&#xff0c;并将这些静态数据转换成方法区的运行时数据结构&#xff0c;然后在堆中生成一个代表这个类的java.lang.Class对象&#xff0c;作为方法区中…

一步迅速了解Linux

1&#xff0c;什么是LInux&#xff1f; Linux 是一个开源的操作系统(管理计算机硬件资源,人物调度)支持多用户,支持网络,支持多线程. 2&#xff0c;Linux特指什么&#xff1f; linux一词,特指的是linux内核 即最操作系统最核心的那一部分功能.负责管理 计算机的硬件资源&…

AIP接口调用

在当今数字化时代&#xff0c;API接口调用已成为连接不同软件和系统的重要手段。特别是在与淘宝这样的大型电商平台进行数据交互时&#xff0c;AIP&#xff08;人工智能平台&#xff09;接口的作用尤为显著。通过AIP接口&#xff0c;开发者可以访问和利用淘宝庞大的商品数据库&…

k8s介绍及部署

目录 一 Kubernetes 简介及部署方法 1.1 应用部署方式演变 1.2 容器编排应用 1.3 kubernetes 简介 1.4 K8S的设计架构 1.4.1 K8S各个组件用途 1.4.2 K8S 各组件之间的调用关系 1.4.3 K8S 的 常用名词感念 1.4.4 k8S的分层架构 二 K8S集群环境搭建 2.1 k8s中容器的管…

[苍穹外卖]-12Apache POI入门与实战

工作台 需求分析: 工作台是系统运营的数据看板, 并提供快捷操作入口, 可以有效提高商家的工作效率 营业额: 已完成订单的总金额有效订单: 已经完成订单的数量订单完成率: 有效订单数/总订单数*100%平均客单价: 营业额/有效订单数新增用户: 新增的用户数量 接口设计: 一个接口返…

RabbitMQ(高阶使用)死信队列

文章内容是学习过程中的知识总结&#xff0c;如有纰漏&#xff0c;欢迎指正 文章目录 一、什么是死信队列&#xff1f; 二、死信队列使用场景 三、死信队列如何使用 四、打车超时处理 1.打车超时实现 以下是本篇文章正文内容 一、什么是死信队列&#xff1f; 先从概念解释上搞…

嵌入式通信原理—SPI总线通信原理与应用

文章目录 SPI 简介基本原理工作模式特点 SPI寻址方式1. 片选&#xff08;Chip Select, CS&#xff09;2. 多从设备通信3. 菊花链&#xff08;Daisy-Chain&#xff09;模式4. 地址寄存器&#xff08;应用层&#xff09; SPI通信过程时钟信号生成&#xff08;SCLK&#xff09;数据…

supermap Iclient3d for cesium加载地形并夸大地形

先看效果图 这是没有夸张之前的都江堰 这是夸大五倍后的都江堰 下面展示代码 主要就是加载supermaponline的skt地形然后夸大 <template><div class"PartOneBox"><div id"cesiumContainer"></div></div> </template>…

华为eNSP使用详解

eNSP&#xff08;Enterprise Network Simulation Platform&#xff09;是华为提供的一款网络仿真平台&#xff0c;它允许用户在没有真实设备的情况下进行网络实验和学习网络技术。eNSP可以模拟各种网络设备&#xff0c;如交换机、路由器、防火墙等&#xff0c;并支持创建多种网…

【mechine learning-十-grading descent梯度下降实现】

grading descent 梯度下降参数更新方法 --导数和学习率 从导数项直观理解梯度下降 grading descent 算法就是更新参数&#xff0c;今天来学习下如何更新w和b 梯度下降 还是以线性回归的均方差损失函数如下为例&#xff1a; 损失函数的可视化图如下 &#xff1a; 横轴和纵轴分…

[C++]类和对象(上)

我们在之前已经将C的入门基础做了讲解&#xff0c;在本章我们将系统性的阐述C中类和对象的基本定义和用法 1.类的定义 目录 1.类的定义 1.类定义的格式 2.访问限定符 3.类域 2.实例化 1.实例化的概念 2.实例化的对象大小 3.this指针 3.类的默认成员函数 1.构造函数…