数据体系建设-ODS|DW|TDM|ADS介绍

news2024/11/25 22:37:28

参考书目《数据中台:让数据用起来》 

  • ODS:各业务生成的基础数据存表,如log日志数据等
  • DW:在ods基础上,分主题整合数据
  • TDM:存储标签数据
  • ADS:基于上面的数据源整合而成的供业务应用的指标报表等

贴源数据层ODS

贴源数据层ODS(Operational Data Store,又称操作数据层):对各业务线生成的基础数据的采集汇聚

数据仓库ADS、DWD、DWS、ADS分层详解 - 百度文库

获取方式:ELT (抽取-加载-转换),原始数据存储在文本类型的大字段中(jason串),在通过解析任务将数据解析到结构化的数据表中。

命名规范:ODS_系统简称_业务系统表名,区分增量表和全量表,增量表会在后缀加_delta

生成过程:确定业务系统源记录-配置映射关系,增加日期,分区等标识信息-配置数据同步方式(增量汇总还是全量,是否对全部数据进行条件筛选同步)-整理需要同步的数据-导入数据验证并发布最终采集任务

贴源数据是按照业务流程(日志层面)组织数据,不便于业务理解和分析

统一数仓层DW

在DW层,数据会被按照主题进行建模,即按照不同的业务领域或业务流程进行分类和组织。

统一数仓层DW(Data Warehouse):又细分为
明细数据层DWD(DataWarehouse Detail):
汇总数据层DWS (Data Warehouse Summary):对DWD层数据进行聚合和计算,生成各种汇总指标

建模方式:维度建模,用事实表和维度表组织数据

数据域举例:

 假设:以某公司活跃数据为例,建设DW层数据

  •  业务板块:如淘宝支付业务,美团外卖业务等等
  • 数据域:活跃
  • 业务过程:启动APP以及在APP内的一系列活跃行为
  • 修饰类型: 行为时间、行为发生的端(APP、小程序、WAP)
  • 原子指标:动作+度量如:小说阅读PV数,视频播放时长等
  • 派生指标:某时间段内(修饰)使用时长(原子指标)均值(计算方法)
  • 维度表:用户属性(男女、城市)......
  • 事实表:明细事实记录原子数据(事务事实表:增量更新,不能回溯修改),汇总事实记录聚合数据(周期快照和累计快照表)。如每天的活跃行为记录表就是以天为周期的周期快照事实表 

标签数据层TDM

标签数据层TDM(Tag Data Model):面向对象建模,对跨业务板块、跨数据域的特定对象数据进行整合,通过ID-Mapping把各个业务板块、各个业务过程中的同一对象的数据打通,形成对象的全域标签体系

标签设计信息

  • 业务方向:标签类目、标签名、标签加工类型、标签逻辑、值字典、取值类型、示例、更新周期、安全等级
  • 技术方向:表名、字段名、负责人、完成时间等

纵表:Key-Value表

用户IDkeyvalue
a01性别

a01

年龄18

横表:二维表(更常用)

用户ID性别年龄
a0118

a02

22

应用数据层ADS

应用数据层ADS(Application Data Store),避免在分析过程中频繁联表操作而创建的应用数据层,根据业务使用需要而个性化数据组装出来的表。不仅从各个表中迁移数据,也可能会进行一些数据加工的工作。

服务范围:常见的服务是用于BI分析,系统性能更强的应用数据可以用户个性化推荐,搜索优化等业务,应用数据层加工的结果数据集,要根据不同的使用场景,同步到不同的存储介质,以达到业务对不同吞吐量和响应时间的需要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/596147.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

什么是EDI 858装运信息?

EDI 858是电子数据交换(Electronic Data Interchange,简称EDI)中的一种标准格式,它主要用于在供应链管理中进行物流和运输的数据交换。EDI 858是指基于ASC X12标准的858交付和接收数据集,也被称为”Shipping Notice/Ma…

基于Spring boot的图书商城管理系统-源码、数据库、LW

框架:Springboot 数据库:MySQL 下载链接: https://download.csdn.net/download/yw1990128/87851197 B站运行链接: 基于Springboot的图书商城管理系统_哔哩哔哩_bilibili 引言 项目开发背景 Internet最早在美国出现&#xf…

GLSurfaceView 与 SurfaceView 联系与区别

同系列文章: SurfaceView为什么不能做动画? SurfaceViewMediaPlayer实现视频播放 本文目录 笔试题解析有了SurfaceView,为什么还要提供一个GLSurfaceView?SurfaceView有哪些用途? 笔试题解析 下面是属于GLSurfaceView特性的是&a…

Android开机流程、Zygote进程、systemserver、ServiceManager

一、Loader层 1、Boot ROM: 上电后,BootRom会被激活,引导芯片代码开始从预定义的地方(固化在ROM)开始执行,然后加载引导程序到RAM。 2、 Boot Loader引导程序 Android是基于Linux系统的,它没有BI…

Arcgis进阶篇(6)——如何将Arcgis Pro的离线数据发布成服务

常常因为Arcgis Server(或者GeoScene Server)昂贵的价格,而导致小项目技术选型选择开源的GIS Server(如GeoServer等)。但用完之后,发现后者实在拉跨,使用对比差异巨大。那就只能另想办法&#x…

商家618活动文案怎么写,注意事项

马上又是一年的618,特别是最近大家消费热情高涨的时候。今天,就来和大家好好唠一唠618。商家618活动文案怎么写,以及注意事项。 为了以防有些人没有真正了解618,虽然可能性很小,但是本着严谨的原则,还是先介…

MySQL数据库 3.内部数据模型

🤔前言: 🙂关系型数据库: 关系型数据库是建立在关系模型基础上,由多张相互连接的二维表组成的数据库。 关系型数据库是一种使用关系模型来组织数据的数据库系统。数据以二维表的形式存储,一张表代表一种数…

chatgpt赋能python:Python交流微信群:打开学习和分享的大门

Python交流微信群:打开学习和分享的大门 Python是一种高级编程语言,得益于其灵活性,易学性和强大的社区支持,已经成为许多程序员首选的开发语言。但是,学习Python并没有那么容易,很多人可能会面临困惑和挫…

FPGA 设计中经常犯的 10 个错误

本文列出了FPGA设计中常见的十个错误。我们收集了 FPGA 工程师在其设计中犯的 10 个最常见错误,并提供了解决方案的建议和替代方案。本文假定读者已经具备 RTL 设计和数字电路方面的基础。接下来让我们深入探讨在FPGA 设计中要避免的 10 大错误。 异步逻辑 FPGA 设计…

C# webAPI 精解

入门 创建一个web项目 先创建一个web项目 基本可以运行的程度 用postman进行接口测试 .NET Framework 和 .NET Core 都可以创建 webAPI 这里用 .NET Framework 比较简单 。 启动 Visual Studio,并从“开始”页中选择“新建项目”。 或者,在 “文件” 菜…

简单介绍Roop(类似SimSwap)单张图视频换脸的项目

文章目录 (一)关于Roop(二)安装Roop(CPU)(2.1)克隆仓库(2.2)设置python国内源(2.2)检查安装virtualenv(2.3)创…

chatgpt赋能python:Python文本处理——从文本中提取数据

Python文本处理——从文本中提取数据 在数据分析和机器学习中,从文本中提取数据是一个十分重要的步骤。在Python中,我们可以使用各种工具和库来实现这一目标。这篇文章将介绍一些Python中用于从文本中提取数据的常用技术。 正则表达式 正则表达式是一…

大数据管理平台DataSophon-1.1.1安装部署详细流程

1 DataSophon介绍 1.1 DataSophon愿景 DataSophon致力于快速实现部署、管理、监控以及自动化运维大数据云原生平台,帮助您快速构建起稳定、高效、可弹性伸缩的大数据云原生平台。 1.2 DataSophon是什么 《三体》,这部获世界科幻文学最高奖项雨果奖的…

聚观早报 | 英伟达市值破万亿美元;微信问一问搜索功能开始内测

今日要闻:英伟达市值破万亿美元;微信「问一问」搜索功能开始内测;快播宣告破产公司已注销;贤合庄北京门店全部关闭;华为AIGC或在7月发布 英伟达市值破万亿美元 5 月 30 日消息,上周三,英伟达发…

阿里云服务器选购指南(图文教程详解)

目录 一、前言 二、基本概念 1.定义 2.部署形式 3.用处 三、主流平台 1.Google 2.AWS 3.华为云 4.腾讯云 5.阿里云 四、云服务器分类 1.云服务器ECS 2.轻量应用服务器 3.GPU云服务器 4.FPGA云服务器 5.无影云桌面 五、选购指南 1.明确需求 2.明确身份 3.明确时间 4.明确教程 一…

浅谈数字电视大楼电力保护监控系统的设计与应用

摘要:介绍天津电视台数字电视大厦电力监控系统的选择与建立,组网方式,系统的使用与报文的显示等,通过该系统对大厦所有变配电回路、UPS 线路等关键部位进行监控和管理。 关键词:电力监控;数字电视;变配电; 1.总述 天津…

一个通用的自适应prompt方法,突破了零样本学习的瓶颈

深度学习自然语言处理 原创作者:Winni 今天要给大家介绍一篇Google的研究,解决了大语言模型(LLMs)在零样本学习方面的困境。相比于少样本学习,LLMs在零样本学习上常常表现得比较弱,这主要是因为缺乏指导。而…

MySQL数据库 5.DDl操作数据库

目录 🤔DDL介绍: 🤔语法详解: 1.查询: 1.查询所有数据库: 示例:查询自带数据库 2.查询当前数据库: 2.创建: 示例:创建一个名字叫做itcast的数据库&…

chatgpt赋能python:Python的交运算:了解、应用和优化

Python的交运算:了解、应用和优化 Python是一种流行的编程语言,它拥有丰富的数据结构和算法库。其中,交运算是一种常用的操作,它能够方便地比较两个集合的相同元素。在这篇SEO文章中,我们将介绍Python中的交运算&…

(原创)Android apk应用加固、字节对齐、二次签名全流程

这篇博客主要是讲如何对apk应用进行加固、对齐和签名的,会有详细的步骤逐一介绍 前言 随着各大加固工具都开始逐一收费后,个人开发中或者中小型企业如何对应用进行加固就成了一个问题。以前我常用的是360加固助手,虽然每天限制一定的免费次数…