参考书目《数据中台:让数据用起来》
- ODS:各业务生成的基础数据存表,如log日志数据等
- DW:在ods基础上,分主题整合数据
- TDM:存储标签数据
- ADS:基于上面的数据源整合而成的供业务应用的指标报表等
贴源数据层ODS
贴源数据层ODS(Operational Data Store,又称操作数据层):对各业务线生成的基础数据的采集汇聚
数据仓库ADS、DWD、DWS、ADS分层详解 - 百度文库
获取方式:ELT (抽取-加载-转换),原始数据存储在文本类型的大字段中(jason串),在通过解析任务将数据解析到结构化的数据表中。
命名规范:ODS_系统简称_业务系统表名,区分增量表和全量表,增量表会在后缀加_delta
生成过程:确定业务系统源记录-配置映射关系,增加日期,分区等标识信息-配置数据同步方式(增量汇总还是全量,是否对全部数据进行条件筛选同步)-整理需要同步的数据-导入数据验证并发布最终采集任务
贴源数据是按照业务流程(日志层面)组织数据,不便于业务理解和分析
统一数仓层DW
在DW层,数据会被按照主题进行建模,即按照不同的业务领域或业务流程进行分类和组织。
统一数仓层DW(Data Warehouse):又细分为
明细数据层DWD(DataWarehouse Detail):
汇总数据层DWS (Data Warehouse Summary):对DWD层数据进行聚合和计算,生成各种汇总指标
建模方式:维度建模,用事实表和维度表组织数据
数据域举例:
假设:以某公司活跃数据为例,建设DW层数据
- 业务板块:如淘宝支付业务,美团外卖业务等等
- 数据域:活跃
- 业务过程:启动APP以及在APP内的一系列活跃行为
- 修饰类型: 行为时间、行为发生的端(APP、小程序、WAP)
- 原子指标:动作+度量如:小说阅读PV数,视频播放时长等
- 派生指标:某时间段内(修饰)使用时长(原子指标)均值(计算方法)
- 维度表:用户属性(男女、城市)......
- 事实表:明细事实记录原子数据(事务事实表:增量更新,不能回溯修改),汇总事实记录聚合数据(周期快照和累计快照表)。如每天的活跃行为记录表就是以天为周期的周期快照事实表
标签数据层TDM
标签数据层TDM(Tag Data Model):面向对象建模,对跨业务板块、跨数据域的特定对象数据进行整合,通过ID-Mapping把各个业务板块、各个业务过程中的同一对象的数据打通,形成对象的全域标签体系
标签设计信息
- 业务方向:标签类目、标签名、标签加工类型、标签逻辑、值字典、取值类型、示例、更新周期、安全等级
- 技术方向:表名、字段名、负责人、完成时间等
纵表:Key-Value表
用户ID | key | value |
a01 | 性别 | 女 |
a01 | 年龄 | 18 |
横表:二维表(更常用)
用户ID | 性别 | 年龄 |
a01 | 女 | 18 |
a02 | 男 | 22 |
应用数据层ADS
应用数据层ADS(Application Data Store),避免在分析过程中频繁联表操作而创建的应用数据层,根据业务使用需要而个性化数据组装出来的表。不仅从各个表中迁移数据,也可能会进行一些数据加工的工作。
服务范围:常见的服务是用于BI分析,系统性能更强的应用数据可以用户个性化推荐,搜索优化等业务,应用数据层加工的结果数据集,要根据不同的使用场景,同步到不同的存储介质,以达到业务对不同吞吐量和响应时间的需要。