目录
- 1. 数据中台的概念
- 2. 数据中台适合企业
- 2.1 企业构建数据中台面临的问题
- 2.2 企业构建数据中台解决问题的方法
- 2.3 什么样的企业适合构建数据中台
- 3. 如何建设数据中台
- 3.1 方法论
- 3.1.1 OneData
- 3.1.2 OneService
- 3.2 技术
- 3.3 组织
- 4. 数据中台实现:指标管理
- 5. 数据中台实现:数据质量
- 6. 数据中台实现:成本控制
- 7. 数据中台实现:数据服务化
1. 数据中台的概念
数据中台是指通过数据技术对海量数据进行采集、计算、存储和处理,同时统一标准和口径,形成全域级、可复用的数据资产中心和数据存储能力中心,形成大数据资产层,进而为客户提供高效的服务
数据中台构建的服务考虑了"可复用性",每项服务都像一个积木,可以随意组合,灵活高效地解决前台的个性化需求
数据中台的核心理念是"数据取之于业务,用之于业务",数据中台着眼于业务的积累和沉淀,构建了从数据生产到消费、消费后数据返回到生产的闭环过程
如下是阿里的“大中台,小前台”的战略图
其中大中台,包括业务中台和数据中台
2. 数据中台适合企业
2.1 企业构建数据中台面临的问题
主要有五点:
-
指标口径不一致:业务口径不一致、计算逻辑不一致、数据来源不一致。要实现一致,就务必确保对同一个指标,只有一个业务口径,只加工一次,数据来源必须相同
-
数据重复建设,需求响应时间长:解决数据复用的问题,要确保相同数据只加工一次,实现数据的共享
-
取数效率低:面对几千甚至上万张表,快速找到想要的数据很难。所以需要构建一个全局的企业数据资产目录,实现数据地图的功能
-
数据质量差:没有数据稽核任务。存储数据链路,及时发现数据质量问题,并恢复数据
-
数据成本线性增长:大企业烟囱式开发,导致一个企业拥有很多小数仓。所以解决方案的核心:解决数据重复建设,打通数据孤岛
2.2 企业构建数据中台解决问题的方法
构筑一个统一的平台,提供统一的出入口:OneData、OneService
-
由一个团队,负责所有指标的管控,明确每个指标的业务口径,数据来源和计算逻辑。确保唯一性
-
数据服务化,提高数据应用接入和管理的效率
-
对于非技术人员,数据中台提供可视化的取数平台。你只需要选取指标、通过获取指标系统中每个指标的可分析维度,然后勾选,添加筛选过滤条件,点击查询,就可以获取数据。这个需要公司自己研发
-
构建了企业数据地图,你可以很方便地检索有哪些数据,它们在哪些表中,又关联了哪些指标和维度
-
数据只能加工一次,强调数据的复用性
-
成本控制,研发了一个数据成本治理系统,从应用维度、表维度、任务的维度、文件的维度进行全面的治理。对于长时间未使用的指标,可以考虑清除。这个需要公司自己做埋点,自己研发
2.3 什么样的企业适合构建数据中台
既要维护之前的数据平台,又要构建新的数据平台,需要大量的人力和时间。而且构建出来的数据中台,还需要根据最终的业务应用进行不断的调整
企业在选择数据中台的时候,应该考虑这样几个因素,不要盲目搞数据中台
-
企业是否有大量的数据应用场景: 数据中台本身并不能直接产生业务价值,数据中台的本质是支撑快速地孵化数据应用。所以当你的企业有较多数据应用的场景时(一般要 3 个以上)
-
经过了快速的信息化建设,企业存在较多的业务数据的孤岛,需要整合各个业务系统的数据,进行关联的分析
-
当你的团队正在面临效率、质量和成本的苦恼时,面对大量的开发,却不知道如何提高效能,数据经常出问题而束手无策
-
当你所在的企业面临经营困难,需要通过数据实现精益运营,提高企业的运营效率的时候
-
企业规模也是必须要考虑的一个因素,数据中台需要投入大量人力和时间,收益偏长线,所以更适合业务相对稳定的大公司,并不适合初创型的小公司
3. 如何建设数据中台
3.1 方法论
3.1.1 OneData
所有数据只加工一次
数据中台就是要在整个企业中形成一个公共数据层,消灭这些跨部门的小数仓,实现数据的复用,所以强调数据只加工一次,不会因为不同的应用场景,不同的部门数据重复加工
如何实现:
-
数据划分主题进行管理
-
数据格式和字段命名和定义规范化:数仓分层-业务主题域-业务过程-基础信息-分区规则
-
指标一致,不存在二义性:提供全局数据字典确保意义一致
-
数据模型复用:推荐采用分层的设计方式,通常包括:ODS原始数据层、DWD明细数据层、DWS汇总数据层、ADS应用数据层、DIM 公共维度层
-
数据完善:数据中台尽可能的覆盖到所有业务过程,用户和系统的一切行为都被记录下来永久保存
3.1.2 OneService
数据即服务,强调数据中台的数据应该是通过API接口的方式被访问。API接口屏蔽了底层数据存储,使用统一标准的API接口查询数据,提高了数据接入的速度
实现方法:
- 给用户屏蔽底层的物理数据模型,提供数据逻辑模型
- 实现包括权限、日志、监控等管控能力的数据网关:权限控制,统计分析,流量控制,成本控制等
- 提供无状态的,高性能和稳定可靠的数据服务
3.2 技术
可以参考网易的数据中台架构
1. 大数据计算、存储基础设施
数据中台的底层是Hadoop等的大数据计算、存储基础设施
-
工具产品
覆盖了从数据集成、数据开发、数据测试到任务运维的整套工具链产品。同时还包括基础的监控运维系统、权限访问控制系统和项目用户的管理系统。由于涉及多人协作,所以还有一个流程协作与通知中心 -
数据治理模块
它对应的方法论就是OneData体系。以元数据中心为基础,提供了包括数据地图、数仓设计、数据质量、成本优化以及指标管理在内的5个产品 -
数据服务
对外提供了统一的数据服务,对应的方法论就是OneService -
数据产品和应用
包括面向非技术人员的自助取数系统;面向数据开发、分析师的自助分析系统;面向敏捷数据分析场景的BI产品;活动直播场景下的大屏系统;以及用户画像相关的标签工厂
3.3 组织
数据中台建设职责的部门是一个独立于业务线的部门。数据中台的组织必须懂业务,和明确中台的业务目标,为最终业务服务
必须得到高层领导的支持和重视,需要:
- 一把手牵头,全员共识
- 总体规划,分步实施
- 找准切入点,解决具体业务问题
综合来讲:
-
数据产品部门:负责数据中台、数据产品的体系规划、产品设计、规范制定、应用效果跟进,指标口径的定义和维护(有的部门是由分析师管理)
-
数据平台部门:负责研发支撑数据中台构建的产品,例如指标系统、元数据中心、数据地图等
-
数据开发团队:负责维护数据中台的公共数据层,满足数据产品制定的数据需求
-
应用开发团队:负责开发数据应用产品,比如报表系统、电商中的供应链系统、高层看板、经营分析
4. 数据中台实现:指标管理
定义指标的方法
-
面向主题:为了提高指标管理的效率,你需要按照业务线、主题域和业务过程三级目录方式管理指标
-
拆分原子指标和派生指标:统计周期、统计粒度、业务限定、原子指标,组成派生指标
-
命名规范:规范统一化,通俗易懂化
如何构建指标系统
- 提供一个易于维护的规范标准化指标管理系统,具备查询,增删等功能
- 数据中台团队必须要有一个专门负责指标管理的人或者小组(一般不超过3个人),最好是数据产品经理来负责(有的是让分析师承担)
- 提供一个完备的指标创建流程:提交指标需求,需求评审,模型设计和数据开发,验证,上线,应用接入
5. 数据中台实现:数据质量
数据质量的问题有如下几个原因:
- 业务系统变更,包括表结构变更,源系统环境变更,源数据格式异常
- 数据开发Bug + 数据开发任务变更:忘了修改数据源,写死数据分区,数据格式异常
- 物理资源不足:YARN上多租户争抢资源导致数据延迟产出等
- 基础设施不稳定:NameNode高可用失效导致数据读写功能异常等
数据质量具体实施:
- 添加稽核校验任务:确保数据的完整性、一致性和准确性
- 通过智能预警,确保任务按时产出。延迟产出,异常任务等立即报警
- 建立全链路监控:可以基于血缘关系建立全链路数据质量监控
- 通过应用的重要性区分数据等级,加快恢复速度
衡量数据质量:
- 某个时间点以前核心任务的产出完成比,超过规定时间,没有完成产出则稽核校验失效
- 基于稽核规则,计算表级别的质量分数。对于低于质量分数的表,分发到响应责任人进行改进
- 需要立即介入的报警次数。超过规定次数的需要立即介入
- 数据应用中的所有指标在规定时间内产出。如果没有,则计算不可用时间,不可用时间越短越好
6. 数据中台实现:成本控制
成本高主要原因:
- 数据上线容易,下线难,什么没有下线机制
- 低价值的数据应用消耗了大量的机器资源
- 烟囱式的开发模式导致数据加工重复
- 数据倾斜导致资源分配利用不均衡
- 未设置数据生命周期,导致过期数据长期占用磁盘资源
- 调度周期设置不合理,未形成闲忙搭配得当
- 任务指定资源参数配置不当
- 数据为压缩存储
精细化成本管理步骤:
-
全局资产盘点
- 对数据中台中,所有的数据进行一次全面盘点,基于元数据中心
提供的数据血缘,建立全链路的数据资产视图 - 数据成本计算:一张表的成本 = 每个加工任务的计算资源成本 * m + 上游依赖表的存储资源成本 * n
- 数据价值计算:给使用人数、使用频率、数据应用数、老板等因素加权计算
- 对数据中台中,所有的数据进行一次全面盘点,基于元数据中心
-
发现问题
- 持续产生成本,但是已经没有使用的末端数据
- 数据应用价值很低,成本却很高
- 高峰期高消耗的数据:高成本的数据
-
治理优化
- 对于第一类问题,应该对表进行下线
- 对于第二类问题,我们需要按照应用粒度评估应用是否还有存在的必要,如果没有,则删除
- 对于第三类问题,主要是针对高消耗的数据,又具体分为产出数据的任务高消耗和数据存储高消耗,分配到非高峰期运行即可
-
第四:治理效果评估
- 下线了多少任务和数据;这些任务每日消耗了多少资源;数据占用了多少存储空间。
- 将上述节省资源换算成钱,这就是你为公司省的钱
7. 数据中台实现:数据服务化
为所有的数据应用提供统一的API接口服务:
- 接口规范化定义
- 数据网关
- 链路关系的维护
- 数据交付
- 提供多样中间存储
- 逻辑模型
- API 接口
- API 测试
数据服务实现了数据中台模型和数据应用的全链路打通,解决了任务异常影响分析和数据下线不知道影响哪些应用的难题。而且还有限流功能
基于相同主键的物理模型,可以构建逻辑模型,逻辑模型解决了数据复用的难题,提高了接口模型的发布效率
本文图片如有侵权,请联系删除