数据治理实战——翼支付金融板块业务数仓建设和数据治理之路

news2024/11/23 13:35:15

目录

一、数据治理背景

二、数据治理建设内容

2.1 组织协同

2.2 平台建设

2.3 数据应用治理

2.4 数据规范

2.5 数据安全

三、企业级数仓建设

3.1 调研阶段

2.2 平台护航

2.3 数仓分层

2.4 维度建模

2.4.1 维度建模四步曲

2.4.2 命名规范

2.4.3 资产沉淀

2.4.4 任务保障

2.5 数据监控

四、数据治理成效

4.1 成本&时效

4.2 元数据

4.3 数据安全

4.4 指标管理

五、未来规划


  原文大佬的这篇数据治理及数仓建设案例有借鉴意义,这里摘抄下来用作学习和知识沉淀。

一、数据治理背景

   在数据仓库建设初期,翼支付主要面对以下几方面的问题:

(1)代码冗余,任务失效不稳定

    祖传代码问题严重,任务链路长,存在大量烟囱式开发。另外由于没有统筹管理,资源任意抢占,使得任务时效得不到保障。

(2)元数据信息严重缺失

   缺少元数据信息,没有明确的建表责任人,字段缺少中文备注,分区字段随意,一系列问题导致库表清理及新人上手难度大。

(3)数据安全风险高

   敏感数据未加密,数据下载入口多,大量明细数据通过Tableau (BI工具)进行处理,无下载记录,数据安全风险非常高。

(4)数据口径差异明显

   在一些整合数据口径下,由于各自整合口径来源不同,后续指标口径不一致。

这些问题突显出在整个数据仓库建设和优化过程中,需要在数据治理体系、技术架构、安全策略和运营管理等多方面进行明确规划和持续优化。

二、数据治理建设内容

 在翼支付进行数据治理时,我们首先确定了数据治理的主要内容。关键点包括:

2.1 组织协同

   确保不同部门间的配合与共同目标;建立数据治理委员会、技术架构委员会和治理实施小组,分别负责推动治理进程和解决分歧、审核信息架构以及具体实施任务。数据治理委员会需要统筹管理,并推动治理工作,各部门紧密协作,形成统一、顺畅、敏捷的组织协同链路。

2.2 平台建设

  从0到1打造数据开发平台,支撑2万+离线/实时调度及各类数据质量监控规则,打造自助 BI 平台,支持即席查询与可视化开发,构建数据资产平台,并加强元数据管理,以确保数据的整洁性和安全性。整体上形成统一的数字化和数据平台架构。

2.3 数据应用治理

  强调数据治理在应用层的实施,提高易用性,减少计算和存储成本,加快查询速度,提高数据质量,构建敏捷的商业分析模式和数据洞察能力。

2.4 数据规范

   通过规范业务生产系统数据,保障源数据的质量,构建各个方面的标准和规范,如数仓建设规范,数据分类规范,主数据和元数据管理等。

2.5 数据安全

   在数据的存储、传输和使用三个方面加强数据安全性,使企业数据符合国家数据安全合规要求。

三、企业级数仓建设

3.1 调研阶段

  翼支付数据治理早期的调研工作,可归纳为四个重点领域。

(1)首先,识别业务痛点,例如:数据获取困难、数据口径不统一、数据延迟以及数据权限审批长等。

(2)第二,进行组织架构调研,明确不同部门如市场、技术、运营的数据需求与使用模式,以确定主要需求来源及其应用偏好。这有助于指导数据治理工作的方向,优先稳固主体业务需求。

(3)第三,产品及业务流程调研,明确各个部门业务流程和产品特点,是基础建模和数据架构设计的前提。

(4)最后,技术架构调研,旨在解析产品在生产库中的 ER 关系图与库表信息。这一步可以借助元数据管理平台来完成,以便梳理出准确的技术生态图。

  通过这四步详尽的调研工作,翼支付为数据治理打下了扎实的基础,从而得以规划和推进后续的治理进程。

2.2 平台护航

    在进行数据治理时,关键环节之一是建立并优化技术平台,以支撑数据治理架构。

(1)首先,数据开发平台,提供了至关重要的调度、监控以及运维等功能。并升级了计算引擎,从 Hive 过渡到 Spark,以提升性能和可靠性。

(2)第二,自助BI平台,包括两部分,一是即席查询平台,提供数据探查和管理数据下载等功能,致力于提升数据查询效率和加强数据安全管理,在数据产出的各个环节实施了紧密的安全控制。例如数据下载需通过审批流程,分为自动审批和领导审批,不同等级的数据对应不同的审批等级。另一部分是自研报表平台,提供可视化界面,推动国产化进程。

(3)第三,元数据管理平台,对于规范和整合基础的元数据信息至关重要,包括建表、数据地图、血缘分析以及数据的安全分类和生命周期管理。

(4)第四,指标管理平台,处理指标业务口径和技术口径,存放于特定的数据表,并提供基础信息,以实现标签和其他数据资产的有效管理。

    在完成调研和技术平台的搭建后,下一步是数仓的具体建设工作。数仓建设前必须确立清晰的规范,避免烟囱式开发,确保数据治理的统一性和效率。这一系列构建和完善的平台为数据治理的细致工作打下了坚实的基础。

2.3 数仓分层

     数据仓库建设遵循互联网公司常见的分层架构,主要包括操作数据存储(ODS)层、明细数据(DWD)层、汇总数据(DWS)层、公共数据集市(DWM)层、个性数据集市(DM)层和应用(APP)层。

   在ODS 层,数据从业务库同步,基本保持和业务库数据一致。DWD数据明细层进一步处理明细数据,进行敏感数据加密、数据质量处理以及命名规范化,并关联常用的维度和维度退化。DIM 层专注于存储维度数据。DWS 层则包含明细宽表和汇总数据,明细宽表一般为在不改变原有粒度的多数据域中拉宽的明细数据,汇总数据则是基于统一统计粒度,同一统计周期的指标计算,生成供多种应用场景使用的公共汇总数据。DM 层与 DWS 内容基本差不多,区别在于一些个性化指标加工不具有复用性,DM 层指标可以根据DWS的指标集进行不同需要的整合。

     所有的数据输出都必须通过 APP 层以确保数据的一致性,且 APP 层不做复杂指标的计算,只做简单的指标拉宽、union 及简单的计算,通过这种方法,翼支付确保了数据架构的整洁性和可维护性。

    在完成产品调研、业务流程和技术库表的梳理后,现在翼支付专注于制定规范并进行数据建模,这是数据仓库建设的下一个重要步骤。

2.4 维度建模

2.4.1 维度建模四步曲

     维度建模的核心步骤包括:①选择业务过程,例如选择金融产品中授信、放款、还款等用户需要经历的业务相关的过程,并通过总线矩阵划分到相应的数据域②声明粒度,指找出需要建模表的业务主键(一般自增主键 ID 是无意义的,除非具备业务含义可以关联),描述数据的详细程度。③确认维度,确立分析中需要包含的各个维度,如省份、城市和渠道等;④确认事实,确定核心的业务度量,例如授信金额、放款金额及还款金额。

   维度建模为分析场景提供了重要的维度支持,并通过设置清晰的模型密度,避免了因为不合适的聚合层级导致模型复杂化和数据准确性下降。

2.4.2 命名规范

    作为数据仓库建设中的一部分,建立规范是至关重要的。重要的规范包括命名规范,涵盖表命名、字段命名和代码命名

    表命名应反映数据的层级(如 DWD、DWS)、数据域(数据抽象化)、产品线、业务过程以及刷新/增全量标识,如:dws_trade_lxp_loan_order_detail_df。产品线通过公司市场的产品规划采用缩写进行区分。除此之外,还有自定义缩写、数据刷新标识和增量标识的规范。字段命名则遵循词根组规范,例如,“人数”使用“num”,“次数”使用“cnt”,避免混淆。此外,派生指标的命名应注意不要与原子指标混淆,如:授信人数(原子指标) crdt_num,近一天成功授信人数(派生指标) succe_crdt_num_1d,不可以在已命名好的原子指标中间穿插修饰词(crdt_succe_num)。

    总体上,这些命名规范确保了数据元素在整个数据仓库中的一致性和可理解性,对后续的数据处理和分析至关重要。

2.4.3 资产沉淀

    在数据仓库建设中,资产沉淀是确保信息完整性和便于管理的关键步骤。数仓建设时需规范的记录表的基础信息(如库名、表名、责任人)、描述、表的生命周期,并设立分区保留策略,以确定分区的保留期限。此外,为促进数据的查找与分类,需构建数据地图,标签化各个表,明确其属于明细层、汇总层,还是其他层及产品线。同时,在表的建立阶段,要对表的分类和字段级别进行规范。总之,建表时需妥善规划并完成资产的沉淀,避免为求速度而忽略长期要求,保障数据仓库的可持续管理和利用。

2.4.4 任务保障

    在数据仓库的操作流程中,数据开发任务的上线是关键环节。首先,完成表的构建和代码编写后,通过开发平台的测试与审核,数据任务就可部署至生产环境。接着,与代码和表关联的指标也会被开发,并在指标管理平台注册。

    通过数据基线SLA 保证任务在离线高峰期能有足够的并发度及计算资源按时完成任务的数据质量也需监测包括数据的唯一性、枚举的有效性以及数值检查从而避免不合理的数据波动。最后,要进行任务调度的监控,确保任务稳定执行且在预定时间内完成,以保证数据的及时产出。

   整个流程从数仓模型构建到数据产出,其中包括规范、编码、任务上线、指标制定和任务监控等方面。

2.5 数据监控

    作为数据监控的关键,数据质量的监控包括完整性、一致性、及时性等维度;监控不仅限于事前,更重要的是事后全方位的审视,例如管理成千上万的任务,以及计算成本和存储成本。在数据存储过程中,监控数据存储以便优化成本,通过审查数据的生命周期来决策数据清理策略。同时,安全监控检查敏感数据是否加密以及防止数据泄露,确保数据下载的安全审计。数据监控旨在保持数据治理的完善性,这是一个长期的过程,而不是一次性的事件。

四、数据治理成效

     数据治理实施的成效主要体现在成本削减和时效提升两方面。当前端到端的全链路数据治理模式涵盖了从ODS 层到数据可视化的整个数据流程

4.1 成本&时效

     在 2023 年,全公司前台事业部的所有任务已经完成了重构和迁移,这不仅减少了平台高达 86% 的资源消耗,同时也显著降低了计算成本,年均节约成本近千万,平均时效提升4.72h。

4.2 元数据

    保障了完整的元数据信息、血缘关系、表生命周期、冷热数据标识。元数据信息的完整性对后续监控和二次治理也至关重要,它大幅降低了人力和物理资源的投资。 

4.3 数据安全

    敏感数据已经完成分类分级,并通过加密以及下载审批且留存记录等措施,实现了数据安全,目前L3及以上数据已经100%加密。

4.4 指标管理

    指标管理平台从0-1建设,通过原子指标、统计粒度、业务限定、统计周期四要素来定义管理指标。 后续计划中,指标管理将与调度平台整合,实现资源消耗的优化和指标加工的简化,使数据资产得到更有效地管理和运用。

五、未来规划

未来数据仓库的规划聚焦于以下几个核心领域。

(1)是建设数仓驾驶舱,整合零散的监控体系,建立一个统一的、全面的监控平台。该平台允许管理者每日通过邮件向相关群组发出需要优化和整改的任务。

(2)是推进资产管理系统的建设,将目前整个数据平台健康情况通过大屏的方式展示出来,具体包含:调度平台任务情况、存储情况、资源消耗情况、小文件情况、数据安全情况、各类服务接口情况等。

(3)是优化指标管理,通过原子指标、统计粒度、业务限定、统计周期四要素生成数据,减少指标重复加工。

(4)最后,拓展数据赋能,通过数据服务如标签管理平台、FTP 下发和数据接口等增加数据的应用价值,从而在多种应用场景中实现数据的有效利用,使数据能够产生更大的商业价值。

参考文章:

金融行业在数仓建设与数据治理的最佳实践

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1489460.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【JS】WebSocket:实现实时通信功能。

【JS】WebSocket:实现实时通信功能。 一、WebSocket是什么?二、为什么需要WebSocket?三、WebSocket的优势四、WebSocket实现方式五、示例1:实时数据展示六、示例2:实现简易聊天室 如果想需要websocket实现功能,后端也要进行对应的…

前端食堂技术周刊第 114 期:Interop 2024、TS 5.4 RC、2 月登陆浏览器的新功能、JSR、AI SDK 3.0

美味值:🌟🌟🌟🌟🌟 口味:凉拌鸡架 食堂技术周刊仓库地址:https://github.com/Geekhyt/weekly 大家好,我是童欧巴。欢迎来到前端食堂技术周刊,我们先来看下…

tsc : 无法加载文件 C:\Users\Administrat\AppData\Roaming\npm\tsc.ps 1,因为在此系统上禁止运行脚本

报错:tsc : 无法加载文件 C:\Users\Administrat\AppData\Roaming\npm\tsc.ps1,因为在此系统上禁止运行脚本。有关详细信息,请参阅 https:/go.microsoft.com/fwlink/?LinkID135170 中的 about_Execution_Policies。 解决 使用命令行时出现ab…

Excel中筛选合并单元格后,只显示第一行怎么办?

Excel中筛选合并单元格后,只显示第一行怎么办? 我们日常的Excel数据在展示的时候为了数据的清晰和美观往往部分相同的单元格进行合并,但是合并之后在筛选时会发现结果会显示异常。 现在我们筛选下国籍为中国的员工信息,发现只显示了一条数据,解决这个异常只需要五Excel步:…

使用Pytorch导出自定义ONNX算子

在实际部署模型时有时可能会遇到想用的算子无法导出onnx,但实际部署的框架是支持该算子的。此时可以通过自定义onnx算子的方式导出onnx模型(注:自定义onnx算子导出onnx模型后是无法使用onnxruntime推理的)。下面给出个具体应用中的…

【Maven】Maven 基础教程(四):搭建 Maven 私服 Nexus

《Maven 基础教程》系列,包含以下 4 篇文章: Maven 基础教程(一):基础介绍、开发环境配置Maven 基础教程(二):Maven 的使用Maven 基础教程(三):b…

JVM(类加载机制)

类加载就是 .class 文件, 从文件(硬盘) 被加载到内存(元数据区)中的过程 类加载的过程 加载: 找 .class 文件的过程, 打开文件, 读文件, 把文件读到内存中 验证: 检查 .class 文件的格式是否正确 .class 是一个二进制文件, 其格式有严格的说明 准备: 给类对象分配内存空间 (先在…

c++ thread的使用 调用类里面的函数和调用类外的函数的区别

1.thread 调用类外的函数。 在使用thread之前要加上#include <thread>。 例1&#xff1a; #include <iostream> #include <thread> using namespace std; void Threadfunc1() {cout << "Threadfunc1" << endl; }void Threadfunc2(in…

sqllab 11-22

11.有回显&#xff0c;单引号 首先判断是字符型还是数字型 通过order by 来获取字段数 方便后续union联合 注意这里mime表明了内容要进行url编码&#xff0c;测试3报错&#xff0c;2正常&#xff0c;所以有2列。 还需要判断显示位&#xff0c;因为只有显示位的数据才能被爆出…

基于springboot+vue的多媒体素材库的开发与应用系统

博主主页&#xff1a;猫头鹰源码 博主简介&#xff1a;Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战&#xff0c;欢迎高校老师\讲师\同行交流合作 ​主要内容&#xff1a;毕业设计(Javaweb项目|小程序|Pyt…

Python处理表格数据库之Agate使用详解

概要 您是否有时觉得在处理表格数据时感到不知所措? 也许你在处理一个大型 CSV 文件,遇到了各种数据不一致的问题,或者需要验证数据,确保其准确无误才能进行下一步分析。 传统的数据分析库或许功能强大,但学习曲线陡峭,用起来有点杀鸡用牛刀的感觉。 这时,有一个更…

Redis是AP的还是CP的?

redis是一个开源的内存数据库&#xff0c;那么他到底是AP的还是CP的呢&#xff1f; 有人说&#xff1a;单机的是redis是cp的&#xff0c;而集群的redis是ap的&#xff1f; 但是我不这么认为&#xff0c;我觉得redis就是ap的&#xff0c;虽然在单机redis中&#xff0c;因为只有…

计算机网络实验 基于ENSP的协议分析

实验二 基于eNSP的协议分析 一、实验目的&#xff1a; 1&#xff09;熟悉VRP的基本操作命令 2&#xff09;掌握ARP协议的基本工作原理 3&#xff09;掌握IP协议的基本工作原理 4&#xff09;掌握ICMP协议的基本工作原理 二、实验内容&#xff1a; 1、场景1&#xff1a;两台PC机…

力扣每日一题 用队列实现栈 模拟

Problem: 225. 用队列实现栈 文章目录 思路复杂度Code 思路 &#x1f468;‍&#x1f3eb; 力扣官解 辅助队列存栈顶元素主队列存逆序序列 复杂度 时间复杂度: 添加时间复杂度, 示例&#xff1a; O ( n ) O(n) O(n) 空间复杂度: 添加空间复杂度, 示例&#xff1a; O ( …

Markdown的语法使用

目录 前言一、Markdown基本使用二、基本使用补充2.1 三、特殊字符四、数学公式 前言 Markdown是网页版的文本编辑器&#xff0c;Markdown 允许您使用易于阅读、易于编写的纯文本格式进行编写&#xff0c;然后将其转换为结构有效的 XHTML&#xff08;或 HTML&#xff09;。本文主…

【C语言】内存操作篇---动态内存管理----malloc,realloc,calloc和free的用法【图文详解】

欢迎来CILMY23的博客喔&#xff0c;本篇为【C语言】内存操作篇---动态内存管理----malloc&#xff0c;realloc&#xff0c;calloc和free的用法【图文详解】&#xff0c;感谢观看&#xff0c;支持的可以给个一键三连&#xff0c;点赞关注收藏。 前言 在学完结构体后&#xff08;…

《Trustzone/TEE/安全-实践版》介绍

第一章&#xff1a;课程说明和准备 课程介绍和说明 资料准备 为什么使用qemu_v8环境&#xff1f; 为什么选择香橙派开发板&#xff1f; optee qemu_v8环境展示 香橙派optee环境展示 第二章&#xff1a;Qemu环境搭建 ubuntu20.04的安装(virtualboxubuntu20.04) 搭建optee qem…

云手机的境外舆情监控应用——助力品牌公关

在当今数字化时代&#xff0c;社交媒体已成为品牌传播和互动的主要平台。随之而来的是海量的信息涌入&#xff0c;品牌需要及时了解并应对海外社交媒体上的舆情变化。本文将介绍如何通过云手机进行境外舆情监控&#xff0c;更好地帮助企业公关及时作出决策。 1. 境外舆情监控与…

BUUCTF---[BJDCTF2020]藏藏藏1

1.题目描述 2.下载附件&#xff0c;解压之后是一张图片和一个文本 3.把图片放在winhex,发现图片里面包含压缩包 4.在kali中使用binwalk查看&#xff0c;然后使用foremost分离&#xff0c;在使用tree查看分离出来的文件&#xff0c;最后将zip文件使用unzip进行解压。步骤如下 5.…

rtt的io设备框架面向对象学习-电阻屏LCD设备

目录 1.8080通信的电阻屏LCD设备1.1 构造流程1.2 使用2.i2c和spi通信的电阻屏LCD 电阻屏LCD通信接口有支持I2c、SPI和8080通信接口的。 1.8080通信的电阻屏LCD设备 rtt没有实现的设备驱动框架层&#xff0c;那么是在驱动层直接实现的&#xff0c;以stm32f407-atk-explorer为例…