了解数据治理体系化建模

news2024/11/19 4:27:29

目录

一、走近数据体系化建模

(一)软件体系化建模

(二)数据体系化建模

二、数据体系化建模实践

三、数据管理考量思考

(一)数据质量方面的考量

(二)数据安全、合规方面的考量


对数据治理的体系化建模进行初步的了解和接触。

一、走近数据体系化建模

(一)软件体系化建模

建模一般都是一项体系化的工程,需要对问题进行拆解并给出解决方案,通常建模顺利落地可拆分为四个子问题:

  1. 需求模型:首先需要深入了解用户的需求,这可以通过与产品团队和业务人员的密切合作来实现。这包括收集和分析用户反馈、行业数据以及业务流程。目标是确保我们理解用户的真实需求,而不仅仅是他们表面上提出的需求。

  2. 领域模型:基于对需求的理解,建立起领域模型。这是一种抽象层次,用于捕捉业务领域中的关键概念和它们之间的关系。这个过程通常涉及到识别和定义领域模型中的实体、属性和行为。

  3. 代码模型:在领域模型的基础上,进行面向对象的设计。这包括确定类的结构、方法和属性,以及它们之间的关系。在这个阶段,会考虑到面向对象设计的各种原则和技巧,以确保代码的可维护性、扩展性和复用性。

  4. 数据模型:最后一步是将代码模型映射到数据模型。这可以通过绘制实体关系图(ER图)来实现,用于描述数据在底层存储中的结构和关系。这个步骤确保代码模型与实际的数据存储方案相一致。

与软件建模类似,数据建模(数据建模是指对数据进行抽象和组织,以便在计算机系统中存储、操作和访问)也需要一套系统化的方法来理解数据的需求、组织结构和关系。

(二)数据体系化建模

体系化建模是以维度建模为理论基础,以事前治理为理念驱动,通过元数据贯穿建模流程。上承指标和维度的定义,下接实际的数据生产。具体而言,体系化建模包括以下步骤:

  1. 高层模型设计:首先,将业务指标结构化拆解为原子指标、计算指标以及限定条件的组合方式。然后,将这些指标归属到特定的业务过程和主题下,完成业务指标的计划化定义。

  2. 物理模型设计:基于高层模型设计,自动生成详细的物理模型设计。物理模型设计包括将高层模型转化为可操作的物理结构,确保数据的正确存储和处理。

  3. 数据加工逻辑生成:基于产生的物理模型设计,半自动或自动地生成数据加工逻辑。这些逻辑用于将原始数据转换为可用于分析和报告的格式,以确保最终的业务定义和物理实现的统一。

通过体系化建模,可以实现业务指标和数据的统一定义,并确保数据处理过程的可追溯性和一致性。这种方法能够提高数据治理的效率和质量,为数据驱动的决策提供可靠的支持。

体系化建模强调了两个统一:数据需求与模型设计的统一以及模型设计与物理实现的统一。

数据需求与模型设计的统一

  • 模型设计是仓库领域划分和具体需求相结合的产物。仓库领域划分是对数据进行基于业务但超越业务需求限制的抽象,完成对数据的主题、业务过程的抽象,作为业务指标、维度需求归属和实现数据建设的依据。
  • 具体的需求模型设计在仓库领域划分的基础上进行,将需求以指标、维度的形式归属到对应的主题与业务过程,驱动和约束具体详细模型设计,形成信息架构资产。

模型设计与物理实现的统一

  • 基于模型设计环节沉淀的信息架构元数据,驱动和约束实际的物理模型设计,以确保业务定义与物理实现的一致性。
  • 在数据加工过程中,利用元数据约束对应物理模型的数据定义语言(DDL),防止因缺乏有效约束而导致的分散式开发,确保数据操作语言(DML)实现的正确性。
  • 在模型上线前,自动完成业务定义与物理实现一致性验证,从而确保数据处理过程中数据需求与模型设计之间的统一,以及模型设计与物理实现之间的统一。

二、数据体系化建模实践

目标是实现数据建模和ETL开发的紧密结合,确保从需求到实现的整个过程是一体化:将数据规范定义、数据模型设计和ETL开发链接在一起,以实现“设计即开发,所建即所得”。

通过数仓规划和数据定义标准来实现高层模型设计和物理模型设计之间的协同,并确保模型设计与数据加工的有效对接。

具体时间上主要包括基于分析的高层模型确定、基于高层模型的物理模型、基于物理模型详细设计的模型加工以及加工逻辑的最后合检等,具体详细的可以细分如下:

  1. 数仓规划和业务指标映射:首先,通过数仓规划,将业务需求中提出的指标和维度映射到对应的主题和业务过程。理清业务逻辑确保数据模型能够准确反映业务需求。

  2. 数据定义标准和结构化拆解:基于数据定义标准,对业务指标进行结构化拆解,将其技术定义化。这包括确定指标的数据类型、精度、计算逻辑等,以确保指标能够在数据模型中得到准确表示。

  3. 高层模型设计:在拆解和定义业务指标的基础上,进行高层模型设计。可能涉及到确定主题和实体之间的关系,以及定义维度和度量。高层模型设计为后续的物理模型设计提供了指导和约束。

  4. 元数据驱动的物理模型设计:基于高层模型设计所沉淀的元数据,驱动和约束最终的物理模型设计。这包括确定表的结构、键、索引等,以及确保物理模型与高层模型的一致性。

  5. 确定DDL并约束数据开发:根据物理模型设计,确定最终的数据定义语言(DDL),并将其用于约束后续的数据开发过程。DDL定义了数据表的结构和约束条件,确保数据开发能够按照设计要求进行。

通过这个过程,实现了高层模型设计和物理模型设计之间的有效协同,确保数据模型能够准确地反映业务需求,并为后续的数据加工提供了清晰的指导和约束。

三、数据管理考量思考

实施数据治理一体化实践的体系化建模需要综合考虑数据管理的方方面面,包括数据质量、数据安全、数据合规等方面。

(一)数据质量方面的考量

在数据治理一体化实践中,数据质量是一个至关重要的方面。良好的数据质量能够确保数据可信度、准确性和完整性,从而支持组织的决策和运营活动。

  1. 数据质量度量指标:制定适用于组织的数据质量度量指标,例如准确性、完整性、一致性、时效性等。这些指标可以帮助组织评估数据质量水平,并定期监控数据质量的变化。

  2. 数据质量规则和标准:制定数据质量规则和标准,定义数据质量的期望水平和标准。例如,对于每个数据元素,确定其允许的值范围、格式、精度等。

  3. 数据质量评估和监控:建立数据质量评估和监控机制,定期对数据质量进行评估和监控。可以包括使用自动化工具进行数据质量检查、制定数据质量报告等。针对发现的数据质量问题,制定数据质量改进计划,并采取相应的措施进行改进。这可能涉及到数据清洗、数据修复、数据标准化等。

  4. 数据权限与管理:明确数据质量的责任与义务,包括数据所有者、数据管理员、数据质量团队等在内的相关角色。确保每个角色都清楚其在数据质量方面的责任,并有相应的授权和资源支持。进行数据质量培训与意识提升,使组织成员了解数据质量的重要性,掌握相关的数据质量工具和技能,并能够积极参与到数据质量管理的过程中来。

综合考虑这些因素,可以建立一个综合的数据质量管理框架,有效地提高组织的数据质量水平,并确保数据质量与整体数据治理实践的一体化。

(二)数据安全、合规方面的考量

数据安全涵盖保护数据免受未经授权访问、泄露、篡改或破坏的各种威胁。

  1. 访问控制:确保只有经过授权的用户能够访问特定的数据资源。这可以通过实施访问控制策略、权限管理和身份验证机制来实现。

  2. 数据加密:对敏感数据进行加密,以防止数据在传输和存储过程中被未经授权的人员访问。包括数据传输过程中的加密和数据存储介质上的加密。

  3. 数据备份与恢复:建立有效的数据备份与恢复策略,确保在发生数据丢失或损坏时能够迅速恢复数据。备份应该定期进行,并存储在安全可靠的位置。

  4. 漏洞管理:定期进行漏洞扫描和安全审计,及时发现和修复系统中的安全漏洞和弱点。

  5. 合规性和监管要求:确保数据处理活动符合适用的合规性和监管要求,如GDPR、HIPAA等。包括对数据处理活动进行审计和监管,并确保数据安全措施符合法律和行业标准。

通过综合考虑以上因素采取相应的措施和控制措施,可以有效保护组织的数据安全,并确保数据安全与整体数据治理实践的一体化。

推荐阅读:

数据治理一体化实践之体系化建模 - 美团技术团队

数据治理的本质:体系化建模(1)-阿里云开发者社区

数据治理一体化实践之体系化建模-腾讯云开发者社区-腾讯云

领域建模的体系化思维与6种方法论

数据仓库建模体系化总结-百度开发者中心

谈谈如何理解数据建模也是数据治理的一种形式-阿里云开发者社区

实时数据产品实践——美团大交通战场沙盘 - 美团技术团队

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1442975.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

攻防世界 CTF Web方向 引导模式-难度1 —— 11-20题 wp精讲

PHP2 题目描述: 暂无 根据dirsearch的结果,只有index.php存在,里面也什么都没有 index.phps存在源码泄露,访问index.phps 由获取的代码可知,需要url解码(urldecode )后验证id为admin则通过 网页工具不能直接对字母进行url编码 …

CSS 2D转换 3D动画 3D转换

目录 2D转换(transform): 移动translate: 旋转rotate: 缩放scale: CSS3动画(transform): 动画常用的属性: 将长图片利用盒子实现动画的效果: 3D转换: 透视perspective: 旋转r…

【动态规划】【字符串】1092. 最短公共超序列

作者推荐 【动态规划】【前缀和】【C算法】LCP 57. 打地鼠 本文涉及知识点 动态规划汇总 LeetCode1092最短公共超序列 给你两个字符串 str1 和 str2,返回同时以 str1 和 str2 作为 子序列 的最短字符串。如果答案不止一个,则可以返回满足条件的 任意…

C++数据类型、变量常量

个人主页:PingdiGuo_guo 收录专栏:C干货专栏 大家新年快乐,今天我们来学习C的数据类型,变量常量。 文章目录 1.数据类型的概念与思想 1.1基本数据类型 1.2复合数据类型 1.3类型修饰符 1.4类型转换 1.4.1static_cast 1.4.2…

【机器学习】数据清洗之处理缺失点

🎈个人主页:甜美的江 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:机器学习 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步…

腾讯云4核8G服务器最大能承载多少用户在线?12M带宽

腾讯云轻量4核8G12M轻量应用服务器支持多少人同时在线?通用型-4核8G-180G-2000G,2000GB月流量,系统盘为180GB SSD盘,12M公网带宽,下载速度峰值为1536KB/s,即1.5M/秒,假设网站内页平均大小为60KB…

HTML5和CSS3强化知识总结

HTML5的新特性 HTML5的新增特性主要是针对于以前的不足,增一些新的标签、新的表单和新的表单属性等。这些新特性都有兼容性问题,基本是IE9以上版本的浏览器才支持,如果不考虑兼容性问题,可以大量使用这些新特性。 HTML5新增的语义…

创建自己的系统创富法则,做个轻松赚钱的甩手掌柜

一、教程描述 本套系统创富教程,大小744.80M,共有28个文件。 二、教程目录 01.走遍全球四十多个国家,我才发现赚钱的本质如此雷同.mp4 02.靠工资技术赚钱太慢,想赚到自己的第一个一百万的方法是?.mp4 03.不服暴发…

uv机器电机方向极性

爱普生主板设置X、Y 电机方向极性:请根据实际情况设置,开机初始化时如果电机运动方向反了则修改此极性。 理光主板设置X、Y 电机方向极性

研究多态恶意软件,探讨网络安全与AI

前言 近期ChatGPT火遍全球,AI技术被应用到了全球各行各业当中,国内外各大厂商也开始推出自己的ChatGPT,笔者所在公司在前段时间也推出了自研的安全GPT,AI技术在网络安全行业得到了很多的应用,不管是网络安全研究人员、…

【51单片机】自定义静态数码管显示(设计思路&代码演示)

前言 大家好吖,欢迎来到 YY 滴单片机系列 ,热烈欢迎! 本章主要内容面向接触过单片机的老铁 主要内容含: 本章节内容为【实现动静态数码管】项目的第三个模块完整章节:传送门 欢迎订阅 YY滴C专栏!更多干货持…

【资料分享】基于单片机大气压监测报警系统电路方案设计、基于飞思卡尔的无人坚守点滴监控自动控制系统设计(程序,原理图,pcb,文档)

基于单片机大气压监测报警系统电路方案设计 功能:实现的是大气压检测报警系统,可以通过传感器实时检测当前大气压值,可以设定大气压正常范围,当超过设定范围进行报警提示。 资料:protues仿真,程序&#x…

SpringCloud-高级篇(十九)

我们已经学过使用 SpringAMQP去收和发消息,但是发和收消息是只是MQ最基本的功能了,在收发消息的过程中,会有很多的问题需要去解决,下面需要学习rabbitMQ的高级特性去解决 死信交换机:这个可以帮助我们实现消息的延迟的…

[office] excel求乘积的公式和方法 #媒体#笔记#经验分享

excel求乘积的公式和方法 本文首先给出两个常规的excel求乘积的链接,然后再例举了一个文字和数字在同一单元格里面的excel求乘积的公式写法。 excel求乘积的方法分为两种,第一种是直接用四则运算的*来求乘积,另外一种就是使用PRODUCT乘积函数…

【GO语言卵细胞级别教程】03.条件与循环语句

注意:以下演示所用的项目,在第一章节已经介绍了,这里不做赘述 目录: 【GO语言卵细胞级别教程】03.条件与循环语句1.条件语句1.1 if语句1.1.1 单层if语句1.1.2 if-else语句1.1.3 if-else-if 语句1.1.4 if 嵌套 1.2 switch 语句1.1…

[论文精读]Community-Aware Transformer for Autism Prediction in fMRI Connectome

论文网址:[2307.10181] Community-Aware Transformer for Autism Prediction in fMRI Connectome (arxiv.org) 论文代码:GitHub - ubc-tea/Com-BrainTF: The official Pytorch implementation of paper "Community-Aware Transformer for Autism P…

Python解决SSL不可用问题

参考:https://blog.csdn.net/weixin_44894162/article/details/126342591 一、问题描述: 报错概述: WARNING: pip is configured with locations that require TLS/SSL, however the ssl module in Python is not available. ## 警告:pip配…

空气质量预测 | Matlab实现基于BP神经网络回归的空气质量预测模型

文章目录 效果一览文章概述源码设计参考资料效果一览 文章概述 政府机构使用空气质量指数 (AQI) 向公众传达当前空气污染程度或预测空气污染程度。 随着 AQI 的上升,公共卫生风险也会增加。 不同国家有自己的空气质量指数,对应不同国家的空气质量标准。 基于BP(Backpropag…

微服务学习 | Spring Cloud 中使用 Sentinel 实现服务限流

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站https://www.captainbed.cn/kitie。 目录 前言 通过代码实现限流 定义资源 通过代码定义资源 通过注解方式定义资源 定义限流规则 通过…

反序列化漏洞——PHP原生类

Error类 PHP>7.0,因为存在__toString,可以进行XSS Exception类 因为存在__toString,可以进行XSS DirectoryIterator类 因为存在__toString,可以获取符合要求的第一个文件名 SplFileObject类 因为存在__toString&#xff0c…