读书笔记--数据治理之术

news2024/10/6 20:27:56

       继延续上一篇文章,对数据治理之术进行学习思考,这部分内容是本书整体内容的核心细节,内容比较多比较杂,通读了好长时间才动手总结整理,因此更新的慢了一些。数据治理之术是操作层面的技术或方法,数据治理相关的技术主要有7种能力,包括数据梳理与建模、元数据管理、数据标准管理、主数据管理、数据质量管理、数据安全治理及数据集成和共享,形成了数据治理的7项核心技术能力或方法,为企业数字化转型、数据治理工作的开展提供了技术基础。

       本书这七章从数据治理工作开展的具体举措和技术角度,阐述了任何技术或方法都是为数据治理的目标而服务的,企业数据治理的目标和需求不同,所采用的技术和方法也会有所侧重,但是,常用的技术和方法主要就是以下这7项。在数字化时代,数据作为增强企业竞争力的核心要素,企业发展需要对数据进行全面有效的管理和利用,形成相应的规矩模式,主数据作为企业的上下左右串通的黄金数据,作为企业数据核心中的核心数据,是企业开展业务应用、数据分析、系统集成的基础,是数据互联互通、数据分析挖掘的基础,是企业数字化转型成功与否的基石;可靠的数据质量是大数据分析挖掘的前提,数据质量的高低直接影响信息化建设成效、业务协同、管理创新、决策支持能否达成;数据安全治理作为数据治理的一个分支,通过制定相应的策略,形成秩序,让数据全生命周期的安全工作从无序到有序,从人治到法治逐步转变;最后为了解决数字化转型过程中企业迫切的 业务需求和应用集成需求,需要通过数据集成和共享来解决系统之间、部门之间、企业之间的数据移动过程的有效协同与管理。应该说,通过这7项技术能力的培育巩固,使得企业在数字化转型的道路上有了相应的技术保障和可落地实施的技术能力,为企业后续的数据治理整体目标的达成提供了技术支持,最终实现数字化企业的数据驱动的业务协同,管理创新和决策支持。

一、数据梳理与建模

数据资产梳理是企业数据治理的开端,是基础工作,相当于摸清楚企业到底有哪些数据,在哪里,管理现状如何等等,梳理方法有自上而下和自下而上两种,前者相对全面系统,但周期比较长成本较高,包括数据域、主题、实体和设计模型,后者目的性强,见效快,但相对局部,包括需求分析、展现、分析逻辑和数据建模。同时,明确了没有数据模型就没有数据管理。

数据模型是什么?是一组反映数据需求和设计的数据规范与相关图示,包括三要素:数据结构、数据操作和数据约束。同时按照不同应用层次,模型分为概念、逻辑和物理模型,这其实就是我们在做信息系统建设之初,作为需求调研分析后,或者在和用户讨论业务需求过程中逐步形成的模型,只是不过三类模型的用途和受众有所不同,概念模型主要是业务概念层面的实体、属性及关系,是业务受众;逻辑模型是业务需求的完整模型,一般遵循数据库三范式,是业务技术沟通桥梁;物理模型是在逻辑模型的基础上包含了索引、主外键关系等,同时要考虑存储和运行性能等问题。数据模型是后续各项技术开展的基础,模型设计的好具有更好的质量、更低成本、更明确范围、更快的性能、更少的数据错误和良好的数据质量开端。

数据建模方法主要有维度建模法和ER建模法,ER建模技术主要有UML。

数据模型是企业达成共识的沟通工具,通过模型驱动,共享数据模型,提供全方位的数据视角。提高团队协作效率、消除信息孤岛、改进业务流程、防范项目建设风险,加速数据治理工作开展,支撑数据的血缘分析和影响分析。

二、元数据管理

元数据是描述数据的数据,详细说明请参考另一篇文章,元数据管理就是为了知道企业拥有什么数据,数据在哪里,谁负责,具体值代表什么,生命周期是什么,哪些安全隐私需要防护,数据质量如何,谁使用了数据,用于什么业务目的等等,常见的有5W1H模型(who,what,when,where,why,how)。

元数据一般有三种:业务、技术和操作元数据。

元数据的作用意义:对数据对象进行描述、定位、检索、管理、评估和交互。

元数据管理可以从技术、业务和管理角度来描述都有哪些工作。需要达成3个目标:建立指标解释体系、提高数据溯源能力和数据质量稽核体系。

元数据管理的4个阶段:分布式桥接、中央存储库、元数据仓库和智能管理阶段,大部分处于中央存储库和元数据仓库阶段。

元数据管理的主要目的有4个:建立企业数据资产目录、消除冗余,加强数据复用、降低因人员流动导致的知识流失风险、提高数据血缘探查能力,提高数据分析质量。

元数据管理体系的设计建设包括组织保障、制度保障、流程保障、技术工具、运营维护、监控管理、统计分析和宣传推广等。

元数据管理技术有采集、管理、应用和接口。

元数据应用主要有数据资产地图、数据血缘分析、影响分析、冷热度分析和关联度分析等,详见下图。

三、数据标准管理

数据标准相当于规矩,为企业数字化环境建章立制的过程。数据标准是一系列规范性约束的抽象,是保障数据的内外部使用与交换的一致性准确性的规范性约束。数据标准化实现了企业对数据统一理解的定义规范,数据标准体系建设即要满足当下,又要着眼未来与国际国内标准的接轨,要考虑标准的前瞻性。一般包括业务术语定义、数据元组合,业务规则和协议的政策程序,数据形式的描述框架,共同语言,数据集成共享的单一数据集。

数据标准的作用

1.加强各部门达成共识,提升沟通效率

2.系统数据整合共享的基础

3.促进企业级单一数据视图的形成,支撑数据管理能力发展

4.统一规范,消除数据壁垒,支撑业务流程规范化

5.提高数据质量,支撑出具质检报告

6.有利于规范管理企业的数据资产

数据标准管理的意义

1.业务方面,提升业务规范性和业务效率,降低数据不一致导致的沟通成本

2.技术方面,促进数据共享集成,提升系统实施效率,提升数据质量

3.管理方面,数据驱动管理,精准数据分析和业务人员的自助分析

数据标准一般包括4方面内容:数据模型标准、基础标准、主数据和参考数据标准、指标数据标准,其中,指标数据包括业务属性、技术属性和管理属性,包括各业务域或单位的业务指标,作为自助分析的基础。

数据标准管理体系包括组织、流程和管理办法。详见下图

数据标准管理的4个最佳实践:业务主导(价值链导向)、循序渐进(分步实施)、动态管理和应用为王(服务于业务,业务提效)。

四、主数据管理

主数据是企业数据中的黄金数据,是具有共享性的基础数据,是企业最为核心的数据,详细说明参加另一篇文章。主数据是业务应用、数据分析、系统集成的基础,是数据互联互通的基础,数据分析挖掘的基础,是企业数字化转型成功与否的基石。

主数据具有纵向3个特征(高价值、高共享和相对稳定),横向4个跨越(跨部门、跨业务、跨系统、跨技术)

主数据管理是集方法、标准、流程、制度、技术和工具为一体的解决方案

主数据管理的意义

1.打破孤岛、提升数据质量

2.统一认知,提升业务效率

3.集中管控,提升管理效能

4.数据驱动,提升决策水平

主数据管理方法,见下图

主数据管理技术有分类、编码和集成。

主数据分类方法有线分类、面分类和混合分类法;编码有有含义编码和无含义编码;集成有基于web服务的数据同步、基于ETL的数据同步、与消费系统集成和集成联调流程等。详见下图

主数据管理的7个最佳实践

1.大目标,小步骤。总体规划分步实施,数据治理是一场马拉松。

2.业务驱动,技术引领双引擎。业务需求驱动,来源业务,服务业务。主数据+大数据+云计算+人工智能+微服务,提升大数据分析质量、打通云端数据融合通道、增强数据管理、松耦合便于前端业务创新。

3.重视主数据编码设计。编码的合适是管理的精细化,颗粒度问题

4.数据清洗是个苦差事。思想文化建设、管理政策倾斜,人工+自动化应用结合

5.主数据标准如何平滑落地。简单粗暴、断点切换、平滑过渡模式。

6.企业小数据融合社会大数据。调用社会化数据服务,提高数据智能服务,基于知识图谱的数据分析服务

7.主数据运营平凡但不简单。默默无闻。主数据作为企业最重要的数据资产,重视;主数据质量直接影响业务运营效率和管理决策水平。

五、数据质量管理

数据质量可靠是大数据分析挖掘的前提,数据质量的高低直接影响信息化建设成效、业务协同、管理创新、决策支持的达成。数据质量指与数据有关的特征,也指用于衡量或改进数据质量的过程。数据质量管理是一个持续过程,最佳时机是从现在马上开始做。

DIKW金字塔模型详见下图

数据质量差引起的后果有经济和名誉损失、有形成本增加(沟通、运营和经济)和无形成本增加(错误决策造成的成本)、误导或潜在的运营风险。

数据质量维度是用于测量或评估数据质量的哪些方面,一般有一致性、完整性、唯一性、准确性、真实性、及时性和关联性。同时,数据质量测量必须是有目的的,可重复的和可解释的。

数据质量管理的指对数据从计划、获取、存储、共享、维护、应用和消亡生命周期的每个阶段可能引发的数据质量问题的管理,用于识别、测量、监控和预警等管理活动,终极目标是通过可靠的数据提升数据使用价值,赢得经济效益。

数据问题的根因分析,相当于数据质量问题的最基本原因,一般根因有环境条件、人为因素、系统行为或流程因素等。产生问题的阶段有规划设计、创建、使用、老化和消亡阶段都有。

产生问题的原因有经营管理、业务应用和技术操作层面

问题分析方法有四步骤,见下图

问题分析工具有鱼骨图、5why图、故障树图和怕累托图等,详见下面三张图。

数据质量管理体系框架

1.ISO9001(PDCA),核心是以客户为中心,强调领导作用、过程方法、持续改进、循环决策和关系管理。详见下图。

2.基于6西格玛的数据质量管理(DMAIC),详见下图。

3.数据质量评估框架(DQAF),详见下图。

数据质量管理策略和技术,坚持以预控为核心,以满足业务需求为目标,作用于管理的事前、事中和事后三阶段。见下图。

数据质量的异常值处理方法有基于统计、距离、密度和聚类等。

六、数据安全治理

数字化时代,数据是生产要素,数据是企业的重要资产,数据是企业发展的命脉,但同时也带来了数据安全的挑战,是一把双刃剑。数据安全是数据的质量属性,主要关注数据的保密性、完整性和可用性。数据安全主要有管理(安全治理、管理体系建设、系统运维管理)和技术方面(OS、app和db),数据安全风险主要来自于有目标攻击的外部人员、第三方、恶意内部人员和失误的内部人员等。

数据安全治理是确保数据的可用性、完整性和保密性所采取的各种策略、技术和活动,包括企业战略、文化、组织建设、业务流程、规章制度、技术工具等方面提升数据安全风险的应对能力,主要是为了控制风险和降低风险。 

数据治理和数据安全治理的关系见下表

数据安全治理是数据治理的一个分支,相当于专项治理,制定相应的策略,形成秩序,让数据安全从无序到有序,从人治到法治。包括以下内容

1.数据安全治理体系,见下图。

2.治理目标,以数据为中心,不是以系统为中心,让数据安全的用起来,具备可见、可控和可管的能力。见下图。

3.治理组织和认责策略,见下图。

4.治理制度,包括数据、系统和人员层面,见下图。

5.治理培训,意识培训和技能培训

6.运维体系,定期稽核策略(合规检查、用户行为审计)、数据备份策略、动态防护策略(防护、检测和响应)

数据安全治理技术,基本思想是隔离,划清安全边界,具体如下:

1.数据梳理和敏感数据识别,相当于理清楚企业的数据资产目录有哪些,哪些是敏感数据。

2.数据分类分级策略,分类是更好的管理和使用数据的过程,分级是涉密程度的高低分级(敏感、普通和机密)

3.身份认证,包括认证架构、单点登录、认证模式和密码管理策略

4.授权,系统授权,用户授权模型见下图,采用访问控制矩阵和最小授权原则。

5.访问控制,常见的访问控制策略有用户、角色、属性、ACL、IP

6.安全审计,快速发现潜在的风险行为

7.资产保护,形成数据全生命周期的资产保护策略,见下图。

8.数据脱敏,相当于数据漂白,打马赛克

9.数据加密技术,对称、非对称、数据证书、签名、水印(用于跟踪追溯)

数据安全的政策法规

1.GDPR:欧盟的数据安全法律法规,通用数据保护条例。史上最严个人隐私保护法。

2.CCPA:加州消费者隐私法案

3.数据安全法:数据安全上升到国家层面,将数据要素的安全和发展统筹起来。

七、数据集成与共享
数据集成和共享是为了解决系统之间、部门之间、企业之间的数据移动过程的有效协调和管理,背后的驱动力是企业迫切业务需求和集成应用需求。大家一般谈论的数据集成主要是应用集成,具体如下
1.门户集成:有身份认证、单点登录、界面集成、待办集成、关键指标集成和内容管理,最后两个主要涉及到界面集成和数据集成。  
2.服务集成:有SOA和微服务架构集成,是为了实现流程集成和数据集成的技术。
3.流程集成:有跨系统的自动业务流程、自动和人工协作完成的流程、纯人工完成的流程,流程集成是在服务集成和数据集成的基础上,流程集成模块通过编排各个应用中的服务来实现流程集成的。
4.数据集成:有数据复制、数据联邦(VDB)和接口集成(接口应用包和适配器),目前80%的应用集成是数据集成。
数据集成的架构演进
1.点对点架构,路径数量=连接对象数*(连接对象数-1)/2,缺点是混乱、无法集中管控和紧耦合。见下图。
2.电子数据交换(EDI)架构,见下图。
3.SOA架构,ESB是基础,具有服务管理中心、中介平台、转换解耦平台,服务编排重组平台,总线存在性能瓶颈。见下图。
4.微服务架构,最大化的将业务需求组件化服务化,见下图,包括接口、数据、界面和外部集成。见下图。

应用集成主要涉及到的是数据集成,目前数据集成的4类典型应用
1.基于中间件交换共享模式,见下图。
2.主数据应用集成模式,形成以主数据为主的统一视图,详见下图。
3.数据仓库应用模式,面向主题、集成、相对稳定并反映历史变化的数据集成,详见下图。
4.数据湖的应用模式,强调数据的容易入湖和数据的原始格式,支持的数据格式多源(结构、非结构、半结构),支持批处理,流处理和实时处理,入湖后再做处理和治理。详见下图。

数据集成步骤和方法,详见下图。
1.数据集成的需求分析:需求调研、需求汇总、需求分析、需求确认
2.制定集成方案:设计数据模型(db设计,逻辑模型设计)、设计数据库schema、分析数据源、确定集成模式(ETL、接口、文件交换等)、编写并确认集成方案
3.接口开发和联调:数据集成开发、测试和联调,包括记录的完整性和属性的完整性
4.部署运行与评价:接口部署与运行、数据集成评价(数据整合程度、业务协同情况和决策分析能力),通过业务协同打通流程,实现业务的端到端管理,提升业务处理效率,达到数据的完整沉淀。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/679922.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

linux系统如何添加硬盘设备

前言: 今天记录一下硬盘方面的知识,主要讲一下分区、挂载方面的知识,心情太郁闷了,假期的最后一天。 1、硬盘的命名规则 现在的硬盘设备一般都会以“/dev/sd”开头,而一台主机上可以有多块硬盘设备,因此系…

6.24全球央行鹰派立场重现,下周黄金是否会继续下跌?

近期有哪些消息面影响黄金走势?下周黄金多空该如何研判? ​黄金消息面解析:周五(6月23日)美市尾盘,现货黄金收报1920.44美元/盎司,上升6.58美元或0.34%,日内最高触及1937.46美元/盎…

Linux基础服务3——samba

文章目录 一、基本了解1.1 服务安装1.2 服务进程和端口1.3 samba用户1.4 配置文件1.4.1 主配置文件1.4.2 配置文件参数 1.5 安全级别 二、访问samba2.1 参数测试2.2 交互式访问2.3 挂载访问2.3.1 临时挂载2.3.2 永久挂载 2.4 配置用户认证共享2.5 匿名共享 一、基本了解 什么是…

VS Code基于服务器中的docker的开发环境配置

VS Code基于服务器中的docker的开发环境配置 基于Dev Containers插件基于Jump Machine(跳板机)服务器通过ssh连接docker容器VS Code配置ssh config文件连接docker容器 基于Dev Containers插件 当然可以在vscode中直接下载Dev Containers插件&#xff0c…

表上作业法一般流程(最小元素法、闭合回路法、位势法)

目录 一、列出物资调运平衡表和运价表 二、编制初始调运方案 三、初始方案的检验与调整 1)闭合回路法 2)位势法 3)调整调运方案 表上作业法一般步骤: ①列出调运物资的供需(产销)平衡表及运价表; ②按最小元素…

mediapipe 谷歌高效ML框架-图像识别、人脸检测、人体关键点检测、手部关键点检测

参考: https://github.com/google/mediapipe https://developers.google.com/mediapipe/solutions/guide 框架也支持cv、nlp、audio等项目,速度很快: 1、图形识别 参考:https://developers.google.com/mediapipe/solutions/vi…

05.内存管理:动态申请和释放内存

动态分配内存,进行内存管理 参考: 伙伴算法原理简介 linux 0.11源码 本文主要针对Linux0.11的malloc和free进行分析。是一种类似伙伴系统的内存管理方法,不过伙伴系统的内存通常是申请大于一页的内存,但是在该内核版本的内存管理&#xff0c…

剑指 Offer 68 - I. 二叉搜索树的最近公共祖先 / LeetCode 235. 二叉搜索树的最近公共祖先(二叉搜索树性质,搜索与回溯)

题目: 链接:剑指 Offer 68 - I. 二叉搜索树的最近公共祖先;LeetCode 235. 二叉搜索树的最近公共祖先 难度:中等 给定一个二叉搜索树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为:“对…

redis存储原理与数据模型学习笔记

目录 1 redis线程模型1.1 线程组成1.2 redis命令处理是单线程 2 redis db 存储分析2.1 先了解代码server.hdict.h 2.2 从kv存储分析2.3 负载因子2.4 渐进式rehash机制数据访问scan 3 数据模型分析以zset为例跳表 1 redis线程模型 1.1 线程组成 redis-server 命令处理 网络事件…

Nerf论文前后介绍以及今后方向(2020年各个方向工作论文分析) NEURAL VOLUME RENDERING:NERF AND BEYOND

你好! 这里是“出门吃三碗饭”本人, 本文章接下来将介绍2020年对Nerf工作的一篇总结论文NEURAL VOLUME RENDERING:NERF AND BEYOND,论文作者是佐治亚理工学院的Frank Dellaert同学和 MIT的Lin Yen-Chen同学,非常感谢两位大佬的总结…

序列化和反序列化的认识【protobuf、json、xml】

1. 什么是序列化与反序列化? 程序员在编写应用程序的时候往往需要将程序的某些数据存储在连续的内存中,然后将其写入文件或是将其传输到网络中的另一台计算机上以实现通讯。这个将程序数据转换成能被存储并传输的格式的过程被称为序列化(seri…

C++ array (STL array) 序列容器

文章目录 1 类模板2 begin()/end() 和 cbegin()/cend()3 cbegin() 和 cend()4 rbegin()/rend() 和 crbegin()/crend()5 访问array容器中单个元素参考 1 类模板 array 容器以类模板的形式定义在 头文件,并位于命名空间 std 中,如下所示: nam…

一、约束编程简介(Constraints Programming)

文章目录 1、约束编程求解器2、值域传播器THE END 1、约束编程求解器 \qquad 约束编程是一种编程范式,旨在解决那些需要满足一系列约束条件的问题。在约束编程中,问题被定义为一组变量和约束条件,而不是指定解决问题的算法步骤。通过定义变量…

XXE漏洞复现步骤

0X00XXE注入定义 XXE注入,即XML External Entity,XML外部实体注入。通过 XML 实体,”SYSTEM”关键词导致 XML 解析器可以从本地文件或者远程 URI 中读取数据。所以攻击者可以通过 XML 实体传递自己构造的恶意值,是处理程序解析它…

Nginx-负载均衡详解

本文已收录于专栏 《中间件合集》 目录 概念说明什么是Nginx什么是负载均衡 功能介绍配置过程1.修改nginx配置文件添加服务组修改HTTP模块 2.保存配置文件3.重启配置文件4.查看配置文件是否重启成功5.还可以配置其他策略轮询权重最少连接数 常用命令总结提升 概念说明 了解ngi…

MySQL:环境安装和数据库基础

环境安装 说明: • 安装与卸载中,用户全部切换成为root,⼀旦 安装,普通用户能使⽤的 • 初期练习,mysql不进行用户管理,全部使⽤root进行,尽快适应mysql语句,后⾯学了用户管 理&a…

实例讲解,一文弄懂workqueue和waitqueue

本期主题: 讲清workqueue和waitqueu: 从中断讲起waitqueue是什么workqueue总结 往期链接: linux设备驱动中的并发linux设备驱动中的编译乱序和执行乱序linux设备驱动之内核模块linux字符驱动linux字符驱动之ioctl部分linux字符驱动之read、…

数据结构07:查找[C++][朴素二叉排序树BST]

图源:文心一言 考研笔记整理8k字,小白友好、代码可跑,请小伙伴放心食用~~🥝🥝 第1版:查资料、写BUG、画导图、画配图~🧩🧩 参考用书:王道考研《2024年 数据结构考研复习…

【MATLAB第45期】基于MATLAB的深度学习SqueezeNet卷积神经网络混凝土裂纹图像识别预测模型

【MATLAB第45期】基于MATLAB的深度学习SqueezeNet卷积神经网络混凝土裂纹图像识别预测模型 引言 该文章展示如何微调名为SqueezeNet的预训练深度卷积网络,以执行裂纹图像分类预测。并使用一种称为Grad-CAM的技术来解释和分析分类输出。文章使用L.Zhang介绍的混凝土…

C++初阶之C++入门最全详解

C入门 1. C关键字(C98)2. 命名空间2.1 命名空间定义2.2 命名空间使用 3. C输入&输出4. 缺省参数4.1 缺省参数概念4.2 缺省参数分类 5. 函数重载5.1 函数重载概念5.1.1 参数类型不同5.1.2 参数个数不同5.1.3 参数类型顺序不同 5.2 C支持函数重载的原理…