数据治理8大核心模块建设

news2024/11/29 5:07:35

数据治理是一个去中心化、多元参与的系统工程。一个全面且明确的数据治理体系,可以帮助组织构建生态式、协同化治理路径,最大化地提升整体数据质量,实现数据战略,激活新型生产力。

本文以元数据、主数据、数据标准、数据质量、数据资产、数据交换、数据安全、数据生命周期八大模块为核心脉络,梳理了一份全面数据治理体系指南,希望能为政企数据治理提供参考。

01、元数据

1. 定义

元数据是描述数据相关信息的数据。

元数据管理则是指与确保正确创建、存储和控制元数据,以便在整个企业中一致地定义数据有关的活动。

2.类型

元数据分为业务元数据、技术元数据和操作元数据。

3.元数据管理五大步骤

1)定义元数据战略:企业需要启动元数据战略计划,把关键利益相关方和部门都参与进来,评估现有的元数据资源和信息架构,对关键员工重点访谈,制定合理的战略目标。

2)理解元数据需求:元数据管理解决方案,需要由更新频次,同步情况,历史信息,访问权限,存储结构,继承要求,运维要求,管理要求,质量要求和安全要求等具体功能需求点满足。

3)定义元数据架构:元数据架构,通常分为3类,包括集中式,分布式和混合式,不同技术框架满足不同情境需求,企业根据自身情况因地制宜选择。

4)创建和维护元数据:数据系统要从企业范围内梳理和整合元数据,把技术元数据,与业务,流程和管理元数据集成在一起,使元数据处理变得规范统一,方便理解和分析。

5)查询、报告和分析元数据:元数据存储库应具有前端应用程序,并支持查询和获取功能,从而满足各类数据资产管理的需求。

4.元数据管理应用

1)数据资产地图:是由元数据字典自动生成的企业数据资产的全景地图,用可视化方式展示各类元数据和数据处理过程,满足不同业务分析需求。

2)元数据血缘关系:指的是不同数据之间的联系。当我们发现一个下游的错误数据,可以通过血缘关系追本溯源,快速找到上游的数据来源,了解数据处理过程,找到数据错误的原因。

3)元数据影响度分析:可以告诉我们数据去了哪里,经过哪些加工和处理,哪些应用,数据库,或者部门使用了这个数据。当数据出现问题的时候,可以迅速了解错误数据的传播链条,快速解决错误数据导致的错误结果。

02、主数据

1.定义

主数据是指满足跨部门业务协同需要的、反映核心业务实体状态属性的组织机构的基础信息。

主数据管理是指一整套的用于生成和维护企业主数据的规范、技术和方案,以保证主数据的完整性、一致性和准确性。

2.主数据项目管理实施架构

通过现状分析与评估、规划管理体系、建设实施方案,平台落地部署这四个步骤,进行主数据项目管理的落地实施。

3.主数据项目实现阶段的十大重要环节

1)主数据标准化体系

以物料为例, 完整的物料标准化体系主要包括物料数据标准的制定和物料数据标准化管理相关基础能力建设两大部分内容。

2)分类设计原则

四大分类设计原则:不重不漏;粗细颗粒度合理;满足业务需求;符合行业习惯

3)编码设计

编码设计需遵守全局性,唯一性、适度性、灵活性、扩展性等原则。不同编码方式各有优缺点。

4)属性标准梳理:可以从业务标准、技术标准、管理标准三个层面来梳理。

5)管控流程设计:在业务系统建设过中进行流程审核以及校验。

6)历史数据整合、清洗:分为数据接入、初步标记、分类清理、先分后合、整理清洗、检查反馈6个步骤。

7)数据切换策略:以下是三种数据切换策略各自优缺点。

8)数据生产与维护策略:有集中式和分布式两种。

9)主数据分发策略:主数据的分发方式有以下三种。

10)主数据集成示例

03、数据标准

1.定义

数据标准是指保障数据的内外部使用和交换的一致性和准确性的规范性约束。数据标准管理则是一套由管理制度、管控流程、技术工具共同组成的体系,是通过这套体系的推广,应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化。

2.分类

1)业务标准规范:一般包括业务的定义,标准的名称,标准的分类等。

2)技术标准规范:是从技术角度看待数据标准,包括了数据的类型,长度,格式,编码规则等。

3)管理标准规范:比如数据标准的管理者是谁,如何增添,如何删减,访问标准条件等,都属于管理角度的数据规范要求。

3.数据标准管理实施步骤

数据标准实施流程图

1)制定目标和界定范围:组织首先需要制定数据标准目标,明确战略方向,然后根据企业自身的管理和业务发展需求制定数据标准。

2)数据标准调研:对整个组织的数据标准管理情况进行调研和汇总。通过调研企业数据标准现状,弄清哪些系统的数据标准问题比较严重,哪些字段不符合标准,为后续的数据标准落地提供支撑和指导。

3)明确组织和流程:通过确定数据治理管控委员会,数据标准管理岗,数据标准管理专员,IT项目组等数据标准管理角色,和制定标准变更、落地、管理流程,来保障数据标准项目推进落实。

3)数据标准编制与发布:通过收集国标、行标要求,结合企业自身管理和业务要求,经过业务、技术和管理等各部门的协调沟通后,制定出初版的数据标准管理文档。经过数据标准审核后,发布定版数据标准。

4)数据标准宣贯:向内部组织数据标准宣贯会,提升企业内部人员对数据标准管理的重视程度,提高使用人员的熟练度,让数据标准可以更好更快实行,从而发挥价值。

5)数据标准平台落地运营:将制定好的数据标准录入相应数据标准平台系统,通过管理、技术、业务的维度查看效果,进行适当修改满足大部分要求后,投入使用到实际场景中。此外,对于数据标准还需定期评估、不断完善,达到更加适应企业管理经营的目的。

04、数据质量

1.定义

数据质量是指在业务环境下,数据符合数据消费者的使用目的,数据质量需要满足业务场景具体的需求。数据质量包含两个方面:数据自身的质量和数据的过程质量。

数据质量管理是对数据从计划、获取、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

2.四种常见数据质量问题

1)数据缺失:指的是一些重要数据未被填充。

针对缺失数据,企业可以通过简单统计分析,找到未填写数据,相关属性,对可能值进行插补填充。

2)数据异常:指的是数据与平时的业务,管理数据有很大差别,影响数据分析得出的结论。

针对异常数据,需要用之前数据作为基础,确定最大值和最小值,判断数据变量是否超出合理的范围,如果数据异常,系统会自动报警提醒。

(3)数据不一致:指的是在数据集成汇总的时候,多个系统分布的相同数据,出现不一致的现象。

针对不一致的数据,企业系统可以注意数据抽取的规则,对于大部分相同但不一致的数据,进行鉴别,修改,合并。

4)数据重复或错误:指的是一些数据出现重复统计,数据填写错误。

针对重复数据,企业可以在系统中设置过滤限定条件,清除重复数据。

3.数据质量评判六大维度

全国信息技术标准化技术委员会提出了数据质量评价指标(GB/T36344-2018 ICS 35.24.01),它包含以下几个方面,分别是完整性,一致性,准确性,时效性,唯一性和可访问性。

4.数据质量管理七部曲

(1)定义高质量数据

通过全面了解相关痛点、风险和业务驱动因素,以及业务流程系统情况、技术结构和数据依赖关系,对数据质量改进的目标和优先级事项达成一致。

2)定义数据质量战略

数据质量优先级必须与业务战略一致,定义数据质量框架有助于指导战略及开展数据质量管理活动。

3)识别关键业务和质量规则

可以根据监管要求、财务价值和对客户的直接影响等因素对数据重要性进行优先级排序。在确定关键数据后,识别梳理数据质量特征要求的业务规则。

4)执行初始数据质量评估

确定关键的业务需求和数据后,通过执行初始数据质量评估了解数据,定义可操作的改进计划,通过评估结果确认问题及优先级,并作为数据质量规划的基础。

5)识别改进方向并确定优先级

在经过初步数据质量评估后,识别潜在的改进措施,并确定优先顺序,可以通过对大数据集进行全面的数据分析来了解问题的广度,或与利益相关方进行沟通,分析问题的业务影响,最终讨论确定优先顺序。

6)定义数据质量改进目标

根据数据质量改进带来的业务价值进行量化,设定具体的、可实现的目标。

7)开发和部署数据质量操作

为了保证数据质量,围绕数据质量方案制定实施计划,管理数据质量规则和标准、监控数据与规则的执行一致性,识别和管理数据质量问题,并报告质量水平。

05、数据资产

1.定义

数据资产是能够为组织产生价值的数据资源,数据资产的形成需要对数据资源进行主动管理并形成有效控制。数据资产管理是指对数据资产进行规划、控制和提供的一组活动职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。

2.数据资产盘点

1)自上而下梳理

以业务视角,通过对企业的相关制度文件、职能体系、业务流程、业务单据等进行全面分析,逐层分解,梳理数据资产的三级目录、业务属性和相关管理属性。

2)自下而上盘点

以技术视角,从IT系统——数据库表——数据结构出发,进行自下而上归纳,逐步明确数据资产相关的技术属性。

通过自上而下和自下而上两种盘点方式,建立起业务视角和技术视角的映射关系,这样一个完整的数据资源目录就成型了。

3.数据资产目录

通过数据资产目录,可以解决数据在哪里、数据谁负责,数据如何用等一系列问题。一个实用友好的数据资产目录,能够打通查数/取数环节、打通基础类数据和指标类数据的联系,并通过人工智能和机器学习等先进技术,更好地支持数据的探查和关联推荐。

4、数据资产管理4大步骤

1)统筹规划:数据资产管理实施第一阶段是统筹规划,包括评估管理能力、发布数据战略、建立企业责任体系三个步骤,为后续数据资产管理和运营锚定方向、奠定基础。

2)管理实施:第二阶段的目标主要是通过建立数据资产管理的规则体系,依托数据资产管理平台工具,以数据生命周期为主线,全面开展数据资产管理各项活动,以推动第一阶段成果落地。第二阶段管理实施的开展主要包括建立规范体系、搭建管理平台、全流程管理、创新数据应用四个步骤。

3)稽核检查:稽核检查阶段是保障数据资产管理实施阶段涉及各管理职能有效落地执行的重要一环。这个阶段包括检查数据标准执行情况、稽核数据质量、监管数据生命周期等具体任务。

4)资产运营:通过前三个阶段,企业已经能够建立基本的数据资产管理能力,在此基础上,还需要具备以实现业务价值为导向,以用户为中心,为企业内外部不同层面用户提供数据价值的能力。资产运营阶段是数据资产管理实现价值的最终阶段,该阶段包括开展数据资产价值评估、数据资产运营流通等。

06、数据交换

1.定义

数据交换共享就是让不同地方使用不同计算机、不同软件的用户能够读取他人数据并进行各种操作运算和分析。

2.数据交换与共享方法

1)电子或数字文件传输

数据可以通过电子或数字文件传输进行交换,通过文件传输(通信)协议在两个系统之间传输文件(数据)。各组织需要考虑与使用不同文件传输协议带来的安全风险;文件传输协议包括FTPSHTTPSSCP

2)便携式存储设备

在某些情况下,可能需要使用便携式存储设备交换数据, 例如可移动磁盘(数字视频光盘 (DVD))或通用串行总线 (USB)等)。组织需要考虑被传输数据的影响级别以及数据将要传输到的系统的影响级别,以确定所交换的数据是否采取了足够的措施。

3)电子邮件

组织经常通过电子邮件以附件的形式共享数据。组织需要考虑参与组织的电子邮件基础设施的影响级别和已经实施的安全控制,以确定是否实施了足够的控制措施来保护正在交换的数据,例如,在中等影响级别受保护的电子邮件基础设施不足以保护高影响级别的数据。

4)数据库

数据库共享或数据库事务信息交换,包括来自另一个组织的用户对数据的访问。组织需要考虑的是提供数据访问而不是传输数据的可行性,以减少重复数据集以及数据机密性和完整性损失的风险。

5)文件共享服务

文件共享服务包括但不限于通过基于 Web 的文件共享或存 储共享数据和访问数据(例如 Drop BoxGoogle DriveMS Teams MS One Drive)。使用基于Web的文件共享或存储系统,该系统无法让数据所有者了解服务器所在位置,或对设施、服务器和数据的物理和逻辑访问。

3.数据交换共享的五个原则

1)一致性原则:提供数据共享服务前,要确定每项数据的源头单位, 由源头单位对数据的准确性、一致性负责。减少数据搬家,从而减少向下游二次传递所造成的数据不一致问题。

2)黑盒原则:数据使用方不用关注技术细节,满足不同类型的数据共享服务需求。

3)敏捷响应原则:数据共享服务一旦建设完成,并不需要按数据使用方重复构建集成通道,而是通过订阅该数据共享服务快速获取数据。

4)自助使用原则:数据共享服务的提供者并不需要关心数据使用方怎么消费数据,避免了供应方持续开发却满足不了数据使用方灵活多变的数据使用诉求的问题。

5)可溯源原则:所有数据共享服务的使用都可管理,数据供应方能够准确、及时地了解使用了自己的数据,确保数据使用的合理。

07、数据安全

1.定义

数据安全是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。

数据安全治理是基于数据安全合规要求、用户的业务发展需要和风险承受能力等多种因素,以数据安全管理和技术能力为依托,实现业务与安全融合发展的安全建设机制。

2.数据安全管理能力

1)组织治理

数据安全治理组织可采取5层组织结构,即决策层、管理层、执行层、监督层和参与层。

2)制度治理

数据安全制度体系主要从4个层面进行建设。

3.数据安全技术能力

数据安全技术能力治理主要是对技术措施的建设,围绕数据全生命周期的各个阶段采取相应的安全防护措施,包括智能识别、分类分级、数据库审计、加密传输、数据防泄露、数据脱敏、数据水印、用户行为分析、知识图谱等。

4.数据安全运营能力

通过构建数据安全隐患发现及处置机制、数据安全风险评估机制、数据安全突发事件应急响应机制、数据安全监控与审计机制,形成规范化、流程化、智能化运营的长效安全运营体系。

08、数据生命周期

1.定义

数据的生命周期是指某个集合的数据从产生或获取到销毁的过程。数据生命周期分为:采集、存储、整合、呈现与使用、分析与应用、归档和销毁几个阶段。

数据生命周期管理是一种基于策略的方法,用于管理信息系统的数据在整个生命周期内的流动:从数据创建和初始的存储,直到它过时被删除或销毁。

2.常见的数据生命周期管理模型

数据生命周期管理模型定义了一个宏观的框架,它是从生产阶段到消亡阶段的数据生命的全景视图。在数据管理领域,学术界和企业界的许多研究人员提出了不同的数据生命周期管理模型,如下图所示。

3.数据生命周期管理的四个阶段

1

该阶段不仅仅指数据的创建与接收,有效的数据资产管理应在数据的产生之前开始。首先应该做好规划和计划,包括数据资产盘点、数据治理计划、数据需求计划等;然后对数据标准进行定义,制定数据管理规范,确保数据按照标准产生,从源头抓起。

2

需要对结构化、半结构和非结构化多样化的数据结构,批数据和流数据多种数据形式进行存储和处理。面对不同数据结构、数据形式、时效性、性能要求和存储与计算成本等因素,应该使用适合的存储形式与计算引擎。

3

数据因使用而升值,该阶段是数据真正产生价值的周期。在这个期间要特别强调数据复用,这对于节省成本,提高效率非常重要。未来企业或组织在评估一个数据产品值不值得开发很重要的一个指标应该看能不能复用。

4

期是将那些生命周期步入尾声的数据保存到低性能廉价的存储介质或直接销毁,是数据生命周期管理必不可少的步骤。对于数据的销毁,企业应该有严格的管理制度,建立数据销毁的审批流程,并制作严格数据销毁检查表。只有通过检查表检查,并通过流程审批的数据才可被销毁。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/597424.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023年「身份安全」行业白皮书、研究报告、案例合集速览!

随着企业将其业务向数字化、云和移动化转变,身份的数量、类型都呈爆炸式增长。这也带来了全新维度的威胁格局,如果保护不当,可能会为攻击者提供更多可利用的攻击路径。 虽然许多工具和技术旨在保障身份安全,但身份威胁检测和响应…

chatgpt赋能python:Python主窗口名字怎么修改?

Python主窗口名字怎么修改? Python是一种解释型的编程语言,广泛应用于Web开发、数据科学、人工智能等领域。在Python编写的GUI程序中,窗口名字是非常重要的一个元素,因为它可以直观地让用户知道当前的应用程序是什么。在这篇文章…

IP地址规划方法

一、IP地址规划的基本步骤: (1)判断用户对网络以及主机数的需求; (2)计算满足用户需要的基本网络地址结构; (3)计算地址掩码; (4)…

工程swift与OC混编改造

最近公司项目准备引入swift,由于目前工程已经完成了组件化不再是简单的单仓工程,所以需要进行混编改造。下面记录一下自己对工程进行混编改造的思考以及过程。 混编原理 看了很多文档,比较少有讲混编原理的,这里简单介绍一下语言…

第十九章_手写Redis分布式锁

锁的种类 单机版同一个JVM虚拟机内synchronized或者Lock接口。 分布式多个不同JVM虚拟机,单机的线程锁机制不再起作用,资源类在不同的服务器之间共享了。 一个靠谱分布式锁需要具备的条件和刚需 独占性 :OnlyOne,任何时刻只能有且…

linux-静态库制作与使用

创建2个目录进行创建与使用的演示 创建静态库 准备源文件与头文件 查看所有源文件与头文件 将源文件编译.o文件,然后将.o文件打包为静态库 gcc -c mymath.c -o mymath.o -stdc99 gcc -c myprint.c -o myprint.o -stdc99 ar指令:打包多个.o文件为静态…

Fast-RCNN理论基础

一:总体流程 1、将图像输入网络得到相应的特征图。 2、使用RPN结构生成候选框,将RPN生成的候选框投影到特征图上获得相应的特征矩阵。 3、将每个特征矩阵通过ROI pooling层缩放到7x7大小的特征图,接着将特征图展平通过一系列全连接层得到预…

测试老鸟整理,从手工进阶自动化测试,自动化之路清晰通透...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 Python自动化测试&…

主啊,我甚至不知道从何说起...

主啊,我甚至不知道从何说起...欢迎来到费米悖论。 外面有太多令人恐惧的事物。 我不会一一说过。然而,我读到的一件事情让我感到恐惧,我希望它也让你感到恐惧。 那么,就是这样... 这一切与一个问题有关:如果他们确实存在,为什么还没有来访?可怕的就是这些可能性。 根据《弄清外…

PCB布局思路分析 让你的布局从此简单!

分析好整个电路原理以后,就可以开始对整个电路进行布局布线,这一期,给大家介绍一下布局的思路和原则。1、首先,我们会对结构有要求的器件进行摆放,摆放的时候根据导入的结构,连接器得注意1脚的摆放位置。 ​…

财务共享中心搭建以后,如何进行精细化管理?

财务共享中心通过统一的财务流程、系统和人员配置实现了财务业务的标准化和规范化,为企业的财务管理提供了很大的便捷性和效率性,目前许多大型企业已纷纷开始搭建自己的财务共享中心。 但企业在搭建财务共享中心之后,往往会在运行初期遇上业…

Qt 帮助框架使用

前面我们已经简单了解了Qt帮助框架,本节我们将举例说明生成Qt帮助集,并自定义Qt Assistant。 准备工作 因为创建帮助系统建立帮助文件的前提是HTML文档文件已经存在,所以我们来弄一些简单的HTML文档(难的我还不会)。…

使用exe4j和Inno Setup把jar包转成exe

使用exe4j和Inno Setup把jar包转成exe exe4j下载地址:https://www.ej-technologies.com/download/exe4j/version_60 Inno Setup地址: 链接:https://pan.baidu.com/s/1Lh0JUuQgB6bkbACIx6MqdQ 提取码:dfox 一、exe4j将jar装车exe…

【OpenMMLab AI实战营第二期】二十分钟入门OpenMMLab笔记

OpenMMlab 主页:openmmlab.com 开源地址:https://github.com/open-mmlab 学习视频地址:https://www.bilibili.com/video/BV1js4y1i72P/ 概述 开源成为人工智能行业发展引擎 时间轴 theano:2007 Caffe:2013 Ten…

如何学习 WPF 详细教程

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

SPI通信以及与W2Q564(ROM)交换(读写)数据

一.SPI协议简介 SPI 协议是由摩托罗拉公司提出的通讯协议(Serial Peripheral Interface),即串行外围设备接口,允许芯片与外部设备以全双工、同步、串行方式通信。此接口可以被配置成主模式,并为外部从设备提供通信时钟(SCK)。接口还能以多主配…

uniapp(一) 之 小程序与uniapp 基础

uni-app 是一个使用 Vue.js 开发所有前端应用的框架,开发者编写一套代码,可发布到 i OS 、 Android 、 Web ( 响应式)、 以及各种小程序(微信 / 支付宝 / 百度 / 头条 / 飞书 /QQ/ 快手 / 钉 钉 / 淘宝)、 …

工程测量仪器:工程安全的保障者

工程仪器是现代工程建设中必不可少的工具,它们可以帮助企业对工程进行监控和管理,从而提高工程运行效率和安全性。在当前的工程建设领域,安全运营已成为企业的首要任务,而工程仪器正是实现这个目标的重要保障之一。 渗压计广泛应用…

数据(浮点数)在内存中的存储(2)

目录 浮点数家族 浮点数类型在内存中的存储 一.为什么说整型和浮点数在内存中存储方式不同(证明) 二.浮点数的存储规则 浮点数在计算机内部的表示方法 1.对于M的存储和取出规则 2.对于E的存储和取出时的规则 对前面代码结果进行解释: …

tinkerCAD基础操作

放大尺寸! 让我们通过调整大小来更改基本框形状! 说明 继续执行下一步。 扩展每个块 每个“框”形状的大小都与提示匹配。 说明 通过左键单击形状来选择一个框。 这将启用形状控点。 使用每个形状底部边缘的黑色手柄在单个方向上调整形状的大小。 使…