数据治理在学术上的发展史以及未来展望

news2024/11/25 0:41:26

        数据治理是大数据领域中非常重要的一环,从早期的学术研究到如今的各大企业落地实践,经历了漫长的过程,数据治理的实践落地本身也是一场马拉松。

        从百度学术通过精确关键词匹配,搜索中文期刊的“数据治理” 和外文期刊的“data governance”查看1980年以来的论文发布数量,2000年之前没有收录记录。2000-2009年有少量收录,2010年之后开始指数级上升。当然,百度学术的数据不一定完全,只能反映一部分情况,只能做一个简单的参考。

        从论文搜索数量,以及全球各个组织机构对数据治理的研究成功来看,可以将数据治理分为三个阶段,分别是1988-1999的早期探索阶段,2000-2009你的逐步完善阶段,以及2010年之后的蓬勃发展阶段。 

第一阶段 :早期探索1988-1999

1.1 MIT启动TDQM

        1988年,麻省理工学院的启动了全面数据质量管理TDQM (Total Data Quality Management Program)计划,其目的是希望通过建立数据质量管理领域坚实的理论基础,以及数据管理所需的工具等帮助企业来提高数据质量。

TDQM 研究计划主要由三个部分组成:数据质量的定义、分析和改进。

数据质量定义:主要侧重于如何定义和计量数据质量。

数据质量分析:主要侧重于两方面,①鉴别和计算影响数据质量的因素。②好的数据质量对提升企业经营的好处。

数值质量改进:借助新的技术手段和重构业务系统来提高公司的数据质量。

TDQM认为需要从经济,技术和组织三个维度着手来改进数据质量。

TDQM正如他的名字那样,定义了一套全面的数据质量管理的框架,也奠定了数据治理领域的理论研究基石。

TDQM的小组成员也在不断改进,Wang R Y, Strong D M在1996年提出多维数据质量度量框架。将15个数据质量指标划分为四大维度:

  • 内在数据质量(Intrinsic Data Quality):

可信度(Believability)

准确性(Accuracy)

客观性(Objectivity)

信誉度(Reputation)

  • 上下文数据质量(Contextual Data Quality):

数据增值性(Value-Added)

相关性(Relevancy)

时效性(Timeliness)

完整性(Completeness)

适量性(Appropriate Amount of Data)

  • 获取数据质量(Representational Data Quality):

可解释性(Interpretability)

易理解性(Ease of Understanding)

可代表性(Representational)

一致性(Consistency)

简洁性(Concise representation)

  • 可访问性数据质量(Accessibility Data Quality):

可访问性(Accessibility)

访问安全性(Access Security)

这15大指标和四大分类对数据质量建设提供了重要的指导意义,对后续的研究影响颇深。

 

1.2 DAMA选出第一届董事会 

        同样是1988年,国际数据管理协会DAMA(The Global Data Management Community)正式选出了第一届董事会,DAMA初期在数据治理领域还没有太多的贡献和影响力,而如今DAMA已经在领域内人尽皆知,成为了最主流的数据治理体系。

第二阶段 :逐步完善 2000-2009

        在这个阶段,数据治理概念首次出现,DGI成立,DAMA也发布了DMBOK V1,数据治理体系开始逐步完善。

2.0 “数据治理”概念首次出现

        在第一阶段里,TDQM等研究机构提出的都是数据管理的概念,主要侧重在数据的全生命周期管理。而数据治理(Data Governance)的概念首次提出是在2002年,美国学者发表了一篇论文《Data warehouse governance: best practices at Blue Cross and Blue Shield of North Carolina》[1],探讨了数据仓库治理在Blue Cross 和Blue Shield两家公司的最佳实践,在这两家公司成立了专门的数据治理小组来体系化的进行数据治理的工作。

2.1 DGI 成立

        2003年DGI(国际数据治理研究所)成立,并提出了DGI数据治理框架,该框架完整的描述了我们为什么要数据治理(Why)? 谁(Who)在什么情况(Where)下,使用什么方法(How),如何实施(What)的整个过程。如下图

  • 数据生命周期的7个阶段:

1. 确定数据治理的价值(Develop a value statement 

2. 准备执行路线图(Prepare a roadmap 

3. 制定计划和资金准备(Plan and fund 

4. 设计(Design

5. 部署(Deploy 

6. 治理(Govern 

7. 监控、检测、报告(Monitor, measure, report 

  • 数据治理的10个通用组件:

Rules and Rules of Engagement

1. 使命愿景(Mission and Vision)

2. 目标,治理指标,成功举措和投资策略(Goals, Governance Metrics and

Success Measures, and Funding Strategies)

3. 规则,定义和政策(Data Rules and Definitions) 

4. 决策权(Decision Rights)

5. 问责制(Accountabilities)

6. 控制(Controls)

People and Organizational Bodies

7. 数据利益相关者(Data Stakeholders)

8. 数据治理办公室(A Data Governance Office)

9. 数据管理委员会(Data Stewards)

Processes

10. 主动,被动和持续的数据治理流程(Proactive, Reactive, and Ongoing Data Governance Processes)

  • 数据治理的12个步骤:

1. 调整政策、要求和控制(Aligning Policies, Requirements, and Controls)

2. 建立决策权(Establishing Decision Rights)

3. 建立问责制(Establishing Accountability)

4. 执行管理(Performing Stewardship)

5. 管理变革(Managing Change)

6. 定义数据(Defining Data)

7. 解决问题(Resolving Issues)

8. 规定数据质量要求(Specifying Data Quality Requirements)

9. 将治理融入技术(Building Governance Into Technology)

10. 关注利益相关者(Stakeholder Care)

11. 交流(Communications)

12. 衡量和报告价值(Measuring and Reporting Value)

2.2 DAMA-DMBOK发布

        2009年,DAMA-DMBOK的发布对数据治理领域影响深远。它将数据治理的工作梳理成了一套体系化的标准策略,对数据治理人员起到了很好的指导作用。它体系化的定义了数据治理成功的六大核心要素和九大数据管理职能,这些都概况在一张广泛流传的DMBOK轮子图里。 

  • 六大核心要素:

战略(Strategy)

组织和角色(Organization & Roles)

政策和标准(Policies & Standards)

项目和服务(Projects & Services)

问题(Issues)

估值(Valuation)

  • 九大数据管理职能:

数据架构管理:企业数据模型、价值链分析、相关的数据架构

数据开发:数据分析、建模、设计、实施

数据操作管理:获取、恢复、调优、保留、清理

数据安全管理:标准、分类、管理、授权、审计

参考数据和主数据管理:外部规范、内部规范、客户数据、产品数据、维度管理

数据仓库与商务智能管理:架构、实施、培训和支持、监控和调优

文档和内容管理:获取和存储、备份和恢复、内容管理、检索、保留

元数据管理:架构、整合、控制、交付

数据质量管理:规范、分析、度量、改进

第三阶段:蓬勃发展 2010-至今

        在这个阶段,数据治理的理论框架已经比较成熟,各国政府、行业机构、开始全面推动数据治理行业的规范发展。大量的企业组织也开始进行数据治理的实践落地。 

3.1 IBM 数据治理统一流程

        2010年9月,IBM发布了《数据治理统一流程》,将数据治理分为目标、支持条件、核心规程和支持规程四个层次。

 

        IBM的数据治理统一流程列出了10个必要步骤和4个可选的专题

4个可选专题是:主数据治理、分析治理、安全和隐私以及信息生命周期治理。

 

3.2数据治理白皮书

        2015年5月,中国代表团在SC40/WG1第三次工作组会议上正式提交了《数据治理白皮书》国际标准研究报告。

        白皮书阐述了数据治理的核心概念:数据通过服务产生价值,确定了数据是资产的理念。在数据转换成价值的过程中对其进行控制、评价和指导是数据治理的基本概念。

        同时白皮书还提出来数据治理模型和框架:模型有三个框架组成:原则、范围、实施和评估

 

3.3 中国数据治理标准化元年 [2018]

  • 2018年3月15日,国家标准化管理委员会:国家标准《数据管理能力成熟度评估模型》(DCMM)

        DCMM数据管理能⼒成熟度评估模型从组织、制度、流程和技术四个维度定义了数据战略、数据治理、数据架构、数据应⽤、数据安全、数据质量、数据标准和数据⽣存周期⼋个核⼼能⼒域。见图111,并对每项能力域进行了二级过程项(28个过程项)见图222,和发展等级的划分(5个等级)以及相关功能介绍和评定指标(441项指标)的制定。

 

  • 2018年5月21日|中国银行业监督管理委员会:《银行业金融机构数据治理指引》

  • 2018年,国家市场监督管理总局,中国国家标准化管理委员会. 发布《信息技术服务 治理 第5部分:数据治理规范》GB/T 34960.5-2018。

3.4 DAMA-DMBOK V2 发布

        2020年,DAMA正式发布了DMBOKV2,在2017年,DAMA对DMBOK进行了更新,指导2020年才正式发布V2版本。这个版本相比11年前的V1版本,更加体系化,还增加了大数据模块。

相较于V1版本,车轮图里面的管理职能新增了数据集成与互用性(Data integration &  Interoperability)

 

基于DMBOKV2的车轮图,Peter Aiken 开发了定义这些功能区域之间关系的 DMBOK 金字塔,描述了各个管理职能之间的关系。

金字塔的顶端是数据分析和大数据,目的是为了实现业务价值。而数据治理则在最底端,数据治理是整个数据系统的基座。

DMBOKV2围绕数据治理的八大环境,构建了进化版车轮图

 

3.5 中国的继续探索

《数据治理标准化白皮书(2021年)》 推出4W1H模型

 

展望未来

        过去学者也业界专家们对数据治理领域做出了巨大的贡献,如今数据治理已经成为大数据领域火热的话题之一,将来的数据治理该如何发展,面临哪些挑战和机遇呢?个人认为主要有两个,一个是精益数据治理,一个是多模态数据治理。

数据治理的挑战与机遇

挑战1:

        无论是国外的DGI、DAMA 还是国内的DCMM等数据治理框架,都是非常庞大,要实施起来需要投入巨大的人力物力,并且需要较长期才能看到价值,整体来说,这些框架的落地面临投资大,周期长的问题。

机遇1:

        缺乏一套精益数据治理模型,来像《精益创业》一样,以最小化代价来验证数据治理的价值,再一步一步的迭代的模型和方法论。

挑战2:

        如今AI的已经成指数级的速度发展,特别是ChatGPT的爆火,将AI推向了高潮,企业纷纷进行AI布局,AI背后是大量的数据支撑,而AI对数据的质量要求更高,只有高质量的数据,才能训练出更强大的AI。

        AI的数据来源更加多元化,文本、音频、视频、图像等多模态数据都是AI的来源和应用,这些数据质量的控制还是一个难题

机遇2:

        面向AI多模态的数据治理模型和技术

部分参考资料:

[1] Watson H J ,  Fuller C ,  Ariyachandra T . Data warehouse governance: best practices at Blue Cross and Blue Shield of North Carolina[J]. Decision support systems, 2004, 38(3):p.435-450.

[2] DAMA官网https://www.dama.org/

[3] DGI官网https://datagovernance.com/

[4] DCMM 官网 http://www.dcmm.org.cn/

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/472239.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Apache安装与基本配置

1. 下载apache 地址:www.apache.org/download.cgi,选择“files for microsoft windows”→点击”ApacheHaus”→点击”Apache2.4 VC17”,选择x64/x86,点击右边download下面的图标。 2. 安装apache (1)把…

flutter集成Mob推送(Android)

Mob推送 Flutter对接文档 1、在pubspec.yaml文件中加入下面依赖 mobpush_plugin: ^1.2.2 # MOB推送2、导入 MobPush 相关依赖 在项目根目录的build.gradle中添加以下代码: buildscript {repositories {// 配置Mob Maven库maven {url "https://mvn.mob.com/an…

4月份读书学习好文记录

4月份学习记录 找到自己感兴趣的方向,而不是人云亦云,知道自己想要的是什么,而不是一直得过且过! 差距是怎么出现的,四年来的点点滴滴!!! 一个前端大佬的十年回顾 | 漫画前端的前世…

Confidential Containers发布0.5.0版本,龙蜥将基于八大特性构建开箱即用的机密容器解决方案

文/段勇帅 01 前言 机密容器(Confidential Containers,简称CoCo)是 Cloud Native Computing Foundation(CNCF)Sandbox 项目。目前机密容器项目的核心参与者包括阿里云、AMD、ARM、IBM、Intel、Microsoft、Red Hat、R…

OpenGL(三)——着色器

目录 一、前言 二、Shader 2 Shader 2.1 顶点着色器 2.2 片段着色器 三、APP 2 Shader 四、顶点颜色属性 五、着色器类C 一、前言 着色器Shader是运行在GPU上的小程序,为图形渲染管线的某个特定部分而运行。各阶段着色器之间无法通信,只有输入和输…

uniapp 截图或者生成海报

需求:uniapp移动端需要生成一张当前界面的海报 方案一:类似于手机按钮截图效果。实现代码如下: doSaveScreen() { let $this this; uni.showLoading({ //加载框 title: 保存中..., …

Sqlmap手册—史上最全

Sqlmap手册—史上最全 一.介绍 开源的SQL注入漏洞检测的工具,能够检测动态页面中的get/post参数,cookie,http头,还能够查看数据,文件系统访问,甚至能够操作系统命令执行。 检测方式:布尔盲注、…

css中的background属性

文章目录 一:background-repeat二:background-position三:background缩写方式三:background-size四:background-origin五:background-clip 在日常前端开发中,经常需要进行背景或背景图的处理。但…

国民技术N32G430开发笔记(10)- IAP升级 Application 的制作

IAP升级 Application 的制作 1、App程序跟Bootloader程序最大的区别就是, 程序的执行地址变成了之前flash设定的0x08006000处, 大小限制为20KB 所以修改Application工程的ld文件 origin 改成 0x08006000 length 改成0x5000 烧录是起始地址也要改为x0x…

【chapter30】【PyTorch】[动量与学习率衰减】

前言: SGD的不足: ①呈“之”字型,迂回前进,损失函数值在一些维度的改变得快(更新速度快),在一些维度改变得慢(速度慢)- 在高维空间更加普遍 ②容易陷入局部极小值和鞍点…

JVM性能调优监控工具jps、jstack、jmap、jhat、jstat

JDK本身提供了很多方便的JVM性能调优监控工具,除了集成式的VisualVM和jConsole外,还有jps、jstack、jmap、jhat、jstat等小巧的工具,本博客希望能起抛砖引玉之用,让大家能开始对JVM性能调优的常用工具有所了解。 现实企业级Java开…

【数据架构系列-06】一文搞懂数据模型的3中类型——概念模型、逻辑模型、物理模型

数据模型就是模拟现实世界的方法论,是通向智慧世界的基石! 从现实世界发展到智慧世界,要数经历现实世界、信息世界、计算机世界、数据世界、智慧世界五个不同的世界,我们天生具有从混沌的世界抽象信息变为信息世界的能力&#xff…

《统计学习方法》——EM算法及其推广(上)

引言 EM算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计。 理解EM算法需要很多概率论的知识,所以下面先贴出所需要的知识。便于对后文的理解。 补充知识 期望 对于离散型随机变量 X X X的概率分布为 p i p { X x i } p_ip\{Xx_i\}…

第八章 集合函数

文章目录 前言一、聚合函数介绍1 、AVG (平均值) 和SUM (求和)函数2 、MIN(最小值)和MAX(最大值)函数3 、COUNT函数问题:用count(*),count(1),count(列名)谁好呢? 二、G…

语义分割学习笔记(一)语义分割前言

1.什么是语义分割? 语义分割(semantic segmentation) FCN要对分割对象进行一个大的划分,即分类。如下图,语义分割有树、人、草地大类别的划分。 实例分割(Instance segmentation) Mask R-CNN要对每一个分割类别中的每一个对象也要进行一个细…

第五章——动态规划2

线性DP 数字三角形 像二维数组一样,设置行和列,只不过这里的列是斜着的,如圈出来的7,坐标可以表示为(4,2) 集合划分,所有路径可以分成俩类,某点左上方一类,右下方一类。 我们先把7去掉&#xff…

利用层级式一致性加强进行半监督病理图像分割

文章目录 Semi-supervised Histological Image Segmentation via Hierarchical Consistency Enforcement摘要方法对学生模型进行有监督学习层级式一致性强化模块Hierarchical Consistency Loss (HC-Loss)以自我为导向的分层一致性损失 实验结果 Semi-supervised Histological I…

MySQL基础概念和SQL

目录 1.概念 1.1.什么是MySQL 1.2.关系型数据库、非关系型数据库 1.3.库、表、字段 2.数据类型 2.1.数值 2.2.字符串 2.3.日期/时间 3.结构化查询语言 3.1.DDL 3.2.DML 3.3.DCL 3.4.DQL 3.4.1.结果集 3.4.2.取别名 3.4.3.查列 3.4.4.条件查询 3.4.5.模糊查询…

做BI财务数据分析,国产BI软件经验更足

不管是为了提高销售额,还是为了提高库存周转、疏通现金流,都离不开数据分析,特别是BI大数据分析可视化。因此这几年来BI软件在各行各业的接受度迅速提升,特别是在财务数据分析方面,国产BI软件更是经验、技术到位。要说…

【大数据之Hadoop】二十二、Yarn调度器和调度算法

Hadoop作业调度器主要有三种:FIFO、容量(Capacity Scheduler)和公平(Fair Scheduler)。 Apache Hadoop默认的资源调度器:容量调度器Capacity Scheduler。 CDH框架默认调度器是Fair Scheduler。 1 FIFO 单…