敏捷、分散式的数据治理,该如何实现?

news2024/11/17 6:25:14

01 数据资产的生产和消费现状

—— 孤岛就在那里!

在大数据时代,企业数据资产的生产和消费,实际现状大概是这样的。

一方面,每个业务部门都产生并存储了大量的数据。这些数据存储在不同的系统中。每个业务部门都是数据的生产者。另外一方面,每个业务部门都有使用数据来帮助进行更智能决策,每个业务部门也都是数据的消费者。

作为数据的消费者们,希望可以自由地消费全公司的数据资产。因为只有联合了多个相关部门的数据进行分析,才能够得到更为有用的结果。

但是,部门墙、数据孤岛总是客观存在的,让数据消费者去方便地消费全公司的数据有很多困难。

一方面,数据是由各个业务部门产生的。绝大部分公司,并不存在一个覆盖全公司各个业务部门的数据资产的地方。所以数据消费者不知道有哪些数据可以消费。

另一方面,数据的使用也带来了授权和监管的需求。如果数据包含了敏感信息,比如个人信用卡信息,那么法律法规就限制数据只能在有限情况下被特定的人访问。无论是授权给合适的人,还是监督谁访问了这些数据,都是数据被使用的必然要求。而这些要求伴随数据生产者,在公司内部很碎片化。

02 数据资产的消费和监督

—— 鱼和熊掌可兼得?

那么我们怎么样一方面能够让数据更好更快更方便的在全公司范围内被发现被消费,另外一方面又能够做到数据的所有使用和访问都需要授权和监督?

为了兼顾全公司范围内的数据资产能被方便的使用,和数据资产的使用被有效授权和监管这两个不同的要求,有的公司采用了这样一个办法:专门成立一个部门,集中管理全公司范围内各个业务部门产生的所有数据,给需要的人提供访问,并做好授权和监督。

现实中这个想法很难行得通。这个部门,既不是数据的生产者,也不是数据的消费者,但是却需要对数据的访问和监督负责。这问题就很大了。责权不匹配,是各个部门互相推卸责任的好帮手。可以想象如果出问题的话,到底是数据生产者的锅,数据消费者的锅还是这个部门的锅,没人能搞得清楚了。

其实,退一步海阔天空,数据治理是有可能从一个较小的范围启动起来的。

市场部门需要销售部门的每周的数据汇总,那就先把这个数据给提取出来,形成API,让市场部门去用。

这样就在市场部门(数据消费者)和销售部门(数据生产者)之间,建立了一条线,并且有了一个公共的数据“每周销售汇总”。

这个数据就像一个手机充电头,不但市场部门可以“充电”,别的部门将来也可以用。随着时间推移,这样的充电头就会越来越多,就会形成一个小型充电站,数据治理也就基本完成了。这是一种需求驱动的敏捷方法,不过,敏捷的方式需要敏捷的工具。

这个工具应该支持数据生成者迅速地把自家数据形成一个Schema,定义好有哪些字段,字段的具体含义。并且定义好哪些组织,什么人可以访问,消费者看到以后,就可以直接使用。

03 敏捷的,分散式的数据治理

—— 到底怎么搞?

也许有人要问,有没有一个办法可以提供一种靠谱的,持续发展的数据治理方式,帮助企业在生产者和消费者之间牵线搭桥,既能方便消费者很好地跨部门使用数据,又能够让数据的访问经过合理的授权,接受监督呢?

下面就给您答案!

2022亚马逊云科技re:Invent全球大会上发布了一个新服务Amazon DataZone。Amazon DataZone为数据治理提供了一套可行的思路:敏捷的,分散式的数据治理。

具体来说,Amazon DataZone提供了一个平台和对应的工具,方便数据的生产者和消费者建立连接,让消费者对生产者的数据进行使用。

在实际使用过程中,并不需要全公司全方位进行数据治理。只需要找到一个生产者和一个消费者,这一对生产者和消费者就可以先创建项目和API,让消费者把数据在监管的情况下先用起来。下图展示了Amazon DataZone的主要组件。

这样一来,就不需要有一个跨部门全公司范围内全方位的治理了。生产者依然是数据的拥有者,消费者依然是向生产者请求数据的使用。生产者和消费者所对应的信息被聚集到Amazon DataZone这个统一的平台下。

Amazon DataZone的另外一个重要的功能是提供了一个统一的门户,潜在的数据消费者可以很容易的在这里对所有在Amazon DataZone上的数据资产进行搜索。下图展示了Amazon DataZone的数据门户。

继续上面这个例子。如果有更多团队想使用已有的数据资产,他只需要在Amazon DataZone的门户搜索并发现这个数据资产。然后就可以订阅并加入消费者的行列。第三者的使用并不需要生产者再次重复之前创立数据资产和对应API的所有步骤了。下图展示了潜在数据消费者,如何利用数据门户进行搜索。

如果说Amazon DataZone提供的功能让一对生产者和消费者建立连接,是一个企业内部的两个点被连成了一条线的话,那么第三者通过Amazon DataZone发现数据资产并使用,则可以让线变成网。用的时间就来,不断有生产者和消费者加入,不断有额外的消费者建立额外的链接,数据治理也就越来越成规模化发展了。这就是敏捷的,分散式的数据治理。

在这里,Amazon DataZone扮演了重要角色。一方面,Amazon DataZone只是一个数据资产发布和管理的平台,实际对数据资产进行管理的依然是数据的生产者。

另外一方面,Amazon DataZone事实上聚集了越来越多的数据资产的信息。同时Amazon DataZone也提供了让第三方潜在数据消费者去发现这些数据资产,从而能够使用这些数据资产的能力。

这两方面能力的结合,是Amazon DataZone解决数据治理过程中万里长征不知道从何开始,也不知道怎么样完成的核心手段。Amazon DataZone通过这些能力,为企业敏捷的,分散式的数据治理提供了一个平台。

在这个平台下,企业可以通过敏捷的增量模式,逐渐将公司的所有数据资产在一个统一的平台下实现数据治理,让数据治理的万里长征真正成功。Amazon DataZone这个服务,值得每个需要数据治理的企业去尝试。

对于企业来说,数据可能来源于数据仓库、数据湖、流数据、关系数据库、第三方系统等多个地方,亚马逊云科技提供了一个叫Amazon Glue工具,可以轻松地发现、集成来自多个数据源的数据,并且可以对数据进行提取、转换、加载(ETL)。用户可以按照自己的需求,把各个数据源的数据进行编目,形成数据目录(Data Catalog)。

有了数据目录和组织结构做基础,每个部门就可以根据需要来创建属于自己的业务术语,元数据,从而建立自己的数据资产。

数据资产一旦发布出去(当然,需要设置好权限),别人就可以查询了,Amazon DataZone 专门提供了一个门户(Portal)对数据资产进行查询,非常方便。

利用这种方式,可以迅速地对接生产者和消费者,把数据资产创建起来,马上投入使用,从而实现快速响应业务需求,应对市场变化。沉淀下来的数据资产还可以继续被别的消费者使用,随着这样的数据资产越来越多,大家都看到了业务价值,数据治理就会走上正轨。

写在最后

如果你的公司有数据治理的需求,不妨考虑一下这样敏捷的方式,利用Amazon DataZone这样敏捷的工具,先小范围启动,慢慢积累,最终修成成果,完成转型,成为真正的数据驱动的企业。

如果您想了解更多2022亚马逊云科技re:Invent全球大会相关资讯,12月20日举办INNOVATE在线大会不容错过。为您剖析re:Invent 2022的最新发布以及全球观点与实践,深度技术详解端到端的数据战略及未来基础架构。

点击阅读原文观看回放

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/107719.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安卓逆向-某音乐软件

初学安卓逆向,如有错误请指教 某我音乐9.3.4.4版本,需要资源的请流言(也可以自行去下载) 直接将apk拖入到AndroidKiller里面(该工具自行下载) 首先去除广告 直接全局搜索KEY_EXTRA_AUTH,可以只在.smali文件里面搜索…

【gitlab wiki】git首次上传本地文档操作步骤

1.在gitLab中创建一个项目 2.进入本地电脑中的你要上传文件的文件目录,右击鼠标选择“ Git Bash Here” git命令窗口(本机电脑要安装好git) 3.在远程git项目中,复制出项目http地址。 4.在“ Git Bash Here” git命令窗口输入命令:git clone h…

Java+MYSQL基于ssm的网上出差审批与费用报销管理系统

全新的时代,新的技术推动着公司管理制度的改革,在管理层面加入了先进的科学技术做到了与时俱进,所以企业创建自己的网上出差审批与费用报销系统是迫切需要的。在新时代的背景下,传统管理方式的缺点被暴露出来,传统管理方式的不足的地方有管理及时性不够,下达一个指令以后需要层…

AuthLab权限在线靶场通关记录

AuthLab通关记录 一个在线的权限靶场:https://authlab.digi.ninja/ 靶场内容比较简单,包括了JWT以及一些基本情况的权限Bypass IP Based Auth Bypass 该关卡根据提示有一个ip在192.168.0.100-200范围里可以直接bypass 拦截请求包修改X-Forwarded-For爆…

python网络副业有哪些?以自身经历分享怎么做副业挣钱

网络副业我个人比较看好的是Python,至少我是真实体会到了Python做副业真香,疫情被关在家那段时间也没耽误赚钱,反而比平常赚的还多一点,下图是我疫情期间在家做Python副业收入的部分截图,那会儿我用Excel表格每天记了一…

BEPU物理引擎碰撞系统的架构与设计

前面我们讲解了如何监听物理引擎的碰撞事件, 在物理引擎内核中如何架构与设计碰撞规则,使得物理Entity与周围的物理环境产生碰撞时,如何灵活的控制物理碰撞,本节給大家详细的讲解BEPUphysicsint 物理引擎内部是如何管理与控制碰撞规则的。本文主要讲解3个…

彻底删除的文件如何恢复?误删数据恢复,四种方法就可以解决

电脑磁盘中存储了许多文件,我们不可避免地会误删一些文件,但是我们中的许多人不知道在文件被错误删除后如何恢复它们。事实上,误删数据恢复没有想象中那么难,我们自己也可以操作完成。到底是什么方法?接下来我们将详细…

Java项目:springboot中小医院信息管理系统

作者主页:源码空间站2022 简介:Java领域优质创作者、Java项目、学习资料、技术互助 文末获取源码 项目介绍 1. 基于SpringBoot的中小医院信息管理系统,实现了部分核心功能。 2. 就诊卡提供了手动和读卡两种方式录入,其中IC读卡器…

Simulink 自动代码生成电机控制:基于霍尔FOC模型和代码生成

目录 霍尔角度估算原理 霍尔角度估算FOC模型和仿真 代码生成软件调试 总结 霍尔角度估算原理 PMSM在定子侧以互差120电角度的位置安装3个霍尔元件Ha, Hb, Hc。当转子转动时,霍尔元件会产生3个相位差120电角度的高低电平信号。霍尔信号会将一个电周期划分为6个扇…

可以快速搭建的免费开源项目:直播带货、富文本笔记、思维导图、声音克隆、消息推送服务、文档协作等等

可以快速搭建的免费开源项目:直播带货、富文本笔记、思维导图、声音克隆、消息推送服务、文档协作等等。 01 Pure Live 一个想让直播回归纯粹的项目,没有礼物、粉丝团、弹窗,只有直播和弹幕。这是国人在GitHub上制作的一个开源的直播系统&am…

一个转行者的自述,大学生做职业规划要趁早

这篇文章写给对自己的职业规划不清晰、想从第一份工作就找准职业方向的应届大学生。 作为21年毕业的职场新人,算不上建议,也不写鸡汤,只是在这里认真分享我走过的弯路。文章略长,预计阅读时间8分钟。 先说一个关于海的小故事 人们…

CSS -- CSS使用过渡(transition)添加动画

CSS 3过渡 过渡(transition)是CSS3中具有颠覆性的特征之一,我们可以在不使用 Flash 动画或JavaScript 的情况下,当元素从一种样式变换为另一种样式时为元素添加效果。 过渡动画: 是从一个状态 渐渐的过渡到另外一个状态 可以让…

js什么是闭包?简单理解

闭包 作用域链和执行上下文 理解闭包前,先引入一个概念,作用域链 用我自己理解的讲:在一段程序中,程序内的变量、函数等都被串在这条链上,当我们使用这些变量、函数时,程序就会在这条链中搜索&#xff0…

【最新】滤器完整性检测各国规定

中国 用于直接接触无菌药液或无菌设备表面的气体的过滤器,应在每批或多批次连续生产结束后对其进行完整性测试。对于其他的应用,可以根据风险评估的结果,制定完整性测试的频率。 ——除菌过滤技术与应用指南 2018 美国 We recommend that …

系统中的安全架构

系统中的安全架构目录概述需求:设计思路实现思路分析1.shiro2.多模块下的安全架构参考资料和推荐阅读Survive by day and develop by night. talk for import biz , show your perfect code,full busy,skip hardness,make a better result,wait for chan…

【网安神器篇】——searchsploit漏洞利用搜索工具

作者名:Demo不是emo 主页面链接:主页传送门 创作初心:舞台再大,你不上台,永远是观众,没人会关心你努不努力,摔的痛不痛,他们只会看你最后站在什么位置,然后羡慕或鄙夷座…

MyBatis是如何初始化的?

摘要:我们知道MyBatis和数据库的交互有两种方式有Java API和Mapper接口两种,所以MyBatis的初始化必然也有两种;那么MyBatis是如何初始化的呢?本文分享自华为云社区《MyBatis详解 - 初始化基本过程》,作者:龙…

golang 协程的实现原理

核心概念 要理解协程的实现, 首先需要了解go中的三个非常重要的概念, 它们分别是G, M和P, 没有看过golang源代码的可能会对它们感到陌生, 这三项是协程最主要的组成部分, 它们在golang的源代码中无处不在. G (goroutine) G是goroutine的头文字, goroutine可以解释为受管理的…

Java+MySQL基于ssm的学生宿舍管理系统

随着我国教育制度的改革,各大高校一直在不断的扩招相对应的学生的数量也在不断的增加。在学生数量增加之后学校后勤人员就需要对后勤部分更加精准的进行管理,其中宿舍管理就是后勤管理中比较重要的一个组成部分。如何能够对学生的宿舍信息进行更加科学合理的管理是当前大多数高…

Word文档误删怎样恢复?6种实用方法分享给你

如果您曾经因为没有保存微软Word文档而丢失了所有工作,那么您就会明白疼痛是多么明显。 幸运的是,自从在软盘上备份文件的黑暗时代以来,Word已经走过了漫长的道路。如今,如果您丢失了未保存的Word文档,可能仍然有一种…