数据湖与数据网格:引领组织数据策略的未来

news2024/11/23 21:59:22

十多年来,组织已经采用数据湖来克服数据仓库的技术限制,并发展成为更加以数据为中心的实体。虽然许多组织已经使用数据湖来探索新的数据用例并改进其数据驱动的方法,但其他组织发现所承诺的好处很难实现。因此,许多数据湖计划的有效性和投资回报率现在正在受到审查。

数据湖与数据网格:引领组织数据策略的未来

克服陷阱:当数据湖变成数据沼泽时

随着一些组织面临管理大量数据存储和避免“数据沼泽”(数据被存储但不使用)的挑战,技术社区对数据湖的看法也发生了变化。这些数据沼泽是巨大的存储库,数据被不加区别地转储,导致可发现性和可用性方面的问题。集中化可能会造成瓶颈,从而减慢访问和分析速度,如果没有严格的治理,数据质量可能会迅速恶化。此外,数据湖的一刀切方式无法满足不同业务领域的具体需求。由于缺乏适当的工具或数据本身的复杂性,用户难以提取价值,因此数据湖的潜力往往尚未开发。

实施良好的数据湖数据湖实施不当
单一事实来源难以访问的数据孤岛
经济高效的存储存储了大量不必要的数据(“数据是新石油”)
数据民主化访问数据所需的专业技能
数据格式的灵活性数据质量差且不一致
高级分析和机器学习从大量非结构化数据中获取价值的困难
更快的洞察力沟通冗长且缺乏工具、界面和技能
简化的数据管理随着湖泊的扩大,管理变得繁琐

数据生产者与消费者:组织鸿沟

这些问题的根本原因是一方面是数据生产者和消费者之间的组织交互,另一方面是中央数据湖团队之间的组织交互。数据生产者通常更愿意开发新的应用程序功能,而不是为分析用例提供数据。他们专注于事务性工作负载而不是分析工作负载,这意味着他们共享的数据质量可能很差。他们还缺乏与数据消费者的联系,导致生产的数据与需求的不匹配。

数据湖团队也有自己的问题:他们对数据源不堪重负,必须执行复杂的技术维护,并不断应对不断变化的优先级。由于分析能力有限以及与数据生产者的脱节,消费者因缺乏透明度、价值不明确以及需求优先级低而感到沮丧。数据消费者和生产者通常不直接交互;这种通信被数据湖的代理组织阻止,所有数据都集中存储在该代理组织中。

文章来源:数据湖与数据网格:引领组织数据策略的未来-国外VPS网站icon-default.png?t=N7T8https://www.vps911.com/vpscp/1846.html

为团队提供数据网格:通往分布式数据生态系统的道路

技术社区的讨论已经转向一种更细致、适应性更强的数据策略,称为数据网格。它旨在通过推广更加分布式、以人为中心和特定于上下文的数据管理方法来克服集中式数据湖的一些限制。

数据网格是解决集中化问题的另一种方法。它将分析数据的责任分配给构建和运行应用程序并生成事务数据的特定领域团队,例如电子商务团队,以及使用数据并使用数据来获得见解的团队。例如,拥有网店结帐页面并将销售数据存储在事务数据库中的团队还负责使销售数据可用于分析、报告和 AI/ML 用例,例如营销或财务。数据网格使消费者能够更轻松、更简单地使用这些分析数据。

它不仅仅是实现了另一个接口;这些数据作为独立的数据产品提供,为实际消费者提供特定的好处。该数据产品由特定数据及其元数据、准备和交付数据所需的源代码、必要的测试和生产基础设施(如 IaC)及其配置组成。

培养数据素养:在数据网格团队中引入新角色

创建和使用数据的团队(例如我示例中的电子商务结帐团队和营销部门)通常缺乏开发和管理分析数据的专业知识。然而,他们对数据业务背景的深入了解是无价的。在数据网格框架中,必须通过提高这些团队的技能来实现分析用例来利用这些知识。这包括为现有成员提供广泛的培训并创建额外的专门角色。有两个关键角色至关重要:数据产品所有者负责指导数据的战略方向,数据工程师负责处理构建和管理这些数据产品的技术方面。

数据产品负责人是面向业务的数据人员,从事务和分析的角度非常了解业务领域。他们直接与数据产品的消费者沟通,并定义产品、其策略和路线图。

数据工程师是数据工程和数据科学领域的多面手,在业务所需的数据相关领域拥有更深入的专业知识。此人构建实际的数据产品,并且是其他团队技术问题的联系人。

为成功奠定基础:数据网格平台

为了充分发挥数据网格的潜力,我建议将这两个角色直接嵌入到生产团队和消费团队中。一个有效但次优的变体是为每个业务领域(例如电子商务)建立一个单独的数据网格团队,因为它重新引入了代理团队。数据网格平台为生产者和消费者提供支持,使他们的工作更轻松、更高效。数据网格平台团队不创建数据产品或存储或处理数据。

数据网格平台具有三个作用:(1)提供数据目录、访问控制、CI/CD管道、监控以及准备开发和测试环境等工具和基础设施; (2) 为生产者和消费者提供培训和建议,并在必要时为他们提供额外的发展能力支持; (3) 以联合方式调整整个组织必须遵守的共同标准和程序。数据网格平台的使命是让生产者和消费者的生活变得简单、高效、无压力。

不幸的是,成功且可持续地运行一个平台并不像技术社区中的一些人所说的那么容易。

如果做得正确,数据网格模型可以采用主动的方法来维护数据质量、相关性和可访问性,并定制数据产品以满足不同业务部门的独特需求。通过将分析数据与其操作环境紧密结合,数据网格有助于在整个组织内更有效地使用和共享数据。它利用现代分布式架构原则(例如源自微服务架构的原则),不仅可以更有效地存储数据,而且可以随时使用数据,从而推动与业务目标密切相关的可操作的见解。

更多相关资讯欢迎访问我的网站:国外VPS网站 - 国外VPS测评,云服务器,香港VPS,主机推荐

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1653075.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

文件下载出现 IOExpcetion: closed

异常原因截图 : 异常代码位置 : 出现的原因是 使用 try-with-resources, downloadFile 方法执行完毕, 文件流被关闭了...导致前面读取文件字节, 异常提示已经关闭... try (Response response OkHttpUtils.getInstance().client.newCall(new Request.Builder().url(fileUrl)…

Etcd集群选举细节

日志级别 在 etcd 集群中,领导者选举是 Raft 协议的一部分,用于在当前领导者失败或无法与集群中的其他节点通信时选出新的领导者。以下是您提供的日志中与领导者选举相关的一些关键条目,以及对它们的详细说明: 节点失去领导者&am…

python分析预测退休后养老金金额

欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一.前言 二.代码 三.总结 一.前言 养老金,也称为退休金或退休费,是一种主要的社会养老保险待遇。它旨在保障职工退休后的基本生活需要,根据劳动者对社会所作的贡献和所具备的享受养老保险资格或退休条件,按月或一次…

电脑屏幕监控软件有哪些?8款受欢迎的电脑屏幕监控软件

电脑屏幕监控软件有哪些?8款受欢迎的电脑屏幕监控软件 市场上有很多监控软件,因为太多,很多老板不知道怎么选,今天小编从它们各自的特点、优势、未来发展趋势几方面,介绍8款受欢迎的电脑屏幕监控软件。 第一是&#x…

【优选算法】——Leetcode——611. 有效三角形的个数

目录 ​编辑 1.题目 2 .补充知识 3.解法⼀(暴⼒求解)(可能会超时): 算法思路: 算法代码: 4.解法⼆(排序双指针): 算法思路: 以输入: nums …

还有谁不想薅云渲染的羊毛?五种云渲染优惠知道就是省到

不管你是效果图设计师还是动画设计师,在面对紧急或大量的渲染任务时,总会有云渲染的需要。然而,现在的云渲染越来越贵,我们该如何尽可能地节约成本完成渲染任务呢?本文将为你介绍云渲染的五种优惠形式,看完…

Compose 生命周期和副作用

文章目录 Compose 生命周期和副作用生命周期副作用APIDisposableEffectSIdeEffectLaunchedEffectrememberCoroutineScoperememberUpdatedStatesnapshotFlowproduceStatederivedStateOf Compose 生命周期和副作用 生命周期 OnActive:添加到视图树。即Composable被首…

传闻不断!TCL紧急澄清 | 百能云芯

TCL科技5月7日晚间发布澄清公告称,近日关注到有媒体发布《TCL华星年内投630亿元加入8代oled线竞逐!》《TCL华星计划年内投资第八代OLED》等相关报道。公司目前无新建8代或8.6代OLED产线的投资计划,公司不存在通过定增募集资金新建显示产线的计…

期权和期货有什么区别?

今天期权懂带你了解期权和期货有什么区别?期权和期货是两种常见的衍生金融工具,它们在结构和盈利方式上存在一些关键的区别: 期权 期权是一种给予持有者在未来某个时间以特定价格买入或卖出基础资产的权利,但不是义务。期权的主要…

直播报名 | 珈和科技携手潍柴雷沃共探“现代农场”未来式

数据赋农季系列直播第四期,我们将以“未来农业发展趋势之农场智慧化、管理数据化”为主题展开,此次系列直播由珈和科技及湖北珞珈实验室共同主办,第四期直播很荣幸邀请到潍柴雷沃参与其中,双方将就智慧农服平台和数据交易SaaS平台…

C#里如何设置输出路径,不要net7.0-windows

官网介绍&#xff1a; 更改生成输出目录 - Visual Studio (Windows) | Microsoft Learn <PropertyGroup> <AppendTargetFrameworkToOutputPath>false</AppendTargetFrameworkToOutputPath> <AppendRuntimeIdentifierToOutputPath>false</Appen…

RabbitMQ基础入门

初识MQ 微服务间通讯有同步和异步两种方式&#xff1a; 同步通讯&#xff1a;就像打电话&#xff0c;需要实时响应。 异步通讯&#xff1a;就像发邮件&#xff0c;不需要马上回复。 两种方式各有优劣&#xff0c;打电话可以立即得到响应&#xff0c;但是你却不能跟多个人同…

Python自动化下载指定公开页面文件

示例代码如下&#xff0c;但你拿到本地之需要做两件事才能运行 from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys import time# 设置Se…

【电路笔记】-Twin-T振荡器

Twin-T振荡器 文章目录 Twin-T振荡器1、概述2、Twin-T振荡器3、Twin-T放大4、Twin-T 振荡器示例5、总结Twin-T 振荡器是另一种 RC 振荡器电路,它使用两个并联的 RC 网络来产生单一频率的正弦输出波形。 1、概述 Twin-T 振荡器是另一种类型的 RC 振荡器,它产生正弦波输出,用…

已经安装tensorflow,仍报错No module named ‘tensorflow‘

在安装某些python虚拟环境的教程文章中&#xff0c;经常看到有评论区说安装了但是调用显示无模块&#xff0c;例如pytorch和tensorflow等等。 其实跟之前我写过的一篇文章解决方法类似&#xff0c;就是python项目中需要应用哪个虚拟环境&#xff0c;这个项目的python解释器就选…

LCD驱动IC-抗干扰液晶段码显示屏驱动芯片,液晶显示驱动原厂-VK2C23A/B LQFP64/48

产品品牌&#xff1a;永嘉微电/VINKA 产品型号&#xff1a;VK2C23A/B 封装形式&#xff1a;LQFP64/48 概述 VK2C23是一个点阵式存储映射的LCD驱动器&#xff0c;可支持最大224点&#xff08;56SEGx4COM&#xff09; 或者最大416点&#xff08;52SEGx8COM&#xff09;的LCD屏。…

API开发的必备神器:华为云CodeArts API实用体验入门篇

今天我想给大家推荐一款API全生命周期研发与管理工具&#xff1a;华为云CodeArts API。 作为互联网软件的开发者&#xff0c;在软件研发的过程中&#xff0c;API的开发、调试、测试是必不可少的。之前我使用的是Postman这类工具来辅助开发&#xff0c; Postman在接口调试方面确…

第 8 章 电机调速(自学二刷笔记)

重要参考&#xff1a; 课程链接:https://www.bilibili.com/video/BV1Ci4y1L7ZZ 讲义链接:Introduction Autolabor-ROS机器人入门课程《ROS理论与实践》零基础教程 8.3.5 电机调速01_PID控制理论 场景&#xff1a; 速度信息可以以m/s为单位&#xff0c;或者也可以转换成转速 …

第18讲:Ceph集群CrushMap的核心概念、默认规则与完整定义

文章目录 1.CrushMap核心概念2.集群默认的CrushMap规则剖析2.1.CrushMap列表显示内容剖析2.2.对默认的CrushMap规则进行深度的剖析2.3.完整的CrushMap定义信息 1.CrushMap核心概念 CrushMap官方文档&#xff1a;https://docs.ceph.com/en/pacific/rados/operations/crush-map/…

【Alluxio】文件系统锁模型之InodeLockList

InodeLockList接口,表示在inode tree里一个加了锁的路径。 沿着path,inodes和edges都被加锁了。path可能从edge或inode任意一个开始。 锁列表总是包含了一定数量的读锁(0个或多个),随后跟随着一些数量的写锁(0个或多个)。 举个例子: 对 /a/b/c/d 进行加锁,c->d这…