什么是Data Lakehouse Architecture(DLA)?企业为何要创建DLA

news2024/11/24 10:54:06

公司捕获和存储的数据比以往任何时候都多,因为它们依赖数据来做出关键的业务决策、改进服务或产品,或为最终用户(客户)提供更好的服务。了解各种大数据存储技术对于为商业智能(BI)、数据分析和机器学习(ML)工作负载建立强大的数据存储管道至关重要。

为了维护这样的大数据,数据湖和数据仓库架构已被公司广泛使用。但这两种体系结构都有一定的局限性,我们将在博客的后面部分讨论这些局限性,从而发现一种称为Data Lakehouse的新体系结构。

然而,在深入研究Data Lakehouse架构的细节之前,重要的是首先了解Data Lake和Data Warehouse,其中的一些局限性,以及我们为什么首先需要它们?

一、什么是Data Lake架构

数据湖是一个集中的系统或存储库,以自然/原始格式存储大数据,通常是对象、Blob或文件。您可以将任何类型的数据存储在任何结构中(结构化、非结构化、半结构化)。例如,文件、图像、音乐、视频、文本或表格。数据湖的主要目的是使不同来源的组织数据可供不同的最终用户访问。

Data Lake在加载之前不需要像数据仓库的ETL机制那样进行数据转换,因为它的模式是在用户加载数据时动态定义的,并且没有根据某些预定义的模式进行验证。

二、Data Lake架构的局限性

1. BI和报告记录不佳:在数据湖体系结构中,BI和报告具有挑战性,因为数据湖需要额外的工具来支持SQL查询。

2. 数据可靠性方面的妥协:由于数据没有以任何方式结构化,因此数据质量、完整性和可靠性成为该体系结构中的一个关键挑战。

3. 数据治理:由于异构结构无法以统一的方式获取数据,数据治理变得困难。

三、什么是数据仓库(Data Warehouse)?

数据仓库是一个集中的存储库,用于存储从不同来源积累的数据。这种情况下的数据是结构化的,并根据预定义的模式进行验证。它依赖于ETL(提取-转换-加载)机制,在该机制中,数据需要在加载前进行转换。数据仓库的目的是生成报告、将数据提供给BI工具、预测趋势和训练机器学习模型。ETL(提取-加载-转换)过程用于存储来自多个来源的数据,如API、数据库、云存储等。

数据仓库体系结构的局限性

1. 数据处理不灵活:在数据仓库架构中只能处理结构化数据。

2. 成本高昂的存储:管理大量数据需要更高的成本。

3. 无法处理复杂数据:仓库架构通常不适合处理机器学习的复杂数据。

四、什么是Data Lakehouse Architecture?

Data Lakehouse体系结构是两种体系结构的结合——Data Lake和Data Warehouse,两者融合了最好的元素。它既支持数据仓库体系结构的ACID事务功能,也支持数据湖体系结构的可扩展性、灵活性和成本效益。

五、是什么促使企业需要创建Data Lakehouse

使用两层架构;数据湖和数据仓库同时导致了巨大的成本,并且很难管理,因为数据必须在具有两种不同结构的两个不同位置进行维护和同步。

由于上述两种架构的挑战和局限性,许多组织认为有必要将这两种架构组合成一个系统(两层架构),以便团队能够拥有可用于数据科学、机器学习和业务分析的最完整和最新数据。

Data bricks的专家在2021年的创新数据系统研究会议上介绍了这种架构,Data Lakehouse从此成为官方的数据管理架构。

(图片来源:https://databricks.com/)

通过以下元素,Data Lakehouse架构解决了Data Warehouse和DataLake架构的缺点:

1. 减少数据冗余:当一个组织使用数据仓库和lake的多个数据源时,它可以统一数据并减少数据重复。

2. 降低运营成本:由于数据没有存储在多个系统上,因此持续的运营成本将降低。

3. 更好的数据组织:它通过强制执行模式来更好地组织数据湖中的数据。

4. 在数据分析、BI和ML中的有效使用:它不仅有助于存储大量数据并降低成本,而且有助于有效地将数据用于分析、BI、报告和机器学习。

因此,与多个解决方案系统相比,单个数据Lakehouse提供了几个优势,包括减少了数据移动和冗余,简化了模式和数据治理,以及减少了管理时间和精力。分析工具的直接数据访问和低成本的数据存储。

六、专业人的干专业的事 - 雇佣专门的后端开发人员

如果您想从当前的数据库体系结构迁移或切换到Datalake House,以获得数据的最大价值,请考虑雇佣专业人员将数据库架构到Data Lake House.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1673011.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

山西教育杂志山西教育杂志社山西教育编辑部2024年第4期目录

课题研究 小学语文随堂小练笔策略研究 陈立固; 3-4 儿童戏剧工作坊载体下小学语文戏剧课堂的建构 郭黎明; 5-6《山西教育》投稿:cn7kantougao163.com 文化生态视域下小学英语教学的传统文化融入 周慧娟; 7-8 基于“主题语境”的初中英语课堂教学研究…

PCIe总线-PCIe简介

一、前言 PCIe总线是由PCI/PCI-X发展而来,但是两者之间有很大的不同。PCI/PCI-X采用的是并行总线,最大支持的频率为PCI-X2.0 的133MHz,传输速率最大仅为4262MB/s。同时使用并行总线,在PCB上也会造成布线资源紧张,线与…

MyBatis——动态 SQL

一、if 标签 <mapper namespace"com.powernode.mybatis.mapper.CarMapper"><select id"selectByMultiCondition" resultType"car">select * from t_car where<if test"brand ! null and brand ! ">brand like #{br…

ARM架构安全特性之标准安全 API

安全之安全(security)博客目录导读 目录 一、机密计算软件 二、Arm机密计算固件架构 三、认证校验 四、Veraison项目 五、独立于语言的安全API 六、平台抽象安全项目&#xff08;Platform AbstRaction for SECurity project&#xff09; 七、可移植平台安全API 八、…

(undone) 什么是马尔可夫链?Markov Chain

参考视频1&#xff1a;https://www.bilibili.com/video/BV1ko4y1P7Zv/?spm_id_from333.337.search-card.all.click&vd_source7a1a0bc74158c6993c7355c5490fc600 参考视频2&#xff1a;https://www.bilibili.com/video/BV1xg4y1K7z4/?spm_id_from333.788&vd_source7a…

Vue3实战笔记(19)—封装菜单组件

文章目录 前言一、封装左侧菜单导航组件二、使用步骤三、小彩蛋总结 前言 在Vue 3中封装一个左侧导航菜单组件是一项提升项目结构清晰度和代码可复用性的关键任务。这个过程不仅涉及组件的设计与实现&#xff0c;还需考虑其灵活性、易用性以及与Vue 3新特性的紧密结合。以下是…

Golang | Leetcode Golang题解之第88题合并两个有序数组

题目&#xff1a; 题解&#xff1a; func merge(nums1 []int, m int, nums2 []int, n int) {for p1, p2, tail : m-1, n-1, mn-1; p1 > 0 || p2 > 0; tail-- {var cur intif p1 -1 {cur nums2[p2]p2--} else if p2 -1 {cur nums1[p1]p1--} else if nums1[p1] > n…

AXI Interconnect IP核用法

本文描述了如何使用Xilinx的Vivado Design Suite环境中的工具来定制和生成AXI Interconnect IP 核。Vivado Design Suite是一个强大的FPGA设计和开发环境&#xff0c;它允许用户定制和配置各种IP核以适应他们的特定设计需求。 以下是针对如何定制IP核的步骤的简要概述&#xf…

FullCalendar日历组件集成实战(2)

背景 有一些应用系统或应用功能&#xff0c;如日程管理、任务管理需要使用到日历组件。虽然Element Plus也提供了日历组件&#xff0c;但功能比较简单&#xff0c;用来做数据展现勉强可用。但如果需要进行复杂的数据展示&#xff0c;以及互动操作如通过点击添加事件&#xff0…

光数据传送器|光通讯传感器极速版OPT系列尺寸与安装步骤

光数据传送器|光通讯传感器极速版OPT系列是利用可见光及不可见光作为信息载体&#xff0c;无需光纤、网线等有线介质&#xff0c;在空中直接进行信息传输的无线方式通信。驱动光源以可见光及不可见光的高速明暗变化来传输数字信号&#xff0c;以极高光频率双向发射接收光信号&a…

AI与边缘设备,光子芯片,AI规划能力,自然语言驱动的AI游戏

1 Archetype AI 发布了一个创新的人工智能平台 —— Newton 这是一个专门为理解物理世界设计的基础模型。 Newton 设计用于连接实时物理数据&#xff0c;其数据源是全球数十亿传感器的输入&#xff0c;实现了对物理现实的直接解读。 利用从各种传感器&#xff08;如加速度计…

Linux进程间几种通信机制

一. 简介 经过前一篇文章的学习&#xff0c; 我们知道Linux下有两种标准&#xff1a;system V标准和 Posix标准。 System V 和 POSIX 标准是操作系统提供的接口标准&#xff0c;它们规定了操作系统应该如何实现一些基本功能&#xff0c;比如线程、进程间通信、文件处理等。 …

MySQL————创建存储过程函数 有参数传递

存储过程使用大纲 有参数传递 delimiter $$ 声明一个名称为get_student_introduce CREATE PROCEDURE gei_student_introduce(in p_name VARCHAR(20)) 开始操作 BEGIN 撰写真正在操作DMLDQL都行 select introduce 简介 from student WHERE userNamep_name; end $$ delimite…

[muduo网络库]——muduo库TimeStamp类(剖析muduo网络库核心部分、设计思想)

接着之前我们[muduo网络库]——muduo库logger类&#xff08;剖析muduo网络库核心部分、设计思想&#xff09;&#xff0c;我们接下来继续看muduo库中的TimeStamp类&#xff0c;这也是每一个类几乎都能用到的非常简单的类。 TimeStamp类 Timestamp类主要用于日志、定时器模块中…

C语言指针详解(三)

目录 前言 一. 回调函数是什么&#xff1f; 1.定义 2. 代码示例&#xff1a;计数器 2.1 使用回调函数改造前 2.2 使用回调函数改造后 二. qsort使用举例 1. qsort介绍 2. 使用qsort函数排序整型数据 3. 使用qsort排序结构体数据 三. qsort函数的模拟实现 四. sizeo…

单链表经典算法OJ题---力扣21

1.链接&#xff1a;. - 力扣&#xff08;LeetCode&#xff09;【点击即可跳转】 思路&#xff1a;创建新的空链表&#xff0c;遍历原链表。将节点值小的节点拿到新链表中进行尾插操作 遍历的结果只有两种情况&#xff1a;n1为空 或 n2为空 注意&#xff1a;链表为空的情况 代…

[力扣题解] 96. 不同的二叉搜索树

题目&#xff1a;96. 不同的二叉搜索树 思路 动态规划 f[i]&#xff1a;有i个结点有多少种二叉搜索树 状态转移方程&#xff1a; 以n3为例&#xff1a; 以1为头节点&#xff0c;左子树有0个结点&#xff0c;右子树有2个结点&#xff1b; 以2为头节点&#xff0c;左子树有1个…

单文件EXE绿色软件制作工具​Enigma Virtual Box​利用 EnigmaVB 打包 Qt 应用程序

功能描述&#xff1a;详细介绍如何利用 EnigmaVB 打包 Qt 应用程序&#xff0c;从 EnigmaVB 软件下载、安装&#xff0c;到如何使用&#xff0c;一步步教你走进 EnigmaVB 软件&#xff0c;最后还介绍了一款针对 Enigma Virtual Box 制作的单文件程序进行解包的工具 EnigmaVBUnp…

git-将本地项目上传到远程仓库

在gitee中新建一个远程仓库。 填写对应内容。 打开你想上传的文件夹&#xff0c;比如我想上传yuanshen 右击&#xff0c;打开git bash 输入git init初始化仓库 git init 添加项目所有文件 git add . 将添加的文件提交到本地仓库&#xff08;提交说明必填&#xff09; git …

61、内蒙古工业大学、内蒙科学技术研究院:CBAM-CNN用于SSVEP - BCI的分类方法[脑机二区还是好发的]

前言&#xff1a; 之前写过一篇对CBAM模型改进的博客&#xff0c;在CBAM中引入了ECANet结构&#xff0c;对CBAM中的CAM、SAM模块逐一改进&#xff0c;并提出ECA-CBAM单链双链结构&#xff0c;我的这个小的想法已经被一些同学实现了&#xff0c;并进行了有效的验证&#xff0c;…