Microsoft Fabric 学习----- Lakehouse vs Warehouse

news2024/11/26 0:45:14

做了几年Power BI 开发人员,微软最近上发布了Microsoft Fabric, 对它的研究安排起来!

从微软官方中文文档入手

Microsoft Fabric 中的端到端教程 - Microsoft Fabric | Microsoft Learn

Microsoft Fabric 是将 Power BI、Azure Synapse 和 Azure 数据资源管理器中的新组件和现有组件汇集到单个集成环境中.

Fabric 将如下几项集成体验集成到共享的 SaaS 中。

1. 数据工程: Lakehouse、Notebook和Spark Job Definition

2. 数据工厂(Azure Data factory):Lakehouse、Notebook和Spark Job Definition

3. 数据仓库(Data Warehouse): DataWarehouse

4. 数据科学(Data Science): 模型、实验和Notebook

5. Real-Time分析

6. Power BI

从应用场景的角度:Fabric是一个试图用一套交互承接数据工程师、数据科学家以及业务分析师工作流的平台级产品。

2 跟着官方文档将数据工程的操作流程走了一遍,但是有些概念的定义,能读懂文字,但是串不起来。比如: Lakehouse 和Warehouse 的区别,Lakehouse 的 SQL 终结点和Data warehouse 有何不同.

目录

2.1. Lakehouse vs Warehouse(Lakehouse 在官方文档里被翻译为湖屋)

2.2. Lakehouse 的 SQL 终结点和Data warehouse 有何不同?


2.1. Lakehouse vs Warehouse(Lakehouse 在官方文档里被翻译为湖屋)

网上看到如下文章的解释比较好理解 Lakehouse 和warehouse 

微软Fabric: AI时代的数据平台 - 知乎 (zhihu.com)

Lakehouse和Warehouse是Fabric中最基本的两个概念。在Fabric中,无论您选择使用Lakehouse还是Warehouse,最终的数据都将以Delta格式的Parquet形式存储在Lake中。这意味着无论您选择哪种方式,最终的数据都将以相同的方式存储。

虽然这些工件在Lake中都是以Delta格式的Parquet存储的,但在您的工作空间中,它们会被标记为不同类型的对象,两者的图标不同,一个是Warehouse表,一个是Lakehouse表。刚开始使用的时候多少有一些理解的门槛。

其次Lakehouse和Warehouse在处理数据的方式上存在一些差异。Lakehouse基于Spark,您可以在notebook中编写代码,支持Python、R、Scala和SparkSQL等语言。而Warehouse则更传统,主要使用SQL查询和存储过程,支持完整的T-SQL。 也是通过上一级的产品分类进行分流。

选择使用Lakehouse还是Warehouse主要取决于您的需求和团队的技能。如果您需要动态、元数据驱动的代码,或者需要处理复杂的数据转换和大数据问题,那么Spark的Lakehouse可能是更好的选择。如果您已经有了大量的T-SQL代码,或者需要复杂的事务支持,那么Warehouse可能更适合您。无论您选择哪种方式,都需要使用相应的方式来维护和更新表。也就是说,如果您创建了一个Lakehouse对象,那么您就不能使用T-SQLWarehouse对象来插入数据到Lakehouse对象中,反之亦然。

微软官方的技术文档也给出了详细的技术指标,帮助团队选择时做参考:

WarehouseLakehousePower BI Data Mart
数据量无限无限100GB
数据类型结构化无结构、半结构、结构化结构化
主要开发人员角色数据仓库开发者、SQL工程师数据工程师、数据科学家非开发者
主要开发人员技能集SQLSpark (Scala, PySpark, Spark SQL, R)无代码, SQL
数据由...组织数据库、模式和表文件夹和文件、数据库和表数据库、表、查询
读操作Spark、T-SQLSpark、T-SQLSpark、T-SQL、Power BI
写操作T-SQLSpark (Scala, PySpark, Spark SQL, R)Dataflow、T-SQL
多表事务
主要开发接口SQL脚本Spark笔记本、Spark作业定义Power BI
安全性对象级别(表、视图、函数、存储过程等)、列级别、行级别、DDL/DML行级别、表级别(使用T-SQL时)、Spark无内置RLS编辑器
可通过快捷方式访问数据是(间接通过湖仓库)
可作为快捷方式的来源是(表)是(文件和表)
可跨项查询是,跨湖仓库和仓库表查询是,跨湖仓库和仓库表查询;跨湖仓库查询(包括使用Spark的快捷方式)

2.2. Lakehouse 的 SQL 终结点和Data warehouse 有何不同?

两者在 Microsoft Fabric 工作区中的名称不同:

SQL 终结点在 “类型 ”列下标记为“SQL 终结点”,

Synapse Data Warehouse或 Warehouse 在“类型”列下标记为“仓库”。

每个 Lakehouse 都有一个自动生成的 SQL 终结点,可通过熟悉的 SQL 工具(如 SQL Server Management Studio、Azure Data Studio、Microsoft Fabric SQL 查询编辑器)利用。而Data warehouse支持事务、DDL 和 DML 查询。

 下图介绍 Microsoft Fabric 中仓库和 SQL 终结点之间的差异。

 

SQL 终结点是从 Microsoft Fabric 中的 Lakehouse 创建时自动生成的只读仓库。 在 Lakehouse 中通过 Spark 创建的 Delta 表可自动在 SQL 终结点中发现为表。 SQL 终结点使数据工程师能够基于 Lakehouse 中的物理数据构建关系层,并使用 SQL 连接字符串将其公开给分析和报告工具。 然后,数据分析师可以使用 T-SQL 通过仓库体验访问 Lakehouse 数据。 使用 SQL 终结点设计仓库以满足 BI 需求和提供数据。

Synapse Data Warehouse 或 Warehouse 是“传统”数据仓库,支持企业数据仓库等完整事务性 T-SQL 功能。 与自动创建表和数据的 SQL 终结点不同,可以使用 Microsoft Fabric 门户或 T-SQL 命令完全控制在数据仓库中创建 表、加载、转换和查询数据。

参考如下文章查看如何在SQL 终结点和 数据仓库中查询SQL 查询 SQL 终结点或仓库 - Microsoft Fabric | Microsoft Learn

今天就到这里,后面慢慢研究,慢慢更新,Stay tuned.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/684501.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

十款好看简洁的个人引导页html源码

资源详情:十个 引导页介绍页html源码下载使用方法 怎么让源码更适合你?改造 一、 介绍: 好看自适应导航网站发布页网页html源码!自适应电脑手机 这是一个网页单页源码!! 模板无后台模板,上传…

基于51单片机设计的计算器

一、项目介绍 计算器是一种常见的电子产品,广泛应用于各个领域。而基于单片机的计算器设计则是学习单片机的一个重要环节。本项目基于STC89C52单片机设计了一款基本的四则运算计算器。 项目里采用了单片机的IO口、定时器和LCD1602显示屏等技术原理。其中,IO口用于控制矩阵键…

大数据技术的未来发展趋势怎么样?

所谓大数据技术,就是对海量数据进行科学分析和有效处理的一种先进技术形式。该技术的优点主要在于可以对各种风格、类型的海量数据进行处理。相较于网络数据的传统处理技术,大数据技术的应用不仅可以实现数据处理量显著扩大,还可以实现各种复…

#10034. 「一本通 2.1 例 2」图书管理

10034. 「一本通 2.1 例 2」图书管理 题目描述 图书管理是一件十分繁杂的工作,在一个图书馆中每天都会有许多新书加入。为了更方便的管理图书(以便于帮助想要借书的客人快速查找他们是否有他们所需要的书),我们需要设计一个图书…

ModaHub魔搭社区:安装、启动 Milvus 服务(GPU版)教程

目录 安装、启动 Milvus 服务 安装前提 操作系统 硬件 软件 确认 Docker 状态 拉取 Milvus 镜像 下载并修改配置文件 启动 Milvus Docker 容器 常见问题 接下来你可以 安装、启动 Milvus 服务 CPU 版 Milvus GPU 版 Milvus 安装前提 操作系统 操作系统 版本 Ce…

TOGAF10®标准中文版--(阶段C —数据架构阶段B )方法

6.5 方法 6.5.1 数据结构 数据架构应该能够处理: 静态数据——存储中的数据动态数据——事务或服务/API 中的数据使用中的数据——应用边界的数据(例如,GUI)开放数据——组织提供给公众使用并且自愿或合法要求提供的数据 将添…

创业史|苏萌:我与百分点科技的故事

编者按 苏萌曾是北京大学光华管理学院营销学教授,在学术领域崭露头角时,他毅然辞去教职,创立了百分点科技。百分点科技是一家服务全球政府和企业的大数据软件及解决方案提供商,主要从事数据科学基础软件与应用软件的研发与服务。一…

业务创新的利器:探索Flutter与小程序容器的融合应用

Flutter是由谷歌开发的开源用户界面(UI)工具包,用于构建跨平台移动应用程序、Web应用程序和桌面应用程序。它采用一种现代化的方式,使用单一代码库可以同时构建iOS和Android应用,并且能够实现高性能、高保真的用户界面…

国产十大骨传导耳机品牌,分享几款实战性高的国产骨传导耳机

骨传导耳机在运动过程中不需要通过耳部进行传音,所以佩戴舒适度高,而且不会像入耳式耳机那样堵住耳朵,导致耳部的不舒适感,并且可以清晰的听到外界声音。骨传导耳机适合于户外运动、骑行、跑步等运动场景。此外,骨传导…

调用聚合数据API获取新闻头条

调用聚合数据API获取新闻头条 1.作者介绍2.API和聚合数据API的介绍2.1 API简介2.2 聚合数据API 3.实验过程介绍,完整实验代码,测试结果3.1参数说明3.2获取代码3.3代码实现3.4问题与分析 1.作者介绍 姚嘉欣…

【Python】python进阶篇之模块化编程

模块与包 模块化编程 与java中的import功能类似,在python中,一个.py文件就是一个模块。 ⚠️:模块名称不要与python自有模块名称相同。 模块的导入 导入Python中自有的包 导入语法和前端的模块化开发语法很像 import math from math im…

学习Vue(4)

文章目录 路由简介基本使用模式设置注意点 组件一般组件路由组件 多级路由总结 路由传参参数传参query总结 params参数总结 命名路由总结 props对象写法设为trueprops为函数 按钮实现跳转和前进后退独有的生命钩子activated()deactivated() 路由守卫前置路由守卫后置路由守卫独…

基于OpenCV的人脸对齐步骤详解及源码实现

目录 1. 前言2. 人脸对齐基本原理与步骤3. 人脸对齐代码实现 1. 前言 在做人脸识别的时候,前期的数据处理过程通常会遇到一个问题,需要将各种人脸从不同尺寸的图像中截取出来,再进行人脸对齐操作:即将人脸截取出来并将倾斜的人脸…

JVM-java对象内存分布(二)

目录 一、栈针 二、java 对象内存分布 1、那何为java内存对象布局? 2、什么是jvm的内存模型 1、如果我们新生代,一直创建新对象,此时我们新生代不够用了怎么办? 2、那么为什么大部分对象的生命周期比较短呢?这个…

HCIP-7.3QinQ技术原理、配置链路聚合Eth-Trunk

HCIP-7.3QinQ技术原理、配置&链路聚合Eth-Trunk 1、QinQ概述1.1、QinQ实现方式:1.2、QinQ封装结构:1.3、QinQ的分类:1.3.1、基于端口的QinQ1.3.2、灵活QinQ 2、链路聚合Eth-Trunk2.1、Eth-Trunk基本原理2.2、手工聚合模式2.2.1、配置接口…

集团公司该如何构建信息化系统?

干货文章,全文手码,花3分钟认真看完,绝对有收获! 前言: 信息化系统是管理体系的延伸,如果一家集团企业想要走向信息化,首先得考虑的是,企业内当前是否已经存在完备的信息化管理制度…

《面试1v1》SpringMVC

🍅 作者简介:王哥,CSDN2022博客总榜Top100🏆、博客专家💪 🍅 技术交流:定期更新Java硬核干货,不定期送书活动 🍅 王哥多年工作总结:Java学习路线总结&#xf…

【电子取证篇】电子数据取证标准(国家标准GB/T)

【电子取证篇】电子数据取证标准(国家标准GB/T) ​ 电子数据取证国家标准,此次更新把名称由"电子物证"更改成了"电子数据",避免了不同部门不同行业因为不同叫法而辩论个不停,后续标准的更新应该会…

JUC高级-0624

10. ThreadLocal(线程局部变量) 10.1 ThreadLocal基础 大厂面试题 ThreadLocal中 ThreadLocalMap的数据结构和关系?ThreadLocal的key是弱引用,这是为什么?ThreadLocal内存泄露问题你知道吗?ThreadLocal中…

clickhouse初探

背景 目前公司用的是influxdb来存储时序数据,但是influxdb太坑了,查一天的数据就开始内存猛涨,然后就炸了,查询语句也不适应。因此调研了tdengine,还把influxdb和tdengine做了性能对比。 结果嘛 ,首先tden…