【数据湖仓架构】数据湖和仓库:Azure Synapse 视角

news2024/12/23 18:04:10

是时候将数据分析迁移到云端了。我们将讨论 Azure Synapse 在数据湖和数据仓库范式规模上的定位。

在本文中,我们将讨论 Microsoft 的 Azure Synapse Analytics 框架。具体来说,我们关注如何在其中看到数据仓库和数据湖范式的区别。
为了熟悉这个主题,我建议你先阅读本系列的前几篇文章。

  • 数据湖和仓库第 1 部分:范式简介

  • 数据湖和仓库第 2 部分:Databricks 和Showflake

  • 数据湖和仓库第 3 部分:Azure Synapse 观点

我们现在考虑一个更新颖的解决方案,该解决方案与该主题的角度略有不同。也就是说,我们将讨论 Microsoft Azure Synapse Analytics 环境。事实上,这篇文章的动机是“我们应该采用 Snowflake、Databricks 还是 Synapse?”这一行中的问题数量。看完这篇文章,我希望你明白为什么这个问题很难回答。

010a236c1d99027bb76052b7951905f6.png

Azure Synapse 在同一个保护伞下收集多个产品


在之前的文章中,我们注意到数据分析平台可以分为几个阶段。在上图中,绿色表示处理,蓝色表示存储工具。我们可以看到 Azure Synapse 环境如何涵盖处理和存储。对于其他提到的产品,请查看以前的帖子。

确切地说,Synapse 不是一个单一的产品,而是一个提供一组工具作为组件的框架。这样一来,我们就有了多个云数据产品,一个品牌和一个界面,涵盖了云大数据分析平台的所有阶段。此外,Synapse 环境为数据仓库构建和数据湖开发提供了工具。

现在,第一个问题是我们是否在再次为多种工具品牌化方面获得了任何好处。为什么我们不单独使用这些工具?就个人而言,我开始认为 Synapse 伞产品是有意义的。我们稍后会回到这个问题。首先让我们从 Azure Synapse 环境的概述开始

Azure Synapse 组件


让我们简要介绍一下我所理解的 Azure Synapse Analytics 环境。Azure Synapse Analytics 平台可以描述为具有以下组件:

  • 图形 ELT/ETL 工具,名为 Pipelines,用于数据摄取和处理。实际上,该组件与旧的 Azure 数据工厂服务(Azure Data Factory service) 相同。

  • 用于数据结构化的专用 SQL 池数据仓库(Dedicated SQL pool data warehouse )。与此相关的是,微软在推出 Synapse 时犯了一个错误。最初,引入此组件以涵盖所有 Synapse 环境。我仍然误认为 Synapse 只是数据仓库的新名称。

  • 基于编程语言的 Apache Spark 池(Apache Spark pool )和无服务器 SQL 池(Serverless SQL pool ),用于云中的数据查询和处理。这些组件是新颖的,仅在 Synapse 环境中可用。

除此之外,环境在组件之间提供以下功能:

  • 一个集中的图形工作区用户界面,可以访问所有工具

  • 光可视化(Light visualization)功能和与 Power BI 报告的集成

  • 可在所有工具中使用的通用数据湖表模式存储库

  • 与 Azure Data Lake Storage Gen2 云存储服务和 Azure AD 权限管理的自然连接

据我所知,类似的整体框架是独一无二的,尚未由任何其他云提供商提供。

那么,分析(Synapse Analytics)的新功能是什么?


一些工具,尤其是数据工厂( Data Factory) 和数据仓库,在 Synapse 环境之前就已经可用。因此,它们并没有真正带来新的价值。在没有完整框架的情况下单独使用组件可能非常有意义。

但是,例如,无服务器 SQL 池是 Azure 大数据产品中的一项很棒的新功能。它是一种可作为服务使用的 SQL 查询工具:您无需构建任何基础架构。它立即可用,您按使用量付费。最好的比较点是 AWS 云环境 Athena 服务。此外,Apache Spark 池是一种工具,可以简称为 Databricks 的轻量级版本。

结论——工具包装有帮助


总而言之,我们是否通过 Synapse 框架有所收获?我必须承认我最初对此持怀疑态度。但是,在获得一些经验之后,我个人的回答是肯定的,至少在某种程度上是肯定的。首先,组件之间存在真正的集成。例如,可以定义可从多个工具访问的通用关系数据库类型表。

另一方面,将单个工作区用作图形用户界面是有益的。通常,在构建新的分析平台时,您需要对云大数据组件有相当广泛的了解。使用 Synapse,它们可以很容易地作为一个包提供。这既有助于新开发人员开始工作,也可能有助于处理整体解决方案的安全性。因此,我想说 Synapse 框架对微软来说是一项相当成功的投资,至少从技术角度来看是这样。

当我们回到本系列第一篇文章中介绍的数据仓库和数据湖范式区别时,会出现一个有趣的细节。从费用的角度来看,这两种范式可以在 Synapse 环境组件中看到。除 Synapse 专用 SQL 池数据仓库外,所有处理组件均按数据湖范例的典型使用量付费。所有工具甚至都有自动关机功能。因此,如果您尝试使用 Synapse 环境,请记住关闭数据仓库以阻止其收取费用。其他组件会自行处理。

Azure Synapse 环境非常独特,因为所有相关的大数据湖和数据仓库工具都集中在同一个包中。即使您可以单独使用其中的一些,将它们组合起来也有其优势。

本文 :https://architect.pub/data-lakes-and-warehouses-azure-synapse-point-view
讨论:知识星球【首席架构师圈】或者加微信小号【ca_cto】或者加QQ群【792862318】
公众号

【jiagoushipro】
【超级架构师】
精彩图文详解架构方法论,架构实践,技术原理,技术趋势。
我们在等你,赶快扫描关注吧。
9c096d0dce49bae2a91f159adfcce70e.jpeg
微信小号

【ca_cea】
50000人社区,讨论:企业架构,云计算,大数据,数据科学,物联网,人工智能,安全,全栈开发,DevOps,数字化.

b1cf24c41841bd41dd14b413907b0651.jpeg

QQ群

【285069459】深度交流企业架构,业务架构,应用架构,数据架构,技术架构,集成架构,安全架构。以及大数据,云计算,物联网,人工智能等各种新兴技术。
加QQ群,有珍贵的报告和干货资料分享。

1537683c0ff155cb73da62095aa1f2bb.jpeg

视频号【超级架构师】
1分钟快速了解架构相关的基本概念,模型,方法,经验。
每天1分钟,架构心中熟。

d22eaec8027240f39782935f38bc2819.jpeg

知识星球【首席架构师圈】向大咖提问,近距离接触,或者获得私密资料分享。

3653695fc4d1ac440b3ad8a999b2396b.jpeg

喜马拉雅【超级架构师】路上或者车上了解最新黑科技资讯,架构心得。【智能时刻,架构君和你聊黑科技】
知识星球认识更多朋友,职场和技术闲聊。知识星球【职场和技术】
领英Harryhttps://www.linkedin.com/in/architect-harry/
领英群组领英架构群组
https://www.linkedin.com/groups/14209750/
微博‍‍【超级架构师】智能时刻‍
哔哩哔哩【超级架构师】

ea0314050e4213bd032413023588c75b.jpeg

抖音【cea_cio】超级架构师

7063046e4cf6c25d5d68a6ad26fd90d7.jpeg

快手【cea_cio_cto】超级架构师

f17c41224040eb780f389d495af80cfd.jpeg

小红书【cea_csa_cto】超级架构师

5370d1b6b1f8102e925b7660172aa174.jpeg

网站CIO(首席信息官)https://cio.ceo
网站CIO,CTO和CDOhttps://cioctocdo.com
网站架构师实战分享https://architect.pub   
网站程序员云开发分享https://pgmr.cloud
网站首席架构师社区https://jiagoushi.pro
网站应用开发和开发平台https://apaas.dev
网站开发信息网https://xinxi.dev
网站超级架构师https://jiagou.dev
网站企业技术培训https://peixun.dev
网站程序员宝典https://pgmr.pub    
网站开发者闲谈https://blog.developer.chat
网站CPO宝典https://cpo.work
网站首席安全官https://cso.pub    ‍
网站CIO酷https://cio.cool
网站CDO信息https://cdo.fyi
网站CXO信息https://cxo.pub

谢谢大家关注,转发,点赞和点在看。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/582124.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】Linux环境基础工具的基本使用及配置(yum、vim)

​ ​📝个人主页:Sherry的成长之路 🏠学习社区:Sherry的成长之路(个人社区) 📖专栏链接:Linux 🎯长路漫漫浩浩,万事皆有期待 文章目录 Linux软件包管理器 - y…

60分钟吃掉detectron2

本范例演示使用非常有名的目标检测框架detectron2 🤗🤗 在自己的数据集(balloon数据)上训练实例分割模型MaskRCNN的方法。 detectron2框架的设计有以下一些优点: 1,强大:提供了包括目标检测、实例分割、全景分割等非常…

Spring Boot启动流程

1 Springboot 启动流程 创建一个StopWatch实例,用来记录SpringBoot的启动时间。 通过SpringFactoriesLoader加载listeners:比如EventPublishingRunListener。 发布SprintBoot开始启动事件(EventPublishingRunListener#starting()&#xff0…

性能测试——基本性能监控系统使用

这里写目录标题 一、基本性能监控系统组成二、环境搭建1、准备数据文件 type.db collectd.conf2、启动InfluxDB3、启动grafana4、启动collectd5、Grafana中配置数据源 一、基本性能监控系统组成 Collectd InfluxdDB Grafana Collectd 是一个守护(daemon)进程,用来…

【数据结构】时间复杂度与空间复杂度

目录 前言一、算法效率1. 算法效率的定义 二、时间复杂度1. 时间复杂度的定义2. 时间复杂度的计算 三、空间复杂度1. 空间复杂度的定义2. 空间复杂度的计算 四、时间复杂度曲线图结尾 前言 在学习C语言的时候,大多数的小伙伴们并不会对算法的效率了解,也…

视频采集到录制 - 音频采集到降噪

继续上篇的视频采集到录制 视频采集相对来说还是算正常,如果资源够用,使用第三方库也是种解决办法 但音频采集网上资料相对也少,走了一遍,也发现存在很多坑 1. 音频采集 一般来说,采用MIC采集,采集出来的格…

内存泄露的循环引用问题

内存泄漏一直是很多大型系统故障的根源,也是一个面试热点。那么在编程语言层面已经提供了内存回收机制,为什么还会产生内存泄漏呢? 这是因为应用的内存管理一直处于一个和应用程序执行并发的状态,如果应用程序申请内存的速度&…

希尔伯特旅馆里,住着AI的某种真相

“无穷”和“无穷1”,哪个更大? 已经吸收了不知道多少数据的AI模型,和比他多学习一条数据的模型,哪个更智能? 想聊聊这个问题,出于一个偶然的机会。很早之前我在测试ChatGPT的时候,突然想问他个…

简单工厂、工厂方法、抽象工厂模式-这仨货的区别

要想明白这三玩意的区别就需要知道这三玩意的优缺点; 之所以有三种工厂模式,就说明它们各有所长,能解决不同场景的问题; 一、简单工厂模式 UML图 代码 public class MobileFactory {public static Mobile getMobile(String brand)…

【Linux】线程概述、创建线程、终止线程

目录 线程概述1、创建线程函数解析代码举例 2、终止线程函数解析代码举例 橙色 线程概述 与进程类似,线程是允许应用程序并发执行多个任务的一种机制。一个进程可以包含多个线程。 进程是 CPU 分配资源的最小单位,线程是操作系统调度执行的最小单位。…

回归预测 | MATLAB实现SSA-CNN-LSTM麻雀算法优化卷积长短期记忆神经网络多输入单输出回归预测

回归预测 | MATLAB实现SSA-CNN-LSTM麻雀算法优化卷积长短期记忆神经网络多输入单输出回归预测 目录 回归预测 | MATLAB实现SSA-CNN-LSTM麻雀算法优化卷积长短期记忆神经网络多输入单输出回归预测预测效果基本介绍模型描述程序设计学习总结参考资料 预测效果 基本介绍 MATLAB实现…

【笔记整理】轻量级神经网络 MobileNetV3

【笔记整理】轻量级神经网络 MobileNetV3 文章目录 【笔记整理】轻量级神经网络 MobileNetV31、深度可分离卷积2、翻转残差块和线性瓶颈结构3、h-swish 函数和 SE 模块4、网络结构搜索 近年来关于 CNN 的研究在飞速发展,CNN 模型在目标检测、图像分割等领域都取得了…

力扣sql中等篇练习(二十九)

力扣sql中等篇练习(二十九) 1 计算每个销售人员的影响力 1.1 题目内容 1.1.1 基本题目信息1 1.1.2 基本题目信息2 1.1.3 示例输入输出 a 示例输入 b 示例输出 1.2 示例sql语句 # Write your MySQL query statement below SELECT s1.salesperson_id,s1.name,IFNULL(t.total…

毕业季到底是去大厂还是去小公司

(点击即可收听) 毕业季到底是去大厂还是去小公司 相信很多人在选择大小公司的时候,会比较痛苦,外面的人想进去,里面的人想出来,至于选择大厂还是小公司 这是因人而异的,不同的阶段都可以有不同的选择 进大厂不一定就是对的,进小公司也不一定就是错的,学习东西,增长经…

股票量化分析工具QTYX使用攻略——涨停个股挖掘热门板块(更新2.6.5)

搭建自己的量化系统 如果要长期在市场中立于不败之地!必须要形成一套自己的交易系统。 行情不等人!边学习边实战,在实战中学习才是最有效地方式。于是我们分享一个即可以用于学习,也可以用于实战炒股分析的量化系统——QTYX。 QTY…

软考A计划-试题模拟含答案解析-卷九

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分享&am…

JetBrains的多数据库管理和SQL工具DataGrip 2023版本在Win10系统的下载与安装配置教程

目录 前言一、DataGrip 安装二、使用配置总结 前言 DataGrip是一款多数据库管理和SQL工具,适用于不同类型的数据库。它提供了丰富的功能和工具,可以帮助开发人员更高效地管理数据库、编写SQL查询和执行数据操作。 DataGrip的主要特点: ——…

这里有3个Tips,也许可以帮你躲过ChatGPT大规模封号 | AIGC实践

据说,从昨天开始,ChatGPT又双叒叕开始大规模封号,很多注册用户收到这样一则消息: 大意是说:OpenAI 发现了你的 ChatGPT 账号存在可疑活动,为了保障平台安全,已自动退款并取消你的 ChatGPT Plus …

驱动开发:内核解析内存四级页表

当今操作系统普遍采用64位架构,CPU最大寻址能力虽然达到了64位,但其实仅仅只是用到了48位进行寻址,其内存管理采用了9-9-9-9-12的分页模式,9-9-9-9-12分页表示物理地址拥有四级页表,微软将这四级依次命名为PXE、PPE、P…

七年老程序员的三四月总结:三十岁、准备婚礼、三次分享

你好,我是 shixin,一名工作七年的安卓开发。 每两个月我会做一次总结,记下这段时间里有意义的事和值得反复看的内容,为的是留一些回忆、评估自己的行为、沉淀有价值的信息。 一转眼 2023 年过去了三分之一,这两个月经历…