【数据仓库架构】什么是 Azure Synapse,它与 Azure Data Bricks 有何不同?

news2025/1/15 5:13:11

Azure Synapse Analytics 是一项针对大型公司的无限信息分析服务,它被呈现为 Azure SQL 数据仓库 (SQL DW) 的演变,将业务数据存储和宏或大数据分析结合在一起。

在处理、管理和提供数据以满足即时商业智能和数据预测需求时,Synapse 为所有工作负载提供单一服务。后者通过与 Power BI 和 Azure 机器学习的集成而成为可能,因为 Synapse 能够使用 ONNX 格式集成数学机器学习模型。它提供了处理和查询大量信息的自由度.作为微软在西班牙为数不多的 Power BI 合作伙伴之一,在 Bismart,我们在使用 Power BI 和 Azure Synapse 方面拥有丰富的经验。

Azure Synapse 分析如何工作?

ee5b2a1bc507689a8aef74ad42993ca2.png

微软的服务是SaaS(软件即服务),可以按需使用,只在需要的时候运行(这对成本节约有影响)。它有四个组成部分:

  • 具有完整基于 T-SQL 的分析的 SQL 分析:SQL 集群(按计算单位付费)和 SQL 按需(按处理的 TB 付费)。

  • Apache Spark 完全集成。

  • 具有多个数据源的连接器。

Azure Synapse 使用 Azure Data Lake Storage Gen2 作为数据仓库和包含管理、监视和元数据管理部分的一致数据模型。在安全领域,它允许您保护、监视和管理您的数据和分析解决方案,例如使用单点登录和 Azure Active Directory 集成。基本上,Azure Synapse 完成了整个数据集成和 ETL 过程,它不仅仅是一个普通的数据仓库,因为它包括该过程的进一步阶段,使用户还可以创建报告和可视化。

在编程语言支持方面,它提供了 SQL、Python、.NET、Java、Scala 和 R 等多种语言的选择。这使其非常适合不同的分析工作负载和不同的工程配置文件。

一切都包含在 Synapse Analytics Studio 中,可以轻松地将人工智能、机器学习、物联网、智能应用程序或商业智能集成到同一个统一平台中。

使用 T-SQL 和 Spark


关于执行时间,它允许两个引擎。一方面是传统的 SQL 引擎 (T-SQL),另一方面是 Spark 引擎。通过这种方式,可以将 T-SQL 用于批处理、流式处理和交互式处理,或者在需要使用 Python、Scala、R 或 .NET 进行大数据处理时使用 Spark。

在这里,它直接链接到 Azure Databricks,这是一种基于 Apache Spark 的人工智能和宏数据分析服务,允许在交互式工作区中对共享项目进行自动可扩展性和协作。Azure Synapse 在两种服务之间提供了一个高性能连接器,可实现快速数据传输。这意味着可以继续使用 Azure Databricks(Apache Spark 的优化)和专门用于提取、转换和加载 (ETL) 工作负载的数据架构,以大规模准备和塑造数据。反过来,Azure Synapse 和 Azure Databricks 可以对 Azure Data Lake Storage 中的相同数据运行分析。

Azure Synapse 和 Azure Databricks 为我们提供了更大的机会,可以将分析、商业智能和数据科学解决方案与服务之间的共享数据湖相结合。


在实现最大兼容性和功率的道路上


最初,Microsoft 服务是作为公司必须面对的两个基本问题的解决方案而提出的。首先是兼容性。它集成的数据分析系统能够同时处理传统系统和非结构化数据以及各种数据源。因此,它能够分析存储在系统中的数据,例如客户数据库(姓名和地址位于像电子表格一样排列的行和列中)以及存储在数据湖中的镶木地板格式的数据。

但它还在自动处理任务以构建用于分析数据的系统方面提供了更大的多功能性。这种增强的功能直接导致减少了程序员所需的工作量,并延长了项目开发时间(它是第一个也是唯一一个以 PB 级执行所有 TPC-H 查询的分析系统)。

Azure Synapse 实现了需要几个月的项目可以在几天内完成,或者需要几分钟或几小时的复杂数据库查询现在只需几秒钟。


毫秒内成功协商
除了单独扩展进程和存储资源之外,Azure Synapse Analytics 还因其结果缓存功能而脱颖而出(它具有完全托管的 1 TB 缓存)。因此,当进行查询时,它会存储在此缓存中,以加快使用相同类型数据的下一个查询。

这是它能够在毫秒内引发响应的关键之一。这是因为缓存在暂停、恢复和扩展操作(可以通过为云设计的大规模并行处理架构非常快速地激活)中幸存下来。

工作负载和性能


同样值得注意的是它对 JSON 的全面支持、数据屏蔽以确保高水平的安全性、对 SSDT(SQL Server 数据工具)的支持,尤其是工作负载管理以及如何对其进行优化和隔离。在这里,多个工作负载共享实现的资源。这使得创建工作负载并为其分配 CPU 数量和并发性成为可能。

例如,在拥有 1000 个 DWU(数据仓库单元)的情况下,Azure Synapse 有助于将工作的一部分分配给销售,另一部分分配给市场营销(例如 60% 分配给一个,40% 分配给另一个)。这个想法是为了便于管理和优先考虑数据库查询。

在数据准备和摄取方面,它支持以集成方式流式传输(Native SQL Streaming)以生成分析,例如与事件中心或物联网中心集成。它通过实现高达 200MB/秒的高性能、以秒为单位的交付延迟、随计算规模扩展的摄取性能以及使用基于 Microsoft SQL 的组合、聚合、过滤器查询的分析能力来实现这一目标……

一些附加功能


最后,我们必须强调 Azure Synapse Analytics 的其他有趣方面,这些方面有助于加快数据加载和促进流程。其中有:

  • 对于数据准备和加载,复制命令不再需要外部表,因为它允许您将表直接加载到数据库中。

  • 它提供对标准 CSV 的全面支持:换行符和自定义分隔符以及 SQL 日期。

  • 提供用户控制的文件选择(通配符支持)

  • 机器学习支持:可以以 ONNX 格式创建和保存机器学习模型,这些模型存储在 Azure Synapse 数据存储中并与本机 PREDICT 指令一起使用。

  • 与 Data Lake 集成:来自 Azure Synapse,文件以 Parquet 格式在 Data Lake 中读取,从而实现了更高的性能,将 Polybase 执行提高了 13 倍以上。

简而言之,一种保证开发线的服务,以确保 SQL DW 客户可以继续在生产中运行现有的数据存储工作负载并自动受益于新功能。

本文 :https://architect.pub/what-azure-synapse-and-how-it-different-azure-data-bricks
讨论:知识星球【首席架构师圈】或者加微信小号【ca_cto】或者加QQ群【792862318】
公众号

【jiagoushipro】
【超级架构师】
精彩图文详解架构方法论,架构实践,技术原理,技术趋势。
我们在等你,赶快扫描关注吧。
758dd49472984fc21616a42f88f21b83.jpeg
微信小号

【ca_cea】
50000人社区,讨论:企业架构,云计算,大数据,数据科学,物联网,人工智能,安全,全栈开发,DevOps,数字化.

699135be312d2defcd612e81c81b1348.jpeg

QQ群

【285069459】深度交流企业架构,业务架构,应用架构,数据架构,技术架构,集成架构,安全架构。以及大数据,云计算,物联网,人工智能等各种新兴技术。
加QQ群,有珍贵的报告和干货资料分享。

1896e36466c2568e8b01388b3c6e4048.jpeg

视频号【超级架构师】
1分钟快速了解架构相关的基本概念,模型,方法,经验。
每天1分钟,架构心中熟。

3ae0a082814df59dcb081c27410f881d.jpeg

知识星球【首席架构师圈】向大咖提问,近距离接触,或者获得私密资料分享。

d42895dccfdd38ea4afbf6b66b1a19a6.jpeg

喜马拉雅【超级架构师】路上或者车上了解最新黑科技资讯,架构心得。【智能时刻,架构君和你聊黑科技】
知识星球认识更多朋友,职场和技术闲聊。知识星球【职场和技术】
领英Harryhttps://www.linkedin.com/in/architect-harry/
领英群组领英架构群组
https://www.linkedin.com/groups/14209750/
微博‍‍【超级架构师】智能时刻‍
哔哩哔哩【超级架构师】

fa7e427719998db70aae19eb5e32ccde.jpeg

抖音【cea_cio】超级架构师

c9b33fab8aa898f86c609c2bfa187431.jpeg

快手【cea_cio_cto】超级架构师

0071091d6f579f8aa49d1a6538a977a4.jpeg

小红书【cea_csa_cto】超级架构师

e1be7a1c7a60cc8be01d093b1a653672.jpeg

网站CIO(首席信息官)https://cio.ceo
网站CIO,CTO和CDOhttps://cioctocdo.com
网站架构师实战分享https://architect.pub   
网站程序员云开发分享https://pgmr.cloud
网站首席架构师社区https://jiagoushi.pro
网站应用开发和开发平台https://apaas.dev
网站开发信息网https://xinxi.dev
网站超级架构师https://jiagou.dev
网站企业技术培训https://peixun.dev
网站程序员宝典https://pgmr.pub    
网站开发者闲谈https://blog.developer.chat
网站CPO宝典https://cpo.work
网站首席安全官https://cso.pub    ‍
网站CIO酷https://cio.cool
网站CDO信息https://cdo.fyi
网站CXO信息https://cxo.pub

谢谢大家关注,转发,点赞和点在看。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/607491.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Hive学习---5、文件格式和压缩、企业级调优

1、文件格式和压缩 1.1 Hadoop压缩概述 由于Hive是相当于与Hadoop的客户端,所以hadoop会啥压缩,Hive基本就会啥压缩。 压缩格式算法文件扩展名是否可切分DEFLATEDEFLATE.deflate否GzipDEFLATE.gz否bzip2bzip2.bz2是LZOLZO.lzo是SnappySnappy.snappy否…

word恢复和粘贴按钮变灰色,不可用怎么办?

如果 Word 中的恢复和粘贴按钮变成灰色,可能是由于以下原因之一: 1. 文档处于只读模式。 2. 与 Office 相关的某些组件已损坏或缺失。 3. Word 的文件权限被配置为只读。 以下是一些可能的解决方法: 1. 检查文档是否处于只读模式。 如果是…

随机数发生器设计(三)

随机数发生器设计(三)- 熵估计和健康测试 熵估计健康测试 熵估计 考虑都熵源的多样性,建立一个通用的熵估计模型比较困难。本文采用nist.sp.800-90B推荐的Markov评估。详见 https://doi.org/10.6028/NIST.SP.800-90B。 执行Markov评估时&am…

chatgpt赋能python:用Python向手机发送信息是如何实现的?

用Python向手机发送信息是如何实现的? 在今天的信息时代,随时随地保持联系已经成为生活不可或缺的一部分。随着技术的发展,我们可以使用各种方式发送和接收信息,而使用Python向手机发送短信是其中一种非常方便的方式。 Python的…

I.MX6ull EPIT定时器

一 简介 EPIT定时器是一种增强的周期中断定时器,完成周期性中断定时的功能。 具有以下特点 EPIT定时器是一个32位的定时器 时钟源可选的向下计数器 EPIT 共有 3 个时钟源可选择,ipg_clk、ipg_clk_32k 和 ipg_clk_highfreq 当计数值和比较值相等的时候…

兼顾性能+实时性处理缓冲数据解决方案

我们经常会遇到这样的数据处理应用场景:我们利用一个组件实时收集外部交付给它的数据,并由它转发给一个外部处理程序进行处理。考虑到性能,它会将数据存储在本地缓冲区,等累积到指定的数量后打包发送;考虑到实时性&…

ChatGPT与软件架构(3) - 软件架构提示工程

高效利用ChatGPT辅助研发的关键是在研发生命周期的不同阶段采用对应提示获取有益的帮助。原文: Leveraging Prompt Engineering in Software Architecture with ChatGPT 软件架构开发生命周期转型。 Beth Smith Unsplash 简介 作为解决方案架构师,有必要掌握软件架构…

【分布式架构】资源与事务:可观测性的基本二重性

西格曼:我叫本西格曼。我是Lightstep的联合创始人兼首席执行官。我在这里讨论的是资源和事务,这是可观察性的一个基本的二元性。我职业生涯的大部分时间都在研究可观察性。在我职业生涯之初,我在谷歌工作了九年,致力于谷歌的分布式…

SLAM实战项目(1) — ORB-SLAM2稠密地图重建

目录 1 整体思路 2 功能实现 3 结果运行 (1) TUM数据集下载 (2) associate.py用于RGB和Depth匹配 (3) 运行数据集 4 CMakeLists.txt文件修改 5 完整PointCloudMapping.h和PointCloudMapping.cc 6 报错分析 7 思考扩展 文章参考部分开源代码和报错文章 1 整体思路 利…

【微信小程序开发】第 3 节 - 安装开发者工具

欢迎来到博主 Apeiron 的博客,祝您旅程愉快 ! 时止则止,时行则行。动静不失其时,其道光明。 目录 1、缘起 2、微信开发者工具 3、下载 4、安装 5、扫码登录 6、设置外观和代理 7、总结 1、缘起 开发微信小程序从大的方…

吊打面试官的16000字JVM专属秘籍,又一个Java面试神器!终于可在简历写上精通JVM了!

前言 吊打面试官的16000字JVM专属秘籍,总共包含三部分的内容,从基础到进阶带大家一步步深入理解JVM! 学完就可以在简历上面直接写上精通JVM! 因为篇幅限制这里只给大家做简单的一个介绍,也就是进行一个大点的梳理&a…

记录--手把手教你Vue+ECharts+高德地图API实现天气预报数据可视化

这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前言 所谓数据可视化,我们可以理解为从宏观角度来看一眼就能看出来整个数据的占比,走向。对于数据可视化,很多互联网公司是很看重这一块的,包括大厂&…

基于wireshark打造安全分析师工具--解析suricata中的分析结果

从本篇文章开始,我将通过若干篇文章陆续介绍在实际安全运营的过程中,基于wireshark打造安全分析师趁手的流量威胁分析工具,帮助安全分析人员在面对网络数据包取证和分析时候达到事半功倍的效果。本篇文件介绍使用在使用iwreshark分析数据包事…

21天学会C++:Day7----auto关键字

CSDN的uu们,大家好。这里是C入门的第七讲。 座右铭:前路坎坷,披荆斩棘,扶摇直上。 博客主页: 姬如祎 收录专栏:C专题 目录 1. 知识引入 2. auto的使用 2.1 auto与指针和引用结合起来使用 2.2 在同一…

区分序列/UIO/特征集示例

区分序列/UIO/特征集示例 从确定性有限状态机进行测试:检查状态 概述 让我们假设我们有一个状态集 S 的 FSM M。还假设我们知道通过转换 t 达到的当前状态是 s 或 s0。 我们如何确定 t 到达了哪个状态? 分离状态 输入序列 w 将两个状态 s 和 s0 分开&…

C++进阶之继承

文章目录 前言一、继承的概念及定义1.继承概念2.继承格式与访问限定符3.继承基类与派生类的访问关系变化4.总结 二、基类和派生类对象赋值转换基本概念与规则 三、继承中的作用域四、派生类的默认成员函数五、继承与友元六、继承与静态成员六、复杂的菱形继承及菱形虚拟继承七、…

图论试题2020

n-m 2 16 Pk(Kn)k(k-1)…(k-n1)。 C:A2对角线元素aii2等于对应顶点vi的度数,所以对角线元素之和等于边数的两倍。 A的所有特征值的平方和等于A2的对角线元素之和。 B 完全图没有顶点隔,实际上也只有以完全图为生成子图的图没有顶点隔。 连通…

Qt6 C++基础入门1 定时器与QTimer

定时器 定时器图片流水灯案例 实现效果:构建一个界面,点击开始按钮轮流播放文件夹下图片,点击停止按钮停止播放 构建页面,上部是一个没有内容的 label 下面是开始和暂停按钮,各自的名称分别为 startBtn 和 stopBtn 先保…

6.事件绑定

目录 1 事件对象的属性 2 事件绑定方式 3 在事件中赋值 4 事件传参 1 事件对象的属性 target是触发该事件源头的组件,currentTarget是当前事件所绑定的组件,比如现在有一个父组件包着子组件,你给父组件绑定事件,由于事件…

ps磨皮插件专用智能磨皮插件Portraiture4

Portraiture是一款智能磨皮插件,为Photoshop和Lightroom添加一键磨皮美化功能,快速对照片中皮肤、头发、眉毛等部位进行美化,无需手动调整,大大提高P图效率。全新4版本,升级AI算法,并独家支持多人及全身模式…