MPP和hadoop

news2024/12/26 21:15:35
同样都可以处理大规模数据的MPP数据库架构与Hadoop体系架构属于不同的技术体系,二者没有直接的相关性,却常常被放在一起进行比较。特别是在企业数据仓库建设中,MPP架构与Hadoop架构代表两类典型的技术路线选型,事实上,在2015年左右甚至有人认为基于Hadoop体系的数仓将彻底取代基于MPP数据库的数仓。
  1. 设计思路对比
  两类系统运行的硬件架构是相同的,都是普通服务器组成的集群,但从资源管理角度来说,它们并行化软件实现的设计思路却是相反的。
  MPP架构相当于对单机的各类资源进行垂直综合管理,再将多个单机系统横向连接进行集成,可以说是先垂直后水平。
  Hadoop架构相当于将所有机器的存储资源与计算资源抽象出来,分开管理,再进行组件级的垂直集成,可以说是先水平后垂直。
  MPP与Hadoop架构对比如图1所示。

▲图1 MPP与Hadoop架构对比
  具体分析如下:
  MPP架构是将许多单机数据库通过网络连接起来,相当于将一个个垂直系统横向连接,形成一个统一对外服务的分布式数据库系统,每个节点由一个单机数据库系统独立管理和操作该节点所在物理机上的所有资源(CPU、内存、磁盘、网络),节点内系统的各组件间的相互调用不需要通过控制节点,即对控制节点来说,每个节点的内部运行过程相对透明。
  Hadoop架构是将不同的资源管理与功能进行分层抽象设计,每层形成一类组件,实现一定程度的解耦,包括存储资源管理、计算资源管理、通用并行计算框架、各类分析功能等,在每层内进行跨节点的资源统一管理或功能并行执行,层与层之间通过接口调用,相互透明,节点内不同层的组件间的相互调用需要由控制节点掌握或通过控制节点协调,即控制节点了解每个节点内不同层组件间的互动过程。
  2. 优缺点对比
  MPP架构的优缺点总结如下:
1、支持标准SQL,每个节点都有丰富的事务处理和管理功能;
2、资源管理精细;
3、更适合预知数据结构模型的中等规模的固定模式数据管理;
4、集群规模调整要求较多,增减节点时通常需要停机,且有的系统只能增加不能减少;
5、延迟小,相对吞吐量一般,单节点缓慢会拖累整体性能;
6、表记录进行水平分割存储,方法通常包括一致性哈希(Consistent Hashing)、循环写入(Round Robin),但容易产生数据热点。

1、Hadoop架构的优缺点总结如下:

1、每个节点功能简单,不具备丰富的数据管理功能,不支持事务;
2、数据更新采用追加方式实现,同等数据量处理需要的资源更多;
3、可以不用预先了解数据的格式与内容;
4、扩展性好,支持集群规模更大,能动态扩容,支持扩充仅用于计算的节点;
5、延迟高、吞吐量大、容错性(Failover)好。
总体来说,Hadoop架构在数据量较低的情况下,运行速度远不及MPP架构,但数据量一旦超过某个量级,Hadoop架构在吞吐量方面将非常有优势。有些大数据数据仓库产品也采用混合架构,以融合两者的优点,例如Impala、Presto等都是基于HDFS的MPP分析引擎,仅利用HDFS实现分区容错性,放弃MapReduce计算模型,在面向OLAP场景时可实现更好的性能,降低延迟。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1072267.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

质因子拆贡献+朴素容斥:1007T3

http://cplusoj.com/d/senior/p/SS231007C 考虑枚举gcd,然后容斥,恰好转至少。 g g g 表示gcd恰好为 d d d, f f f 表示至少为 d d d 显然有 f ( d ) ∑ d ∣ n g ( n ) f(d)\sum_{d|n}g(n) f(d)∑d∣n​g(n),可以直接莫反成…

[python 刷题] 76 Minimum Window Substring

[python 刷题] 76 Minimum Window Substring 题目: Given two strings s and t of lengths m and n respectively, return the minimum window substring of s such that every character in t (including duplicates) is included in the window. If there is no …

抖音品牌如何传播,达人投放规划

面对达人的强大带动和种草能力,没有哪个品牌能够坚定的说“不”。但是想要与达人合作,你真的准备好了吗,今天来分享下抖音品牌如何传播,达人投放规划! 一、制定投放规划的前期准备 从规划到实施执行并不是一蹴而就的&a…

uniapp物理键/右滑多次退出应用,再次进入显示白屏的问题

复现方式:安卓多次使用物理返回键或右滑退出应用后, 再次进入有很大机率显示白屏。但是手动杀进程的方式不会出现白屏和后台驻留的方式也不会出现白屏 解决思路:利用后台驻留的方式进行假退出应用,把应用隐藏至后台,这…

【Java】Unsafe应用解析

目录 一.功能介绍 二.如何获取Unsafe对象 1.从getUnsafe静态方法获取 2.通过反射获取单例对象theUnsafe 三.Unsafe常用API操作 3.1.线程调度 3.1.1 多线程锁 3.1.2 多线程CAS操作 3.1.3 线程的挂起和恢复 3.2.内存屏障 3.3.内存管理 3.4.对象操作 3.5.运行时动态创…

2023年中国金属涂胶板行业供需分析:销量同比增长2.8%[图]

金属涂胶板是一种将金属板材表面进行涂覆处理的产品。它通常由金属基材(如钢板、铝板)和胶粘剂组成,胶粘剂可以是有机胶粘剂、聚合物胶粘剂或其他特殊胶粘剂。 金属涂胶板行业分类 资料来源:共研产业咨询(共研网&…

引领创新浪潮:“Polygon探寻新技术、新治理、新代币的未来之路!“

熊市是用来建设的,Polygon Labs一直在利用这漫长的几个月来做到这一点。 Polygon 是最常用的区块链之一,每周约有 150 万用户,每天超过 230 万笔交易,以及数千个 DApp,Polygon 最近面临着日益激烈的竞争。虽然从交易数…

助力精彩亚运,杭州第19届亚运会重保工作圆满完成

10月8日,随着杭州第19届亚运会闭幕会结束,大道云行为期16天的重保工作圆满结束。杭州亚运会向大家呈现了真正的“科技与狠活”,数字火炬手、开幕式AR、数字烟花,令人震撼的科技让线上线下的观众真切体会到数实融合。首轮直播全媒体…

与客户携手共进|博睿数据客户最佳实践精选

博睿数据将在秋季发布新一代一体化智能可观测平台 Bonree ONE,轻盈、有序、精准,更好地帮助企业应对新技术带来的运维压力,更好地实现数字化转型。 2023年10月20日的Bonree ONE秋季产品发布会上,我们将邀请先进客户分享最佳实践经…

ASL集睿致远 MIPI转LVDS芯片 CS5518规格书 PIN to PIN替代GM8775C 工业级标准

CS5518可以PIN to PIN替代GM8775C,不需要更改线路,直接替换,CS5518成本比GM8775C要低,整体方案性价比高.CS5518主要实现将 MIPI DSI 转单/双通道 LVDS功能,MIPI 支持1/2/3/4 通道可选,支持 4Gbps 速率。LVDS 时钟频率154MHz,支持常见的1920*1080分辨率的屏&#xff…

性能监控-linux操作系统计数器

top:实时显示系统中各个进程的资源占用状况 top [选项] 交互式命令 基本视图内容解释 top命令: 第一行队列任务信息 第二行 进程任务信息可以看到运行、休眠、停止、僵死状态的进程个数 第三行:CPU状态信息 %Cpu(s): 0.5 us, 0.4 sy, 0.0…

MOS管各种概念(三个极、沟道、衬底、电流方向、箭头方向、耗尽型和增强型、寄生二极管、封装引脚)

三个极、沟道、衬底 D(Drain)漏极:载流子(NMOS为负电荷,PMOS为正电荷)离开端。 S(Source)源极:载流子发射端。 G(Gate)栅极:控制MOS开关的管脚。 沟道:D和S之间形成的导电通道。 衬底&#xff…

如何实现chatGPT批量问答,不用token

3分钟,教你做个GPT批量问答还不用token | 有源码 源码链接 解压压缩包;在Pycharm打开这个文件夹 执行 pip install undetected_chromedriver 和 pip install selenium 执行第1到63行代码,后台会自动打开浏览器,需要手动登录账…

全场景流量验证系统 | 京东物流技术团队

本文介绍了一种基于线上流量实现对重构系统进行功能和性能验证的实践方案。针对线上流量如何拦截、如何录制、如何存储、如何回放以及如何发压均作了详细说明,为具有类似需求的读者提供了一种可供参考的思路。 1 业务背景 随着百川项目的启动,中台需要…

XSS原理

原理: 这是一种将任意 Javascript 代码插入到其他Web用户页面里执行以达到攻击目的的漏洞。攻击者利用浏览器的动态展示数据功能,在HTML页面里嵌入恶意代码。当用户浏览改页时,这些潜入在HTML中的恶意代码会被执行,用户浏览器被攻…

串联起深度学习的整体,以及其他领域

1、从模型拟合(收敛)数据关系出发: 2、f从简单的一层和两层连接开始,发展;被表示成 3、如何判断收敛:,即目标函数 4、如何界定任务:,表示什么?表示什么?&a…

解决ubuntu中没有网络连接的图标

现象:Ubuntu连接网络 在设置中没有显示网络图标 解决方案: 命令为 sudo nmcli networking off sudo nmcli networking on sudo service network-manager restart 重启ubuntu,网络连接完成

[MongoDB]-权限验证管理

[MongoDB]-权限验证管理 senge | 2023年9月 背景说明:现有两套MongoDB副本集群给开发人员使用时未开启认证。 产生影响:用户若输入账号以及密码则会进行校验,但用户可以在不输入用户名和密码的情况下也可直接登录。 倘若黑客借此进行攻击勒索…

nSoftware IPWorks IoT 2022 Java 22.0.8 Crack

物联网库,使用这个轻量级组件库,可以在任何平台上的应用程序中轻松实现物联网 (IoT) 通信协议。 nSoftware IPWorks IoT 最新的 IPWorks IoT 现已推出!最新版本的 IPWorks IoT 具有现代化和简化的体验,包括 .NET 中的异步和跨平台…

LeetCode竞赛---第 366 场周赛

Problem: 100103. 分类求和并作差 📚 题目:给你两个正整数 n 和 m 。 现定义两个整数 num1 和 num2 ,如下所示: num1:范围 [1, n] 内所有 无法被 m 整除 的整数之和。num1:范围 [1, n] 内所有 无法被 m 整…