大数据系统架构-Hadoop生态系统

news2024/7/6 19:43:59

Hadoop是较早用于处理大数据集合的分布式存储计算基础架构,通过Hadoop,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的为例执行告诉运算和存储。简单来说,Hadoop是一个平台,在它之上,可以更容易地开发和运行大规模数据的软件。

01 Hadoop 概述

Hadoop体系也是一个计算框架,在这个框架下,可以使用一种简单的编程模式,通过多台计算机构成的集群,分布式处理大数据集。

Hadoop是可扩展的,可以方便的从单一服务器扩展到数千台服务器,每台服务器进行本地计算和存储。除了依赖于硬件交付的高可用性,软件库本身也提供数据保护,并且可以在应用层做失败处理,从而在计算机集群的顶层提供高可用服务。
Hadoop核心生态圈组件:
在这里插入图片描述

02 Hadoop生态圈

Hadoop包括以下4个基本模块。
1)Hadoop基础功能库:支持其他Hadoop模块的通用程序包。
2)HDFS:一个分布式文件系统,能够以高吞吐量访问应用中的数据。
3)Yarn:一个作业调度和资源管理框架。
4)MapReduce:一个基于Yarn的大数据并行处理程序。

除了基本模块,Hadoop还包括以下项目。
1)Ambari:基于Web,用于配置、管理和监控Hadoop集群,支持HDFS、MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambri还提供显示集群健康状况的仪表盘,如热点图等。Ambari以图形化的方式查看MapReduce、Pig和Hive应用程序的运行情况,因此可以通过对用户友好的方式诊断应用的性能问题。
2)Avro:数据序列化系统。
3)Cassandra:可扩展的、无单点故障的NoSQL多主数据库。
4)Chukwa:用于大型分布式系统的数据采集系统。
5)HBase:可扩展的分布式数据库,支持大表的结构化数据存储。
6)Hive:数据仓库基础架构,提供数据汇总和命令行即席查询功能。
7)Mahout:可扩展的机器学习和数据挖掘库。
8)Pig:用于并行计算的高级数据流语言和执行框架。
9)Spark:可高速处理Hadoop数据的通用计算引擎。Spark提供了一种简单而富有表达能力的编程模式,支持ETL、机器学习、数据流处理。图像计算等多种应用。
10)Tez:完整的数据流编程框架,基于Yarn建立,提供强大而灵活的引擎,可执行任意有向无环图数据处理任务,既支持批处理又支持交互式的用户场景。Tez目前已被Hive、Pig等Hadoop生态圈的组件所采用,用来替代MapReduce作为底层执行引擎。
11)Zookeeper:用于分布式应用的高性能协调服务。
除了以上这些官方认可的Hadoop生态圈组件之外,还有很多十分优秀的组件这里没有介绍,这些组件的应用也非常广泛,例如基于Hive查询优化的Presto、Impala、Kylin等。

此外,在Hadoop生态圈的周边,还聚集了一群伙伴,它们虽未深入融合Hadoop生态圈,但是和Hadoop有着千丝万缕的联系,并且在各自擅长的领域起到了不可替代的作用。下图是阿里云E-MapReduce平台整合的Hadoop生态体系中的组件,比Apache提供的组合更加强大。
在这里插入图片描述
其中比较重要的成员有:
1)Presto:开源分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB级。Presto可以处理多数据源,是一款基于内存计算的大数据存储引擎。
2)Kudu:与HBase类似的列存储分布式数据库,能够快速更新和删除数据,是一款支持随机读写又支持OLAP分析的大数据存储引擎。
3)Impala:高效的基于MPP架构的快速查询引擎,基于Hive并使用内存进行计算,兼顾ETL功能,具有实时、批处理、高并发等优点。
4)Kylin:开源分布式分析型数据仓库,提供Hadoop/Spark之上的SQL查询接口及OLAP能力,支持超大规模数据的亚秒级。
5)Flink:一款高吞吐量、低延迟的针对流数据和批数据的分布式实时处理引擎,是实时处理领域的新星。
6)Hudi:Uber开发并开源的数据湖解决方案,Hudi(Hadoop updates and incrementals)支持HDFS的修改和增量更新操作。

03 Hadoop的优缺点

如今,Hadoop已经演化成了一个生态系统,系统内的组件千差万别,有的还是孵化阶段,有的风华正茂,有的垂垂老矣。其中,最经久不衰的是HDFS和Hive两大组件,昙花一现的包括HBase、MapReduce、Presto等,风华正茂的当属Spark和Flink。
大数据成功最核心的原因是开源,但它存在的最大问题也是开源。很多组件虽然依靠开源可以快速成熟,但一旦成熟,就会出现生态紊乱和版本割裂的情况,其中最典型的就是Hive。Hive1.X之前的版本功能不完善,1.X和2.X版算是逐步优化到基本可用了,到了3.X版又出现了各种问题,并且各大云平台Hive版本都停留在2.X版本,新版本推广乏力。另外,Hive的计算引擎也是饱受争议的,Hive支持的计算引擎主要有MapReduce、Tez、Spark、Presto。十多年来,MapReduce的计算速度没有提升;Tez虽然计算速度快,但是安装需要定制化编译和部署;Spark的计算速度最快,但是对JDBC支持不友好;Presto计算速度快并且支持JDBC,但是语法又和Hive不一致。

总的来说,基于Hadoop开发出来的大数据平台,通常具有以下特点:
1)扩容能力:能够可靠地存储和处理PB级的数据。Hadoop生态基本采用HDFS作为存储组件,吞吐量高,稳定性高。
2)成本低:可以利用廉价、通用的机器组成的服务器群分发、处理数据。这些服务器群总计可以达到数千个节点。
3)高效率:通过分发数据,Hadoop可以在数据所在节点上并行处理,处理速度非常快。
4)可靠性:Hadoop能自动维护数据的多份备份,并且在任务失败后能自动重新部署计算任务。

Hadoop生态同时也存在不少缺点:
1)读写时效差:因为Hadoop采用文件存储系统,所以读写时效差,至今没有一款既支持快速更新又支持高效查询的组件。
2)组件间兼容性差:Hadoop生态系统趋于复杂,组件之间的兼容性差,安装和维护比较困难。
3)组件功能单一:各个组件功能相对单一,优点明显,缺点也明显。
4)版本分歧大:云生态对Hadoop的冲击十分明显,云厂商定制化组件导致版本分歧进一步扩大,无法形成合力。
5)容错性差:整体生态基于Java开发,容错性较差,可用性不高,组件容易挂掉。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/102749.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【LeetCode每日一题】——剑指 Offer 42.连续子数组的最大和

文章目录一【题目类别】二【题目难度】三【题目编号】四【题目描述】五【题目示例】六【解题思路】七【题目提示】八【题目注意】九【时间频度】十【代码实现】十一【提交结果】一【题目类别】 动态规划 二【题目难度】 简单 三【题目编号】 剑指 Offer 42.连续子数组的最…

基于springboot layui前后端分离的宿舍管理系统

系统以MySQL 为数据库,在Spring Boot SpringMVC MyBatis Layui框架下基于B/S架构设计开发而成。系统中的用户分为三类,分别为学生、宿管、后勤。这三类用户拥有不同的操作权限。 系统中用到的技术包括Axios, Echarts, POI。特色功能有人性化的宿舍分…

分支语句和函数

分支语句 条件语句 (1)if 语法格式: if expression:do_something1do_something2 next_something 如果expression值为True,则执行do_something1, do_something2,next_something 如果expression值为False,则只执行…

yolov7 使用c++推理onnx模型cpu,gpu均可(附代码)

先放上原图以及推理效果图,这份数据集是我自己标注的,然后使用yolov7的官方代码进行训练得到了一个best.pt。最后还是用yolov7官方的export.py 导出得到一个onnx文件。文章下面我会附上数据集,需要自提。 要点: yolov7环境搭建,模型的训练以及导出模型。 代码的编写已经…

C++11标准模板(STL)- 算法(std::lexicographical_compare)

定义于头文件 <algorithm> 算法库提供大量用途的函数&#xff08;例如查找、排序、计数、操作&#xff09;&#xff0c;它们在元素范围上操作。注意范围定义为 [first, last) &#xff0c;其中 last 指代要查询或修改的最后元素的后一个元素。 当一个范围按字典顺序小于…

计算机毕业设计 SSM与vue的汽车租赁管理系统(源码+论文)

文章目录1 项目简介2 实现效果2.1 界面展示3 设计方案3.1 概述3.2 系统流程3.3 系统结构设计4 项目获取1 项目简介 Hi&#xff0c;各位同学好呀&#xff0c;这里是M学姐&#xff01; 今天向大家分享一个今年(2022)最新完成的毕业设计项目作品&#xff0c;【基于SSM的汽车租赁…

最新CTR预测服务的GPU优化实践

CTR模型在互联网的搜索、推荐、广告等场景有着广泛的应用。近年来&#xff0c;随着深度神经网络的引入&#xff0c;CTR模型的推理对硬件算力的要求逐渐增加。本文介绍了美团在CTR模型优化的实践。通过分析模型结构特点&#xff0c;结合GPU硬件架构&#xff0c;我们设计了一系列…

Zabbix历史数据与趋势数据问题详解

众所周知&#xff0c;历史数据&#xff08;history&#xff09;和趋势数据&#xff08;trends&#xff09;是Zabbix中存储收集到的数据的两种方式。官方文档显示&#xff0c;Zabbix历史数据是每分钟收集到的监控数据&#xff0c;趋势数据则是按小时统计计算后的平均数据&#x…

linux安装tomcat

目录 一、准备tomcat 法1 法2 二、上传tomcat到linux​ 三、解压tomcat 解压到当前目录 重命名文件夹 四、设置开放的服务或端口号或直接关闭防火墙 法1&#xff1a; 法2&#xff1a; 五、进入tomcat的bin目录&#xff0c;启动tomcat 进入tomcat的bin目录 启动tom…

LeetCode——Weekly Contest 321

这段时间经历了组会、开题、回家等等&#xff0c;这才发现周赛已经打到325场了&#xff0c;而我还没有写完321场的题解记录&#xff0c;真是汗颜啊。 LeetCode周赛第321场记录 这场周赛的题目相对比较简单一些&#xff0c;在此简单做个梳理&#xff1a; 这道题比较简单&#…

0xcdcdcdcd异常值引发C++程序崩溃问题的详细分析

目录 1、0xcccccccc、0xcdcdcdcd和0xfeeefeee等常见异常值的说明 2、由0xcdcdcdcd 异常值引发的内存访问违例问题说明 2.1、用户态内存地址与内核态用户地址 2.2、根据0xcdcdcdcd异常值初步估计出引发问题的原因 3、详细分析与问题解决 4、变量未初始化在Debug和Release下…

idea 创建 maven项目报错

问题报错 org.apache.maven.model.validation.DefaultModelValidator: method ‘void ()’ not found 第一次使用Maven创建工程&#xff0c;导入依赖的时候出现报错 idea版本&#xff1a;2021.2 maven版本&#xff1a;3.8.5 看了许多博客说把maven版本降低即可 参考文章&a…

技术栈入门------ElasticSearch

使用ElasticSearch的准备工作 一、在Linux上安装ElasticSearch 1、docker下载elasticSearch和kibana的镜像 docker pull elasticsearch:7.4.2 存储和检索数据 docker pull kibana:7.4.2 可视化检索数据 2、创建目录 mkdir -p /mydata/elasticsearch/config mkdir -p /myd…

[含文档+源码等]微信小程序校园生活小助手+后台管理系统前后分离VUE[包运行成功]

博主介绍&#xff1a;✌在职Java研发工程师、专注于程序设计、源码分享、技术交流、专注于Java技术领域和毕业设计✌ 项目名称 [含文档源码等]微信小程序校园生活小助手后台管理系统前后分离VUE[包运行成功] 演示视频 视频去哪了呢&#xff1f;_哔哩哔哩_bilibili 系统介绍 本系…

简单对比一下VRRP和策略路由之间主备切换的差异

前面我们介绍的VRRP&#xff08;&#xff09;&#xff0c;两台设备之间处于主备关系&#xff0c;也就是说&#xff0c;当主设备故障之后&#xff0c;流量才会切换到备设备上。这种使用方式一定程度上讲&#xff0c;不太符合经济适用的原则&#xff0c;我们前面介绍过链路聚合&a…

Java面试--SpringMVC请求流程

用户发送请求&#xff0c;请求被 SpringMVC 前端控制器&#xff08;DispatherServlet&#xff09;捕获&#xff1b;前端控制器&#xff08;DispatherServlet&#xff09;对请求 URL 解析获取请求 URI&#xff0c;根据 URI&#xff0c;调用 HandlerMapping&#xff1b;前端控制器…

求最长递增子序列

题目&#xff1a; 给定数组arr&#xff0c;返回arr的最长递增子序列 举例&#xff1a; arr [2,1,5,3,6,4,8,9,7] 返回最长递增子序列为 [1,3,4,8,9] 方法一&#xff1a;复杂度为O&#xff08;N^2&#xff09; 1. 生成长度为N的数组 dp&#xff0c;dp[i] 表示以arr[i] 这…

架构师必读 —— 逻辑模型(8)

利用框架整理信息 框架用于明确“整体结构”&#xff0c;也指“通过MECE分析法将整体构成要素进行大分类”。重要的是框架应是MECE分析框架&#xff0c;因为 一旦有遗漏和重复&#xff0c;就会导致混乱。整体构成要素可大致分为 3~7大类。 建议先确认目的后思考框架&#x…

实时单目追踪和稠密建图的算法框架:TANDEM算法

01 概述 最近在研究TANDEM算法&#xff0c;是一个实时单目追踪和稠密建图的算法框架。TANDEM的算法框架可以概括为如下的几个部分&#xff1a; 1、位姿计算----在关键帧实施基于滑窗的像素级集束优化&#xff1b; 2、追踪前端----实施直接稠密图片配准&#xff0c;基于全局模…

如何找回电脑回收站删除的文件, 10种恢复工具方法!

你想取回你的回收站删除的文件吗&#xff1f;无论是图像、视频还是文档&#xff0c;我们的设备都会存储所有内容。您可能不小心删除了数据&#xff0c;或者由于其他原因而消失了。要恢复您的文件&#xff0c;您可以访问技术人员或下载任何最好的文件恢复软件。 如果您选择第二…