Hadoop框架的主要模块包括如下:
-
Hadoop Common
-
Hadoop分布式文件系统(HDFS)
-
Hadoop YARN
-
Hadoop MapReduce
虽然上述四个模块构成了Hadoop的核心,不过还有其他几个模块。这些模块包括:Ambari、Avro、Cassandra、Hive、 Pig、Oozie、Flume和Sqoop,它们进一步增强和扩展了Hadoop的功能。
Spark
是Apache的另一个开源项目,它无法与整个Hadoop生态系统竞争。它是一个集群计算框架,具有类似于MapReduce的功能,甚至没有自己的分布式文件系统。实际上,Spark和Hadoop之间的最大区别在于,前者在内存中工作,而后者将文件写入HDFS。
同时,Spark运行任务的速度提高了100倍。它能够在短短23分钟内整理100TB数据,这在2014年创造了新的世界纪录。
除了核心引擎,Spark还具有以下功能:
-
集群管理一与包括Hadoop YARN在内的各种集群管理系统兼容;
-
Spark Streaming 一实时数据分析工具;
-
Spark SQL 一集成关系处理;
-
GraphX 一通过图并行计算扩展了Spark功能;
-
MLlib 一专门用于机器学习的库。
spark和hadoop的比较
Hadoop主要用普通硬件解决存储和计算问题;而Spark用于构建大型的、低延迟的数据分析应用程序,不进行存储、只进行计算。
Hadoop 将文件读取和写入 HDFS,而 Spark 使用 RDD(弹性分布式数据集)处理内存中的数据。
Spark 可以在独立模式(stand alone)下运行,也可以与Hadoop配合, 使用Yarn来进行资源调度,使用 Hadoop 集群作为数据源。
总而言之, Spark主要用于大数据的计算,而Hadoop主要用于大数据的存储,以及资源调度。Spark和Hadoop的组合算是大数据领域的基础。
大数据具体学啥?
python大数据方向
2022最新大数据Hadoop入门视频教程,最适合零基础自学的大数据Hadoop教程
2022年大数据spark3.2入门Spark全套视频教程,4天spark3.2快速入门到精通,全网首套基于Python语言的spark教程
2022年MySQL基础入门2022最新MySQL知识精讲+mysql实战案例_零基础mysql数据库入门到高级全套教程
Python+大数据开发
MySQL数据库:2022最新MySQL知识精讲+mysql实战案例_零基础mysql数据库入门到高级全套教程
Hadoop入门:2022最新大数据Hadoop入门视频教程,最适合零基础自学的大数据Hadoop教程
Hive数仓项目:大数据项目实战教程_大数据企业级离线数据仓库,在线教育项目实战(Hive数仓项目完整流程)
PB内存计算
Python入门:全套Python教程_Python基础入门视频教程,零基础小白自学Python必备教程
Python编程进阶:Python高级语法进阶教程_python多任务及网络编程,从零搭建网站全套教程
spark3.2从基础到精通:Spark全套视频教程,4天spark3.2快速入门到精通,全网首套基于Python语言的spark教程
Hive+Spark离线数仓工业项目实战:全网首次披露大数据Spark离线数仓工业项目实战,Hive+Spark构建企业级大数据平台