本文我们了解hadoop3的组成部分,如下图所示,包括HDFS数据存储、Yarn资源调度、MapReduce计算
1. HDFS概述
HDFS: Hadoop Distributed File System,是一个分布式文件系统
HDFS由NameNode、DataNode、Secondary NameNode组成
- NameNode:存储文件的元数据,如文件名、文件目录结构、文件属性,以及每个文件的块列表和块所在的DataNode等
- DataNode: 在本地文件系统存储文件块数据,以及块数据的校验和
- Secondary NameNode:每隔一段时间对NameNode元数据备份
2. Yarn概述
Yarn: Yet Another Resource Negotiator,是hadoop的资源管理器
- ResourceManager: 整个集群资源(内存、CPU)的老大
- NodeManager: 单个节点服务器资源老大
- Container:容器
- ApplicationMaster: 单个任务运行的老大
3. MapReduce概述
MapReduce将计算过程分为两个阶段:Map和Reduce
- Map阶段并行处理输入数据
- Reduce阶段对Map结果进行汇总
欢迎关注公众号算法小生