1.hadoop的三大结构及各自的作用?
-
HDFS(Hadoop Distributed File System):分布式文件系统,负责海量数据的存储,具有高容错性和高吞吐量。
-
MapReduce:分布式计算框架,用于并行处理大规模数据集,分为 Map(映射)和 Reduce(归约)两个阶段。
-
YARN(Yet Another Resource Negotiator):资源管理和作业调度框架,负责集群资源的统一分配和任务调度,提升集群利用率。
2.yarn的定义?
YARN(Yet Another Resource Negotiator)是 Hadoop 2.0 引入的资源管理平台,其核心功能是将资源管理与作业调度/监控分离,支持多计算框架(如 MapReduce、Spark 等)运行在同一个集群中,提高资源利用率和系统扩展性。
3.yarn的三大组件及各自的作用?
-
ResourceManager(RM):集群资源的总管理者,负责全局资源分配与调度。
-
NodeManager(NM):运行在集群每个节点上的代理,负责单节点资源管理(如 CPU、内存)和任务执行监控。
-
ApplicationMaster(AM):由应用程序(如 MapReduce 作业)启动,负责向 RM 申请资源、协调任务执行,并监控任务状态。
4.yarn的三个资源调度策略?
-
FIFO Scheduler:先进先出策略,按作业提交顺序分配资源,简单但可能导致大作业独占资源。
-
Capacity Scheduler:容量调度器,将集群划分为多个队列,每个队列分配固定资源,支持多租户资源共享。
-
Fair Scheduler:公平调度器,动态平衡资源分配,确保所有作业公平共享资源,适合多用户环境。