深入解析Apache Hadoop YARN:工作原理与核心组件

news2024/11/15 13:57:31

什么是YARN?

YARN(Yet Another Resource Negotiator)是Apache Hadoop生态系统中的一个重要组件,用于资源管理和作业调度。它是Hadoop 2.x版本中的一个关键特性,取代了旧版本中的JobTracker和TaskTracker。YARN的设计目标是使Hadoop能够处理更广泛的工作负载,包括批处理、交互式查询、流处理以及其他类型的工作负载。
在这里插入图片描述

为什么需要YARN?

YARN的引入解决了Hadoop 1.x版本中存在的一些限制和不足,提供了更灵活、更高效的资源管理和作业调度。以下是一些需要YARN的主要原因:
在这里插入图片描述

  • 多样化的工作负载支持:
    -Hadoop 1.x版本中的MapReduce框架适用于批处理作业,但不太适合处理交互式查询、流处理等多样化的工作负载。YARN的出现使得Hadoop可以同时运行多种类型的应用程序,包括批处理、交互式查询(如Apache Hive、Apache Tez)、流处理(如Apache Storm、Apache Flink)等。
  • 资源隔离和多租户支持:
    YARN支持在同一集群上运行多个应用程序,并能够对资源进行有效的隔离,防止一个应用程序的资源消耗影响其他应用程序的性能。这种多租户支持使得企业可以更高效地共享集群资源,并在不同的团队、部门或业务单位之间进行资源划分和管理。
  • 动态资源分配: YARN允许应用程序根据需要动态申请和释放资源,而不是像Hadoop 1.x版本那样静态地将资源分配给作业。这种动态资源分配机制可以提高集群资源的利用率,并更好地适应不同作业的资源需求变化。
  • 支持更大规模的集群:
    YARN的架构设计更适合处理大规模集群,能够有效地管理数千甚至数万个节点的资源和作业。这使得Hadoop可以在更大规模的数据集上进行处理和分析,满足日益增长的数据处理需求。
  • 更灵活的作业调度:
    YARN提供了灵活的作业调度框架,可以支持多种调度策略和调度器插件。这使得用户可以根据自己的需求选择最适合的调度器,并对调度策略进行定制,以满足不同作业的性能和资源需求。

YARN的基本核心思想

YARN的基本核心思想是将资源管理和作业调度从特定的计算框架(如MapReduce)中分离出来使其成为单独的守护进程,使得Hadoop集群能够更通用地支持多种类型的应用程序和工作负载。
这个想法是拥有一个全局的 ResourceManager ( RM ) 和每个应用程序的 ApplicationMaster ( AM )。应用程序可以是单个作业,也可以是作业的 DAG。ResourceManager 和 NodeManager 构成了数据计算框架。 ResourceManager是系统中所有应用程序之间资源仲裁的最终权威。 NodeManager 是每台机器的框架代理,负责容器、监视其资源使用情况(CPU、内存、磁盘、网络)并将其报告给ResourceManager/Scheduler。每个应用程序的 ApplicationMaster 实际上是一个特定于框架的库,其任务是与 ResourceManager 协商资源并与 NodeManager 一起执行和监视任务。
在这里插入图片描述

在Hadoop集群中,YARN主要有以下几个核心组件:

  1. ResourceManager(资源管理器):ResourceManager是YARN集群中的主节点,负责管理整个集群的资源分配和作业调度。它跟踪可用资源,并为提交到集群的应用程序分配资源。
  2. NodeManager(节点管理器):NodeManager运行在每个集群节点上,负责管理该节点上的资源,并与ResourceManager通信以报告节点的资源使用情况和可用性。
  3. ApplicationMaster(应用程序管理器):每个提交到YARN集群的应用程序都有一个对应的ApplicationMaster。ApplicationMaster负责与ResourceManager协商资源、监控作业进度,并向ResourceManager请求更多资源或报告作业完成情况。

ResourceManager 有两个主要组件:Scheduler 和ApplicationsManager。
调度程序负责将资源分配给受熟悉的容量、队列等约束的各种正在运行的应用程序。调度程序是纯粹的调度程序,因为它不执行应用程序状态的监视或跟踪。此外,它不保证重新启动由于应用程序故障或硬件故障而失败的任务。 Scheduler根据应用程序的资源需求执行其调度功能;它是基于资源容器的抽象概念来实现的,资源容器包含内存、CPU、磁盘、网络等元素。

调度程序具有可插入策略,负责在各种队列、应用程序等之间划分集群资源。当前的调度程序(例如CapacityScheduler和FairScheduler)就是插件的一些示例。

ApplicationsManager 负责接受作业提交、协商第一个容器来执行应用程序特定的 ApplicationMaster 并提供在失败时重新启动 ApplicationMaster 容器的服务。每个应用程序的 ApplicationMaster 负责与 Scheduler 协商适当的资源容器,跟踪其状态并监控进度。

hadoop-2.x 中的 MapReduce 保持了与之前稳定版本 (hadoop-1.x) 的API 兼容性。这意味着所有 MapReduce 作业仍应在 YARN 之上运行,只需重新编译即可。

YARN通过ReservationSystem支持资源预留的概念,ReservationSystem 是一个组件,允许用户指定随时间和时间限制(例如截止日期)的资源配置文件,并预留资源以确保重要作业的可预测执行。ReservationSystem跟踪资源随着时间的推移,对预留进行准入控制,并动态指示底层调度程序以确保预留得到满足。

为了将 YARN 扩展至数千个节点以上,YARN通过YARN Federation功能支持联合概念。联合允许透明地将多个纱线(子)集群连接在一起,并使它们显示为单个大型集群。这可用于实现更大的规模,和/或允许多个独立集群一起用于非常大的作业,或用于具有跨所有集群的容量的租户。

在 YARN 上运行的应用程序

以上并非所有的应用

  • 批处理应用程序:
    批处理作业是Hadoop最常见的用例之一,它们通常涉及对大规模数据集进行分析和处理。使用YARN,批处理作业可以通过MapReduce框架或其他批处理引擎(如Apache Spark、Apache Flink等)来运行。
  • 交互式查询:
    交互式查询通常用于对数据进行即席查询和分析。通过YARN,可以在集群上运行诸如Apache Hive、Apache Impala、Apache Drill等交互式查询引擎,这些引擎能够实时响应用户的查询请求。
  • 流处理应用程序:
    流处理应用程序用于对实时数据流进行处理和分析。通过YARN,可以在集群上运行流处理引擎,如Apache Storm、Apache Flink、Apache Kafka Streams等,以实时处理数据流并生成相应的输出。
  • 机器学习和数据挖掘:
    YARN也可以支持运行机器学习和数据挖掘算法。例如,可以使用Apache Spark的机器学习库(MLlib)或Apache Flink的机器学习库来在集群上训练和部署机器学习模型。
  • 图计算:
    图计算应用程序用于在图结构数据上执行复杂的分析和计算。通过YARN,可以在集群上运行图计算引擎,如Apache Giraph、Apache Spark GraphX等,来处理大规模的图数据。
  • 其他类型的应用程序:
    此外,YARN还可以支持各种其他类型的应用程序,包括ETL(Extract-Transform-Load)作业、数据流处理、实时分析等。YARN的通用性和灵活性使得它能够满足不同类型应用程序的运行需求。

应用程序如何在 YARN 上运行?

在这里插入图片描述

  1. 应用程序提交:
    用户通过YARN客户端提交应用程序。在提交过程中,用户需要指定应用程序的资源需求、启动命令、应用程序类型等信息。通常,应用程序的启动命令会包括指定应用程序的jar包或可执行文件、主类名(对于Java应用程序)、应用程序的输入和输出路径等信息。
  2. ResourceManager分配资源:
    ResourceManager接收到用户提交的应用程序后,会根据应用程序的资源需求和集群中的资源情况进行资源分配。ResourceManager会为应用程序分配所需的计算资源(如CPU和内存资源)以及其他必要的资源(如网络带宽)。
  3. NodeManager启动容器:
    一旦资源分配完成,ResourceManager会通知集群中相应的NodeManager,在相应的节点上启动一个或多个容器(Container)。容器是YARN中的基本执行单位,它包含了运行应用程序所需的计算资源、环境变量等信息。
  4. 应用程序启动:
    一旦容器启动完成,应用程序的启动命令将被执行。这可能涉及启动应用程序的主进程,例如执行Java的main()方法或运行可执行文件。
  5. ApplicationMaster启动:
    应用程序的启动过程通常会涉及到一个特殊的组件,称为ApplicationMaster。ApplicationMaster负责与ResourceManager通信,协商资源、监控作业进度,并向ResourceManager请求更多资源或报告作业完成情况。ApplicationMaster运行在集群中的一个容器中,并由ResourceManager负责启动和监控。
  6. 作业执行:一旦ApplicationMaster启动,应用程序就可以开始在容器中执行。根据应用程序的类型和逻辑,它可能会涉及到数据的读取、处理、计算以及生成结果等过程。
  7. 作业完成:
    一旦应用程序执行完成,ApplicationMaster会向ResourceManager报告作业完成情况,并请求释放所占用的资源。
  8. 资源释放
    ResourceManager会相应地释放容器所占用的资源,并通知NodeManager停止相应的容器。至此,应用程序的执行过程结束,集群资源被释放,可以被其他应用程序使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1606153.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android代码函数类快速查询方法

一、引言 android代码庞大且非常复杂,本文就记录一些查询函数类的方法,便于初级快速查询入手。 二、查询android函数类方法 以查询 MediaPlayer类为例。 2.1 通过Android Studio关键词声明定义 2.2 通过Android Studio的Navigate查找 打开Android S…

Hive进阶(4)----MapReduce的计算过程(赋图助君理解)

MapReduce的计算过程 MapReduce是一种编程模型和处理大规模数据集的方法。它通常用于分布式计算环境中,能够将数据处理任务分解成独立的部分,分配给多台计算机进行并行处理。这个模型由Google提出,并在开源领域中得到了广泛的应用和实现。Map…

Matlab|【免费】【sci】考虑不同充电需求的电动汽车有序充电调度方法

目录 1 主要内容 2 部分代码 3 程序结果 4 下载链接 1 主要内容 该程序复现sci文献《A coordinated charging scheduling method for electric vehicles considering different charging demands》,主要实现电动汽车协调充电调度方法,该方法主要有以…

【Java EE】文件操作

目录 1.认识文件 2.树型结构组织和目录 3.文件路径(Path) 4.其他知识 5.Java中操作文件 5.1File概述 5.1.1属性 5.1.2构造方法 5.1.3方法 5.2代码示例 1.认识文件 我们先来认识狭义的文件(file)。针对1硬盘这种持久化存…

Jenkins机器已经安装了ansible, 运行的时候却报错ansible: command not found

操作系统:MacOS Jenkins log提示 ansible: command not found 直接在Jenkins 机器中,进入一样的目录执行ansible --version OK 原因: Jenkins 默认使用的环境是 /usr/bin, 而我的ansible 安装配置在conda3 下面,所以需要在Jenkin…

使用Python工具库SnowNLP对评论数据标注(二)

这一次用pandas处理csv文件 comments.csv import pandas as pd from snownlp import SnowNLPdf pd.read_csv("C:\\Users\\zhour\\Documents\\comments.csv")#{a: [1, 2, 3], b: [4, 5, 6], c: [7, 8, 9]}是个字典 emotions[] for txt in df[sentence]:s SnowNLP(…

线程互斥及基于线程锁的抢票程序

我们实现一个简单的多线程抢票程序。 #include<iostream> #include<thread> #include<unistd.h> #include<functional> #include<vector> using namespace std; template<class T> using func_tfunction<void(T)>;//返回值为void,…

OpenHarmony网络通信-socket-io

简介 socket.io是一个在客户端和服务器之间实现低延迟、双向和基于事件的通信的库。建立在 WebSocket 协议之上&#xff0c;并提供额外的保证&#xff0c;例如回退到 HTTP 长轮询或自动重新连接。 效果展示 下载安装 ohpm install ohos/socketio OpenHarmony ohpm 环境配置等更…

AWS入门实践-如何在AWS云上创建一个内外网隔离的生产环境

在 AWS 上建立一个内外网分离的生产环境,可以减少应用服务的暴露面&#xff0c;有效的保证你的应用服务器的安全。通常我们会将web应用放在外网的子网内&#xff0c;数据库服务器等放在内网的子网。我们将按照下图来部署动手实践环境&#xff0c;实现在public subnet的EC2虚拟机…

Java 笔记 01:Java 概述,MarkDown 常用语法整理

一、前言 记录时间 [2024-04-18] 昨天整理完 Docker 基础后略微思索了一下&#xff0c;还是决定把 Java 捡起来&#xff0c;系统地学习一遍&#xff0c;参考的学习课程是狂神说 Java 零基础&#xff0c;真诚感激此系列视频对笔者的帮助。 零基础可以学 Java 吗&#xff1f;只要…

2024Mathorcup数学应用挑战赛C题|图神经网络的预测模型+ARIMA时间序列预测模型+人员排班混合整数规划模型|完整代码和论文全解全析

2024Mathorcup数学应用挑战赛C题|图神经网络的预测模型ARIMA时间序列预测模型人员排班混合整数规划模型|完整代码和论文全解全析 我们已经完成了2024Mathorcup数学建模挑战赛C题的40页完整论文和代码&#xff0c;相关内容可见文末&#xff0c;部分图片如下&#xff1a; 问题分…

Redis中的Lua脚本(三)

Lua脚本 EVAL命令的实现 EVAL命令的执行过程可以分为以下三个步骤: 1.根据客户端给定的Lua脚本&#xff0c;在Lua环境中定义一个Lua函数2.将客户端给定的脚本保存到lua_scripts字典&#xff0c;等待将来进一步使用3.执行刚刚在Lua环境中定义的函数&#xff0c;以此来执行客户…

从 CodeGemma 到 CodeQwen1.5:开源编程大模型百家争鸣

笔者最近刚刚试用完 CodeGemma &#xff0c;准备分享我的心得时&#xff0c;通义千问的 CodeQwen1.5 就也悄然发布。本文主要介绍 CodeQwen1.5 这款开源编程大模型&#xff0c;并展示如何在 VSCode 中使用它帮你提升编程体验。 1. 开源编程大模型的必要性 大型语言模型&#x…

python爬虫 - 爬取图片

文章目录 1、爬取图片示例1&#xff1a;使用 .urlretrieve() 函数2、爬取图片示例2 - 使用 open/write 函数3、爬取图片示例33.1 使用 open/write 下载3.2 使用 urlretrieve下载 爬虫的本质&#xff1a;模拟对应的App&#xff0c;浏览器访问对应的地址获取到数据 1、爬取图片示…

光伏工程施工前踏勘方案与注意事项

光伏工程是指利用光能发电的技术。随着清洁能源的发展&#xff0c;光伏工程在能源领域的应用越来越广泛。在进行光伏工程施工前&#xff0c;需要对施工现场进行踏勘&#xff0c;以确保施工能够顺利进行并达到预期的效果。 本文游小编带大家一起看一下探勘的方案和注意事项。 1…

LY-UV冲击试样缺口液压拉床

性能说明&#xff1a;该系列拉床专用于精确加工冲击试样的V型和U型缺口&#xff0c;试样加工过程全自动操作。是冶金、锅炉压力容器、车船和机械制造等行业理化试验室的理想冲击辅助设备。 该拉床具有操作简单、快速高效、一次成型且缺口标准统一的特点&#xff0c;完全满足GB…

用html写一个搜索页面

<!DOCTYPE html> <html lang"en" > <head><meta charset"UTF-8"><title>搜索框设计</title><link rel"stylesheet" href"./style.css"> </head> <body> <div class"se…

第 393 场周赛

100256. 替换字符可以得到的最晚时间 给你一个字符串 s&#xff0c;表示一个 12 小时制的时间格式&#xff0c;其中一些数字&#xff08;可能没有&#xff09;被 "?" 替换。 12 小时制时间格式为 "HH:MM" &#xff0c;其中 HH 的取值范围为 00 至 11&am…

VBA技术资料MF143:将PowerPoint中幻灯片导出为图片

我给VBA的定义&#xff1a;VBA是个人小型自动化处理的有效工具。利用好了&#xff0c;可以大大提高自己的工作效率&#xff0c;而且可以提高数据的准确度。“VBA语言専攻”提供的教程一共九套&#xff0c;分为初级、中级、高级三大部分&#xff0c;教程是对VBA的系统讲解&#…

【Qt 学习笔记】Qt常用控件 | 显示类控件Progress Bar的使用及说明

博客主页&#xff1a;Duck Bro 博客主页系列专栏&#xff1a;Qt 专栏关注博主&#xff0c;后期持续更新系列文章如果有错误感谢请大家批评指出&#xff0c;及时修改感谢大家点赞&#x1f44d;收藏⭐评论✍ Qt常用控件 | 显示类控件Progress Bar的使用及说明 文章编号&#xff…