hadoop-Yarn资源调度器【尚硅谷】

news2025/1/17 0:49:53

大数据学习笔记

Yarn资源调度器

Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行与操作系统之上的应用程序
(也就是负责MapTask、ReduceTask等任务分配资源)

1. Yarn基本架构

Yarn主要由ResourceManager、NodeManager、ApplicationMaster、Container。
1)ResourceManager(RM)主要作用:

  • 处理客户端请求
  • 监控NodeManager
  • 启动或监控ApplicationMaster
  • 资源的分配与调度
    2)NodeManager(NM)主要作用如下:
  • 管理单个节点上的资源
  • 处理来自ResourceManager的命令
  • 处理来自ApplicationMaster的命令
    3)ApplicationMaster(AM)作用:
  • 负责数据的切分
  • 为应用程序申请资源并分配给内部的任务
  • 任务的监控和容错
    4)Container
    Container是Yarn中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等

2. Yarn工作机制

(1)MR程序提交到客户端所在的节点。
(2)YarnRunner向ResourceManager申请一个Application。
(3)RM将该应用程序的资源路径返回给YarnRunner。
(4)该程序将运行所需资源提交到HDFS上。
(5)程序资源提交完毕后,申请运行mrAppMaster。
(6)RM将用户的请求初始化成一个Task。
(7)其中一个NodeManager领取到Task任务。
(8)该NodeManager创建容器Container,并产生MRAppmaster。
(9)Container从HDFS上拷贝资源到本地。
(10)MRAppmaster向RM 申请运行MapTask资源。
(11)RM将运行MapTask任务分配给另外两个NodeManager,另两个NodeManager分别领取任务并创建容器。
(12)MR向两个接收到任务的NodeManager发送程序启动脚本,这两个NodeManager分别启动MapTask,MapTask对数据分区排序。
(13)MrAppMaster等待所有MapTask运行完毕后,向RM申请容器,运行ReduceTask。
(14)ReduceTask向MapTask获取相应分区的数据。
(15)程序运行完毕后,MR会向RM申请注销自己。
在这里插入图片描述

3. Yarn作业提交全过程

第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。
第2步:Client向RM申请一个作业id。
第3步:RM给Client返回该job资源的提交路径和作业id。
第4步:Client提交jar包、切片信息和配置文件到指定的资源提交路径。
第5步:Client提交完资源后,向RM申请运行MrAppMaster。
(2)作业初始化
第6步:当RM收到Client的请求后,将该job添加到容量调度器中。
第7步:某一个空闲的NM领取到该Job。
第8步:该NM创建Container,并产生MRAppmaster。
第9步:下载Client提交的资源到本地。
(3)任务分配
第10步:MrAppMaster向RM申请运行多个MapTask任务资源。
第11步:RM将运行MapTask任务分配给另外两个NodeManager,另两个NodeManager分别领取任务并创建容器。
(4)任务运行
第12步:MR向两个接收到任务的NodeManager发送程序启动脚本,这两个NodeManager分别启动MapTask,MapTask对数据分区排序。
第13步:MrAppMaster等待所有MapTask运行完毕后,向RM申请容器,运行ReduceTask。
第14步:ReduceTask向MapTask获取相应分区的数据。
第15步:程序运行完毕后,MR会向RM申请注销自己。
(5)进度和状态更新
YARN中的任务将其进度和状态(包括counter)返回给应用管理器, 客户端每秒(通过mapreduce.client.progressmonitor.pollinterval设置)向应用管理器请求进度更新, 展示给用户。
(6)作业完成
除了向应用管理器请求作业进度外, 客户端每5秒都会通过调用waitForCompletion()来检查作业是否完成。时间间隔可以通过mapreduce.client.completion.pollinterval来设置。作业完成之后, 应用管理器和Container会清理工作状态。作业的信息会被作业历史服务器存储以备之后用户核查。
在这里插入图片描述

4. 资源调度器

目前,hadoop作业调度主要有三种:FIFO(先进先出)、Capacity Scheduler(容量调度 【默认】)、Fair Scheduler(功能调度)。

FIFO调度:
在这里插入图片描述
容量调度器:
在这里插入图片描述

  • 支持多个队列,每个队列可配置一定的资源量,每个队列采用FIFO调度策略
  • 为了防止同一用户的作业独占队列中的资源,该调度器会对同一个用户提交的作业所占资源量进行限定
  • 首先,计算每个队列中正在运行的任务数与其应该分得的计算资源之间的比值,选择一个该比值最小的队列——最闲的
  • 其次,按照作业优先级和提交时间顺序,同时考虑用户资源量限制和内存限制对队列任务排序
  • 三个队列同时按照队列先后顺序执行。

公平调度器(并发度比较大)
在这里插入图片描述

支持多队列多用户,每个队列中的资源可以配置,同一队列中的作用公平共享队列中所有资源。

任务的推测执行

如果一个任务长时间运行不完,而且拖慢整个机制,那么就可以用到推测执行机制。
推测执行机制:发现拖后腿的任务,比如某个任务运行速度远慢于任务平均速度。为拖后腿任务启动一个备份任务,同时运行。谁先运行完,则采用谁的结果。
1)每一个Task只能有一个备份任务
2)当前job已完成的Task必须不小于5%
3)开启推测执行参数设置

不能使用推测执行机制的情况:
1)任务间存在严重的负载均衡
2)特殊任务,比如任务向数据库中写数据

推测执行算法原理
1)MR总是选择差值最大的任务,并为之启动备份任务。
2)为了防止大量任务同时启动备份任务造成的资源浪费,MR为每个作业设置了同时启动的备份任务数量上限。
3)推测执行机制实际上采用了经典的优化算法:以空间换时间
在这里插入图片描述

MapReduce跑的慢的原因

MapReduce程序效率的瓶颈在于两点:

  1. 计算机性能:CPU、内存、磁盘健康、网络
  2. I/O操作优化
    1)数据倾斜
    2)Map和Reduce数设置不合理
    3)Map运行时间太长,导致reduce等待过久
    4)小文件过多
    5)大量的不可分块的超大文件
    6)Spill次数过多
    7)Merge次数过多等。

Map阶段优化
1)减少溢写次数
2)减少合并次数
3)在Map之后,不影响业务逻辑前提下,先进行Combine处理,减少I/O。
在这里插入图片描述
reduce阶段优化
1) 合理设置Map和reduce数
2)设置Map、reduce共存:调整slowstart.completedmaps参数,是map运行到一定程度后,reduce也开始运行,减少reduce的等待时间。
3)规避使用reduce(减少了shuffle)。
4)合理设置reduce buffer
在这里插入图片描述
在这里插入图片描述
I/O传输
1)采用数据压缩的方式
2)使用SequenceFile二进制文件
在这里插入图片描述
数据倾斜问题
方法1:抽样和范围分区
方法2:自定义分区
方法3:Combine
方法4:采用Map Join,尽量避免reduce join
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/378830.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

营收大涨Facebook复活? 要留住人心不能只靠改革

Facebook 作为全球最大的社交媒体平台之一,在过去几年中曾经面临着不少困难和挑战。但是最近,Facebook 在广告收入上的表现迅猛反弹,这表明 Facebook 已经成功地复活了。那么如何利用新功能来提高广告效果?一. 利用Facebook的自适…

通过对比学习改进生成式文本摘要

当前在文本摘要领域,利用深度模型的监督学习方式表现的最好,这类方法基本都是将摘要抽取看做seq2seq自回归的生成任务,训练时基于极大似然估计,让模型预测的序列的概率最大近似标注的参考序列。这类方法存在一个明显的问题就是&am…

福特FORD EDI需求分析

福特(Ford)是世界著名的汽车品牌,为美国福特汽车公司(Ford Motor Company)旗下的众多品牌之一。福特在其发展史中始终拥有先进的产业观念,从其“福特制”的生产管理模式可见一斑。 EDI是供应链企业信息整合…

实现RecyclerView二级列表

自定义RecyclerView的adapter实现二级列表 图片大于5MB,CSDN不让上传,使用github链接,如果看不到请使用科学上网 https://github.com/nanjolnoSat/PersonalProject/blob/recyclerexpandableadapter/Recyclerexpanableadapter/pic/pic1.gif 源…

解决前端跨域的几种方法

一、跨域报错 在我们实际开发过程中,都有遇到过跨域的问题,跨域报错如下: 二、为什么会报跨域? 跨域的本质是浏览器基于同源策略的一种安全手段,主要是考虑到用户的信息安全。何为同源策略呢?同源策略是一种…

【深入浅出 Yarn 架构与实现】4-5 RM 行为探究 - 启动 ApplicationMaster

本节开始,将对 ResourceManager 中一些常见行为进行分析探究,看某些具体关键的行为,在 RM 中是如何流转的。本节将深入源码探究「启动 ApplicationMaster」的具体流程。 一、整体流程 本小节介绍从应用程序提交到启动 ApplicationMaster 的…

sql学习二

文章目录一、 计算函数1. datediff2. all3. year4. sum二、控制流三、过滤 group by having一、 计算函数 1. datediff datediff(日期1, 日期2): 得到的结果是日期1与日期2相差的天数。 如果日期1比日期2大,结果为正;如果日期1比日期2小&a…

MySQL 学习笔记(借鉴黑马程序员MySQL)

MySQL视频课链接 MySQL概述 数据库相关概念 数据库是存储数据的仓库,数据是有组织的进行存储(DataBase) 数据库管理系统是操纵和管理数据库的大型软件(DataBase Management System) SQL是操作关系型数据库的编程语…

Linux(Centos)安装TDengine

目录1:简介2:前期准备3:安装4:启动5:开机自启动6:安装客户端驱动(如果别的服务器需要链接TD则需要此步操作)7:基础命令1:简介 官网: https://www.taosdata.com/简介&…

webpack配置优化,让你的构建速度飞起

前言 越来越多的项目使用webpack5来构建项目了,今天给大家带来最前沿的webpack5配置,让我们代码在编译/运行时性能更好~ 我们会从以下角度来进行优化: 提升打包构建速度减少代码体积优化代码运行性能 提升打包构建速度 在进行打包速度优化…

Elasticsearch入门之Http操作(索引操作、映射操作、文档操作)

Elasticsearch 基本操作 数据格式: Elasticsearch 是面向文档型数据库,一条数据在这里就是一个文档。为了方便大家理解,我们将 Elasticsearch 里存储文档数据和关系型数据库 MySQL 存储数据的概念进行一个类比,如下图&#xff1a…

linux服务器时间同步

Linux服务器时间同步 需求:两台以上服务器之间的时间同步,以其中一台服务器为时间源,其余服务器同步这台时间源服务器的时间 其中,时间源服务器需要有访问外网权限,不然时间源服务器无法同互联网同步最新的时间&#…

Linux Vim 简介

文章目录01. 编辑器 Gedit 介绍02. 什么是 Vi(Vim)03. vim工作模式4.1 命令模式4.2 编辑模式4.3 末行模式04. vim教程05. vim基本操作06. vim实用操作7.1 命令模式下的操作7.2 末行模式下的操作01. 编辑器 Gedit 介绍 gedit 是一个 GNOME 桌面环境下兼容 UTF-8 的 文本编辑器。…

Spike on Flow with Validation Rule

问题 在Flow中如何友好的显示Validation Rule相关的错误信息? 举例 创建account记录,如果industry为finance,validation rule要求revenue必填。 假如你有个flow用来创建account,点击save触发条件, 期望:…

具备“结构化思维”的优势

导读: 在日常工作中,我们时常会碰到这样的情况,有的人讲事情逻辑非常混乱,罗列了很多事项,却把握不到重点,无法把一件事情说清楚。这种思维混乱是典型的缺少结构化思维的表现。结构化思维非常重要&#xff…

实例10:四足机器人运动学逆解可视化与实践

实例10: 四足机器人运动学逆解单腿可视化 实验目的 了解逆运动学的有无解、有无多解情况。了解运动学逆解的求解。熟悉逆运动学中求解的几何法和代数法。熟悉单腿舵机的简单校准。掌握可视化逆向运动学计算结果的方法。 实验要求 拼装一条mini pupper的腿部。运…

【大话面试】- Redis 篇-第一篇

【大话面试】- Redis 篇-第一篇 认识 NoSQL SQL VS NoSQL 1️⃣ 结构化(Structured) SQL 的存储格式 NoSQL 从其存储的结构上来看,对于 SQL 数据库而言,我们可以给每一个表的属性添加不同的约束(主键唯一&#xff…

Java时间获取、格式化详情

Java时间获取详情java.util.Datejava.util.CalendarJava8推荐的时间获取方法LocalDate获取日期LocalTime获取时间LocalDateTime 获取时间和日期这里先附上后面会用到的进行时间格式化的代码:SimpleDateFormat timeSimpleDateFormatter new SimpleDateFormat("…

09_MySQL的子查询

子查询指一个查询语句嵌套在另一个查询语句内部的查询,这个特性从MySQL 4.1开始引入。SQL 中子查询的使用大大增强了 SELECT 查询的能力,因为很多时候查询需要从结果集中获取数据,或者需要从同一个表中先计算得出一个数据结果,然后…

【Node.js】MySQL数据库

数据库数据库的基本概念什么是数据库常见的数据库和分类数据库的数据组织结构实际开发中库,表,行,字段的关系MySQL相关的软件MySQL Workbench创建数据库创建数据表设计表字段字段的特殊标识向表中插入数据使用SQL管理数据库什么是SQLSQL能做什…