大数据计算引擎 EasyMR 如何简单高效管理 Yarn 资源队列

news2024/11/15 8:28:31

设想一下,作为一个开发人员,你现在所在的公司有一套线上的 Hadoop 集群。A部门经常做一些定时的 BI 报表,B部门则经常使用软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景,这个时候到底应该如何分配资源满足这两个任务呢?是先执行A的任务,再执行B的任务,还是同时跑两个?

如果你存在上述的困惑,可以多了解一些 Yarn 的资源调度器。

Yarn 的三种调度器

从 Hadoop2 开始,官方把资源管理单独剥离出来,主要是为了考虑后期作为一个公共的资源管理平台,任何满足规则的计算引擎都可以在它上面执行。Yarn 作为一款 Hadoop 集群的资源共享,不仅可以跑 MapReduce,还可以跑 Spark,Flink。

在 Yarn 框架中,调度器是一块很重要的内容。有了合适的调度规则,就可以保证多个应用在同一时间有条不紊的工作。

最原始的调度规则就是 FIFO,即按照用户提交任务的时间来决定哪个任务先执行,但是这样很可能一个大任务独占资源,其他的资源需要不断的等待,也可能一堆小任务占用资源,大任务一直无法得到适当的资源,造成饥饿。所以 FIFO 虽然很简单,但是并不能满足我们的需求。

如下图所示,在 Yarn 中有三种调度器可以选择:FIFO Scheduler,Capacity Scheduler,Fair Scheduler。

file

FIFO Scheduler

把应用按提交的顺序排成一个先进先出队列,在进行资源分配的时候,先给队列中最头部的应用进行分配资源,等到最头部的应用需求满足后再给下一个分配,以此类推。

FIFO Scheduler 是最简单也是最容易理解的调度器,它不需要任何配置,但不适用于共享集群中。大的应用可能会占用所有集群资源,从而导致其它应用被阻塞。

Capacity 调度器

允许多租户安全的共享集群资源,提供的核心理念就是 Queues(队列),它支持多个队列,每个队列可配置一定的资源量,以确保在其他 queues 允许使用空闲资源之前,资源可以在一个组织的 sub-queues 之间共享,且每个队列采用 FIFO 调度策略。为了在共享资源上,提供更多的控制和预见性,applications 在容量限制之下,可以及时的分配资源。

Fair 调度器

在 Fair 调度器中,我们不需要预先占用一定的系统资源,Fair 调度器会为所有运行的 job 动态的调整系统资源。当第一个大 job 提交时,只有这一个 job 在运行,此时它获得了所有集群资源;当第二个小任务提交后,Fair 调度器会分配一半资源给这个小任务,让这两个任务公平的共享集群资源。

需要注意的是,从第二个任务提交到获得资源会有一定的延迟,因为它需要等待第一个任务释放占用的 Container。小任务执行完成之后也会释放自己占用的资源,大任务又获得了全部的系统资源。最终的效果就是 Fair 调度器既得到了高的资源利用率又能保证小任务及时完成。

EasyMR 如何管理 Yarn 资源队列

最原始的调度规则就是 FIFO,即按照用户提交任务的时间来决定哪个任务先执行,但是这样可能会导致一个大任务独占资源,其他的资源需要不断的等待,也可能导致一堆小任务占用资源,大任务一直无法得到适当的资源,造成饥饿。

所以 FIFO 虽然很简单,但是并不能满足我们的需求。最常使用的是容量调度策略,但是运维人员在配置容量队列时,需要考虑队列资源利用率,队列的状态,修改完成后,亦无法校验配置是否正确。

EasyMR 出于简单高效原则,开放了资源队列管理功能。

以容量调度为例,为大家简单演示 EasyMR 中队列的使用。假设公司有个大数据部门,该部门下有个做数据同步的小组,队列树形图如下:

root 
├── bigdata
    |---dataSync

要创建这样层次的队列,首先需要在父级别下面创建 bigdata 队列,然后在 bigdata 下面划分一个子队列 dataSync,下文进行详细介绍。

创建队列

首先创建父队列 bigdata,设置最小容量20%,最大容量50%。

file

在父队列中添加 bigdata 队列名称。

 <property>
   <!-- root队列中有哪些子队列-->
   <name>yarn.scheduler.capacity.root.queues</name>
   <value>default,bigdata</value>
   <description></description>
 </property>

设置 bigdata 的容量调度配置。

   <property>
     <!-- bigdata队列占用的容量百分比-->
     <name>yarn.scheduler.capacity.root.bigdata.capacity</name>
     <value>20</value>
     <description></description>
   </property>
   <property>
     <!-- root队列中bigdata队列占用的容量百分比的最大值-->
     <name>yarn.scheduler.capacity.root.bigdata.maximum-capacity</name>
     <value>50</value>
     <description></description>
   </property>
   <property>
     <!-- queue容量的倍数,用来设置一个user可以获取更多的资源。默认值为1-->
     <name>yarn.scheduler.capacity.root.bigdata.user-limit-factor</name>
     <value>1</value>
     <description></description>
   </property>
   <property>
     <!--设置bigdata队列的状态-->
     <name>yarn.scheduler.capacity.root.bigdata.state</name>
     <value>RUNNING</value>
     <description></description>
   </property>

创建子队列

在 bigdata 父队列下面,选择创建子队列,设置最小容量10%,最大容量30%。

file

在 bigdata 队列中添加 dataSync 队列名。

   <property>
     <!-- bigdata队列中有哪些子队列-->
     <name>yarn.scheduler.capacity.root.bigdata.queues</name>
     <value>dataSync</value>
     <description></description>
   </property>

设置 dataSync 队列的容量调度配置。

   <property>
     <!-- bigdata队列dataSync子队列的容量百分比-->
     <name>yarn.scheduler.capacity.root.bigdata.dataSync.capacity</name>
     <value>10</value>
     <description></description>
   </property>
   <property>
     <!-- bigdata队列中bigdata队列占用的容量百分比的最大值-->
     <name>yarn.scheduler.capacity.root.bigdata.dataSync.maximum-capacity</name>
     <value>30</value>
     <description></description>
   </property>
   <property>
     <!-- queue容量的倍数,用来设置一个user可以获取更多的资源。默认值为1-->
     <name>yarn.scheduler.capacity.root.bigdata.dataSync.user-limit-factor</name>
     <value>1</value>
     <description></description>
   </property>
   <property>
     <!--设置子队列dataSync队列的状态-->
     <name>yarn.scheduler.capacity.root.bigdata.dataSync.state</name>
     <value>RUNNING</value>
     <description></description>
   </property>

查看队列

创建完成后,可以在 EasyMR 资源队列查看队列详情。

file

在 EasyMR 创建完成后,也可以在 yarn web 管理页面查看队列创建详情。

file

至此,Yarn 的一个简单容量调度就创建完成了。

《数栈产品白皮书》:https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szcsdn

同时,欢迎对大数据开源项目有兴趣的同学加入我们,一起交流最新开源技术信息,号码:30537511,项目地址:https://github.com/DTStack

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/958737.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OB Cloud上新,4.1版本现已全面开放

2022 年 8 月 10 日&#xff0c;OceanBase 宣布 OceanBase 公有云服务全球开服&#xff0c;帮助不同规模客户&#xff0c;在全球不同区域&#xff0c;享受同样优质的企业级数据库产品与服务。 经过近一年的发展&#xff0c;公有云业务取得了长足的发展&#xff0c;去年对客收入…

截取字符串 substr lastIndexOf

效果图 代码 item.content.substr(item.content.lastIndexOf(/) 1, item.content.length - item.content.lastIndexOf(/)) 就可以得到

linux系统维护篇:/dev/null 妙用

介绍 /dev/null 是一个特殊的设备文件&#xff0c;该文件接收的所有数据都会被丢弃&#xff08;不显示、不打印、不记录&#xff09;&#xff0c;类似于黑洞。 场景 场景1&#xff0c;执行命令有输出信息&#xff08;正确和错误&#xff09;&#xff0c;且直接通过输出内容判断…

python -- 实现路径的匹配,剔除掉指定路径,并保存路径

python – 实现路径的匹配&#xff0c;剔除掉指定路径&#xff0c;并保存路径 在处理nc数据时&#xff0c;由于部分数据在插值的过程中&#xff0c;存在过多的0值&#xff0c;使得在制作标签时该时刻的数据出现报错&#xff0c;但是对于一年的数据量来说&#xff0c;无关紧要&…

剑指 Offer 66. 构建乘积数组(中等)

题目: class Solution { public:vector<int> constructArr(vector<int>& a) {int len a.size();if(len0) return {};vector<int> b(len, 1);for(int i1;i<len;i){ //先计算b[i]下三角的乘积。由图可看出b[1]乘的是a[0]b[i]b[i-1]*a[i-1];}int t…

【数据结构】 二叉树面试题讲解->壹

文章目录 &#x1f30f;引言&#x1f340;[相同的树](https://leetcode.cn/problems/same-tree/description/)&#x1f431;‍&#x1f409;题目描述&#xff1a;&#x1f431;‍&#x1f453;示例&#xff1a;&#x1f4cc;示例一&#x1f4cc;示例二&#x1f4cc;示例三 &…

趣解开闭原则之《我发誓!再也不买一体机了》

〇、小故事 小王大学毕业后&#xff0c;找了一份像样的工作&#xff0c;早八晚五轻松自在&#xff0c;并且收入也不错。自从大学毕业后&#xff0c;家里用的电脑还是他上大学的时候用了四年的电脑&#xff0c;配置性能早已跟不上现在的时代了。他决定用自己赚的工资买一台家用…

计算机毕设之基于python+django+mysql的影片数据爬取与数据分析(包含源码+文档+部署教程)

影片数据爬取与数据分析分为两个部分&#xff0c;即管理员和用户。该系统是根据用户的实际需求开发的&#xff0c;贴近生活。从管理员处获得的指定账号和密码可用于进入系统和使用相关的系统应用程序。管理员拥有最大的权限&#xff0c;其次是用户。管理员一般负责整个系统的运…

三步完成echers展示离线地图

1.首先要去阿里云提供的地图选择器网站选择你需要下载的地图矢量数据。链接 以湖北省为例&#xff1a; 2.复制上图中的JSON API&#xff0c;在浏览器输入json api链接&#xff0c;可以看到数据格式是很规整的json数据&#xff0c;在浏览器中右键保存为json格式数据&#xff0c…

python实现pdf双页文档转png图片,png图片裁剪为左右两等分,再合并为新的pdf单页文档

一、问题引入 现有pdf双页文档如下&#xff1a; 现按照以下页码次序对pdf双页文档进行裁剪和拼接&#xff0c;其中有两点需要特别注意&#xff0c;一是封面页只裁剪中间部分&#xff0c;二是文档是从右往左的顺序排版的 二、python程序 import os import office from PIL …

vue3 组合式api中 ref 和$parent 的使用

ref 的使用 vue3中&#xff0c; 在 组件中添加一个 component ref“xxx” &#xff0c;就可以在父组件中得到 子组件的 dom 对象&#xff0c; 以及 虚拟的 dom 对象&#xff0c; 有了虚拟 dom, 我们就可以在父组件中控制子组件的显示了 ref 的使用方法 vue3中ref 的特点 以上…

h5 ws 客户端 监听ws服务器广播的信息

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>AI智能写作</title><!-- Bootstrap CSS --><meta charset"utf-8"><meta name"viewport" content"widt…

常用Web漏洞扫描工具汇总(持续更新中)

常用Web漏洞扫描工具汇总 常用Web漏洞扫描工具汇总1、AWVS&#xff0c;2、OWASP Zed&#xff08;ZAP&#xff09;&#xff0c;3、Nikto&#xff0c;4、BurpSuite&#xff0c;5、Nessus&#xff0c;6、nmap7、X-ray还有很多不是非常知名&#xff0c;但可能也很大牌、也较常见的。…

气传导耳机品牌推荐哪些?2023气传导耳机排行榜分享

​气传导耳机的出现&#xff0c;为我们带来了更加便捷和舒适的使用体验&#xff0c;同时也让我们能够更加自由地享受音乐和其他娱乐内容。因此&#xff0c;如果你正在寻找一款高品质的气传导耳机&#xff0c;不妨考虑一下以下气传导耳机的推荐&#xff01; Top1&#xff1a;南…

【斗破苍穹】天府联盟成立,三大势力加入,美杜莎缺席副盟主

Hello,小伙伴们&#xff0c;我是小郑继续为大家深度解析【斗破苍穹】 在斗破苍穹中&#xff0c;身为主角的萧炎可以说建立了不少势力&#xff0c;最开始是磐门&#xff0c;这算是一个很小的势力&#xff0c;成员都是迦南学院的学生&#xff0c;而且战力普遍不高&#xff0c;全靠…

从零开始的Hadoop学习(六)| HDFS读写流程、NN和2NN工作机制、DataNode工作机制

1. HDFS的读写流程&#xff08;面试重点&#xff09; 1.1 HDFS写数据流程 1.1.1 剖析文件写入 &#xff08;1&#xff09;客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件&#xff0c;NameNode检查目标文件是否已存在&#xff0c;父目录是否存在。 &#x…

持续集成与持续交付(CI/CD):探讨在云计算中实现快速软件交付的最佳实践

文章目录 持续集成&#xff08;CI&#xff09;的最佳实践持续交付&#xff08;CD&#xff09;的最佳实践云计算环境下的特别注意事项 &#x1f388;个人主页&#xff1a;程序员 小侯 &#x1f390;CSDN新晋作者 &#x1f389;欢迎 &#x1f44d;点赞✍评论⭐收藏 ✨收录专栏&am…

基于微信小程序的反诈科普平台

任何系统都要遵循系统设计的基本流程&#xff0c;本系统也不例外&#xff0c;同样需要经过市场进行调研&#xff0c;论文需求进行分析&#xff0c;概要设计&#xff0c;系统详细设计&#xff0c;测试和编码等步骤&#xff0c;设计并实现了反诈科普平台。系统选用java语言&#…

带量采购药品数据查询集采分析平台(建议收藏!)

药品集采常态化下对不同中标企业的影响不尽相同&#xff0c;对于市场份额较大且拥有多款重要药品的大型企业来说&#xff0c;集采能够保持其市场份额&#xff0c;尽管被集采的药品可能会面临销售下降的局面&#xff0c;但该企业还有其他产品可以填补&#xff0c;整体影响不大。…

学习Bootstrap 5的第一天

目录 Bootstrap 简介 什么是 Bootstrap 5&#xff1f; Bootstrap5 与3 & 4的对比 总体对比&#xff1a; 具体对比&#xff1a; 起源 为什么要使用 Bootstrap&#xff1f; Bootstrap 5 包含的内容 Bootstrap5 实例 Bootstrap5 安装使用 使用 Bootstrap5 CDN 国内…