图解 Hadoop 架构 |Yarn、MapReduce

news2024/9/20 21:54:27

Hadoop

Hadoop 是什么

  1. Hadoop 是由 Apache 基金会所开发,维护的分布式系统基础架构
  2. 主要解决海量数据的存储和海量数据的分析计算问题
  3. 广义上来说,Hadoop 通常是指一个更广泛的概念——Hadoop 生态圈,包括 MapReduce,HDFS,HBase,Yarn 等等

Hadoop 优势

  1. 高可靠:Hadoop 底层维护多个数据副本,所以即使 Hadoop 某个计算元素或存储出现故障,也不会导致数据的丢失。
  2. 高扩展:在集群间分配任务数据,可方便的扩展数以千计的节点。
  3. 高效:在 MapReduce 的思想下,Hadoop 是并行工作的,以加快任务处理速度。
  4. 高容错:能够自动将失败的任务重新分配

image-20231006223320248

Hadoop 2.x 相比于 Hadoop 1.x 将 mapreduce 中的计算与调度分开了,降低了耦合度,而 Hadoop 3.x 和 Hadoop 2.x 架构没有什么区别就不画图了,下面我们来介绍一下 Hadoop 中的 HDFS,MapReduce,Yarn 等模块

YARN

YARN(Yet Another Resource Negotiator)是 Hadoop 生态系统的一个关键组件,用于集群资源管理和作业调度,是 Hadoop 的第二代资源管理器,取代了早期版本中的 MapReduce 作业调度器,为大规模数据处理提供了更灵活和高效的资源管理框架。

  • ResourceManager(RM):整个集群资源(内存、CPU 等)的管理者
  • NodeManager(NM):单个节点服务器资源的管理者。
  • ApplicationMaster(AM):单个任务运行的管理者。
  • Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等。

image-20231006230926742

YARN 的主要特点包括:

  • 多样化的工作负载支持:YARN 支持多种类型的应用程序,包括传统的 MapReduce 作业、流式处理、图计算、交互式查询等。它提供了一个通用的资源管理框架,可以灵活地为不同类型的应用程序分配资源。
  • 高可伸缩性:YARN 可以在大规模集群上管理成千上万个节点和数以千计的应用程序。它能够有效地管理和调度集群中的资源,以满足不同应用程序的需求。
  • 资源隔离:YARN 通过使用容器(Container)来实现资源隔离。每个应用程序都在自己的容器中运行,这样可以确保应用程序之间的资源不会相互干扰。
  • 高可靠性:YARN 具有高可靠性和容错性。当节点或 ApplicationMaster 发生故障时,YARN 会自动重新分配资源和重新启动受影响的任务。

YARN 广泛应用于大数据处理和分析场景,成为 Hadoop 生态系统中的核心组件。它为用户提供了一个强大的资源管理和作业调度平台,使得各种类型的应用程序能够高效地在 Hadoop 集群上运行。

后续会出一篇关于 YARN 详细笔记,这里不过多赘述~

MapReduce

MapReduce 是一种用于处理大规模数据集的编程模型和计算框架。它是由 Google 提出并在 Hadoop 项目中得到广泛应用的。MapReduce 的设计目标是将并行计算任务分解为可独立执行的子任务,并自动处理任务的并行执行、故障恢复和数据分发等细节,以实现可靠且高效的大规模数据处理。

MapReduce 模型由两个主要的阶段组成:Map 阶段和 Reduce 阶段。

  1. Map 阶段:在 Map 阶段中,输入数据被划分为多个独立的数据块,并由多个并行运行的 Map 任务进行处理。每个 Map 任务接收一组输入数据,并将其转换为一系列键值对,即中间结果。Map 任务是独立执行的,它们可以在不同的计算节点上并行运行,以提高处理速度。
  2. Reduce 阶段:在 Reduce 阶段中,中间结果的键值对根据键进行分组,并由多个并行运行的 Reduce 任务进行处理。每个 Reduce 任务接收一个键及其对应的一组值,并对这些值进行聚合、合并或其他操作,生成最终的输出结果。

image-20231006231103355

MapReduce 的主要特点包括:

  • 可扩展性:MapReduce 可以在具有大量计算节点的集群上处理大规模数据集,通过并行执行任务来实现高吞吐量和可伸缩性。
  • 容错性:MapReduce 具有容错性,当某个节点或任务失败时,它可以自动进行故障恢复,并重新分配任务以保证计算的正确性和完整性。
  • 简化编程模型:MapReduce 提供了一种简化的编程模型,使得开发人员可以专注于业务逻辑而不必关心并行计算和分布式系统的细节。
  • 适用于批处理:MapReduce 适用于批处理任务,它对于需要对整个数据集进行处理和分析的场景非常有效。

尽管 MapReduce 在大数据处理方面取得了巨大成功,但随着数据处理需求的多样化,其他更灵活和高级的计算模型和框架也得到了发展和应用,如 Spark、Flink 等。后续会出一篇关于 mapreduce 详细笔记,这里不过多赘述~

三者关系

HDFS 用于存储和管理数据,YARN 用于集群资源管理和作业调度,而 MapReduce 则是一种编程模型和计算框架,用于实现大规模数据处理。MapReduce 利用 YARN 来管理任务的执行和资源的分配,通过与 HDFS 进行交互来读取和写入数据。这三个组件相互协作,共同构建了 Hadoop 生态系统中的数据处理和存储基础设施。

image-20231006232943656

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1940385.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python面试宝典第16题:跳跃游戏

题目 给你一个非负整数数组 nums ,你最初位于数组的第一个下标 ,数组中的每个元素代表你在该位置可以跳跃的最大长度。判断你是否能够到达最后一个下标,如果可以,返回 true。否则,返回 false。 示例 1: 输…

Lowpoly Style Alpine Woodlands Environment(高山林地)

v1.1中的新增功能:添加了地形的额外网格。 使用此资产包构建您自己的山地或林地级别和景观!还包括一个demoscene。该包包含许多资产:植物、岩石、山脉、树木、建筑、营地和帐篷、墙壁、粒子效果等等。 性能:所有东西都共享一种材质和一种纹理,因此可以将所有东西分批在一起…

0401-403组合逻辑电路的分析设计竞争冒险

组合逻辑电路的分析设计&竞争冒险 4.组合逻辑电路1.目录2.教学基本要求3.序 关于组合逻辑电路 4.1组合逻辑电路分析与设计一、组合逻辑电路分析二、组合逻辑电路的分析步骤:三、组合逻辑电路的分析举例例1 奇校验电路例2.对输入的二进制求反码例3.一个工厂发电的…

git使用、git与idea结合、gitee、gitlab

本文章基于黑马程序javase模块中的"git"部分 先言:git在集成idea中,不同版本的idea中页面显示不同,操作时更注重基于选项的文字;git基于命令操作参考文档实现即可,idea工具继承使用重点掌握 1.git概述 git是目前世界上最先进的分布式文件版本控制系统 分布式:将…

2024年steam好玩的新游:《哈迪斯2》《雨中冒险: 回归》等

今天已经有不少新游上线,下面为大家整理了2024年好玩的steam游戏,一起来看看。 2024值得一玩的新游 1、《哈迪斯2》 哈迪斯2(Hades II)是Supergiant Games继其广受好评的作品《哈迪斯》之后开发的一款动作角色扮演游戏。 在《哈…

纯净IP的判断标准及代理深度分析

今天,我们测评团队将带大家深入探讨纯净IP的判断标准,并通过实测数据,对极光静态代理与独享云创这两家服务商进行深度剖析,为你揭秘如何挑选那些真正值得信赖的IP代理服务。 一、纯净IP的判断标准 历史记录检查:一个好…

@Resource注解 和 @Autowired 注解的区别!

Resource注解 和 Autowired 注解的区别! 前言: 实习时候第一次拉取了企业级代码(微服务),发现基本上都是Resource注解,自己之前平时没仔细思考 就是按照自己的习惯用的Autowired,平时开发也是单体架构的系统. 理解: Autowired Autowired是spring提供的一个注解,默认是根据类型…

[RL] 马尔可夫决策过程基础

文章结构 目录 一、马尔可夫过程 马尔可夫性质 二、马尔可夫奖励过程 回报(Return) 贝尔曼方程(Bellman equation) 贝尔曼方程解析解 蒙特卡洛方法​ 马尔可夫决策过程​ MDP和马尔可夫过程/马尔可夫奖励过程的区别 马…

循环机制(event loop)之宏任务和微任务

一、前言 js任务分为同步任务和异步任务,异步任务又分为宏任务和微任务,其中异步任务属于耗时的任务。 二、宏任务和微任务有哪些? 宏任务:整体代码script、setTimeout、setInterval、setImmediate(Node.js&#xff…

nginx conf.d 模块化配置

文章目录 前言nginx conf.d 模块化配置1. 概述2. 优势3. 配置 前言 如果您觉得有用的话,记得给博主点个赞,评论,收藏一键三连啊,写作不易啊^ _ ^。   而且听说点赞的人每天的运气都不会太差,实在白嫖的话&#xff0c…

关卡1-2:Python关卡

关卡1-2:Python关卡 一、python实现wordcount二、通过本地VSCODE连接internStudio与debug2.1使用本地的VSCODE连接InternStudio2.2 debug插件安装2.3 debug进行时2.3.1 代码准备2.3.2 选择python解释器2.3.3 打断点 一、python实现wordcount 采用python实现经典任务…

【C++】红黑树模拟实现STL库中的map与set

目录 改造红黑树 红黑树的迭代器 map的模拟实现 set的模拟实现 在上一篇博客中&#xff0c;我们实现了红黑树&#xff0c;但是红黑树节点中的值是pair<K,V> _kv形式&#xff0c;这种红黑树适用于map的底层&#xff0c;那么如果我们想要红黑树节点中的值是key的形式&a…

神经网络处理器模拟器的一点思考

一 神经网络处理器 通常基于FPGA的神经网络处理器进行部署某种网络&#xff0c;考虑的因素较多&#xff0c;具体包括网络模型的不同&#xff0c;涵盖不同的算子、激活函数、调度策略等等&#xff1b;具体硬件实现&#xff0c;涉及神经网络处理器并行度、硬件资源消耗&#xff0…

【C++高阶】哈希函数底层原理探索:从算法设计到实现优化

&#x1f4dd;个人主页&#x1f339;&#xff1a;Eternity._ ⏩收录专栏⏪&#xff1a;C “ 登神长阶 ” &#x1f921;往期回顾&#x1f921;&#xff1a;模拟实现 map与set &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; ❀哈希 &#x1f4da;1. unord…

MinerU、Magic-PDF、Magic-Doc

文章目录 一、关于 MinerU二、Magic-PDF1、简介2、项目全景3、流程图4、子模块仓库 三、Magic-PDF 上手指南1、配置要求2、安装配置1. 安装Magic-PDF2. 下载模型权重文件3. 拷贝配置文件并进行配置4. 使用CUDA或MPS加速推理CUDAMPS 3、使用说明1) 通过命令行使用直接使用更多用…

鑫创SSS1700USB音频桥芯片USB转IIS芯片

鑫创SSS1700支持IIC初始外部编&#xff08;EEPROM选项),两线串行总线&#xff08;I2C总线&#xff09;用于外部MCU控制整个EEPROM空间可以通过MCU访问用于主机控制同步的USB HID外部串行EEPROM&#xff08;24C02~24C16&#xff09;接口&#xff0c;用于客户特定的USB视频、PID、…

有空多刷刷算法题:回溯理论基础、leecode-77:组合、leecode:组合总和 III

回溯算法 一、理论基础 参考代码随想录&#xff0c;仅作记录学习之用 回溯是递归的副产品&#xff0c;只要有递归就会有回溯因为回溯的本质是穷举&#xff0c;穷举所有可能&#xff0c;然后选出我们想要的答案&#xff0c;如果想让回溯法⾼效⼀些&#xff0c;可以加⼀些剪枝…

华为OD机试2024年C卷D卷 - 构成指定长度字符串的个数/字符串拼接(Java)

华为OD机试&#xff08;C卷D卷&#xff09;2024真题目录 题目描述&#xff1a;构成指定长度字符串的个数 (本题分值200) 给定 M&#xff08;0 < M ≤ 30&#xff09;个字符&#xff08;a-z&#xff09;&#xff0c;从中取出任意字符&#xff08;每个字符只能用一次&#x…

PostgreSql创建触发器并增加IF判断条件

在 PostgreSQL 中&#xff0c;可以使用触发器&#xff08;Trigger&#xff09;来在表上定义自定义的插入&#xff08;INSERT&#xff09;、更新&#xff08;UPDATE&#xff09;和删除&#xff08;DELETE&#xff09;操作的行为。触发器是与表相关联的特殊函数&#xff0c;它们在…

docker的学习(二):docker常用的高级技术总结

简介 docker的一些知识点的总结 UnionFS 分层&#xff0c;轻量级&#xff0c;高性能的文件系统&#xff0c;支持一层层的叠加功能来修改文件系统。 一次同时加载多个文件系统&#xff0c;把各层文件系统叠加起来&#xff0c;最终文件系统会包含所有底层的文件和目录&#xf…