Hadoop学习笔记(一)Hadoop的组成

news2024/12/26 12:05:30

1. HDFS

NameNode用于记录整个数据的存储情况,具体的数据存储在各个Hadoop节点中,每个Hadoop的节点可以称为DataNode。假设Hadoop1到Hadoop100的机器每个都有1T的容量。那么一共就可以存储100T的数据。
在这里插入图片描述

  1. NameNode(nn):存储文件的元数据,比如文件名、文件目录结构,文件属性等,还有每个文件的块列表与块所在的DataNode。
  2. DataNode(dn):存储文件快数据,以及块数据的校验和。
  3. Secondary NameNode(2nn):每隔一段时间对NameNode元数据进行备份。

2. YARN

Yarn 是Hadoop的资源管理器,主要管理的是CPU与内存。主要有两个模块。

  1. Resource Manager
    管理着所有Hadoop节点的资源。
  2. Node Manager
    只负责管理某一个节点的资源。

在这里插入图片描述

3. MapReduce

MapReduce是一种编程模型。这个模型的核心步骤主要分两部分:Map(映射)和Reduce(归约)。 比如:从100T的文件当中,找到名称为“cat.mp4” 的视频。
在这里插入图片描述

在这里插入图片描述

4. HDFS、Yarn、MapReduce三者关系

在这里插入图片描述

  1. 当一个任务进行提交之后,由 Resource Manager(Yarn) 进行分配到 Node Manager 并创建一个包含 Application Master 的 Container
  2. Application Master 会向 Resource Manager 申请资源,用于运行提交的任务。Application Master 申请到资源会在有资源的节点中创建包含 MapTask 的 Container (此时进入到 MapReduce 的Map阶段)。
  3. Map阶段结束之后,会在一个 DataNode 中开启一个包含 Reduce Task 的 Container,进行结果的汇总。然后存入磁盘当中。

Yarn 用于分配资源,MapReduce用于对任务进行计算。前两者操作的数据都在 HDFS 当中存储

5. 大数据生态体系

在这里插入图片描述

参考:
尚硅谷Hadoop教程 : https://www.bilibili.com/video/BV1Qp4y1n7EN
知乎:https://zhuanlan.zhihu.com/p/54994736

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/465118.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

位运算【巧妙思路、两种常见题型】

这里介绍两种代码中位运算非常常用的操作 n的二进制表示中第k位数——右移操作 &1 例如说,我们需要计算11的第2位数。 11 (1011)2 我们常规思路就是将其转化为二进制数后,直接观察对应位置的值 这里需要注意的是第k位数指的是从右开始的第k位&a…

Linux shell编程 条件语句

条件测试 test命令 测试表达式是否成立,若成立返回0,否则返回其他数值 格式1: test 条件表达式 格式2: [ 条件表达式 ]文件测试 [ 操作符 文件或者目录 ][ -e 1.txt ]#查看1.txt是否存在,存在返回0 echo $? #查看是上一步命令执行结果 0成…

DJ4-3 连续分配存储管理方式

目录 4.3.1 单一连续分配 4.3.2 固定分区分配 1. 分区说明表 2. 内存分配过程 4.3.3 动态分区分配 一、分区分配中数据结构 二、分区分配算法 三、分区分配操作 4.3.4 可重定位分区分配 1. 紧凑 2. 动态重定位 3. 动态重定位分区分配算法 连续分配是指为用户程…

【数据结构】堆(一)

😛作者:日出等日落 📘 专栏:数据结构 如果我每天都找出所犯错误和坏习惯,那么我身上最糟糕的缺点就会慢慢减少。这种自省后的睡眠将是多么惬意啊。 目录 🎄堆的概念及结构: 🎄堆的实…

万丈高楼平地起 AI帮你做自己

AI的自我介绍 AI是人工智能(Artificial Intelligence)的英文缩写,是一种通过计算机技术模拟和延伸人类智能的技术和应用。AI可以被看作是一种智能化的计算机程序或系统,它能够自动地执行一些需要人类智能才能完成的任务&#xf…

JavaEE初阶学习:初识网络

1.网络发展史 1.独立模式 独立模式:计算机之间相互独立; 2.网络互连 随着时代的发展,越来越需要计算机之间互相通信,共享软件和数据,即以多个计算机协同工作来完成业务,就有了网络互连。 网络互连:将多…

除了Figma,再给你介绍10款好用的协同设计软件

组织结构越来越复杂,团队中的每个人都有独特的技能、经验和专业知识。我们怎样才能让团队更好地合作?在这种情况下,协同设计应运而生。 UI的未来是协同设计!如果你想把握未来的设计趋势,不妨从使用高效的协同设计软件…

Docker的安装以及本地部署ILLA Builder

1.安装Docker,当前版本V4.18.0 。Docker引擎启动运行之后,效果如下图(喜欢暗黑主题) Docker启动可能出错,“Docker Desktop requires a newer WSL kernel version.” 如下图所示 解决方法,比较简单&#xf…

测试用例的基本要素和设计方法

作者:爱塔居 专栏:软件测试 作者简介:大三学生,希望同大家一起进步! 文章简介:介绍写测试案例的功能需求测试和非功能需求测试和具体方法:判定表、正交表、等价类、边界值等 文章目录 目录 文章…

if条件语句

if条件语句 条件测试 test 测试表达式是否成立,若成立返回0,否则返回其他数值 格式1 :test 条件表达式;格式2 :[ 条件表达式 ] echo $?参数作用-d测试是否为目录 (Directory)-e测试目录或文件是否存在(Exist)-f测…

好物周刊#1:提示工程师养成指南

文章目录 🎈 项目ddruntiny-vuenetease-recent-profile 💻 软件BobScreenToGifSnipaste 🕸️ 网站BrowserFramedocsmallDimmy.club 🔌 插件AdGuard[Global Speed: 视频速度控制](https://microsoftedge.microsoft.com/addons/deta…

强化学习-Double DQN、竞争网络结构和Rainbow(第4章)

来源书籍: TENSORFLOW REINFORCEMENT LEARNING QUICK START GUIDE 《TensorFlow强化学习快速入门指南-使用Python动手搭建自学习的智能体》 著者:[美]考希克巴拉克里希南(Kaushik Balakrishnan) 译者:赵卫东 出版…

【每日一题】leetcode21 - - 合并两个有序链表

文章目录 1.题目描述2.解题思路方法1:方法2: 1.题目描述 题目链接:力扣21,合并两个有序链表 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 2.解题思路 方法1:…

牛客网Verilog刷题——VL38

牛客网Verilog刷题——VL38 题目答案 题目 设计一个自动贩售机,输入货币有三种,为0.5/1/2元,饮料价格是1.5元,要求进行找零,找零只会支付0.5元。需要注意的是,投入的货币会自动经过边沿检测并输出一个在时钟…

【采坑专栏】【错误记录】起系统

doc说明 一级标题分大的,二级标题尽量加,三级标题是具体问题 语法 我的老毛病-易错的 多驱 复制粘贴导致前后一样 管脚约束还是直接选吧 多驱动 Vivado WARNING:Multi-driven net Q with xth driver pin 警告的原因和消除方法 出现这…

注意力机制:基于Yolov8的Triplet注意力模块,即插即用,效果优于cbam、se,涨点明显

论文:https://arxiv.org/pdf/2010.03045.pdf 本文提出了可以有效解决跨维度交互的triplet attention。相较于以往的注意力方法,主要有两个优点: 1.可以忽略的计算开销 2.强调了多维交互而不降低维度的重要性,因此消除了通道和权…

STM32F4_SRAM中调试代码

目录 1. 在RAM中调试代码 2. STM32的三种存储方式 3. STM32的启动方式 4. 实验过程 通过上一节的学习,我们已经了解了SRAM静态存储器; 1. 在RAM中调试代码 一般情况下,我们在MDK中编写工程应用后,调试时都是把程序下载到芯片…

Android类似微信聊天页面教程(Kotlin)四——数据本地化

前提条件 安装并配置好Android Studio Android Studio Electric Eel | 2022.1.1 Patch 2 Build #AI-221.6008.13.2211.9619390, built on February 17, 2023 Runtime version: 11.0.150-b2043.56-9505619 amd64 VM: OpenJDK 64-Bit Server VM by JetBrains s.r.o. Windows 11 …

Flink从入门到精通之-07处理函数

Flink从入门到精通之-07处理函数 之前所介绍的流处理 API,无论是基本的转换、聚合,还是更为复杂的窗口操作,其实都是基于 DataStream 进行转换的;所以可以统称为 DataStream API,这也是 Flink 编程的核心。而我们知道…

同样是测试,你年薪50W,我年薪10W,我哭了...

软件测试可以拿到年薪50万? 开什么玩笑? 我才月薪15K。 小伙伴看到标题是不是一开始的反应是这样的?是的话举一个小爪爪吧! 那软件测试到底能不能拿到年薪50万呢? 没有吃过猪肉还没见过猪跑吗,你自己没…