Hadoop学习笔记（一）Hadoop的组成

news2026/3/29 13:07:28

1. HDFS

NameNode用于记录整个数据的存储情况，具体的数据存储在各个Hadoop节点中，每个Hadoop的节点可以称为DataNode。假设Hadoop1到Hadoop100的机器每个都有1T的容量。那么一共就可以存储100T的数据。
在这里插入图片描述

NameNode(nn)：存储文件的元数据，比如文件名、文件目录结构，文件属性等，还有每个文件的块列表与块所在的DataNode。
DataNode(dn)：存储文件快数据，以及块数据的校验和。
Secondary NameNode(2nn)：每隔一段时间对NameNode元数据进行备份。

2. YARN

Yarn 是Hadoop的资源管理器，主要管理的是CPU与内存。主要有两个模块。

Resource Manager
管理着所有Hadoop节点的资源。
Node Manager
只负责管理某一个节点的资源。

在这里插入图片描述

3. MapReduce

MapReduce是一种编程模型。这个模型的核心步骤主要分两部分：Map（映射）和Reduce（归约）。比如：从100T的文件当中，找到名称为“cat.mp4” 的视频。
在这里插入图片描述

在这里插入图片描述

4. HDFS、Yarn、MapReduce三者关系

在这里插入图片描述

当一个任务进行提交之后，由 Resource Manager（Yarn）进行分配到 Node Manager 并创建一个包含 Application Master 的 Container
Application Master 会向 Resource Manager 申请资源，用于运行提交的任务。Application Master 申请到资源会在有资源的节点中创建包含 MapTask 的 Container （此时进入到 MapReduce 的Map阶段）。
Map阶段结束之后，会在一个 DataNode 中开启一个包含 Reduce Task 的 Container，进行结果的汇总。然后存入磁盘当中。

Yarn 用于分配资源，MapReduce用于对任务进行计算。前两者操作的数据都在 HDFS 当中存储

5. 大数据生态体系

在这里插入图片描述

参考：
尚硅谷Hadoop教程： https://www.bilibili.com/video/BV1Qp4y1n7EN
知乎：https://zhuanlan.zhihu.com/p/54994736

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/465118.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

位运算【巧妙思路、两种常见题型】

位运算【巧妙思路、两种常见题型】

这里介绍两种代码中位运算非常常用的操作 n的二进制表示中第k位数——右移操作 &1 例如说，我们需要计算11的第2位数。 11 (1011)2 我们常规思路就是将其转化为二进制数后，直接观察对应位置的值这里需要注意的是第k位数指的是从右开始的第k位&a…

阅读更多...

Linux shell编程条件语句

Linux shell编程条件语句

条件测试 test命令测试表达式是否成立，若成立返回0，否则返回其他数值格式1: test 条件表达式格式2: [ 条件表达式 ]文件测试 [ 操作符文件或者目录 ][ -e 1.txt ]#查看1.txt是否存在，存在返回0 echo $? #查看是上一步命令执行结果 0成…

阅读更多...

DJ4-3 连续分配存储管理方式

DJ4-3 连续分配存储管理方式

目录 4.3.1 单一连续分配 4.3.2 固定分区分配 1. 分区说明表 2. 内存分配过程 4.3.3 动态分区分配一、分区分配中数据结构二、分区分配算法三、分区分配操作 4.3.4 可重定位分区分配 1. 紧凑 2. 动态重定位 3. 动态重定位分区分配算法连续分配是指为用户程…

阅读更多...

【数据结构】堆(一)

【数据结构】堆(一)

😛作者：日出等日落 📘 专栏：数据结构如果我每天都找出所犯错误和坏习惯，那么我身上最糟糕的缺点就会慢慢减少。这种自省后的睡眠将是多么惬意啊。目录 🎄堆的概念及结构： 🎄堆的实…

阅读更多...

万丈高楼平地起 AI帮你做自己

万丈高楼平地起 AI帮你做自己

AI的自我介绍 AI是人工智能（Artificial Intelligence）的英文缩写，是一种通过计算机技术模拟和延伸人类智能的技术和应用。AI可以被看作是一种智能化的计算机程序或系统，它能够自动地执行一些需要人类智能才能完成的任务&#xf…

阅读更多...

JavaEE初阶学习:初识网络

JavaEE初阶学习:初识网络

1.网络发展史 1.独立模式独立模式:计算机之间相互独立； 2.网络互连随着时代的发展，越来越需要计算机之间互相通信，共享软件和数据，即以多个计算机协同工作来完成业务，就有了网络互连。网络互连：将多…

阅读更多...

除了Figma，再给你介绍10款好用的协同设计软件

除了Figma，再给你介绍10款好用的协同设计软件

组织结构越来越复杂，团队中的每个人都有独特的技能、经验和专业知识。我们怎样才能让团队更好地合作？在这种情况下，协同设计应运而生。 UI的未来是协同设计！如果你想把握未来的设计趋势，不妨从使用高效的协同设计软件…

阅读更多...

Docker的安装以及本地部署ILLA Builder

Docker的安装以及本地部署ILLA Builder

1.安装Docker，当前版本V4.18.0 。Docker引擎启动运行之后，效果如下图（喜欢暗黑主题） Docker启动可能出错，“Docker Desktop requires a newer WSL kernel version.” 如下图所示解决方法，比较简单&#xf…

阅读更多...

测试用例的基本要素和设计方法

测试用例的基本要素和设计方法

作者：爱塔居专栏：软件测试作者简介：大三学生，希望同大家一起进步！ 文章简介：介绍写测试案例的功能需求测试和非功能需求测试和具体方法：判定表、正交表、等价类、边界值等文章目录目录文章…

阅读更多...

if条件语句

if条件语句

if条件语句条件测试 test 测试表达式是否成立，若成立返回0，否则返回其他数值格式1 ：test 条件表达式；格式2 ：[ 条件表达式 ] echo $?参数作用-d测试是否为目录 (Directory)-e测试目录或文件是否存在(Exist)-f测…

阅读更多...

好物周刊#1：提示工程师养成指南

好物周刊#1：提示工程师养成指南

文章目录 🎈 项目ddruntiny-vuenetease-recent-profile 💻 软件BobScreenToGifSnipaste 🕸️ 网站BrowserFramedocsmallDimmy.club 🔌 插件AdGuard[Global Speed: 视频速度控制](https://microsoftedge.microsoft.com/addons/deta…

阅读更多...

$强化学习-Double DQN、竞争网络结构和Rainbow（第4章）$

强化学习-Double DQN、竞争网络结构和Rainbow（第4章）

来源书籍： TENSORFLOW REINFORCEMENT LEARNING QUICK START GUIDE 《TensorFlow强化学习快速入门指南-使用Python动手搭建自学习的智能体》著者：[美]考希克巴拉克里希南（Kaushik Balakrishnan） 译者：赵卫东出版…

阅读更多...

【每日一题】leetcode21 - - 合并两个有序链表

【每日一题】leetcode21 - - 合并两个有序链表

文章目录 1.题目描述2.解题思路方法1：方法2： 1.题目描述题目链接：力扣21，合并两个有序链表将两个升序链表合并为一个新的升序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 2.解题思路方法1：…

阅读更多...

牛客网Verilog刷题——VL38

牛客网Verilog刷题——VL38

牛客网Verilog刷题——VL38 题目答案题目设计一个自动贩售机，输入货币有三种，为0.5/1/2元，饮料价格是1.5元，要求进行找零，找零只会支付0.5元。需要注意的是，投入的货币会自动经过边沿检测并输出一个在时钟…

阅读更多...

【采坑专栏】【错误记录】起系统

【采坑专栏】【错误记录】起系统

doc说明一级标题分大的，二级标题尽量加，三级标题是具体问题语法我的老毛病-易错的多驱复制粘贴导致前后一样管脚约束还是直接选吧多驱动 Vivado WARNING：Multi-driven net Q with xth driver pin 警告的原因和消除方法出现这…

阅读更多...

注意力机制：基于Yolov8的Triplet注意力模块，即插即用，效果优于cbam、se，涨点明显

注意力机制：基于Yolov8的Triplet注意力模块，即插即用，效果优于cbam、se，涨点明显

论文：https://arxiv.org/pdf/2010.03045.pdf 本文提出了可以有效解决跨维度交互的triplet attention。相较于以往的注意力方法，主要有两个优点： 1.可以忽略的计算开销 2.强调了多维交互而不降低维度的重要性，因此消除了通道和权…

阅读更多...

STM32F4_SRAM中调试代码

STM32F4_SRAM中调试代码

目录 1. 在RAM中调试代码 2. STM32的三种存储方式 3. STM32的启动方式 4. 实验过程通过上一节的学习，我们已经了解了SRAM静态存储器； 1. 在RAM中调试代码一般情况下，我们在MDK中编写工程应用后，调试时都是把程序下载到芯片…

阅读更多...

Android类似微信聊天页面教程(Kotlin)四——数据本地化

Android类似微信聊天页面教程(Kotlin)四——数据本地化

前提条件安装并配置好Android Studio Android Studio Electric Eel | 2022.1.1 Patch 2 Build #AI-221.6008.13.2211.9619390, built on February 17, 2023 Runtime version: 11.0.150-b2043.56-9505619 amd64 VM: OpenJDK 64-Bit Server VM by JetBrains s.r.o. Windows 11 …

阅读更多...

Flink从入门到精通之-07处理函数

Flink从入门到精通之-07处理函数

Flink从入门到精通之-07处理函数之前所介绍的流处理 API，无论是基本的转换、聚合，还是更为复杂的窗口操作，其实都是基于 DataStream 进行转换的；所以可以统称为 DataStream API，这也是 Flink 编程的核心。而我们知道…

阅读更多...

同样是测试，你年薪50W，我年薪10W，我哭了...

同样是测试，你年薪50W，我年薪10W，我哭了...

软件测试可以拿到年薪50万？ 开什么玩笑？ 我才月薪15K。小伙伴看到标题是不是一开始的反应是这样的？是的话举一个小爪爪吧！ 那软件测试到底能不能拿到年薪50万呢？ 没有吃过猪肉还没见过猪跑吗，你自己没…

阅读更多...

推荐文章

最新文章