1,Hadoop的基本概念和架构

news2025/1/23 7:55:22

Hadoop的基本概念和架构

学习路线

  1. hadoop的基本概念和架构
  2. hadoop的安装和配置
  3. hadoop的HDFS文件系统
  4. hadoop的MapReduce计算框架
  5. hadoop的YARN资源管理器
  6. hadoop的高级特效,如HBase,Hive,Pig等
  7. hadoop的优化和调优
  8. hadoop的应用场景,如日志分析,数据挖掘等

简介

​ Hadoop是由Apache基金会所发布的开源的分布式计算框架,由Java语言编写,主要用于处理大规模的数据集的处理和分析。它基于Google的MapReduce算法和Google文件系统(GFS)的思想,提供了一个可靠,高效,可扩展的分布式计算平台。

​ Hadoop的核心组件包括HDFS(Hadoop Distributed File System )Hadoop的分布式文件系统,和MapReduce计算框架。

​ Hadoop可以运行在廉价的硬件上,而且提供了高吞吐量,通过横向扩展的方式提高计算能力,因此被广泛应用与大数据处理领域。

三大核心

HDFS(存储系统)

​ 存储系统:是指用于存储数据的系统,包括文件系统、数据库系统等。

​ 在Hadoop中,HDFS是Hadoop分布式文件系统,它是Hadoop的核心组件之一。

​ HDFS采用了Master/Slave的架构,Master节点负责管理和调度,Slave节点负责执行具体的任务。其中NameNode作为Master节点,负责管理文件系统的命名空间和文件块的映射关系,DataNode作为Slave节点,负责存储文件块的实际数据。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KOz69t8D-1684315460787)(E:\Java笔记\大数据\Hadoop\Hadoop.assets\image-20230517155828221.png)]

HDFS的优点是具有高可靠性、高可扩展性、高吞吐量等特点,适合存储大规模数据集。

MapReduce(计算环节)

计算环节:是指对存储在存储系统中的数据进行计算的过程,包括数据的读取、处理和输出等。

​ 在Hadoop中,MapReduce是Hadoop的计算框架,它采用了Map和Reduce两个阶段,其中Map阶段负责将输入数据切分成若干个小块,并对每个小块进行处理,输出中间结果;Reduce阶段负责将中间结果进行合并,得到最终的输出结果。

MapReduce是一种分布式计算模型,用于处理大规模数据集。它将数据分成多个小块,然后在多个计算节点上并行处理这些小块。MapReduce的工作原理如下:

  1. Map阶段:将输入数据分成多个小块,然后在多个计算节点上并行处理这些小块。每个计算节点都会执行Map函数,将输入数据转换成键值对。

  2. Shuffle阶段:将Map函数的输出结果按照键进行分组,然后将同一组的键值对发送到同一个Reduce节点上。

  3. Reduce阶段:将同一组的键值对发送到同一个Reduce节点上,然后在该节点上执行Reduce函数,将同一组的键值对合并成一个结果。

  4. 输出结果:将所有Reduce节点的输出结果合并成一个最终结果。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bRvRevhB-1684315460788)(E:\Java笔记\大数据\Hadoop\Hadoop.assets\image-20230517153953473.png)]

MapReduce的优点是具有高可靠性、高可扩展性、高并发性等特点,适合处理大规模数据集。

YARN(资源分配)

资源分配:是指将计算任务分配给集群中的各个节点进行处理的过程,包括任务调度、资源管理等。

​ 在Hadoop中,YARN(Yet Another Resource Negotiator)是Hadoop的资源管理系统,它负责集群中各个节点的资源管理和任务调度。

​ YARN采用了Master/Slave的架构,其中ResourceManager作为Master节点,负责管理集群中的资源,NodeManager作为Slave节点,负责管理单个节点的资源。ResourceManager负责对各个NodeManager上的资源进行统一管理个和调度。

​ YARN的基本结构包含ResourceManager、NodeManager、ApplicationMaster三个组件

  • ResourceManager:是YARN的核心组件,负责资源的管理和分配。主要功能:
    • 接收客户端提交的应用程序,并为其分配ApplicationMaster
    • 监控集群中的资源使用情况,为ApplicationMaster分配资源
    • 处理NodeManager的心跳信息,更新集群资源使用情况
    • 处理ApplicationMaster的请求,如为其分配资源、杀死应用程序等
  • NodeManager:是YARN的节点管理器,负责节点的管理和任务的执行。主要功能
    • 监控节点上的资源使用情况,向ResourceManager发送心跳信息
    • 接收ApplicationMaster的请求,为其分配容器
    • 启动容器中的任务,并监控任务的执行情况
    • 向ApplicationMaster发送任务执行状态
  • ApplicationMaster:是YARN的应用程序管理器,负责应用程序的管理和调度。主要功能
    • 向ResourceManager提交应用程序,并为其分配资源
    • 向NodeManager申请容器,并为容器分配任务
    • 监控任务的执行情况,并向NodeManager发送任务执行状态
    • 处理任务执行失败的情况,如重新分配任务、杀死任务等

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rQNu5NX8-1684315460788)(E:\Java笔记\大数据\Hadoop\Hadoop.assets\image-20230517162229435.png)]

YARN的优点是具有高可靠性、高可扩展性、高灵活性等特点,适合管理大规模集群的资源。

举例:

假设有一个大型电商网站,需要对用户的购物行为进行分析,以便提高销售额。

首先,需要将用户的购物数据存储到HDFS中,以便后续的计算。

然后,使用MapReduce计算框架对购物数据进行处理,得到用户的购物行为特征。

最后,使用YARN资源管理系统将计算任务分配给集群中的各个节点进行处理,以提高计算效率。

总结:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aqdPwTsa-1684315460789)(E:\Java笔记\大数据\Hadoop\Hadoop.assets\image-20230515213434408.png)]

HDFS(分布式文件存储系统):解决大规模数据集

YARN(资源管理系统):将计算任务分配给集群中的各个节点进行处理

MapReduce(分布式计算框架):对存储在HDFS中的数据进行计算

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/537125.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Qt中的互斥锁(QMutex和QMutexLocker)

QMutex和QMutexLocker 类 QMutex 的主要函数有: lock (); 加锁,如果该互斥锁被占用,该函数阻塞,直到互斥锁被释放。unlock (); 解锁bool tryLock (int timeout 0); 表示尝试去加锁&#xff0…

如何用R语言分析COVID-19相关数据

一、概述 COVID-19是当前全球面临的一项重大挑战。 本文将介绍如何使用R语言分析COVID-19相关数据,探索其感染率、死亡率和人口特征的相关性,以及使用统计建模方法预测COVID-19的死亡率。 二、数据导入与筛选 COVID-19 Data Repository by the Center…

CSS的使用

CSS 概述 CSS 是一门语言,用于控制网页表现。我们之前介绍过W3C标准。W3C标准规定了网页是由以下组成: 结构:HTML表现:CSS行为:JavaScript CSS也有一个专业的名字:Cascading Style Sheet(层…

一起了解大数据可视化开发

在办公自动化快速发展的今天,大数据可视化开发的应用价值普遍增高。借助它的灵活、便捷、易操作等特性,可以助力企业实现办公自动化提质增效,数字化进程快速发展,因而得到了大家的信赖与支持。那么,什么是大数据可视化…

Spring Boot 使用SSL-HTTPS

Spring Boot 使用SSL-HTTPS HTTPS协议可以理解为HTTPSSL/TLS,可以理解为HTTP下加入了SSL层,通过SSL证书来验证服务器的身份,并为浏览器和服务器之间的通信进行加密。 SSL(Secure Socket Layer安全套接字层):SSL协议位于TCP/IP协…

【Jenkins】Jenkins拉取Github代码(windows)

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、…

虹科新品 | 高可靠性、可适用于高磁/压的线性传感器!

PART 1 什么是线性传感器? 基本上,线性传感器是一种用于测量位移和距离的设备,具有高可靠性。测量网格通过光学传感器移动测量数据,数据被光学记录并通过控制器转换为电气数据,而控制器又可以转换为路径。 因此&…

怎么删除文件?分享3个文件删除的正确方法!

案例:怎么删除文件 【我每次想要删除文件时都感觉好麻烦啊!想问问大家在删除文件时都是怎么进行操作的呢?】 在日常使用电脑的过程中,删除文件是一个很常见的操作,但是并不是每个人都知道删除文件的正确方式。正确的删…

企业做网站需要什么条件?

随着互联网的不断发展,企业做网站已成为市场营销的必要手段。但是,要想让一个网站达到预期效果,需要具备一定的条件和技巧。本文将从以下几个方面介绍企业做网站的条件和优化方法。 第一步:明确目标 企业做网站的第一步就是要明确…

【JAVAEE】线程安全的集合类及死锁

目录 1.多线程环境使用集合类 2.多线程环境使用队列 3.多线程环境使用哈希表 3.1HashTable 3.2ConcurrentHashMap 4.死锁 4.1死锁是什么 4.2死锁的代码示例 4.3产生死锁的原因 4.4如何避免死锁 这里有一个代码示例: 定义一个普通的集合类,通过…

动态规划之背包模型

文章目录 采药(01背包)装箱问题(01背包)宠物小精灵之收服(二维费用01背包👍😘)数字组合(01背包)买书(完全背包)货币系统(完全背包) 采药(01背包&a…

ROS:yaml文件解析:base_local_planner、global_costmap、local_costmap、base_local_planner

一.costmap_common_params.yaml # 设置了代价地图中障碍物信息的阀值 # obstacle_range:确定了最大范围传感器读数,这将导致障碍物被放入代价地图中。 # 此处设置为2.5m,意为着机器人只会更新其地图包含距离移动基座2.5m以内的障碍物信息 obs…

Python学习之用QTimer计时器实现摄像头视频的播放和暂停

在上一篇文章《Python学习之简易视频播放器》中,通过python-opencv-pyqt5,实现了有界面的视频播放。但是,上文代码只有播放,却无法让播放的视频暂停。这是因为,我们在播放中使用的是while(self.cap.isOpened())循环。若…

上海亚商投顾:沪指震荡调整跌0.21% 两市成交金额不足8000亿

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 市场情绪 三大指数今日震荡调整,上证50午后一度跌超1%,以保险为首的权重板块走低。军工股逆市大涨&a…

玩机搞机----电脑端几种反编译apk工具操作步骤解析

经常玩机的友友避免不了有时候需要反编译有些app或者JAR文件等等。目前各种反编译工具很多。各有所长吧。很多都是就过工具结合使用。而且很多app涉及到加密加壳。由于有些工具没有及时更新。老版本的底层还是apktool_2.4这些。对于新款的app反编译有点吃力且兼容性不太好。当然…

yolov2

yolov2相对于yolov1的改进: 1、加入Batch Normalization 2、yolov2使用更大的分辨率图片 V1训练使用图片分辨率为224*224,测试图片分辨率为448*448。 V2在V1上的改进为:V2训练时额外又进行了10次448*448的微调。 3、yolov2的网络结构 相…

linux0.12-9-3-hd.c

1、 没找到。 就是个变量。 #define DEVICE_INTR do_hd 2、 哪里用到 setup((void *) &drive_info); sys_setup [403页] 9-3 hd.c程序 9-3-1 功能描述 hd.c程序是硬盘控制器驱动程序,提供对硬盘控制器块设备的读写驱动和硬盘初始化处理。 程序中所有函数按照…

C++ ---- 类和对象(下)

目录 初始化列表 初始化列表的语法 初始化列表的特性 explicit关键字 构造函数的隐式转换 explicit的作用 static修饰成员变量和成员函数 static修饰成员变量 static修饰成员函数 友元 友元函数 友元类 内部类 匿名对象 拷贝对象时的一些编译器优化 初始化列表 …

盘点 | 10大类企业管理系统有哪些

人类的发展史也是一部工具的进化史,企业管理手段同样不例外。移动互联网时代给了传统低下的手工操作方式致命一击,应运而生的各类企业管理系统工具为企业管理插上腾飞的翅膀,彻底颠覆了手动低效率的历史,变得更加移动化、智能化。…

C语言——史上最全通讯录讲解(附源码)

C语言——史上最全通讯录讲解(附源码) 一、开始界面的打印二、对六大板块进行定义操作三、对联系人进行初始化四、对通讯录进行初始化4.1动态版本4.2静态版本 五、通讯录六大功能的具体实现5.1判断是否需要扩容Checkcapcity5.2添加联系人ADDcontact5.3删…