Hadoop的基本概念和架构

news2024/12/28 22:30:52

Hadoop的基本概念和架构

学习路线

  1. hadoop的基本概念和架构
  2. hadoop的安装和配置
  3. hadoop的HDFS文件系统
  4. hadoop的MapReduce计算框架
  5. hadoop的YARN资源管理器
  6. hadoop的高级特效,如HBase,Hive,Pig等
  7. hadoop的优化和调优
  8. hadoop的应用场景,如日志分析,数据挖掘等

简介

​ Hadoop是由Apache基金会所发布的开源的分布式计算框架,由Java语言编写,主要用于处理大规模的数据集的处理和分析。它基于Google的MapReduce算法和Google文件系统(GFS)的思想,提供了一个可靠,高效,可扩展的分布式计算平台。

​ Hadoop的核心组件包括HDFS(Hadoop Distributed File System )Hadoop的分布式文件系统,和MapReduce计算框架。

​ Hadoop可以运行在廉价的硬件上,而且提供了高吞吐量,通过横向扩展的方式提高计算能力,因此被广泛应用与大数据处理领域。

三大核心

HDFS(存储系统)

​ 存储系统:是指用于存储数据的系统,包括文件系统、数据库系统等。

​ 在Hadoop中,HDFS是Hadoop分布式文件系统,它是Hadoop的核心组件之一。

​ HDFS采用了Master/Slave的架构,Master节点负责管理和调度,Slave节点负责执行具体的任务。其中NameNode作为Master节点,负责管理文件系统的命名空间和文件块的映射关系,DataNode作为Slave节点,负责存储文件块的实际数据。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KOz69t8D-1684315460787)(E:\Java笔记\大数据\Hadoop\Hadoop.assets\image-20230517155828221.png)]

HDFS的优点是具有高可靠性、高可扩展性、高吞吐量等特点,适合存储大规模数据集。

MapReduce(计算环节)

计算环节:是指对存储在存储系统中的数据进行计算的过程,包括数据的读取、处理和输出等。

​ 在Hadoop中,MapReduce是Hadoop的计算框架,它采用了Map和Reduce两个阶段,其中Map阶段负责将输入数据切分成若干个小块,并对每个小块进行处理,输出中间结果;Reduce阶段负责将中间结果进行合并,得到最终的输出结果。

MapReduce是一种分布式计算模型,用于处理大规模数据集。它将数据分成多个小块,然后在多个计算节点上并行处理这些小块。MapReduce的工作原理如下:

  1. Map阶段:将输入数据分成多个小块,然后在多个计算节点上并行处理这些小块。每个计算节点都会执行Map函数,将输入数据转换成键值对。

  2. Shuffle阶段:将Map函数的输出结果按照键进行分组,然后将同一组的键值对发送到同一个Reduce节点上。

  3. Reduce阶段:将同一组的键值对发送到同一个Reduce节点上,然后在该节点上执行Reduce函数,将同一组的键值对合并成一个结果。

  4. 输出结果:将所有Reduce节点的输出结果合并成一个最终结果。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bRvRevhB-1684315460788)(E:\Java笔记\大数据\Hadoop\Hadoop.assets\image-20230517153953473.png)]

MapReduce的优点是具有高可靠性、高可扩展性、高并发性等特点,适合处理大规模数据集。

YARN(资源分配)

资源分配:是指将计算任务分配给集群中的各个节点进行处理的过程,包括任务调度、资源管理等。

​ 在Hadoop中,YARN(Yet Another Resource Negotiator)是Hadoop的资源管理系统,它负责集群中各个节点的资源管理和任务调度。

​ YARN采用了Master/Slave的架构,其中ResourceManager作为Master节点,负责管理集群中的资源,NodeManager作为Slave节点,负责管理单个节点的资源。ResourceManager负责对各个NodeManager上的资源进行统一管理个和调度。

​ YARN的基本结构包含ResourceManager、NodeManager、ApplicationMaster三个组件

  • ResourceManager:是YARN的核心组件,负责资源的管理和分配。主要功能:
    • 接收客户端提交的应用程序,并为其分配ApplicationMaster
    • 监控集群中的资源使用情况,为ApplicationMaster分配资源
    • 处理NodeManager的心跳信息,更新集群资源使用情况
    • 处理ApplicationMaster的请求,如为其分配资源、杀死应用程序等
  • NodeManager:是YARN的节点管理器,负责节点的管理和任务的执行。主要功能
    • 监控节点上的资源使用情况,向ResourceManager发送心跳信息
    • 接收ApplicationMaster的请求,为其分配容器
    • 启动容器中的任务,并监控任务的执行情况
    • 向ApplicationMaster发送任务执行状态
  • ApplicationMaster:是YARN的应用程序管理器,负责应用程序的管理和调度。主要功能
    • 向ResourceManager提交应用程序,并为其分配资源
    • 向NodeManager申请容器,并为容器分配任务
    • 监控任务的执行情况,并向NodeManager发送任务执行状态
    • 处理任务执行失败的情况,如重新分配任务、杀死任务等

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rQNu5NX8-1684315460788)(E:\Java笔记\大数据\Hadoop\Hadoop.assets\image-20230517162229435.png)]

YARN的优点是具有高可靠性、高可扩展性、高灵活性等特点,适合管理大规模集群的资源。

举例:

假设有一个大型电商网站,需要对用户的购物行为进行分析,以便提高销售额。

首先,需要将用户的购物数据存储到HDFS中,以便后续的计算。

然后,使用MapReduce计算框架对购物数据进行处理,得到用户的购物行为特征。

最后,使用YARN资源管理系统将计算任务分配给集群中的各个节点进行处理,以提高计算效率。

总结:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aqdPwTsa-1684315460789)(E:\Java笔记\大数据\Hadoop\Hadoop.assets\image-20230515213434408.png)]

HDFS(分布式文件存储系统):解决大规模数据集

YARN(资源管理系统):将计算任务分配给集群中的各个节点进行处理

MapReduce(分布式计算框架):对存储在HDFS中的数据进行计算

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/539209.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

23种设计模式之组合模式(Composite Pattern)

前言:大家好,我是小威,24届毕业生,在一家满意的公司实习。本篇文章将23种设计模式中的组合模式,此篇文章为一天学习一个设计模式系列文章,后面会分享其他模式知识。 如果文章有什么需要改进的地方还请大佬不…

跨平台应用开发进阶(六十三):微信小程序开发

文章目录 一、前言二、开发物料准备2.1 个性化小程序2.2 开发时如何调用API2.3 微信小程序开发常用组件库2.3.1 WeUI2.3.2 Vant Weapp2.3.3 iView Weapp2.3.4 ColorUI2.3.5 Wux Weapp2.3.6 TaroUI2.3.7 MinUI 三、创建一个UNI-APP项目四、进行调试4.1 启动微信开发者工具4.2 调…

网络基础进阶

1、交换机接口类型 Console口:也称为:串口接口,一般用于与PC连接,用于配置和监控交换机。百兆以太网接口:用于连接计算机和交换机之间的通信。Console到的网络接口:俗称交叉串口,是用于连接交换…

Day.js 常用方法

Day.js是一个极简的JavaScript库,可以为现代浏览器解析、验证、操作和显示日期和时间,文件大小只有2KB左右,下载、解析和执行的JavaScript更少。 官网:Day.js中文网 1. 安装 npm install dayjs --save 2.引入 3. 初始化日期 …

基于开源大模型Vicuna-13B构建私有制库问答系统

本教程专注在怎么使用已经开源的模型和项目,构建一个可以私有化部署的问答知识库,而且整体效果要有所保障。 主要工作包括: 选择基础模型,openAI,claude 这些商用的,或者其他的开源的,这次我们…

vue 全局注册--

注册全局-过滤器 filters 的 js 文件 /*** 格式化单位展示* param value* param unit* returns {string}*/const unitFormatter function (value , unit ) {value value || -return value ([, -].includes(value) ? : unit) }export default {unitFormatter }vue -ma…

如何使用ArcGIS进行字段连接

(本文首发于“水经注GIS”公号,关注公号免费领取地图数据 当我们的shapefile文件属性表中的数据不够丰富,而Excel表格中的数据很丰富的时候,我们可以通过两个数据之间的共有字段进行连接,这里为大家介绍一下ArcGIS中字…

五、easyUI中的datagrid(数据表格)组件

1.datagrid(数据表格)组件的概述 datagrid以表格形式展示数据,并提供了丰富的选择、排序、分组和编辑数据的功能支持。datagrid的设计用于缩短开发时间,并且使开发人员不需要具备特定的知识。它是轻量级的且功能丰富,…

MDM(移动设备管理策略系统)、MAM、MCM作用

目录 定义 MDM MAM MCM 作用 定义 MDM 移动设备管理是一种软件应用程序,用于管理企业中的终端,如笔记本电脑、智能手机、平板电脑等。随着越来越多的员工使用这些设备,各种形式和规模的企业现在都转向移动设备管理,以增强数据安全性并提高生产力。 Device Management…

C嘎嘎~~[构造函数提升篇]

构造函数提升篇 1. 再谈构造函数1.1. 引入1.1.1问题引入1.1.2 const引入 1.2 正篇1.2.1 构造函数体赋值1.2.2 初始化列表1.2.3.1 浅浅认识1.2.3.2 构造函数的 行走顺序1.2.3.3 引用修饰成员变量1.2.3.4 没有默认构造的自定义类型 1.2.3初始化列表的 坑1.2.4 谈谈初始化列表 和 …

如何使用ChatGPT生成Excel公式?

Excel是日常工作和生活中经常使用的一款数据统计和分析软件,它可以帮助我们快速完成各种复杂的数据计算。但对于一些复杂的计算公式,不是每个人都能轻松掌握,或者说有时候并不想手动输入计算公式。如果能有一个智能工具,帮助我们快…

libiosa语音信号处理

img { margin: auto; display: block } librosa是一个非常强大的python语音信号处理的第三方库,本文参考的是librosa的官方文档,本文主要总结了一些重要,对我来说非常常用的功能。学会librosa后再也不用python去实现那些复杂的算法了&#xf…

人工智能与大模型主题师资培训落地,飞桨持续赋能AI人才培养

5月12日-5月14日,由百度飞桨联合中国自动化学会、复旦大学共同举办的“人工智能与大模型”主题师资培训班在百度飞桨(张江)人工智能产业赋能中心圆满举办。来自全国各地17所高校、26个人工智能及相关专业的50名教师线下参加此次培训。复旦大学…

Java --- redis的缓存淘汰策略

目录 一、redis内存查看与设置 二、redis的数据删除方式 三、redis缓存淘汰策略 一、redis内存查看与设置 查看redis最大占用内存: redis默认内存使用: 不设置最大内存大小或设置为0,在64位操作系统下不限制内存大小,32位操作系…

Linux系统编程(四)—— 进程基本知识

一、进程标识符pid 1、pid的类型:pid_t pid 是有符号的16位整型数,也就是说可以同时进行三万多进程。 2、命令:ps ps命令用于报告当前进程的信息: ps命令有着不同的组合,可以显示进程不同的内容: &…

夜天之书 #83 Web API 的开发工具和平台

上一篇文章《Web API 简介》的落脚点是 Web API 的体验。 Web API 作为许多软件的第一道门面,提升其体验的努力从来没有停止过。今天,围绕 Web API 的开发体验和使用体验,已经成长出一个庞大的软件生态。本文以常用的 Web API 开发工具和平台…

什么是 Java中的零拷贝

什么是零拷贝 WIKI中对其有如下定义: “Zero-copy” describes computer operations in which the CPU does not perform the task of copying data from one memory area to another. 从WIKI的定义中,我们看到“零拷贝”是指计算机操作的过程中&#x…

数据库迁移 | 拥抱国产化数据库openGauss

Squids DBMotion再添新库同步能力,本期增加了对openGauss数据库的同步支持。 openGauss数据库是一款开源关系型数据库管理系统,采用木兰宽松许可证v2发行。openGauss内核深度融合华为在数据库领域多年的经验,结合企业级场景需求,持…

PFTL101B 20KN 3BSE004203R1主要介绍ACS380 Modbus通讯功能

​ PFTL101B 20KN 3BSE004203R1ABB系统优化船舶性能、效率和可持续性 根据经合组织的一份报告,货物和人员的海上运输是全球经济活动的重要驱动力,到2050年将增加两倍。据国际海事组织(IMO)称,这一增长将导致该行业的温…

Hi3861 移植 LVGL

一、前言 给 Hi3861 适配了硬件 spi ,master 模式下最高 spi 速率可以达到 40M,用来驱动 oled 屏幕。 适配过程遇到了一个芯片bug,困扰了很久,clk 管脚驱动能力差,需要外接一个上拉电阻才能正常运行。适配完成移植 lvg…